BR112021007516A2 - codificador de áudio, processador de áudio e método para processar um sinal de áudio - Google Patents

codificador de áudio, processador de áudio e método para processar um sinal de áudio Download PDF

Info

Publication number
BR112021007516A2
BR112021007516A2 BR112021007516-0A BR112021007516A BR112021007516A2 BR 112021007516 A2 BR112021007516 A2 BR 112021007516A2 BR 112021007516 A BR112021007516 A BR 112021007516A BR 112021007516 A2 BR112021007516 A2 BR 112021007516A2
Authority
BR
Brazil
Prior art keywords
samples
bins
audio signal
block
critically sampled
Prior art date
Application number
BR112021007516-0A
Other languages
English (en)
Inventor
Nils WERNER
Bernd Edler
Sascha Disch
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Publication of BR112021007516A2 publication Critical patent/BR112021007516A2/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/147Discrete orthonormal transforms, e.g. discrete cosine transform, discrete sine transform, and variations therefrom, e.g. modified discrete cosine transform, integer transforms approximating the discrete cosine transform
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Discrete Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

CODIFICADOR DE ÁUDIO, PROCESSADOR DE ÁUDIO E MÉTODO PARA PROCESSAR UM SINAL DE ÁUDIO. Modalidades fornecem um processador de áudio para processar um sinal de áudio para obter uma representação de sub-banda do sinal de áudio. O processador de áudio é configurado para realizar a transformada criticamente amostrada posta em cascata em pelo menos dois blocos parcialmente sobreprojetantes de amostras do sinal de áudio, para obter um conjunto de amostras de sub-banda com base em um primeiro bloco de amostras do sinal de áudio, e para obter um conjunto correspondente de amostras de sub-banda com base em um segundo bloco de amostras do sinal de áudio. Além disso, o processador de áudio é configurado para realizar uma combinação ponderada de dois conjuntos correspondentes de amostras de sub-banda, uma obtida com base no primeiro bloco de amostras do sinal de áudio e uma obtida com base no segundo bloco de amostras do sinal de áudio, para obter uma representação de sub-banda reduzida por suavização do sinal de áudio; em que realizar a transformada criticamente amostrada posta em cascata compreende segmentar um conjunto de bins obtidos com base no primeiro bloco de amostras com uso de pelo menos duas funções de janela, e para obter pelo menos dois conjuntos segmentados de bins baseados no conjunto segmentado de bins correspondentes ao primeiro bloco de amostras; em que realizar uma transformada criticamente amostrada posta em cascata compreende segmentar um conjunto de bins obtidos com base no segundo bloco de amostras com uso das pelo menos duas funções de janela, e para obter pelo menos dois conjuntos de bins baseados no conjunto segmentado de bins correspondentes ao segundo bloco de amostras; e em que os conjuntos de bins são processados com uso de uma segunda transformada criticamente amostrada posta da transformada criticamente amostrada posta em cascata, em que a segunda transformada criticamente amostrada posta compreende realizar transformadas criticamente amostradas postas que têm o mesmo comprimento de quadro para pelo menos um conjunto de bins.

Description

Relatório Descritivo da Patente de Invenção para “CODIFICADOR DE ÁUDIO,
PROCESSADOR DE ÁUDIO E MÉTODO PARA PROCESSAR UM SINAL DE ÁUDIO”
[001] Modalidades referem-se a um processador de áudio/método para processar um sinal de áudio para obter uma representação de sub-banda do sinal de áudio. Modalidades adicionais referem-se a um processador de áudio/método para processar uma representação de sub-banda de um sinal de áudio para obter o sinal de áudio. Algumas modalidades referem-se à conversão em código de áudio perceptual com agrupamento lado a lado de tempo/frequência não uniforme adaptativo com o uso de mesclagem de sub-banda e redução por distorção de domínio de tempo. Algumas modalidades referem-se a um método para auxiliar no controle dos muitos parâmetros de um banco de filtros não uniforme, e extensão do banco de filtros para operação multicanal.
[002] Em conversão em código perceptual, a entropia e, desse modo, a taxa de bits são comumente reduzidos descarregando-se informações redundantes e perceptualmente irrelevantes. Isso é alcançado com o uso de um banco de filtros e quantização. Esse banco de filtros, um quantizador e um modelo psicoacústico são usados em conjunto para conformar o ruído de quantização de modo que fique o mais próximo possível do limiar de mascaramento, a fim de maximizar a eficácia da conversão em código e a qualidade perceptual do sistema geral [2].
[003] Durante a síntese, o ruído de quantização será conformado em tempo e frequência pelo formato espectral e temporal da resposta ao impulso e frequência do banco de filtros. Devido a isso, para permitir controle otimizado do formato do ruído de quantização, é desejável usar um banco de filtros com uma resposta ao impulso compacta tanto em tempo como em frequência.
[004] O banco de filtros mais comumente usado com essas propriedades é a transformada discreta de cosseno modificada (MDCT), um banco de filtros que tem uma resolução de tempo-frequência uniforme em todas as bandas.
[005] Entretanto, o sistema auditivo humano exibe uma resolução de tempo/frequência não uniforme [3], resultando em diferentes formatos de limiar de mascaramento para diferentes frequências
[006] Portanto, o objetivo da presente invenção é fornecer um conceito para operar um banco de filtros não uniforme que permita aumentar a quantidade de ruído de quantização enquanto mantém os artefatos audíveis baixos.
[007] Esse objetivo é solucionado pelas reivindicações independentes.
[008] Modalidades fornecem um processador de áudio para processar um sinal de áudio para obter uma representação de sub-banda do sinal de áudio. O processador de áudio compreende um estágio de transformada criticamente amostrada com sobreposição em cascata configurado para realizar uma transformada criticamente amostrada com sobreposição em cascata em pelo menos dois blocos parcialmente justapostos de amostras do sinal de áudio, para obter um conjunto de amostras de sub-banda com base em um primeiro bloco de amostras do sinal de áudio e para obter um conjunto correspondente de amostras de sub-banda com base em um segundo bloco de amostras do sinal de áudio. Além disso, o processador de áudio compreende um estágio de redução por distorção de domínio de tempo configurado para realizar uma combinação ponderada de dois conjuntos correspondentes de amostras de sub-banda, um obtido com base no primeiro bloco de amostras do sinal de áudio e um obtido com base no segundo bloco de amostras do sinal de áudio, para obter uma representação de sub-banda reduzida por distorção do sinal de áudio. Assim, o estágio de transformada criticamente amostrada com sobreposição em cascata é configurado para segmentar um conjunto de bins obtido com base no primeiro bloco de amostras com o uso de pelo menos duas funções de janela, e para obter pelo menos dois conjuntos segmentados de bins baseados no conjunto segmentado de bins correspondente ao primeiro bloco de amostras, em que o estágio de transformada criticamente amostrada com sobreposição em cascata é configurado para segmentar um conjunto de bins obtido com base no segundo bloco de amostras com o uso das pelo menos duas funções de janela, e para obter pelo menos dois conjuntos de bins [por exemplo, pelo menos duas bandas de fator de mescla] [por exemplo, de 128 coeficientes cada um] baseados no conjunto segmentado de bins correspondente ao segundo bloco de amostras, e em que os conjuntos de bins são processados [por exemplo, mesclados] com o uso de um segundo estágio de transformada criticamente amostrada com sobreposição do estágio de transformada criticamente amostrada com sobreposição em cascata, em que o segundo estágio de transformada criticamente amostrada com sobreposição é configurado para realizar transformadas criticamente amostradas com sobreposição que têm o mesmo comprimento de quadro [por exemplo, fator de mescla] para pelo menos um [por exemplo, cada um] conjunto de bins.
[009] Em modalidades, o segundo estágio de transformada criticamente sobreposta é configurado para realizar N1,1 transformadas criticamente amostradas com sobreposição em N1,1 subconjuntos de um primeiro conjunto [por exemplo, de 128 coeficientes] dos pelo menos dois conjuntos de bins obtidos com base no conjunto segmentado de bins correspondente ao primeiro bloco de amostras, em que as N1,1 transformadas criticamente amostradas com sobreposição compreendem o mesmo comprimento de quadro [por exemplo, fator de mescla], em que N 1,1 é um número natural maior ou igual a dois.
[010] Em modalidades, o segundo estágio de transformada criticamente sobreposta é configurado para realizar N1,2 transformadas criticamente amostradas com sobreposição em N1,2 subconjuntos [por exemplo, de comprimento igual] de um primeiro conjunto correspondente [por exemplo, de 128 coeficientes] dos pelo menos dois conjuntos de bins obtidos com base no conjunto segmentado de bins correspondente ao segundo bloco de amostras, em que as N2,1 transformadas criticamente amostradas com sobreposição compreendem o mesmo comprimento de quadro [por exemplo, fator de mescla], em que N2,1 é um número natural maior ou igual a dois.
[011] Em modalidades, o processador de áudio é configurado para selecionar individualmente o comprimento de quadro [por exemplo, fator de mescla] para cada conjunto de bins ou para cada um dos conjuntos correspondentes de bins.
[012] Por exemplo, o processador pode selecionar, para cada conjunto, o fator de mescla, alcançando, assim, por exemplo, uma eficácia da conversão em código melhorada ou ainda a mais alta possível.
[013] Em modalidades, o processador de áudio é configurado para selecionar individualmente o comprimento de quadro [por exemplo, fator de mescla] para cada bloco de amostras.
[014] Por exemplo, o processador pode selecionar, para cada bloco, o fator de mescla, alcançando, assim, por exemplo, uma eficácia da conversão em código melhorada ou ainda a mais alta possível.
[015] Em modalidades, o processador de áudio é configurado para ativar ou manter o estágio de redução por distorção de domínio de tempo ativado, se os mesmos comprimentos de quadro [por exemplo, fatores de mescla] forem suados para dois blocos subsequentes, e/ou em que o processador de áudio é configurado para desativar ou manter o estágio de redução por distorção de domínio de tempo desativado, se diferentes comprimentos de quadro forem usados para dois blocos subsequentes.
[016] Por exemplo, devido à TDAR, há dependências entre os blocos. Se o fator de mescla for mantido, então, a TDAR é possível. Se o fator de mescla de dois blocos subsequentes for diferente, então a TDAR é desativada. Portanto (opcionalmente), o processador pode ser configurado para realizar uma otimização comum/conjunta para adaptar os fatores de mescla, por exemplo, uma grade em treliça por conjunto de amostras de sub-banda [banda de fator de mescla].
[017] Em modalidades, o processador é configurado para realizar uma otimização comum/conjunta para adaptar os fatores de mescla [por exemplo, uma grade em treliça por conjunto de amostras de sub-banda [banda de fator de mescla]].
[018] Em modalidades, as pelo menos duas funções de janela compreendem a mesma largura de janela [por exemplo, para dividir o espectro em pelo menos duas [por exemplo, 8] bandas de fator de mescla de mesmo tamanho [por exemplo, de 128 coeficientes cada uma]].
[019] Em modalidades, as pelo menos duas funções de janela compreendem largura de janela diferente [por exemplo, para dividir o espectro em pelo menos duas bandas de fator de mescla de tamanho diferente].
[020] Em modalidades, as pelo menos duas funções de janela compreendem janelas substancialmente retangulares.
[021] Em modalidades, os conjuntos de bins obtidos com base nas pelo menos duas funções de janela são processados [por exemplo, mesclados] com o uso do segundo estágio de transformada criticamente amostrada com sobreposição, em que o segundo estágio de transformada criticamente amostrada com sobreposição é configurado para realizar pelo menos duas transformadas criticamente amostradas com sobreposição que têm o mesmo comprimento de quadro [por exemplo, fator de mescla] para pelo menos um [por exemplo, cada um] dos conjuntos de bins obtidos com base nas pelo menos duas funções de janela.
[022] Em modalidades, o processador de áudio é configurado para realizar conversão em código conjunta de canal.
[023] Em modalidades, o processador de áudio é configurado para realizar M/S ou MCT como processamento conjunto de canal.
[024] Em modalidades, o processador de áudio é configurado para ativar ou desativar o processamento conjunto de canal individualmente para cada um dos pelo menos dois conjuntos segmentados de bins [por exemplo, para ativar ou desativar individualmente o processamento conjunto de canal para cada banda de fator de mescla; por exemplo, entre o primeiro estágio de transformada criticamente amostrada com sobreposição e o segundo estágio de transformada criticamente amostrada com sobreposição do estágio de transformada criticamente amostrada com sobreposição em cascata].
[025] Em modalidades, o processador de áudio é configurado para formar um fluxo de bits a partir da representação de sub-banda reduzida por distorção codificada do sinal de áudio, em que o processador de áudio é configurado para fornecer o fluxo de bits que compreende pelo menos um parâmetro de MF que sinaliza pelo menos um comprimento de quadro [por exemplo, fator de mescla] dos conjuntos correspondentes de bins no fluxo de bits.
[026] Em modalidades, o processador de áudio é configurado para codificar por entropia o pelo menos um parâmetro de MF.
[027] Em modalidades, o processador de áudio é configurado para fornecer o fluxo de bits que compreende apenas um subconjunto dos parâmetros de MF que sinalizam o comprimento de quadro [por exemplo, fator de mescla] dos conjuntos correspondentes de bins no fluxo de bits.
[028] Em modalidades, o processador de áudio é configurado para fornecer o fluxo de bits que compreende um parâmetro de TDAR para cada um dos conjuntos correspondentes de bins.
[029] Em modalidades, o processador de áudio é configurado para realizar conversão em código por entropia conjunta dos parâmetros de MF e TDAR.
[030] Em modalidades, o processador de áudio é configurado para fornecer o fluxo de bits que compreende o pelo menos um parâmetro de MF, de modo que um parâmetro de TDAR seja derivável do pelo menos um parâmetro de MF [por exemplo, em um local de receptor ou decodificador].
[031] Por exemplo, em vez de incluir o parâmetro de TDAR no fluxo de bits fornecido pelo processador de áudio, o dito parâmetro de TDAR é derivável do pelo menos um parâmetro de MF. Por exemplo, parâmetros de MF iguais em dois quadros subsequentes podem indicar que a TDAR está ativa, sendo que diferentes parâmetros de MF em dois quadros subsequentes podem indicar que a TDAR está inativa.
[032] Em modalidades, o processador de áudio é configurado para usar uma grade em treliça por conjunto de amostras de sub-banda [banda de fator de mescla].
[033] Modalidades adicionais fornecem um codificador de áudio, em que o codificador de áudio compreende um processador de áudio de acordo com uma das modalidades descritas acima, em que o codificador de áudio compreende um codificador configurado para codificar a representação de sub-banda reduzida por distorção do sinal de áudio, para obter uma representação de sub-banda reduzida por distorção codificada do sinal de áudio, e em que o codificador de áudio compreende um formador de fluxo de bits configurado para formar um fluxo de bits a partir da representação de sub-banda reduzida por distorção codificada do sinal de áudio.
[034] Modalidades adicionais fornecem um processador de áudio para processar uma representação de sub-banda de um sinal de áudio para obter o sinal de áudio. O processador de áudio compreende um estágio de redução por distorção de domínio de tempo inverso configurado para realizar uma combinação ponderada de duas representações de sub-banda reduzidas por distorção correspondentes do sinal de áudio, para obter uma representação de sub-banda distorcida, em que a representação de sub-banda distorcida é um conjunto de amostras de sub-banda. Além disso, o processador de áudio compreende um estágio de transformada criticamente amostrada com sobreposição em cascata inverso configurado para realizar uma transformada criticamente amostrada com sobreposição em cascata inversa no conjunto de amostras de sub-banda, para obter um conjunto de amostras associado a um bloco de amostras do sinal de áudio. Assim, o estágio de transformada criticamente amostrada com sobreposição em cascata inverso compreende um primeiro estágio de transformada criticamente amostrada com sobreposição inverso configurado para realizar uma transformada criticamente amostrada com sobreposição inversa no conjunto de amostras de sub-banda, para obter um conjunto de bins associado a uma dada sub-banda do sinal de áudio, em que o primeiro estágio de transformada criticamente amostrada com sobreposição inverso é configurado para realizar transformadas criticamente amostradas com sobreposição inversas que têm o mesmo comprimento de quadro [por exemplo, fator de mescla] para o conjunto de amostras de sub-banda.
[035] Em modalidades, o primeiro estágio de transformada criticamente amostrada com sobreposição inverso é configurado para realizar N 1,1 transformadas criticamente amostradas com sobreposição inversas em N1,1 subconjuntos do conjunto de amostras de sub-banda, em que as N1,1 transformadas criticamente amostradas com sobreposição compreendem o mesmo comprimento de quadro [por exemplo, fator de mescla], em que N1,1 é um número natural maior ou igual a dois.
[036] Modalidades adicionais fornecem um decodificador de áudio, em que o decodificador de áudio compreende um interpretador de fluxo de bits configurado para interpretar o fluxo de bits para obter a representação de sub-banda reduzida por distorção codificada, em que o decodificador de áudio compreende um decodificador configurado para decodificar a representação de sub-banda reduzida por distorção codificada para obter a representação de sub-banda reduzida por distorção do sinal de áudio, e em que o decodificador de áudio compreende um processador de áudio de acordo com uma das modalidades descritas acima.
[037] Modalidades adicionais fornecem um método para processar um sinal de áudio para obter uma representação de sub-banda do sinal de áudio. O método compreende uma etapa de realizar uma transformada criticamente amostrada com sobreposição em cascata em pelo menos dois blocos parcialmente justapostos de amostras do sinal de áudio, para obter um conjunto de amostras de sub-banda com base em um primeiro bloco de amostras do sinal de áudio e para obter um conjunto correspondente de amostras de sub-banda com base em um segundo bloco de amostras do sinal de áudio. Além disso, o método compreende uma etapa de realizar uma combinação ponderada de dois conjuntos correspondentes de amostras de sub- banda, um obtido com base no primeiro bloco de amostras do sinal de áudio e um obtido com base no segundo bloco de amostras do sinal de áudio, para obter uma representação de sub-banda reduzida por distorção do sinal de áudio. Assim, a realização de uma transformada criticamente amostrada com sobreposição em cascata compreende a segmentação de um conjunto de bins obtido com base no primeiro bloco de amostras com o uso de pelo menos duas funções de janela, e para obter pelo menos dois conjuntos segmentados de bins [por exemplo, pelo menos duas bandas de fator de mescla] baseados no conjunto segmentado de bins correspondente ao primeiro bloco de amostras, em que a realização de uma transformada criticamente amostrada com sobreposição em cascata compreende a segmentação de um conjunto de bins obtido com base no segundo bloco de amostras com o uso das pelo menos duas funções de janela, e para obter pelo menos dois conjuntos de bins [por exemplo, pelo menos duas bandas de fator de mescla] baseados no conjunto segmentado de bins correspondente ao segundo bloco de amostras, e em que os conjuntos de bins são processados [por exemplo, mesclados] com o uso de uma segunda transformada criticamente amostrada com sobreposição da transformada criticamente amostrada com sobreposição em cascata, em que a segunda transformada criticamente amostrada com sobreposição compreende realizar transformadas criticamente amostradas com sobreposição que têm o mesmo comprimento de quadro [por exemplo, fator de mescla] para pelo menos um [por exemplo, cada um] conjunto de bins.
[038] Modalidades adicionais fornecem um método para processar uma representação de sub-banda de um sinal de áudio para obter o sinal de áudio. O método compreende uma etapa de realizar uma combinação ponderada de duas representações de sub-banda reduzidas por distorção correspondentes do sinal de áudio para obter uma representação de sub-banda distorcida, em que a representação de sub-banda distorcida é um conjunto de amostras de sub-banda. Além disso, o método compreende uma etapa de realizar uma transformada criticamente amostrada com sobreposição em cascata inversa no conjunto de amostras de sub-banda para obter um conjunto de amostras associado a um bloco de amostras do sinal de áudio, em que a realização da transformada criticamente amostrada com sobreposição em cascata inversa compreende a realização de uma primeira transformada criticamente amostrada com sobreposição inversa no conjunto de amostras de sub-banda, para obter um conjunto de bins associado a uma dada sub-banda do sinal de áudio, em que a realização da primeira transformada criticamente amostrada com sobreposição inversa compreende a realização de transformadas criticamente amostradas com sobreposição inversas que têm o mesmo comprimento de quadro [por exemplo, fator de mescla] para o conjunto de amostras de sub-banda.
[039] Modalidades fornecem um banco de filtros não uniforme com respostas ao impulso compactas que permite, por terem capacidade para seguir o limiar de mascaramento mais de perto tanto em altas como em baixas frequências, a introdução de mais ruído de quantização, sem introduzir artefatos audíveis, permitindo, assim, uma taxa de bits mais baixa que um banco de filtros uniforme.
[040] Em modalidades, é realizada uma divisão em bandas de fator de mescla. Assim, muitos layouts completamente diferentes são possíveis. Entretanto, devido à alta flexibilidade, é muito difícil otimizar o sistema geral. Portanto, em modalidades, o espectro é dividido em bandas de fator de mescla (MFB) nas quais o mesmo fator de mescla (MF) é sempre usado (comparar a seção 2.1.1 abaixo). Janelas retangulares sem justaposição nas bordas da banda de fator de mescla podem ser usadas, visto que todas as bandas de fator de mescla podem ser independentemente controladas dessa forma (comparar a Figura 17).
[041] Em modalidades, é realizado processamento conjunto de canal (M/S ou ferramenta de conversão em código multicanal (MCT) [12]). Em geral, M/S ou MCT pode também ser usado com mesclagem de sub-banda e TDAR. Canais intermediários e canais secundários podem independentemente usar diferentes parâmetros de MF e parâmetros de TDAR por quadro.
[042] Em modalidades, M/S ou MCT são individualmente ligados/desligados por banda de fator de mescla. Uma extensão de estéreo conjunto é ligar/desligar o estéreo conjunto de uma maneira em bandas entre a primeira MDCT e a segunda MDCT de mesclagem. Isso possibilita a ativação seletiva de frequência de MS/MCT, por exemplo, por MFB. Entretanto, a TDAR é apenas possível entre dois quadros com a mesma configuração de estéreo conjunto (por exemplo, sem TDAR entre L/R e M/S).
[043] Em modalidades, é usado um decisor de comutação de janela a partir de métodos existentes para a decisão de fator de mescla. Em métodos existentes, há controles de decisor para janelas longas/curtas. Em algumas circunstâncias, esses decisores podem ser usados para MF.
[044] Em modalidades, um fator de mescla é sinalizado em um fluxo de bits (incluindo conversão em código por entropia e processamento mútuo de diversos parâmetros de MF). De modo geral, são necessários alguns bits no fluxo de bits para sinalizar os MFs para o quadro atual. Esses bits podem também ser convertidos em código por entropia. Além disso, os bits podem também ser convertidos em códigos entre si. Antecedentes: MFs variados, como 2,8,1,2,16,32, são presumidamente menos prováveis do que MFs mais uniformes, como 4,4,8,8,16,16. Essa correlação pode ser usada para salvar dados, por exemplo, por conversão em código diferencial.
[045] Em modalidades, menos fatores de mescla são transmitidos, em que fatores de mescla ausentes podem ser derivados/interpolados a partir de vizinhos. Se os MFs realmente tiverem que ser tão uniformes como nas seções anteriores, todos os MFs poderiam também ser interpolados a partir de alguns MFs.
[046] Em modalidades, parâmetros de TDAR são derivados de parâmetros de MF. A TDAR pode ser transmitida como 1 bit por MFB. Alternativamente, o bit de TDAR pode também ser derivado dos bits de MF (o mesmo parâmetro de MF em dois quadros sucessivos = TDAR ligada). Então, não são necessárias quaisquer informações secundárias para TDAR.
[047] Em modalidades, é realizada a conversão em código por entropia mútua dos parâmetros de MF e parâmetros de TDAR. Os valores de MF e os valores de TDAR podem ser convertidos em código por entropia de uma maneira mútua.
[048] Nesse caso, com 8 MFB e 6 MF, não são necessários 8 × ⌈log 2 ((6 × 2))⌉ = 32 mas apenas ⌈log 2 ((6 × 2)8 )⌉ = 29 bits.
[049] Em modalidades, bandas de fator de mescla são divididas de uma maneira não uniforme. Por uma questão de simplicidade, na descrição abaixo MFBs uniformes são pressupostos. Entretanto, esses podem também se tornar não uniformes. Uma divisão viável seria presumidamente idêntica a bandas de fator de escala (SFB). Então, um fator de escala e um fator de mescla são transmitidos por SFB.
[050] Em modalidades, é realizada uma otimização com base em treliça dos fatores de mescla. O uso de grades em treliça para conversão em código de áudio já é estado da técnica [7]. Entretanto, sistemas tradicionais podem apenas usar uma única treliça; por outro lado, de acordo com modalidades, pode ser usada uma treliça por MFB.
[051] Modalidades adicionais fornecem um processador de áudio para processar um sinal de áudio para obter uma representação de sub-banda do sinal de áudio. O processador de áudio compreende um estágio de transformada criticamente amostrada com sobreposição em cascata e um estágio de redução por distorção de domínio de tempo. O estágio de transformada criticamente amostrada com sobreposição em cascata é configurado para realizar uma transformada criticamente amostrada com sobreposição em cascata em pelo menos dois blocos parcialmente justapostos de amostras do sinal de áudio, para obter um conjunto de amostras de sub-banda com base em um primeiro bloco de amostras do sinal de áudio e para obter um conjunto correspondente de amostras de sub-banda com base em um segundo bloco de amostras do sinal de áudio. O estágio de redução por distorção de domínio de tempo é configurado para realizar uma combinação ponderada de dois conjuntos correspondentes de amostras de sub-banda, um obtido com base no primeiro bloco de amostras do sinal de áudio e um obtido com base no segundo bloco de amostras do sinal de áudio, para obter uma representação de sub-banda reduzida por distorção do sinal de áudio.
[052] Modalidades adicionais fornecem um processador de áudio para processar uma representação de sub-banda de um sinal de áudio para obter o sinal de áudio. O processador de áudio compreende um estágio de redução por distorção de domínio de tempo inverso e um estágio de transformada criticamente amostrada com sobreposição em cascata inverso. O estágio de redução por distorção de domínio de tempo inverso é configurado para realizar uma combinação ponderada (e deslocada) de duas representações de sub-banda reduzidas por distorção correspondentes (de diferentes blocos de amostras parcialmente justapostas) do sinal de áudio para obter uma representação de sub-banda distorcida, em que a representação de sub-banda distorcida é um conjunto de amostras de sub-banda. O estágio de transformada criticamente amostrada com sobreposição em cascata inverso é configurado para realizar uma transformada criticamente amostrada com sobreposição em cascata inversa no conjunto de amostras de sub-banda, para obter um conjunto de amostras associado a um bloco de amostras do sinal de áudio.
[053] De acordo com o conceito da presente invenção, um estágio de pós- processamento adicional é adicionado ao pipeline da transformada criticamente amostrada com sobreposição (por exemplo, MDCT), sendo que o estágio de pós- processamento adicional compreende uma outra transformada criticamente amostrada com sobreposição (por exemplo, MDCT) ao longo do eixo geométrico de frequência e uma redução por distorção de domínio de tempo ao longo de cada eixo geométrico de tempo da sub-banda. Isso permite a extração de escalas de frequência arbitrárias do espectrograma da transformada criticamente amostrada com sobreposição (por exemplo, MDCT) com uma compactação temporal melhorada da resposta ao impulso, enquanto não introduz redundância adicional e um atraso de quadro da transformada criticamente amostrada com sobreposição reduzida.
[054] Modalidades adicionais fornecem um método para processar um sinal de áudio para obter uma representação de sub-banda do sinal de áudio. O método compreende - realizar uma transformada criticamente amostrada com sobreposição em cascata em pelo menos dois blocos parcialmente justapostos de amostras do sinal de áudio, para obter um conjunto de amostras de sub-banda com base em um primeiro bloco de amostras do sinal de áudio e para obter um conjunto correspondente de amostras de sub-banda com base em um segundo bloco de amostras do sinal de áudio; e - realizar uma combinação ponderada de dois conjuntos correspondentes de amostras de sub-banda, um obtido com base no primeiro bloco de amostras do sinal de áudio e um obtido com base no segundo bloco de amostras do sinal de áudio, para obter uma representação de sub-banda reduzida por distorção do sinal de áudio.
[055] Modalidades adicionais fornecem um método para processar uma representação de sub-banda de um sinal de áudio para obter o sinal de áudio. O método compreende: - realizar uma combinação ponderada (e deslocada) de duas representações de sub-banda reduzidas por distorção correspondentes (de diferentes blocos de amostras parcialmente justapostas) do sinal de áudio para obter uma representação de sub-banda distorcida, em que a representação de sub-banda distorcida é um conjunto de amostras de sub-banda; e - realizar uma transformada criticamente amostrada com sobreposição em cascata inversa no conjunto de amostras de sub-banda para obter um conjunto de amostras associado a um bloco de amostras do sinal de áudio.
[056] Implementações vantajosas são abordadas nas reivindicações dependentes.
[057] Subsequentemente, são descritas implementações vantajosas do processador de áudio para processar um sinal de áudio para obter uma representação de sub-banda do sinal de áudio.
[058] Em modalidades, o estágio de transformada criticamente amostrada com sobreposição em cascata pode ser um estágio de MDCT (MDCT = transformada discreta de cosseno modificada), MDST (MDST = transformada discreta de seno modificada) ou MLT (MLT = transformada com sobreposição modulada) em cascata.
[059] Em modalidades, o estágio de transformada criticamente amostrada com sobreposição em cascata pode compreender um primeiro estágio de transformada criticamente amostrada com sobreposição configurado para realizar transformadas criticamente amostradas com sobreposição em um primeiro bloco de amostras e um segundo bloco de amostras dos pelo menos dois blocos parcialmente justapostos de amostras do sinal de áudio, para obter um primeiro conjunto de bins para o primeiro bloco de amostras e um segundo conjunto de bins (coeficientes criticamente amostrados com sobreposição) para o segundo bloco de amostras.
[060] O primeiro estágio de transformada criticamente amostrada com sobreposição pode ser um primeiro estágio de MDCT, MDST ou MLT.
[061] O estágio de transformada criticamente amostrada com sobreposição em cascata pode compreender, ainda, um segundo estágio de transformada criticamente amostrada com sobreposição configurado para realizar uma transformada criticamente amostrada com sobreposição em um segmento (subconjunto adequado) do primeiro conjunto de bins e para realizar uma transformada criticamente amostrada com sobreposição em um segmento (subconjunto adequado) do segundo conjunto de bins, sendo que cada segmento é associado a uma sub-banda do sinal de áudio, para obter um conjunto de amostras de sub-banda para o primeiro conjunto de bins e um conjunto de amostras de sub-banda para o segundo conjunto de bins.
[062] O segundo estágio de transformada criticamente amostrada com sobreposição pode ser um segundo estágio de MDCT, MDST ou MLT.
[063] Assim, o primeiro e o segundo estágios de transformada criticamente amostrada com sobreposição podem ser do mesmo tipo, isto é, um dos estágios de MDCT, MDST ou MLT.
[064] Em modalidades, o segundo estágio de transformada criticamente amostrada com sobreposição pode ser configurado para realizar transformadas criticamente amostradas com sobreposição em pelo menos dois segmentos parcialmente justapostos (subconjuntos adequados) do primeiro conjunto de bins e para realizar transformadas criticamente amostradas com sobreposição em pelo menos dois segmentos parcialmente justapostos (subconjuntos adequados) do segundo conjunto de bins, sendo que cada segmento é associado a uma sub-banda do sinal de áudio, para obter pelo menos dois conjuntos de amostras de sub-banda para o primeiro conjunto de bins e pelo menos dois conjuntos de amostras de sub- banda para o segundo conjunto de bins.
[065] Assim, o primeiro conjunto de amostras de sub-banda pode ser um resultado de uma primeira transformada criticamente amostrada com sobreposição com base no primeiro segmento do primeiro conjunto de bins, em que um segundo conjunto de amostras de sub-banda pode ser um resultado de uma segunda transformada criticamente amostrada com sobreposição com base no segundo segmento do primeiro conjunto de bins, em que um terceiro conjunto de amostras de sub-banda pode ser um resultado de uma terceira transformada criticamente amostrada com sobreposição com base no primeiro segmento do segundo conjunto de bins, em que um quarto conjunto de amostras de sub-banda pode ser um resultado de uma quarta transformada criticamente amostrada com sobreposição com base no segundo segmento do segundo conjunto de bins. O estágio de redução por distorção de domínio de tempo pode ser configurado para realizar uma combinação ponderada do primeiro conjunto de amostras de sub-banda e do terceiro conjunto de amostras de sub-banda, para obter uma primeira representação de sub-banda reduzida por distorção do sinal de áudio, e para realizar uma combinação ponderada do segundo conjunto de amostras de sub-banda e do quarto conjunto de amostras de sub-banda, para obter uma segunda representação de sub-banda reduzida por distorção do sinal de áudio.
[066] Em modalidades, o estágio de transformada criticamente amostrada com sobreposição em cascata pode ser configurado para segmentar um conjunto de bins obtido com base no primeiro bloco de amostras com o uso de pelo menos duas funções de janela e para obter pelo menos dois conjuntos de amostras de sub-banda baseados no conjunto segmentado de bins correspondente ao primeiro bloco de amostras, em que o estágio de transformada criticamente amostrada com sobreposição em cascata pode ser configurado para segmentar um conjunto de bins obtido com base no segundo bloco de amostras com o uso das pelo menos duas funções de janela e para obter pelo menos dois conjuntos de amostras de sub-banda baseados no conjunto segmentado de bins correspondente ao segundo bloco de amostras, em que as pelo menos duas funções de janela compreendem largura de janela diferente.
[067] Em modalidades, o estágio de transformada criticamente amostrada com sobreposição em cascata pode ser configurado para segmentar um conjunto de bins obtido com base no primeiro bloco de amostras com o uso de pelo menos duas funções de janela e para obter pelo menos dois conjuntos de amostras de sub-banda baseados no conjunto segmentado de bins correspondente ao primeiro bloco de amostras, em que o estágio de transformada criticamente amostrada com sobreposição em cascata pode ser configurado para segmentar um conjunto de bins obtido com base no segundo bloco de amostras com o uso das pelo menos duas funções de janela e para obter pelo menos dois conjuntos de amostras de sub-banda baseados no conjunto segmentado de bins correspondente ao segundo bloco de amostras, em que as inclinações de filtro das funções de janela correspondentes a conjuntos de amostras de sub-banda adjacentes são simétricas.
[068] Em modalidades, o estágio de transformada criticamente amostrada com sobreposição em cascata pode ser configurado para segmentar as amostras do sinal de áudio no primeiro bloco de amostras e no segundo bloco de amostras com o uso de uma primeira função de janela, em que o estágio de transformada criticamente amostrada com sobreposição pode ser configurado para segmentar um conjunto de bins obtido com base no primeiro bloco de amostras e um conjunto de bins obtido com base no segundo bloco de amostras com o uso de uma segunda função de janela, para obter as amostras de sub-banda correspondentes, em que a primeira função de janela e a segunda função de janela compreendem largura de janela diferente.
[069] Em modalidades, o estágio de transformada criticamente amostrada com sobreposição em cascata pode ser configurado para segmentar as amostras do sinal de áudio no primeiro bloco de amostras e no segundo bloco de amostras com o uso de uma primeira função de janela, em que o estágio de transformada criticamente amostrada com sobreposição pode ser configurado para segmentar um conjunto de bins obtido com base no primeiro bloco de amostras e um conjunto de bins obtido com base no segundo bloco de amostras com o uso de uma segunda função de janela, para obter as amostras de sub-banda correspondentes, em que uma largura de janela da primeira função de janela e uma largura de janela da segunda função de janela são diferentes entre si, em que a largura de janela da primeira função de janela e a largura de janela da segunda função de janela diferem entre si por um fato diferente de uma potência de dois.
[070] Subsequentemente, são descritas implementações vantajosas do processador de áudio para processar a representação de sub-banda de um sinal de áudio para obter o sinal de áudio.
[071] Em modalidades, o estágio de transformada criticamente amostrada com sobreposição em cascata inverso pode ser um estágio de MDCT em cascata (MDCT = transformada discreta de cosseno modificada), MDST (MDST = transformada discreta de seno modificada) ou MLT (MLT = transformada com sobreposição modulada) inverso.
[072] Em modalidades, o estágio de transformada criticamente amostrada com sobreposição em cascata inverso pode compreender um primeiro estágio de transformada criticamente amostrada com sobreposição inverso configurado para realizar uma transformada criticamente amostrada com sobreposição inversa no conjunto de amostras de sub-banda para obter um conjunto de bins associado a uma dada sub-banda do sinal de áudio.
[073] O primeiro estágio de transformada criticamente amostrada com sobreposição inverso pode ser um primeiro estágio de MDCT, MDST ou MLT inverso.
[074] Em modalidades, o estágio de transformada criticamente amostrada com sobreposição em cascata inverso pode compreender uma primeiro estágio de justaposição e adição configurado para realizar uma concatenação de um conjunto de bins associado a uma pluralidade de sub-bandas do sinal de áudio, que compreende uma combinação ponderada do conjunto de bins associado à dada sub-banda do sinal de áudio com um conjunto de bins associado a uma outra sub-banda do sinal de áudio, para obter um conjunto de bins associado a um bloco de amostras do sinal de áudio.
[075] Em modalidades, o estágio de transformada criticamente amostrada com sobreposição em cascata inverso pode compreender um segundo estágio de transformada criticamente amostrada com sobreposição inverso configurado para realizar uma transformada criticamente amostrada com sobreposição inversa no conjunto de bins associado ao bloco de amostras do sinal de áudio, para obter um conjunto de amostras associado ao bloco de amostras do sinal de áudio.
[076] O segundo estágio de transformada criticamente amostrada com sobreposição inverso pode ser um segundo estágio de MDCT, MDST ou MLT inverso.
[077] Assim, o primeiro e o segundo estágios de transformada criticamente amostrada com sobreposição inversos podem ser do mesmo tipo, isto é, um dos estágios de MDCT, MDST ou MLT inversos.
[078] Em modalidades, o estágio de transformada criticamente amostrada com sobreposição em cascata inverso pode compreender um segundo estágio de justaposição e adição configurado para justapor e adicionar o conjunto de amostras associado ao bloco de amostras do sinal de áudio e um outro conjunto de amostras associado a um outro bloco de amostras do sinal de áudio, sendo que o bloco de amostras e o outro bloco de amostras do sinal de áudio se justapõem parcialmente, para obter o sinal de áudio.
[079] As modalidades da presente invenção são descritas no presente documento fazendo referência aos desenhos anexos. A Figura 1 mostra um diagrama de blocos esquemático de um processador de áudio configurado para processar um sinal de áudio para obter uma representação de sub-banda do sinal de áudio de acordo com uma modalidade; a Figura 2 mostra um diagrama de blocos esquemático de um processador de áudio configurado para processar um sinal de áudio para obter uma representação de sub-banda do sinal de áudio de acordo com uma modalidade adicional; a Figura 3 mostra um diagrama de blocos esquemático de um processador de áudio configurado para processar um sinal de áudio para obter uma representação de sub-banda do sinal de áudio de acordo com uma modalidade adicional; a Figura 4 mostra um diagrama de blocos esquemático de um processador de áudio para processar uma representação de sub-banda de um sinal de áudio para obter o sinal de áudio de acordo com uma modalidade; a Figura 5 mostra um diagrama de blocos esquemático de um processador de áudio para processar uma representação de sub-banda de um sinal de áudio para obter o sinal de áudio de acordo com uma modalidade adicional;
a Figura 6 mostra um diagrama de blocos esquemático de um processador de áudio para processar uma representação de sub-banda de um sinal de áudio para obter o sinal de áudio de acordo com uma modalidade adicional; a Figura 7 mostra, em diagramas, um exemplo de amostras de sub-banda (gráfico superior) e o espalhamento de suas amostras em relação ao tempo e à frequência (gráfico inferior); a Figura 8 mostra, em um diagramada, a incerteza espectral e temporal obtida por diversas transformadas diferentes; a Figura 9 mostra, em diagramas, uma comparação de duas respostas ao impulso exemplificativas geradas por mesclagem de sub-banda com e sem TDAR, blocos curtos de MDCT simples e mesclagem de sub-banda de matriz de Hadamard; a Figura 10 mostra um fluxograma de um método para processar um sinal de áudio para obter uma representação de sub-banda do sinal de áudio de acordo com uma modalidade; a Figura 11 mostra um fluxograma de um método para processar uma representação de sub-banda de um sinal de áudio para obter o sinal de áudio de acordo com uma modalidade; a Figura 12 mostra um diagrama de blocos esquemático de um codificador de áudio de acordo com uma modalidade; a Figura 13 mostra um diagrama de blocos esquemático de um decodificador de áudio de acordo com uma modalidade; a Figura 14 mostra um diagrama de blocos esquemático de um analisador de áudio de acordo com uma modalidade; a Figura 15 mostra um diagrama de blocos esquemático de subestágios de transformada criticamente amostrada com sobreposição do segundo estágio de transformada criticamente amostrada com sobreposição do processador de áudio mostrado nas Figuras 2 e 3 de acordo com uma modalidade da presente invenção; a Figura 16 mostra um diagrama de blocos esquemático de subestágios de transformada criticamente amostrada com sobreposição inversos do primeiro estágio de transformada criticamente amostrada com sobreposição inverso do processador de áudio mostrado nas Figuras 5 e 6 de acordo com uma modalidade da presente invenção; a Figura 17 mostra, em um diagrama, funções de janela usadas para segmentar um conjunto de bins para obter conjuntos de bins de acordo com uma modalidade da presente invenção; a Figura 18 mostra, em diagramas, distribuições de escolhas de fator de mescla (MF) e redução por distorção de domínio de tempo (TDAR) feitas pelo dispositivo de conversão em código; a Figura 19 mostra, em diagramas, taxas de bits médias dos dois sistemas para parâmetros de deturpação diferentes q em 39 itens de teste; a Figura 20 lista, em uma tabela, definições de qualidade e seu parâmetro de deturpação q e taxa de bits média resultante; a Figura 21 lista, em uma tabela, itens de teste diferentes; a Figura 22 lista, em uma tabela, resultados de teste de Shapiro-Wilk quanto à normalidade para as diferenças de pontuações MUSHRA em pares entre o banco de filtros de comutação de janela (WS) e o banco de filtros de mesclagem de sub-banda (SM) em definições de qualidade ligeiramente prejudicadas (MQ) e moderadamente prejudicadas (LQ); a Figura 23 mostra, em diagramas, distribuições e estimativas de densidade kernel de diferenças de pontuação MUSHRA entre o banco de filtros de comutação de janela (WS) e banco de filtros de mesclagem de sub-banda (SM) em definições de qualidade ligeiramente prejudicadas (MQ) e moderadamente prejudicadas (LQ); a Figura 24 lista a média, o desvio padrão (SD) e resultados de teste de classificação com sinais de Wilcoxon para as pontuações MUSHRA comparando o banco de filtros de comutação de janela (WS) e o banco de filtros de mesclagem de sub-banda (SM) em definições de qualidade ligeiramente prejudicadas (MQ) e moderadamente prejudicadas (LQ);
a Figura 25 mostra, em diagramas, intervalos de confiança médios e de 95% de diferenças de pontuação MUSHRA para itens individuais, banco de filtros de comutação de janela e banco de filtros de mesclagem de sub-banda em definições de qualidade ligeiramente prejudicadas (MQ) e moderadamente prejudicadas (LQ); a Figura 26 mostra um fluxograma de um método para processar um sinal de áudio para obter uma representação de sub-banda do sinal de áudio de acordo com uma modalidade; e a Figura 27 mostra um fluxograma de um método para processar uma representação de sub-banda de um sinal de áudio para obter o sinal de áudio de acordo com uma modalidade.
[080] Elementos iguais ou equivalentes ou elementos com funcionalidade igual ou equivalente são denotados na descrição a seguir por numerais de referência iguais ou equivalentes.
[081] Na descrição a seguir, uma pluralidade de detalhes é apresentada para fornecer uma explicação mais completa de modalidades da presente invenção. Entretanto, será evidente para um indivíduo versado na técnica que as modalidades da presente invenção podem ser praticadas sem esses detalhes específicos. Em outros exemplos, estruturas e dispositivos bem conhecidos são mostrados em forma de diagrama de blocos em vez de em detalhes, a fim de evitar obscurecer as modalidades da presente invenção. Além disso, as características das diferentes modalidades descritas a seguir podem ser combinadas entre si, a menos que especificamente mencionado de outro modo.
[082] Primeiramente, na seção 1, é descrito um banco de filtros ortogonal não uniforme com base em duas MDCT em cascata e redução por distorção de domínio de tempo (TDAR), que tem capacidade para alcançar respostas ao impulso que eram compactas tanto em tempo como em frequência [1]. Posteriormente, na seção 2, a qualidade perceptual de tal banco de filtros não uniforme em um cenário de conversor de áudio em código é avaliada e comparada com o desempenho de um banco de filtros uniforme com comutação de janela conforme usado em dispositivos de conversão em código atuais, como conversão em código de áudio avançada (AAC)
[2].
1. BANCO DE FILTROS ORTOGONAL NÃO UNIFORME COM BASE EM
DUAS MDCT EM CASCATA E REDUÇÃO POR DISTORÇÃO DE DOMÍNIO DE TEMPO (TDAR)
[083] A Figura 1 mostra um diagrama de blocos esquemático de um processador de áudio 100 configurado para processar um sinal de áudio 102 para obter uma representação de sub-banda do sinal de áudio de acordo com uma modalidade. O processador de áudio 100 compreende um estágio de transformada criticamente amostrada com sobreposição em cascata (LCST) 104 e um estágio de redução por distorção de domínio de tempo (TDAR) 106.
[084] O estágio de transformada criticamente amostrada com sobreposição em cascata 104 é configurado para realizar uma transformada criticamente amostrada com sobreposição em cascata em pelo menos dois blocos parcialmente justapostos 108_1 e 108_2 de amostras do sinal de áudio 102, para obter um conjunto 110_1,1 de amostras de sub-banda com base em um primeiro bloco 108_1 de amostras (dos pelo menos dois blocos justapostos 108_1 e 108_2 de amostras) do sinal de áudio 102 e para obter um conjunto correspondente 110_2,1 de amostras de sub-banda com base em um segundo bloco 108_2 de amostras (dos pelo menos dois blocos justapostos 108_1 e 108_2 de amostras) do sinal de áudio 102.
[085] O estágio de redução por distorção de domínio de tempo 104 é configurado para realizar uma combinação ponderada de dois conjuntos correspondentes 110_1,1 e 110_2,1 de amostras de sub-banda (isto é, amostras de sub-banda correspondentes à mesma sub-banda), um obtido com base no primeiro bloco 108_1 de amostras do sinal de áudio 102 e um obtido com base no segundo bloco 108_2 de amostras do sinal de áudio, para obter uma representação de sub-banda reduzida por distorção 112_1 do sinal de áudio 102.
[086] Em modalidades, o estágio de transformada criticamente amostrada com sobreposição em cascata 104 pode compreender pelo menos dois estágios de transformada criticamente amostrada com sobreposição em cascata ou, em outras palavras, dois estágios de transformada criticamente amostrada com sobreposição conectados em cascata.
[087] O estágio de transformada criticamente amostrada com sobreposição em cascata pode ser um estágio de MDCT (MDCT = transformada discreta de cosseno modificada) em cascata. O estágio de MDCT em cascata pode compreender pelo menos dois estágios de MDCT.
[088] Naturalmente, o estágio de transformada criticamente amostrada com sobreposição em cascata também pode ser um estágio de MDST (MDST = transformada discreta de seno modificada) em cascata ou de MLT (MLT = transformada sobreposta modulada), que compreende pelo menos dois estágios de MDST ou MLT, respectivamente.
[089] Os dois conjuntos correspondentes de amostras de sub-banda 110_1,1 e 110_2,1 podem ser amostras de sub-banda correspondentes à mesma sub-banda (isto é, banda de frequência).
[090] A Figura 2 mostra um diagrama de blocos esquemático de um processador de áudio 100 configurado para processar um sinal de áudio 102 para obter uma representação de sub-banda do sinal de áudio de acordo com uma modalidade adicional.
[091] Conforme mostrado na Figura 2, o estágio de transformada criticamente amostrada com sobreposição em cascata 104 pode compreender um primeiro estágio de transformada criticamente amostrada com sobreposição 120 configurado para realizar transformadas criticamente amostradas com sobreposição em um primeiro bloco 108_1 de (2M) amostras (xi-1(n), 0≤n≤2M-1) e um segundo bloco 108_2 de (2M) amostras (xi(n), 0≤n≤2M-1) dos pelo menos dois blocos parcialmente justapostos 108_1 e 108_2 de amostras do sinal de áudio 102, para obter um primeiro conjunto 124_1 de (M) bins (coeficientes de LCST) (Xi-1(k), 0≤k≤M-1) para o primeiro bloco 108_1 de amostras e um segundo conjunto 124_2 de (M) bins (coeficientes de LCST) (Xi(k), 0≤k≤M-1) para o segundo bloco 108_2 de amostras.
[092] O estágio de transformada criticamente amostrada com sobreposição em cascata 104 pode compreender um segundo estágio de transformada criticamente amostrada com sobreposição 126 configurado para realizar uma transformada criticamente amostrada com sobreposição em um segmento 128_1,1 (subconjunto adequado) (Xv,i-1(k)) do primeiro conjunto 124_1 de bins e para realizar uma transformada criticamente amostrada com sobreposição em um segmento 128_2,1 (subconjunto adequado) (Xv,i(k)) do segundo conjunto 124_2 de bins, sendo que cada segmento é associado a uma sub-banda do sinal de áudio 102, para obter um conjunto 110_1,1 de amostras de sub-banda [ŷv,i-1(m)] para o primeiro conjunto 124_1 de bins e um conjunto 110_2,1 de amostras de sub-banda (ŷv,i(m)) para o segundo conjunto 124_2 de bins.
[093] A Figura 3 mostra um diagrama de blocos esquemático de um processador de áudio 100 configurado para processar um sinal de áudio 102 para obter uma representação de sub-banda do sinal de áudio de acordo com uma modalidade adicional. Em outras palavras, a Figura 3 mostra um diagrama do banco de filtros de análise. Assim, funções de janela adequadas são pressupostas. Observa-se que, por questões de simplicidade, na Figura 3 (apenas), o processamento de uma primeira metade de um quadro de sub-banda (y[m], 0 <= m < N/2) (isto é, apenas a primeira linha da equação (6)) é indicado.
[094] Conforme mostrado na Figura 3, o primeiro estágio de transformada criticamente amostrada com sobreposição 120 pode ser configurado para realizar uma primeira transformada criticamente amostrada com sobreposição 122_1 (por exemplo, MDCT i-1) no primeiro bloco 108_1 de (2M) amostras (xi-1(n), 0≤n≤2M-1), para obter o primeiro conjunto 124_1 de (M) bins (coeficientes de LCST) (X i-1(k), 0≤k≤M-1) para o primeiro bloco 108_1 de amostras, e para realizar uma segunda transformada criticamente amostrada com sobreposição 122_2 (por exemplo, MDCT i) no segundo bloco 108_2 de (2M) amostras (xi(n), 0≤n≤2M-1), para obter um segundo conjunto 124_2 de (M) bins (coeficientes de LCST) (Xi(k), 0≤k≤M-1) para o segundo bloco 108_2 de amostras.
[095] Detalhadamente, o segundo estágio de transformada criticamente amostrada com sobreposição 126 pode ser configurado para realizar transformadas criticamente amostradas com sobreposição em pelo menos dois segmentos parcialmente justapostos 128_1,1 e 128_1,2 (subconjuntos adequados) (Xv,i-1(k)) do primeiro conjunto 124_1 de bins e para realizar transformadas criticamente amostradas com sobreposição em pelo menos dois segmentos parcialmente justapostos 128_2,1 e 128_2,2 (subconjuntos adequados) (Xv,i(k)) do segundo conjunto de bins, sendo que cada segmento é associado a uma sub-banda do sinal de áudio, para obter pelo menos dois conjuntos 110_1,1 e 110_1,2 de amostras de sub-banda (ŷv,i-1(m)) para o primeiro conjunto 124_1 de bins e pelo menos dois conjuntos 110_2,1 e 110_2,2 de amostras de sub-banda (ŷv,i(m)) para o segundo conjunto 124_2 de bins.
[096] Por exemplo, o primeiro conjunto 110_1,1 de amostras de sub-banda pode ser um resultado de uma primeira transformada criticamente amostrada com sobreposição 132_1,1 com base no primeiro segmento 132_1,1 do primeiro conjunto 124_1 de bins, em que o segundo conjunto 110_1,2 de amostras de sub-banda pode ser um resultado de uma segunda transformada criticamente amostrada com sobreposição 132_1,2 com base no segundo segmento 128_1,2 do primeiro conjunto 124_1 de bins, em que o terceiro conjunto 110_2,1 de amostras de sub-banda pode ser um resultado de uma terceira transformada criticamente amostrada com sobreposição 132_2,1 com base no primeiro segmento 128_2,1 do segundo conjunto 124_2 de bins, em que o quarto conjunto 110_2,2 de amostras de sub-banda pode ser um resultado de uma quarta transformada criticamente amostrada com sobreposição 132_2,2 com base no segundo segmento 128_2,2 do segundo conjunto 124_2 de bins.
[097] Assim, o estágio de redução por distorção de domínio de tempo 106 pode ser configurado para realizar uma combinação ponderada do primeiro conjunto 110_1,1 de amostras de sub-banda e do terceiro conjunto 110_2,1 de amostras de sub-banda, para obter uma primeira representação de sub-banda reduzida por distorção 112_1 (y1,i[m1]) do sinal de áudio, em que o estágio de redução por distorção de domínio 106 pode ser configurado para realizar uma combinação ponderada do segundo conjunto 110_1,2 de amostras de sub-banda e do quarto conjunto 110_2,2 de amostras de sub-banda, para obter uma segunda representação de sub-banda reduzida por distorção 112_2 (y2,i[m2]) do sinal de áudio.
[098] A Figura 4 mostra um diagrama de blocos esquemático de um processador de áudio 200 para processar uma representação de sub-banda de um sinal de áudio para obter o sinal de áudio 102 de acordo com uma modalidade. O processador de áudio 200 compreende um estágio de redução por distorção de domínio de tempo (TDAR) inverso 202 e um estágio de transformada criticamente amostrada com sobreposição em cascata (LCST) inverso 204.
[099] O estágio de redução por distorção de domínio de tempo inverso 202 é configurado para realizar uma combinação ponderada (e deslocada) de duas representações de sub-banda reduzidas por distorção correspondentes 112_1 e 112_2 (yv,i(m), yv,i-1(m)) do sinal de áudio 102 para obter uma representação de sub- banda distorcida 110_1 (ŷv,i(m)), em que a representação de sub-banda distorcida é um conjunto 110_1 de amostras de sub-banda.
[100] O estágio de transformada criticamente amostrada com sobreposição em cascata inverso 204 é configurado para realizar uma transformada criticamente amostrada com sobreposição em cascata inversa no conjunto 110_1 de amostras de sub-banda para obter um conjunto de amostras associado a um bloco 108_1 de amostras do sinal de áudio 102.
[101] A Figura 5 mostra um diagrama de blocos esquemático de um processador de áudio 200 para processar uma representação de sub-banda de um sinal de áudio para obter o sinal de áudio 102 de acordo com uma modalidade adicional. O estágio de transformada criticamente amostrada com sobreposição em cascata inverso 204 pode compreender um primeiro estágio de transformada criticamente amostrada com sobreposição (LCST) inverso 208 e um primeiro estágio de justaposição e adição 210.
[102] O primeiro estágio de transformada criticamente amostrada com sobreposição inverso 208 pode ser configurado para realizar uma transformada criticamente amostrada com sobreposição inversa no conjunto 110_1,1 de amostras de sub-banda para obter um conjunto 128_1,1 de bins associado a uma dada sub- banda do sinal de áudio (𝑋̂v,i(k)).
[103] O primeiro estágio de justaposição e adição 210 pode ser configurado para realizar uma concatenação de conjuntos de bins associados a uma pluralidade de sub- bandas do sinal de áudio, que compreende uma combinação ponderada do conjunto 128_1,1 de bins (𝑋̂v,i(k)) associado à dada sub-banda (v) do sinal de áudio 102 com um conjunto 128_1,2 de bins (𝑋̂v-1,i(k)) associado a uma outra sub-banda (v-1) do sinal de áudio 102, para obter um conjunto 124_1 de bins associado a um bloco 108_1 de amostras do sinal de áudio 102.
[104] Conforme mostrado na Figura 5, o estágio de transformada criticamente amostrada com sobreposição em cascata inverso 204 pode compreender um segundo estágio de transformada criticamente amostrada com sobreposição (LCST) inverso 212 configurado para realizar uma transformada criticamente amostrada com sobreposição inversa no conjunto 124_1 de bins associado ao bloco 108_1 de amostras do sinal de áudio 102 para obter um conjunto 206_1,1 de amostras associado ao bloco 108_1 de amostras do sinal de áudio 102.
[105] Além disso, o estágio de transformada criticamente amostrada com sobreposição em cascata inverso 204 pode compreender um segundo estágio de justaposição e adição 214 configurado para justapor e adicionar o conjunto 206_1,1 de amostras associado ao bloco 108_1 de amostras do sinal de áudio 102 e um outro conjunto 206_2,1 de amostras associado a um outro bloco 108_2 de amostras do sinal de áudio, sendo que o bloco 108_1 de amostras e o outro bloco 108_2 de amostras do sinal de áudio 102 se justapõem parcialmente para obter o sinal de áudio 102.
[106] A Figura 6 mostra um diagrama de blocos esquemático de um processador de áudio 200 para processar uma representação de sub-banda de um sinal de áudio para obter o sinal de áudio 102 de acordo com uma modalidade adicional. Em outras palavras, a Figura 6 mostra um diagrama do banco de filtros de síntese. Assim,
funções de janelas adequadas são pressupostas. Observa-se que, por questões de simplicidade, na Figura 6 (apenas), o processamento de uma primeira metade de um quadro de sub-banda (y[m], 0 <= m < N/2) (isto é, apenas a primeira linha da equação (6)) é indicado.
[107] Conforme descrito acima, o processador de áudio 200 compreende um estágio de redução por distorção de domínio de tempo inverso 202 e um estágio criticamente amostrado com sobreposição em cascata inverso 204 que compreende um primeiro estágio criticamente amostrado com sobreposição inverso 208 e um segundo estágio criticamente amostrado com sobreposição inverso 212.
[108] O estágio de redução de domínio de tempo inverso 104 é configurado para realizar uma primeira combinação ponderada e deslocada 220_1 de uma primeira e uma segunda representações de sub-banda reduzidas por distorção y1,i-1[m1] e y1,i[m1] para obter uma primeira representação de sub-banda distorcida 110_1,1 ŷ1,i[m1], em que a representação de sub-banda distorcida é um conjunto de amostras de sub- banda, e para realizar uma segunda combinação ponderada e deslocada 220_2 de uma terceira e uma quarta representações de sub-banda reduzidas por distorção y2,i- 1[m1] e y2,i[m1] para obter uma segunda representação de sub-banda distorcida 110_2,1 ŷ2,i[m1], em que a representação de sub-banda distorcida é um conjunto de amostras de sub-banda.
[109] O primeiro estágio de transformada criticamente amostrada com sobreposição inverso 208 é configurado para realizar uma primeira transformada criticamente amostrada com sobreposição inversa 222_1 no primeiro conjunto de amostras de sub-banda 110_1,1 ŷ1,i[m1] para obter um conjunto 128_1,1 de bins associado a uma dada sub-banda do sinal de áudio (𝑋̂1,1(k)) e para realizar uma segunda transformada criticamente amostrada com sobreposição inversa 222_2 no segundo conjunto de amostras de sub-banda 110_2,1 ŷ2,i[m1] para obter um conjunto 128_2,1 de bins associado a uma dada sub-banda do sinal de áudio (𝑋̂2,1(k)).
[110] O segundo estágio de transformada criticamente amostrada com sobreposição inverso 212 é configurado para realizar uma transformada criticamente amostrada com sobreposição inversa em um conjunto justaposto e adicionado de bins obtido justapondo-se ou adicionando-se os conjuntos de bins 128_1,1 e 128_21 fornecidos pelo primeiro estágio de transformada criticamente amostrada com sobreposição inverso 208 para obter o bloco de amostras 108_2.
[111] Subsequentemente, são descritas modalidades dos processadores de áudio mostrados nas Figuras 1 a 6 nas quais presume-se exemplificativamente que o estágio de transformada criticamente amostrada com sobreposição em cascata 104 é um estágio de MDCT, isto é, o primeiro e o segundo estágios de transformada criticamente amostrada com sobreposição 120 e 126 são estágios de MDCT, e o estágio de transformada criticamente amostrada com sobreposição em cascata inverso 204 é um estágio de MDCT em cascata inverso, isto é, o primeiro e o segundo estágios de transformada criticamente amostrada com sobreposição inversos 120 e 126 são estágios de MDCT inversos. Naturalmente, a descrição a seguir é também aplicável a outras modalidades do estágio de transformada criticamente amostrada com sobreposição em cascata 104 e do estágio de transformada criticamente amostrada com sobreposição inverso 204, como a um estágio de MDST em cascata ou de MLT ou um estágio de MDST em cascata ou de MLT inverso.
[112] Assim, as modalidades descritas podem funcionar em uma sequência de espectros de MDCT de comprimento limitado e usar MDCT e redução por distorção de domínio de tempo (TDAR) como a operação de mesclagem de sub-banda. O banco de filtros não uniforme resultante é sobreposto, ortogonal e permite as larguras de sub-banda k=2n com n∈N. Devido à TDAR, uma resposta ao impulso de sub-banda mais compacta tanto temporalmente como espectral pode ser alcançada.
[113] Subsequentemente, são descritas modalidades do banco de filtros.
[114] A implementação de banco de filtros baseia-se diretamente em esquemas de transformadas MDCT com sobreposição comuns: A transformada original com justaposições e janelas permanece inalterada.
[115] Sem perda de generalidade, a notação a seguir presume transformadas MDCT ortogonais, por exemplo, em que janelas de análise e síntese são idênticas.
[116] em que 𝑘(𝑘, 𝑛, 𝑀) é a transformada de kernel MDCT e ℎ(𝑛) uma janela de análise adequada
[117] O resultado dessa transformada 𝑋𝑖 (𝑘) é, então, segmentado em 𝜐 sub- bandas de larguras individuais 𝑁𝜈 e transformado novamente com o uso da MDCT. Isso resulta em um banco de filtros com justaposição na direção tanto temporal como espectral.
[118] Por uma questão de notação mais simples, no presente documento, é usado um fator de mescla 𝑁 comum para todas as sub-bandas, entretanto, qualquer comutação/sequenciamento de janela de MDCT válido pode ser usado para implementar a resolução de tempo-frequência desejada. Abaixo, mais sobre o projeto de resolução.
[119] em que 𝑤(𝑘) é uma janela de análise adequada e geralmente difere de ℎ(𝑛) em tamanho e pode diferir no tipo de janela. Visto que modalidades aplicam a janela no domínio de frequência, é notável que a seletividade de tempo e frequência da janela é trocada.
[120] Para tratamento adequado das margens, um desvio adicional de 𝑁/2 pode ser introduzido na equação (4), combinado com metades de janela de início/interrupção retangular nas margens. Novamente, por uma questão de notação mais simples, esse desvio não foi levado em consideração aqui.
[121] O resultado 𝑦̂𝜈,𝑖 (𝑚) é uma lista de 𝜈 vetores de comprimentos individuais 𝑁𝜈 𝑁𝜈 de coeficientes com larguras de banda correspondentes 𝜋 e uma resolução
𝑀 temporal proporcional a essa largura de banda.
[122] Esses vetores, entretanto, contêm distorção da transformada MDCT original e, consequentemente, mostram compactação temporal insatisfatória. Para compensar essa distorção, a TDAR pode ser facilitada.
[123] As amostras usadas para TDAR são retiradas dos dois blocos de amostra de sub-banda adjacentes 𝜈 no quadro de MDCT atual e anterior 𝑖 e 𝑖 − 1. O resultado é distorção reduzida na segunda metade do quadro anterior e na primeira metade do segundo quadro.
[124] para 0 ≤ 𝑚 < 𝑁/2 com
[125] Os coeficientes de TDAR 𝑎𝜈 (𝑚), 𝑏𝜈 (𝑚), 𝑐𝜈 (𝑚) e 𝑑𝜈 (𝑚) podem ser projetados para minimizar a distorção residual. Um método de estimativa simples com base na janela de síntese 𝑔(𝑛) será introduzido abaixo.
[126] Também se nota que, se A não for singular, as operações (6) e (8) correspondem a um sistema biortogonal. Adicionalmente, se 𝑔(𝑛) = ℎ(𝑛) e 𝑣(𝑘) = 𝑤(𝑘), por exemplo, ambas as MDCTs, forem ortogonais e a matriz A for ortogonal, o pipeline geral constitui uma transformada ortogonal.
[127] Para calcular a transformada inversa, primeiro a TDAR inversa é realizada,
[128] seguida pela MDCT inversa, e o cancelamento de distorção de domínio do tempo (TDAC, embora o cancelamento de distorção seja feito ao longo do eixo geométrico de frequência aqui) precisa ser realizado para cancelar a distorção produzida na Equação 5
[129] Finalmente, a MDCT inicial na Equação 2 é invertida e o TDAC é realizado novamente
[130] Subsequentemente, são descritas limitações de projeto de resolução de tempo-frequência. Embora qualquer resolução de tempo-frequência desejado seja possível, algumas restrições para projetar as funções de janela resultantes precisam ser respeitadas para assegurar a invertibilidade. Em particular, as inclinações de duas sub-bandas adjacentes podem ser simétricas de modo que a Equação (6) atenda à condição de Princen Bradley [J. Princen, A. Johnson e A. Bradley, “Subband/transform coding using filter bank designs based on time domain aliasing cancellation”, em Acoustics, Speech, and Signal Processing, IEEE International Conference em ICASSP ’87, abril de 1987, volume 12, páginas 2.161 a 2.164]. O esquema de comutação de janela conforme introduzido em [B. Edler, “Codierung von Audiosignalen mit überlappender Transformation und adaptiven Fensterfunktionen”, Frequenz, volume
43, páginas 252 a 256, setembro de 1989], originalmente projetado para combater efeitos pré-eco, pode ser aplicado aqui. Consultar [Olivier Derrien, Thibaud Necciari e Peter Balazs, “A quasi-orthogonal, invertible, and perceptually relevant time-frequency transform for audio coding”, em EUSIPCO, Nice, França, agosto de 2015].
[131] Em segundo lugar, a soma de todos os comprimentos de segunda transformada MDCT precisa ser somada ao comprimento total de coeficientes de MDCT fornecidos. As bandas podem ser escolhidas de modo a não serem transformadas com o uso de uma janela de etapa unitária com zeros nos coeficientes desejados. As propriedades de simetria das janelas vizinhas precisam ser observadas, apesar de [B. Edler, “Codierung von Audiosignalen mit überlappender Transformation und adaptiven Fensterfunktionen”, Frequenz, volume 43, páginas 252 a 256, setembro de 1989]. A transformada resultante renderá zeros nessas bandas, de modo que os coeficientes originais possam ser diretamente usados.
[132] Como uma resolução de tempo-frequência, bandas de fator de escala da maioria dos conversores de áudio em código modernos podem ser diretamente usadas.
[133] Subsequentemente, é descrito o cálculo de coeficientes de redução por distorção de domínio de tempo (TDAR).
[134] Após a resolução temporal supracitada, cada amostra de sub-banda corresponde a 𝑀/𝑁𝜈 amostras originais ou a um intervalo 𝑁𝜈 vezes o tamanho daquele de uma amostra original.
[135] Além disso, a quantidade de distorção em cada amostra de sub-banda depende da quantidade de distorção no intervalo que representa. Visto que a distorção é ponderada com a janela de análise ℎ(𝑛) com o uso de um valor aproximado da janela de síntese em cada amostra de sub-banda, presume-se que o intervalo seja uma boa primeira estimativa para um coeficiente de TDAR.
[136] Experimentos mostraram que dois esquemas de cálculo de coeficiente muito simples permitem bons valores iniciais com compactação tanto temporal como espectral melhorada. Ambos os métodos se baseiam em uma janela de síntese hipotética 𝑔𝜈 (𝑚) de comprimento 2𝑁𝜈 .
[137] 1) Para janelas paramétricas como derivada de seno ou de Kaiser Bessel, uma janela mais curta simples do mesmo tipo pode ser definida.
[138] 2) Para janelas tanto paramétricas como tabuladas sem representação fechada, a janela pode ser simplesmente cortada em 2𝑁𝜈 seções de tamanho igual, permitindo que os coeficientes sejam obtidos com o uso do valor médio de cada seção:
[139] Considerando-se as condições de limite de MDCT e o espelhamento de distorção, isso, então, rende coeficientes de TDAR
[140] ou, em caso de uma transformada ortogonal,
[141] Qualquer que seja a solução de aproximação de coeficiente escolhida, desde que A seja não singular, a reconstrução perfeita de todo o banco de filtros é preservada. Uma seleção de coeficiente de outro modo subideal afetará apenas a quantidade de distorção residual no sinal de sub-banda 𝑦𝜈,𝑖 (𝑚), entretanto, não no sinal 𝑥(𝑛) sintetizado pelo banco de filtros inverso.
[142] A Figura 7 mostra, em diagramas, um exemplo de amostras de sub-banda (gráfico superior) e o espalhamento de suas amostras em relação ao tempo e à frequência (gráfico inferior). A amostra anotada tem largura de banda mais ampla, mas um espalhamento de tempo mais curto que as amostras inferiores. As janelas de análise (gráfico de fundo) têm uma resolução total de um coeficiente por amostra de tempo original. Os coeficientes de TDAR, desse modo, precisem ser aproximados (anotador por um ponto) para cada região de tempo das amostras de sub-banda (m = 256 : : : 384).
[143] Subsequentemente, são descritos resultados (da simulação).
[144] A Figura 8 mostra a incerteza espectral e temporal obtida por diversas transformadas diferentes, conforme mostrado em [Frederic Bimbot, Ewen Camberlein e Pierrick Philippe, “Adaptive filter banks using fixed size mdct e subband merging for audio coding-comparison with the mpeg aac filter banks”, em Audio Engineering Society Convention 121, outubro de 2006].
[145] Pode ser observado que transformadas com base em matriz de Hadamard- matriz oferecem capacidades de troca de tempo-frequência severamente limitadas. Para tamanhos de mescla crescentes, resolução temporal adicional tem um custo desproporcionalmente alto na incerteza espectral.
[146] Em outras palavras, a Figura 8 mostra uma comparação de compactação de energia espectral e temporal de transformadas diferentes. Etiquetas em linha denotam comprimentos de quadro para MDCT, fatores de divisão para divisão de Heisenberg e fatores de mescla para todos os outros.
[147] A mesclagem de sub-banda com TDAR, entretanto, tem uma troca linear entre a incerteza temporal e espectral, paralela a uma MDCT uniforme simples. O produto das duas é constante, embora um pouco mais alto do que a MDCT uniforme simples. Para essa análise, uma janela de análise de seno e uma janela de mesclagem de sub-banda derivada de Kaiser Bessel mostraram os resultados mais compactos e foram, assim, escolhidas.
[148] Entretanto, o uso de TDAR para um fator de mesclagem 𝑁𝜈 = 2 parece diminuir a compactação tanto temporal como espectral. Atribui-se isso ao esquema de cálculo de coeficiente introduzido na Seção II-B ser muito simplista e não aproximar adequadamente os valores para inclinações de função de janela acentuadas. Um esquema de otimização numérico será apresentado em uma publicação subsequente.
[149] Esses valores de compactação foram calculados com o uso da engrenagem de centro de gravidade e do comprimento efetivo quadrado 𝑙eff da resposta ao impulso 𝑥[𝑛], definido como [Athanasios Papoulis, Signal analysis, Electrical and electronic engineering series. McGraw-Hill, Nova York, São Francisco, Paris, 1977].
[150] São mostrados os valores médios de todas as respostas ao impulso de cada banco de filtros individual.
[151] A Figura 9 mostra uma comparação de duas respostas ao impulso exemplificativas geradas pela mesclagem de sub-banda com e sem TDAR, blocos curtos de MDCT simples e mesclagem de sub-banda de matriz de Hadamard conforme proposto em [O.A. Niamut e R. Heusdens, “Flexible frequency decompositions for cosine-modulated filter banks”, em Acoustics, Speech, and Signal Processing, 2003. Proceedings. (ICASSP ‘03). 2003 IEEE International Conference em abril de 2003, volume 5, páginas V–449 a V-452, volume 5].
[152] A compactação temporal insatisfatória da transformada de mesclagem de matriz de Hadamard é claramente visível. Além disso, pode ser observado claramente que a maior parte dos artefatos de distorção na sub-banda é significativamente reduzida por TDAR.
[153] Em outras palavras, a Figura 9 mostra respostas ao impulso exemplificativas de um filtro de sub-banda mesclado que compreende 8 de 1,024 bins originais com o uso do método proposto aqui sem TDAR, com TDAR, do método proposto em [O.A. Niamut e R. Heusdens, “Subband merging in cosine-modulated filter banks”, Signal Processing Letters, IEEE, volume 10, n° 4, páginas 111 a 114,
abril de 2003] e com o uso de um comprimento de quadro de MDCT mais curto de 256 amostras.
[154] A Figura 10 mostra um fluxograma de um método 300 para processar um sinal de áudio para obter uma representação de sub-banda do sinal de áudio. O método 300 compreende uma etapa 302 de realizar uma transformada criticamente amostrada com sobreposição em cascata em pelo menos dois blocos parcialmente justapostos de amostras do sinal de áudio, para obter um conjunto de amostras de sub-banda com base em um primeiro bloco de amostras do sinal de áudio e para obter um conjunto correspondente de amostras de sub-banda com base em um segundo bloco de amostras do sinal de áudio. Além disso, o método 300 compreende uma etapa 304 de realizar uma combinação ponderada de dois conjuntos correspondentes de amostras de sub-banda, um obtido com base no primeiro bloco de amostras do sinal de áudio e um obtido com base no segundo bloco de amostras do sinal de áudio, para obter uma representação de sub-banda reduzida por distorção do sinal de áudio.
[155] A Figura 11 mostra um fluxograma de um método 400 para processar uma representação de sub-banda de um sinal de áudio para obter o sinal de áudio. O método 400 compreende uma etapa 402 de realizar uma combinação ponderada (e deslocada) de duas representações de sub-banda reduzidas por distorção correspondentes (de diferentes blocos de amostras parcialmente justapostas) do sinal de áudio para obter uma representação de sub-banda distorcida, em que a representação de sub-banda distorcida é um conjunto de amostras de sub-banda. Além disso, o método 400 compreende uma etapa 404 de realizar uma transformada criticamente amostrada com sobreposição em cascata inversa no conjunto de amostras de sub-banda para obter um conjunto de amostras associado a um bloco de amostras do sinal de áudio.
[156] A Figura 12 mostra um diagrama de blocos esquemático de um codificador de áudio 150 de acordo com uma modalidade. O codificador de áudio 150 compreende um processador de áudio (100) conforme descrito acima, um codificador 152 configurado para codificar a representação de sub-banda reduzida por distorção do sinal de áudio, para obter uma representação de sub-banda reduzida por distorção codificada do sinal de áudio, e um formador de fluxo de bits 154 configurado para formar um fluxo de bits 156 a partir da representação de sub-banda reduzida por distorção codificada do sinal de áudio.
[157] A Figura 13 mostra um diagrama de blocos esquemático de um decodificador de áudio 250 de acordo com uma modalidade. O decodificador de áudio 250 compreende um interpretador de fluxo de bits 252 configurado para interpretar o fluxo de bits 154 para obter a representação de sub-banda reduzida por distorção codificada, um decodificador 254 configurado para decodificar a representação de sub-banda reduzida por distorção codificada para obter a representação de sub-banda reduzida por distorção do sinal de áudio e um processador de áudio 200 conforme descrito acima.
[158] A Figura 14 mostra um diagrama de blocos esquemático de um analisador de áudio 180 de acordo com uma modalidade. O analisador de áudio 180 compreende um processador de áudio 100 conforme descrito acima, um extrator de informações 182 configurado para analisar a representação de sub-banda reduzida por distorção, para fornecer informações que descrevem o sinal de áudio.
[159] Modalidades fornecem redução por distorção de domínio de tempo (TDAR) em sub-bandas de bancos de filtros de transformada discreta de cosseno modificada (MDCT) ortogonal não uniforme.
[160] Modalidades adicionam uma etapa de pós-processamento adicional ao pipeline de transformada MDCT amplamente usado, sendo que a etapa em si compreende qualquer outra transformada MDCT com sobreposição ao longo do eixo geométrico de frequência e redução por distorção de domínio de tempo (TDAR) ao longo de cada eixo geométrico de tempo da sub-banda, permitindo a extração de escalas de frequência arbitrárias do espectrograma de MDCT com uma compactação temporal melhorada da resposta ao impulso, enquanto não introduz redundância adicional e apenas um atraso de quadro de MDCT.
2. CONVERSÃO EM CÓDIGO DE ÁUDIO COM AGRUPAMENTO LADO
A LADO DE TEMPO/FREQUÊNCIA NÃO UNIFORME ADAPTATIVO COM O USO DE MESCLAGEM DE SUB-BANDA E DISTORÇÃO DE DOMÍNIO DE TEMPO
[161] A Figura 15 mostra um diagrama de blocos esquemático de subestágios de transformada criticamente amostrada com sobreposição 132_1,1, 132_1,2, 132_2,1 e 132_2,2 do segundo estágio de transformada criticamente amostrada com sobreposição 126 do processador de áudio 100 mostrado nas Figuras 2 e 3 de acordo com uma modalidade da presente invenção.
[162] Assim, pelo menos um dos subestágios de transformada criticamente amostrada com sobreposição 132_1,1, 132_1,2, 132_2,1 e 132_2,2 pode ser configurado para realizar transformadas criticamente amostradas com sobreposição que têm o mesmo comprimento de quadro (por exemplo, fator de mescla) para o conjunto correspondente 128_1,1, 128_1,2, 128_2,1 e 128_2,2 de bins.
[163] Em modalidades, o primeiro subestágio de transformada criticamente sobreposta 132_1,1 pode ser configurado para realizar N1,1 transformadas criticamente amostradas com sobreposição em N1,1 subconjuntos de comprimento igual de um primeiro conjunto 128_1,1 de bins obtido com base no conjunto segmentado 124_1 de bins correspondente ao primeiro bloco 108_1 de amostras, em que as N1,1 transformadas criticamente amostradas com sobreposição compreendem o mesmo comprimento de quadro (por exemplo, fator de mescla), em que N 1,1 é um número natural maior ou igual a dois.
[164] Por exemplo, presumindo-se que o primeiro conjunto 128_1,1 de bins compreende 128 bins (ou coeficientes), o primeiro subestágio de transformada criticamente sobreposta 132_1,1 pode ser configurado para realizar, por exemplo, N1,1 = 2 transformadas criticamente amostradas com sobreposição em N 1,1 = 2 subconjuntos de 64 bins cada um (isto é, 128 bins divididos por N 1,1), em que as N1,1 = 2 transformadas criticamente amostradas com sobreposição compreendem o mesmo comprimento de quadro (por exemplo, fator de mescla), por exemplo, de 64. Naturalmente, o primeiro subestágio de transformada criticamente sobreposta 132_1,1 também pode ser configurado para realizar, por exemplo, N 1,1 = 4 (ou 8)
transformadas criticamente amostradas com sobreposição em N1,1 = 4 (ou 8) subconjuntos de 32 (ou 16) bins cada um (isto é, 128 bins divididos por N 1,1), em que as N1,1 = 4 (ou 8) transformadas criticamente amostradas com sobreposição compreendem o mesmo comprimento de quadro (por exemplo, fator de mescla), por exemplo, de 32 (ou 16).
[165] Em modalidades, o segundo subestágio de transformada criticamente sobreposta 132_1,2 pode ser configurado para realizar N1,2 transformadas criticamente amostradas com sobreposição em N1,2 subconjuntos de comprimento igual de um segundo conjunto 128_1,2 de bins obtido com base no conjunto segmentado 124_1 de bins correspondente ao primeiro bloco 108_1 de amostras, em que as N1,2 transformadas criticamente amostradas com sobreposição compreendem o mesmo comprimento de quadro (por exemplo, fator de mescla), em que N1,2 é um número natural maior ou igual a dois.
[166] Por exemplo, presumindo-se que o segundo conjunto 128_1,2 de bins compreende 128 bins (ou coeficientes), o segundo subestágio de transformada criticamente sobreposta 132_1,2 pode ser configurado para realizar, por exemplo, N1,2 = 2 transformadas criticamente amostradas com sobreposição em N 1,2 = 2 subconjuntos de 64 bins cada um (isto é, 128 bins divididos por N 1,1), em que as N1,2 = 2 transformadas criticamente amostradas com sobreposição compreendem o mesmo comprimento de quadro (por exemplo, fator de mescla), por exemplo, de 64. Naturalmente, o segundo subestágio de transformada criticamente sobreposta 132_1,2 também pode ser configurado para realizar, por exemplo, N1,2 = 4 (ou 8) transformadas criticamente amostradas com sobreposição em N 1,2 = 4 (ou 8) subconjuntos de 32 (ou 16) bins cada um (isto é, 128 bins divididos por N 1,2), em que as N1,2 = 4 (ou 8) transformadas criticamente amostradas com sobreposição compreendem o mesmo comprimento de quadro (por exemplo, fator de mescla), por exemplo, de 32 (ou 16).
[167] Em modalidades, o terceiro subestágio de transformada criticamente sobreposta 132_2,1 pode ser configurado para realizar N2,1 transformadas criticamente amostradas com sobreposição em N2,1 subconjuntos de comprimento igual de um terceiro conjunto 128_2,1 de bins obtido com base no conjunto segmentado 124_2 de bins correspondente ao segundo bloco 108_2 de amostras, em que as N2,1 transformadas criticamente amostradas com sobreposição compreendem o mesmo comprimento de quadro (por exemplo, fator de mescla), em que N 2,1 é um número natural maior ou igual a dois.
[168] Por exemplo, presumindo-se que o terceiro conjunto 128_2,1 de bins compreende 128 bins (ou coeficientes), o terceiro subestágio de transformada criticamente sobreposta 132_2,1 pode ser configurado para realizar, por exemplo, N2,1 = 2 transformadas criticamente amostradas com sobreposição em N 2,1 = 2 subconjuntos de 64 bins cada um (isto é, 128 bins divididos por N1,1), em que as N1,1 = 2 transformadas criticamente amostradas com sobreposição compreendem o mesmo comprimento de quadro (por exemplo, fator de mescla), por exemplo, de 64. Naturalmente, o terceiro subestágio de transformada criticamente sobreposta 132_2,1 também pode ser configurado para realizar, por exemplo, N 2,1 = 4 (ou 8) transformadas criticamente amostradas com sobreposição em N 2,1 = 4 (ou 8) subconjuntos de 32 (ou 16) bins cada um (isto é, 128 bins divididos por N1,1), em que as N2,1 = 4 (ou 8) transformadas criticamente amostradas com sobreposição compreendem o mesmo comprimento de quadro (por exemplo, fator de mescla), por exemplo, de 32 (ou 16).
[169] Em modalidades, o quarto subestágio de transformada criticamente sobreposta 132_2,2 pode ser configurado para realizar N2,2 transformadas criticamente amostradas com sobreposição em N2,2 subconjuntos de comprimento igual de um quarto conjunto 128_2,2 de bins obtido com base no conjunto segmentado 124_2 de bins correspondente ao segundo bloco 108_2 de bins, em que as N 2,2 transformadas criticamente amostradas com sobreposição compreendem o mesmo comprimento de quadro (por exemplo, fator de mescla), em que N 2,2 é um número natural maior ou igual a dois.
[170] Por exemplo, presumindo-se que o quarto conjunto 128_2,2 de bins de sub-
banda compreende 128 bins (ou coeficientes), o quarto subestágio de transformada criticamente sobreposta 132_2,2 pode ser configurado para realizar, por exemplo, N2,2 = 2 transformadas criticamente amostradas com sobreposição em N2,2 = 2 subconjuntos de 64 bins cada um (isto é, 128 bins divididos por N 2,2), em que as N2,2 = 2 transformadas criticamente amostradas com sobreposição compreendem o mesmo comprimento de quadro (por exemplo, fator de mescla), por exemplo, de 64. Naturalmente, o quarto subestágio de transformada criticamente sobreposta 132_2,2 também pode ser configurado para realizar, por exemplo, N 2,2 = 4 (ou 8) transformadas criticamente amostradas com sobreposição em N 2,2 = 4 (ou 8) subconjuntos de 32 (ou 16) bins cada um (isto é, 128 bins divididos por N2,2), em que as N2,2 = 4 (ou 8) transformadas criticamente amostradas com sobreposição compreendem o mesmo comprimento de quadro (por exemplo, fator de mescla), por exemplo, de 32 (ou 16).
[171] Em modalidades, o primeiro conjunto 128_1,1 de bins e o segundo conjunto 128_1,2 de bins podem compreender comprimentos iguais ou diferentes (isto é, número de bins).
[172] Em modalidades, N1,1 e N1,2 podem ser números naturais iguais ou diferentes.
[173] Em modalidades, o terceiro conjunto 128_2,1 de bins e o quarto conjunto 128_2,2 de bins podem compreender comprimentos iguais ou diferentes (isto é, número de bins).
[174] Em modalidades, N2,1 e N2,2 podem ser números naturais iguais ou diferentes.
[175] Em modalidades, se TDAR for habilitada, o primeiro conjunto 128_1,1 de bins e o terceiro conjunto 128_2,1 de bins podem compreender o mesmo comprimento (isto é, o mesmo número de bins). Além disso, N1,1 e N2,1 podem ser o mesmo número natural. De modo similar, o segundo conjunto 128_1,2 de bins e o quarto conjunto 128_2,2 de bins também podem compreender o mesmo comprimento (isto é, o mesmo número de bins). Além disso, N2,1 e N2,2 podem ser o mesmo número natural.
[176] Em modalidades, se TDAR for desabilitada, o primeiro conjunto 128_1,1 de bins e o terceiro conjunto 128_2,1 de bins também podem compreender comprimentos diferentes (isto é, números diferentes de bins) e, além disso, N1,1 e N2,1 podem ser números naturais diferentes. De modo similar, o segundo conjunto 128_1,2 de bins e o quarto conjunto 128_2,2 de bins também podem compreender comprimentos diferentes (isto é, números diferentes de bins) e, além disso, N2,1 e N2,2 podem ser números naturais diferentes.
[177] A Figura 16 mostra um diagrama de blocos esquemático de subestágios de transformada criticamente amostrada com sobreposição inversos 222_1 e 222_2 do primeiro estágio de transformada criticamente amostrada com sobreposição inverso 208 do processador de áudio 200 mostrado nas Figuras 5 e 6 de acordo com uma modalidade da presente invenção.
[178] Assim, pelo menos um dos subestágios de transformada criticamente amostrada com sobreposição inversos 222_1 e 222_2 pode ser configurado para realizar transformadas criticamente amostradas com sobreposição inversas que têm o mesmo comprimento de quadro (por exemplo, fator de mescla) no conjunto correspondente 110_1,1 e 110_1,2 de amostras de sub-banda, para obter o conjunto correspondente 128_1,1 e 128_1,2 de bins.
[179] Em modalidades, o primeiro subestágio de transformada criticamente sobreposta inverso 222_1 pode ser configurado para realizar N1,1 transformadas criticamente amostradas com sobreposição inversas em N1,1 subconjuntos de comprimento igual de um primeiro conjunto 110_1 de amostras de sub-banda, em que as N1,1 transformadas criticamente amostradas com sobreposição compreendem o mesmo comprimento de quadro (por exemplo, fator de mescla), em que N 1,1 é um número natural maior ou igual a dois.
[180] Em modalidades, o segundo subestágio de transformada criticamente sobreposta inverso 222_2 pode ser configurado para realizar N1,2 transformadas criticamente amostradas com sobreposição inversas em N1,2 subconjuntos de comprimento igual de um segundo conjunto 110_1 de amostras de sub-banda, em que as N1,2 transformadas criticamente amostradas com sobreposição compreendem o mesmo comprimento de quadro (por exemplo, fator de mescla), em que N 1,2 é um número natural maior ou igual a dois.
[181] Subsequentemente, modalidades detalhadas do banco de filtros não uniforme são descritas. Além disso, a qualidade perceptual de tal banco de filtros não uniforme em um cenário de conversor de áudio em código é avaliada e comparada com o desempenho de um banco de filtros uniforme com comutação de janela conforme usado em dispositivos de conversão em código atuais, como conversão em código de áudio avançada (AAC) [2].
2.1 SISTEMA DE CONVERSÃO EM CÓDIGO
[182] O sistema de avaliação modela um dispositivo de conversão em código perceptual simples com um banco de filtros de análise, um modelo psicoacústico [4], quantizador, estimativa de entropia perceptual [5] e um banco de filtros de síntese. Nos dois sistemas concorrentes, o banco de filtros era uma MDCT uniforme com comutação de janela [6] (WS) ou uma MDCT não uniforme com mesclagem de sub- banda e TDAR [1] (SM).
[183] Os parâmetros relevantes de banco de filtros — limites de comutação de janela para a MDCT uniforme ou limites de fatores de mescla e TDAR para a MDCT não uniforme — foram adaptativa e idealmente escolhidos para minimizar a entropia remanescente geral.
[184] Nenhuma etapa de pós-processamento adicional ou ferramentas de conversão em código podem ser usadas.
2.1.1 PARÂMETROS DE BANCO DE FILTROS
[185] O banco de filtros de comutação de janela pode usar uma MDCT com os comprimentos de quadro de AAC usuais: quadros longos de 1.024 amostras ou 8 quadros curtos de 128 amostras e janelas de transição adequadas entre os mesmos. A janela de cosseno pode ser usada. O banco de filtros de mesclagem de sub-banda 120 pode usar uma MDCT inicial de comprimento de quadro, por exemplo, 1.024, e, então, dividir o espectro em 8 bandas de fator de mescla (por exemplo, 128_1,1,
128_1,2, etc.) de 128 coeficientes cada uma. Cada banda de fator de mescla pode, então, ser mesclada com uma MDCT para o comprimento de quadro 𝑁 ∈ {1,2,4,8,16,32}, chamado fator de mescla. De acordo com o projeto do sistema, durante a análise, a escolha ideal no fator de mescla não era conhecida ainda, e cada banda de fator de mescla não conhece o fator de mescla de nenhum de seus vizinhos. Assim, as janelas nas bordas de banda de fator de mescla podem ser escolhidas de modo a serem sempre assimétricas e acentuadas o suficiente para acomodar o fator de mescla vizinho mais acentuado possível, consultar a Figura 17.
[186] Detalhadamente, a Figura 17 mostra, em um diagrama, funções de janela usadas para segmentar um conjunto de bins (124_1), para obter conjuntos (ou segmentos) (128_1,1, 128_1,2) de bins. Em outras palavras, a Figura 16 mostra escolhas de janela exemplificativas em quatro bandas de fator de mescla. Janelas de borda de banda de fator de mescla acentuadas são destacadas em preto.
[187] Essa escolha de projeto limita a flexibilidade geral do banco de filtros e introduz ondulações temporais inferiores ao ideal para essas janelas assimétricas [1], mas oferece uma forma para otimizar eficiente e independentemente o fator de mescla para cada banda de fator de mescla.
[188] A janela de cosseno pode ser usada como a janela de transformada e uma janela derivada de Kaiser-Bessel com um 𝛽 = 5,1 arbitrariamente escolhido pode ser escolhida como a janela de mescla.
[189] Finalmente, tamanhos de etapa de quantização podem ser controlados com o uso de parâmetro de deturpação de valor real q, que multiplicativamente reduz e eleva o limiar de mascaramento estimado a partir do modelo perceptual por um fator constante q. Após a quantização, o estimados de entropia perceptual calcula uma taxa de bits teórica r, que é naturalmente dependente de q. Para q = 1,0, o modelo psicoacústico prevê conversão em código transparente sem quaisquer artefatos audíveis, para valores maiores q > 1,0, o tamanho de etapa de quantização aumenta, a taxa de bits r sofre queda e espera-se que a qualidade percebida do processo se deteriore.
2.1.2 OTIMIZAÇÃO DE PARÂMETRO
[190] Para realizar sintonização de parâmetro ideal, cada sinal foi transformado e quantizado com o uso de possíveis combinações de parâmetros, e a entropia perceptual de cada quadro para cada parâmetro foi estimada. Entre todos os coeficientes de saída, uma combinação ideal de parâmetros que minimiza a entropia perceptual geral foi computada, e o sinal de saída foi, então, sintetizado com o uso desses parâmetros.
[191] Para encontrar parâmetros de banco de filtros ideais, cada banda de fator de mescla em cada quadro (um mosaico de mescla de 128 coeficientes) foi quantizada e sua entropia foi calculada. O gráfico de todos os parâmetros de todos os mosaicos de mescla em uma banda de fator de mescla, então, forma uma treliça, em que as ponderações de cada probabilidade de transição são ajustadas de modo a se igualarem à entropia do mosaico de mescla seguinte [7].
[192] Conforme anteriormente observado, nem todos as combinações e transições de parâmetros permitirão reconstrução perfeita durante a síntese, por exemplo, quando comutado de quadros longos para curtos, uma janela de início assimétrica precisa ser usada entre os mesmos. Regras similares são aplicadas para o uso de TDAR no banco de filtros não uniforme [1]. Para impedir essas transições de parâmetros ilegais, as probabilidades de transição na treliça foram multiplicadas com uma máscara que codificou todas as transições legais e ilegais, isto é, 1 para transições legais e 1 para transições ilegais.
[193] Depois disso, uma trajetória de ponderação mínima através da treliça foi computada com o uso de programação dinâmica, resultando em uma trajetória de parâmetro ideal geral em cada banda de fator de mescla individual que também garante perfeita reconstrução.
[194] Essa abordagem requer múltiplas passagens de codificação, uma visão muito antecipada e, desse modo, não é adequada para um dispositivo de conversão em código on-line real, entretanto, garante que ambos os métodos tenham desempenho na maior eficiência possível em todos os momentos. Para codificação on-line, existe métodos para decodificar tais diagramas em treliça sob restrições de latência [8].
[195] Ambos os sistemas presumiram uma transmissão simples e não compactada de informações secundárias necessárias: Para comutação de janela, 1 bit foi usado para cada quadro para sinalizar blocos longos e curtos (⌈𝑙𝑜𝑔2 (2)⌉ = 1). Para mesclagem de sub-banda, 29 bits foram usados por quadro para sinalizar ao sinalizador de fator de mescla e TDAR (8 bandas de fator de mescla com 6 fatores de mescla e 2 valores de TDAR cada uma, ⌈𝑙𝑜𝑔2 ((6 × 2)8 )⌉ = 29. Fatores de escala ou limiares de mascaramento eram conhecidos no lado de decodificador.
2.2 OBSERVAÇÕES GERAIS
[196] Executando-se apenas o processo de codificação/decodificação, pode-se observar as seguintes propriedades: Nas duas a três bandas de fator de mescla mais altas, na faixa de 15 kHz a 24 kHz, o dispositivo de conversão em código quase sempre escolheu um fator de mescla de 1, desabilitando a mesclagem. Na seção intermediária, bandas de fator de mescla 2 a 5 ou frequência na faixa entre 3 kHz e 15 kHz, o dispositivo de conversão em código escolheu principalmente o fator de mescla 1 ou 32. Na banda de fator de mescla mais baixa, na faixa de 0 kHz a 3 kHz, o dispositivo de conversão em código escolheu principalmente fatores de mescla 1 e 2. Fatores de mescla 4, 8 e 16 raramente foram escolhidos. Consultar a Figura 18.
[197] Detalhadamente, a Figura 18 mostra, em diagramas, distribuições de escolhas de fator de mescla (MF) e redução por distorção de domínio de tempo (TDAR) feitas pelo dispositivo de conversão em código.
[198] Essa observação está de acordo com os pressupostos básicos sobre o sistema auditivo: devido às altas frequências que têm um limiar muito alto no silêncio, efetivamente quase tudo é quantizado a zero, tornando a escolha no fator de mescla irrelevante. Nas frequências de faixa intermediária, o sistema auditivo tem uma alta resolução temporal, enquanto nas frequências mais baixas o ouvido humano tem uma resolução de frequência mais alta.
[199] Secundariamente, nota-se que para qualquer parâmetro de deturpação q escolhido, a taxa de bits correspondente do banco de filtros de mesclagem de sub- banda está abaixo daquela do banco de filtros de comutação de janela. Na média, o sistema não uniforme precisou de 5 a 13% menos bits por amostra para converter os sinais em código, consultar a Figura 19.
[200] Detalhadamente, a Figura 19 mostra, em diagramas, taxas de bits médias dos dois sistemas para parâmetros de deturpação diferentes q em 39 itens de teste.
2.3 AJUSTE DE TESTE DE ESCUTA
[201] Três definições de qualidade diferentes em coeficientes de tamanho de etapa de quantizador diferentes e, desse modo, taxas de bits médias foram consideradas: Transparente (HQ), ligeiramente prejudicada (MQ) e moderadamente prejudicada (LQ), consultar a Tabela 1 na Figura 20.
[202] Detalhadamente, a Tabela 1 na Figura 20 lista definições de qualidade e seu parâmetro de deturpação q e a taxa de bits média resultante.
[203] De acordo com o projeto do modelo perceptual, para HQ nenhum artefato audível foi esperado [4]. E, de fato, durante testes de escuta ABC/HR em pequena escala (ITU-R BS.1116–3) [9], ouvintes especialistas não puderam discernir diferenças significativas entre o método e o sinal de referência. Visto que é improvável que a condução de tal teste de escuta revele quaisquer resultados significativos, o mesmo foi ignorado em favor das duas definições de qualidade remanescentes MQ e LQ.
[204] Para MQ e LQ, o parâmetro de deturpação q do sistema de banco de filtros de comutação de janela foi escolhido de modo que sua taxa de bits de saída coincida com aquela do banco de filtros de mesclagem de sub-banda, o que significa que o parâmetro de deturpação q para o banco de filtros de mesclagem de sub-banda foi menor do que para o banco de filtros de comutação de janela. Por conseguinte, com o banco de filtros não uniforme, uma qualidade percebida mais alta pode ser alcançada, enquanto permite a mesma taxa de bits que o banco de filtros de comutação de janela. Para testar isso, um teste de escuta com o uso de teste com múltiplos estímulos com referência oculta e método de âncora (MUSHRA, ITU-R BS.1534–3) [10] foi conduzido.
2.4 CORPO DE SINAL DE TESTE
[205] Os sinais de teste para essa avaliação foram retirados de um conjunto de testes comumente usado para desenvolvimento e sintonização de conversor de áudio em código. O mesmo continha fala masculina e feminina e diversas gravações de músicas contendo sons harmônicos e percussivos. Todas as condições foram normalizadas quanto à sonoridade com o uso de ITU-R BS.1770–4 [11]. Consultar Tabela 2 na Figura 21. Detalhadamente, a Tabela 2 na Figura 21 lista os itens de teste diferentes.
2.5 RESULTADOS DE TESTE DE ESCUTA
[206] Um total de N=16 ouvintes especialistas participaram do teste.
[207] Primeiro, um teste de Shapiro-Wilk foi usado para testar as diferenças em pares nas pontuações MUSHRA entre os dois métodos quanto à normalidade. Para LQ e MQ, as diferenças foram significativamente anormais, consultar a Tabela 3 na Figura 22 e Tabela 4 na Figura 24.
[208] Detalhadamente, a Tabela 3 na Figura 22 lista resultados de teste de Shapiro-Wilk quanto à normalidade para as diferenças de pontuações MUSHRA em pares entre o banco de filtros de comutação de janela (WS) e banco de filtros de mesclagem de sub-banda (SM) em definições de qualidade ligeiramente prejudicadas (MQ) e moderadamente prejudicadas (LQ). W denota estatística de W, p denota valor de p.
[209] Portanto, um teste paramétrico de classificação com sinais de Wilcoxon foi usado, em vez do teste t paramétrico pareado em todas as condições. Um sumário de todos os testes pode ser observado na Tabela 4 na Figura 24.
[210] Detalhadamente, a Tabela 4 na Figura 24 lista a média, o desvio padrão (SD) e resultados de teste de classificação com sinais de Wilcoxon para as pontuações MUSHRA comparando o banco de filtros de comutação de janela (WS) e o banco de filtros de mesclagem de sub-banda (SM) em definições de qualidade ligeiramente prejudicadas (MQ) e moderadamente prejudicadas (LQ). W denota estatística de sW, p denota valor de p.
[211] Um teste de classificação com sinais de Wilcoxon foi conduzido para comparar a qualidade perceptual dos dois sistemas em MQ. Houve uma diferença significativa nas pontuações MUSHRA para o banco de filtros de comutação de janela e o banco de filtros de mesclagem de sub-banda, p=0,000.
[212] Secundariamente, um teste de classificação com sinais de Wilcoxon foi conduzido para comparar a qualidade perceptual dos dois sistemas na definição de qualidade LQ. Houve uma diferença significativa nas pontuações MUSHRA para o banco de filtros de comutação de janela e o banco de filtros de mesclagem de sub- banda, p=0,000.
[213] A Figura 25 mostra, em diagramas, intervalos de confiança médios e de 95% de diferenças de pontuação MUSHRA para itens individuais, banco de filtros de comutação de janela e banco de filtros de mesclagem de sub-banda em definições de qualidade ligeiramente prejudicadas (MQ) e moderadamente prejudicadas (LQ). Valores positivos favoreceram a mesclagem de sub-banda em relação à comutação de janela.
2.6 MODALIDADES ADICIONAIS
[214] Modalidades fornecem um método de uso de um banco de filtros ortogonal não uniforme com base na análise/síntese de MDCT e TDAR em um conversor de áudio em código simples. Acima, sua eficácia da conversão em código foi comparada com um bando de filtros de MDCT de comutação de janela uniforme. E média, o não uniforme precisou de 5 a 13% menos bits por amostra para converter os sinais de teste em código. Essa eficácia da conversão em código adicional pode ser usada para melhorar a qualidade percebida do dispositivo de conversão em código na mesma taxa de bits de saída.
[215] No teste descrito acima, a qualidade percebida melhorada de 6 a 7 pontos MUSHRA foi verificada com o uso de um teste de escuta MUSHRA e uma análise estatística subsequente. Constatou-se que a diferença na qualidade percebida era estatisticamente significativa.
[216] A Figura 26 mostra um fluxograma de um método 500 para processar um sinal de áudio para obter uma representação de sub-banda do sinal de áudio de acordo com uma modalidade da presente invenção. O método 500 compreende uma etapa 502 de realizar uma transformada criticamente amostrada com sobreposição em cascata em pelo menos dois blocos parcialmente justapostos de amostras do sinal de áudio, para obter um conjunto de amostras de sub-banda com base em um primeiro bloco de amostras do sinal de áudio e para obter um conjunto correspondente de amostras de sub-banda com base em um segundo bloco de amostras do sinal de áudio. O método 500 compreende, ainda, uma etapa 504 de realizar uma combinação ponderada de dois conjuntos correspondentes de amostras de sub-banda, um obtido com base no primeiro bloco de amostras do sinal de áudio e um obtido com base no segundo bloco de amostras do sinal de áudio, para obter uma representação de sub- banda reduzida por distorção do sinal de áudio; em que realizar uma transformada criticamente amostrada com sobreposição em cascata compreende segmentar um conjunto de bins obtido com base no primeiro bloco de amostras com o uso de pelo menos duas funções de janela, e para obter pelo menos dois conjuntos segmentados de bins baseados no conjunto segmentado de bins correspondente ao primeiro bloco de amostras; em que realizar uma transformada criticamente amostrada com sobreposição em cascata compreende segmentar um conjunto de bins obtido com base no segundo bloco de amostras com o uso das pelo menos duas funções de janela, e para obter pelo menos dois conjuntos de bins baseados no conjunto segmentado de bins correspondente ao segundo bloco de amostras; e em que os conjuntos de bins são processados com o uso de uma segunda transformada criticamente amostrada com sobreposição da transformada criticamente amostrada com sobreposição em cascata, em que a segunda transformada criticamente amostrada com sobreposição compreende realizar transformadas criticamente amostradas com sobreposição que têm o mesmo comprimento de quadro para pelo menos um conjunto de bins.
[217] A Figura 27 mostra um fluxograma de um método 600 para processar uma representação de sub-banda de um sinal de áudio para obter o sinal de áudio de acordo com uma modalidade da presente invenção. O método 600 compreende uma etapa 602 de realizar uma combinação ponderada de duas representações de sub- banda reduzidas por distorção correspondentes do sinal de áudio para obter uma representação de sub-banda distorcida, em que a representação de sub-banda distorcida é um conjunto de amostras de sub-banda. Além disso, o método 600 compreende uma etapa 604 de realizar uma transformada criticamente amostrada com sobreposição em cascata inversa no conjunto de amostras de sub-banda para obter um conjunto de amostras associado a um bloco de amostras do sinal de áudio, em que realizar a transformada criticamente amostrada com sobreposição em cascata inversa compreende realizar uma primeira transformada criticamente amostrada com sobreposição inversa no conjunto de amostras de sub-banda, para obter um conjunto de bins associado a uma dada sub-banda do sinal de áudio, em que realizar a primeira transformada criticamente amostrada com sobreposição inversa compreende realizar transformadas criticamente amostradas com sobreposição inversas que têm o mesmo comprimento de quadro para o conjunto de amostras de sub-banda.
[218] Subsequentemente, modalidades adicionais são descritas. Assim, as modalidades abaixo podem ser combinadas com as modalidades acima.
[219] Modalidade 1: Um processador de áudio (100) para processar um sinal de áudio (102) para obter uma representação de sub-banda do sinal de áudio (102), sendo que o processador de áudio (100) compreende: um estágio de transformada criticamente amostrada com sobreposição em cascata (104) configurado para realizar uma transformada criticamente amostrada com sobreposição em cascata em pelo menos dois blocos parcialmente justapostos (108_1;108_2) de amostras do sinal de áudio (102), para obter um conjunto (110_1,1) de amostras de sub-banda com base em um primeiro bloco (108_1) de amostras do sinal de áudio (102) e para obter um conjunto correspondente (110_2,1) de amostras de sub-banda com base em um segundo bloco (108_2) de amostras do sinal de áudio (102); e um estágio de redução por distorção de domínio de tempo (106) configurado para realizar uma combinação ponderada de dois conjuntos correspondentes (110_1,1;110_1,2) de amostras de sub- banda, um obtido com base no primeiro bloco (108_1) de amostras do sinal de áudio (102) e um obtido com base no segundo bloco (108_2) de amostras do sinal de áudio, para obter uma representação de sub-banda reduzida por distorção (112_1) do sinal de áudio (102).
[220] Modalidade 2: O processador de áudio (100), de acordo com a modalidade 1, em que o estágio de transformada criticamente amostrada com sobreposição em cascata (104) compreende: um primeiro estágio de transformada criticamente amostrada com sobreposição (120) configurado para realizar transformadas criticamente amostradas com sobreposição em um primeiro bloco (108_1) de amostras e um segundo bloco (108_2) de amostras dos pelo menos dois blocos parcialmente justapostos (108_1;108_2) de amostras do sinal de áudio (102), para obter um primeiro conjunto (124_1) de bins para o primeiro bloco (108_1) de amostras e um segundo conjunto (124_2) de bins para o segundo bloco (108_2) de amostras.
[221] Modalidade 3: O processador de áudio (100), de acordo com a modalidade 2, em que o estágio de transformada criticamente amostrada com sobreposição em cascata (104) compreende, ainda: um segundo estágio de transformada criticamente amostrada com sobreposição (126) configurado para realizar uma transformada criticamente amostrada com sobreposição em um segmento (128_1,1) do primeiro conjunto (124_1) de bins e para realizar uma transformada criticamente amostrada com sobreposição em um segmento (128_2,1) do segundo conjunto (124_2) de bins, sendo que cada segmento é associado a uma sub-banda do sinal de áudio (102), para obter um conjunto (110_1,1) de amostras de sub-banda para o primeiro conjunto de bins e um conjunto (110_2,1) de amostras de sub-banda para o segundo conjunto de bins.
[222] Modalidade 4: O processador de áudio (100), de acordo com a modalidade 3, em que um primeiro conjunto (110_1,1) de amostras de sub-banda é um resultado de uma primeira transformada criticamente amostrada com sobreposição (132_1,1)
com base no primeiro segmento (128_1,1) do primeiro conjunto (124_1) de bins, em que um segundo conjunto (110_1,2) de amostras de sub-banda é um resultado de uma segunda transformada criticamente amostrada com sobreposição (132_1,2) com base no segundo segmento (128_1,2) do primeiro conjunto (124_1) de bins, em que um terceiro conjunto (110_2,1) de amostras de sub-banda é um resultado de uma terceira transformada criticamente amostrada com sobreposição (132_2,1) com base no primeiro segmento (128_2,1) do segundo conjunto (128_2,1) de bins, em que um quarto conjunto (110_2,2) de amostras de sub-banda é um resultado de uma quarta transformada criticamente amostrada com sobreposição (132_2,2) com base no segundo segmento (128_2,2) do segundo conjunto (128_2,1) de bins; e em que o estágio de redução por distorção de domínio de tempo (106) é configurado para realizar uma combinação ponderada do primeiro conjunto (110_1,1) de amostras de sub-banda e do terceiro conjunto (110_2,1) de amostras de sub-banda para obter uma primeira representação de sub-banda reduzida por distorção (112_1) do sinal de áudio, em que o estágio de redução por distorção de domínio de tempo (106) é configurado para realizar uma combinação ponderada do segundo conjunto (110_1,2) de amostras de sub-banda e do quarto conjunto (110_2,2) de amostras de sub-banda para obter uma segunda representação de sub-banda reduzida por distorção (112_2) do sinal de áudio.
[223] Modalidade 5: O processador de áudio (100), de acordo com uma das modalidades 1 a 4, em que o estágio de transformada criticamente amostrada com sobreposição em cascata (104) é configurado para segmentar um conjunto (124_1) de bins obtido com base no primeiro bloco (108_1) de amostras com o uso de pelo menos duas funções de janela e para obter pelo menos dois conjuntos segmentados (128_1,1;128_1,2) de amostras de sub-banda baseados no conjunto segmentado de bins correspondente ao primeiro bloco (108_1) de amostras; em que o estágio de transformada criticamente amostrada com sobreposição em cascata (104) é configurado para segmentar um conjunto (124_2) de bins obtido com base no segundo bloco (108_2) de amostras com o uso das pelo menos duas funções de janela e para obter pelo menos dois conjuntos segmentados (128_2,1;128_2,2) de amostras de sub-banda baseados no conjunto segmentado de bins correspondente ao segundo bloco (108_2) de amostras; e em que as pelo menos duas funções de janela compreendem largura de janela diferente.
[224] Modalidade 6: O processador de áudio (100), de acordo com uma das modalidades 1 a 5, em que o estágio de transformada criticamente amostrada com sobreposição em cascata (104) é configurado para segmentar um conjunto (124_1) de bins obtido com base no primeiro bloco (108_1) de amostras com o uso de pelo menos duas funções de janela e para obter pelo menos dois conjuntos segmentados (128_1,1;128_1,2) de amostras de sub-banda baseados no conjunto segmentado de bins correspondente ao primeiro bloco (108_1) de amostras; em que o estágio de transformada criticamente amostrada com sobreposição em cascata (104) é configurado para segmentar um conjunto (124_2) de bins obtido com base no segundo bloco (108_2) de amostras com o uso das pelo menos duas funções de janela e para obter pelo menos dois conjuntos (128_2,1;128_2,2) de amostras de sub-banda baseados no conjunto segmentado de bins correspondente ao segundo bloco (108_2) de amostras; e em que inclinações de filtro das funções de janela correspondentes aos conjuntos de amostras de sub-banda adjacentes são simétricas.
[225] Modalidade 7: O processador de áudio (100), de acordo com uma das modalidades 1 a 6, em que o estágio de transformada criticamente amostrada com sobreposição em cascata (104) é configurado para segmentar as amostras do sinal de áudio no primeiro bloco (108_1) de amostras e no segundo bloco (108_2) de amostras com o uso de uma primeira função de janela; em que o estágio de transformada criticamente amostrada com sobreposição (104) é configurado para segmentar um conjunto (124_1) de bins obtido com base no primeiro bloco (108_1) de amostras e um conjunto (124_2) de bins obtido com base no segundo bloco (108_2) de amostras com o uso de uma segunda função de janela para obter as amostras de sub-banda correspondentes; e em que a primeira função de janela e a segunda função de janela compreendem largura de janela diferente.
[226] Modalidade 8: O processador de áudio (100), de acordo com uma das modalidades 1 a 6, em que o estágio de transformada criticamente amostrada com sobreposição em cascata (104) é configurado para segmentar as amostras do sinal de áudio no primeiro bloco (108_1) de amostras e no segundo bloco (108_2) de amostras com o uso de uma primeira função de janela; em que o estágio de transformada criticamente amostrada com sobreposição em cascata (104) é configurado para segmentar um conjunto (124_1) de bins obtido com base no primeiro bloco (108_1) de amostras e um conjunto (124_2) de bins obtido com base no segundo bloco (108_2) de amostras com o uso de uma segunda função de janela para obter as amostras de sub-banda correspondentes; e em que uma largura de janela da primeira função de janela e uma largura de janela da segunda função de janela são diferentes entre si, em que a largura de janela da primeira função de janela e a largura de janela da segunda função de janela diferem entre si por um fator diferente de uma potência de dois.
[227] Modalidade 9: O processador de áudio (100), de acordo com uma das modalidades 1 a 8, em que o estágio de redução por distorção de domínio de tempo (106) é configurado para realizar a combinação ponderada de dois conjuntos correspondentes de amostras de sub-banda de acordo com a seguinte equação para 0 ≤ 𝑚 < 𝑁/2 com
[228] para obter a representação de sub-banda reduzida por distorção do sinal de áudio, em que yv,i(m) é uma primeira representação de sub-banda reduzida por distorção do sinal de áudio, yv,i-1(N-1-m) é uma segunda representação de sub-banda reduzida por distorção do sinal de áudio, ŷv,i(m) é um conjunto de amostras de sub- banda com base no segundo bloco de amostras do sinal de áudio, ŷ v,i-1(N-1-m) é um conjunto de amostras de sub-banda com base no primeiro bloco de amostras do sinal de áudio, av(m) é..., bv(m) é…, cv(m) é… e dv(m) é….
[229] Modalidade 10: Um processador de áudio (200) para processar uma representação de sub-banda de um sinal de áudio para obter o sinal de áudio (102), sendo que o processador de áudio (200) compreende: um estágio de redução por distorção de domínio de tempo inverso (202) configurado para realizar uma combinação ponderada de duas representações de sub-banda reduzidas por distorção correspondentes do sinal de áudio (102), para obter uma representação de sub-banda distorcida, em que a representação de sub-banda distorcida é um conjunto (110_1,1) de amostras de sub-banda; e um estágio de transformada criticamente amostrada com sobreposição em cascata inverso (204) configurado para realizar uma transformada criticamente amostrada com sobreposição em cascata inversa no conjunto (110_1,1) de amostras de sub-banda para obter um conjunto (206_1,1) de amostras associado a um bloco de amostras do sinal de áudio (102).
[230] Modalidade 11: O processador de áudio (200), de acordo com a modalidade 10, em que o estágio de transformada criticamente amostrada com sobreposição em cascata inverso (204) compreende um primeiro estágio de transformada criticamente amostrada com sobreposição inverso (208) configurado para realizar uma transformada criticamente amostrada com sobreposição inversa no conjunto (110_1,1) de amostras de sub-banda, para obter um conjunto de bins (128_1,1) associado a uma dada sub-banda do sinal de áudio; e um primeiro estágio de justaposição e adição (210) configurado para realizar uma concatenação de conjuntos de bins associados a uma pluralidade de sub-bandas do sinal de áudio, que compreende uma combinação ponderada do conjunto (128_1,1) de bins associado à dada sub-banda do sinal de áudio (102) com um conjunto (128_1,2) de bins associado a uma outra sub-banda do sinal de áudio (102), para obter um conjunto (124_1) de bins associado a um bloco de amostras do sinal de áudio (102).
[231] Modalidade 12: O processador de áudio (200), de acordo com a modalidade 11, em que o estágio de transformada criticamente amostrada com sobreposição em cascata inverso (204) compreende um segundo estágio de transformada criticamente amostrada com sobreposição inverso (212) configurado para realizar uma transformada criticamente amostrada com sobreposição inversa no conjunto (124_1) de bins associado ao bloco de amostras do sinal de áudio (102) para obter um conjunto de amostras associado ao bloco de amostras do sinal de áudio (102).
[232] Modalidade 13: O processador de áudio (200), de acordo com a modalidade 12, em que o estágio de transformada criticamente amostrada com sobreposição em cascata inverso (204) compreende um segundo estágio de justaposição e adição (214) configurado para justapor e adicionar o conjunto (206_1,1) de amostras associado ao bloco de amostras do sinal de áudio (102) e um outro conjunto (206_2,1) de amostras associado a um outro bloco de amostras do sinal de áudio (102), sendo que o bloco de amostras e o outro bloco de amostras do sinal de áudio (102) se justapõem parcialmente para obter o sinal de áudio (102).
[233] Modalidade 14: O processador de áudio (200), de acordo com uma das modalidades 10 a 13, em que o estágio de redução por distorção de domínio de tempo inverso (202) é configurado para realizar a combinação ponderada das duas representações de sub-banda reduzidas por distorção correspondentes do sinal de áudio (102) com base na seguinte equação para 0 ≤ 𝑚 < 𝑁/2 com
[234] para obter a representação de sub-banda distorcida, em que yv,i(m) é uma primeira representação de sub-banda reduzida por distorção do sinal de áudio, yv,i- 1(N-1-m) é uma segunda representação de sub-banda reduzida por distorção do sinal de áudio, ŷv,i(m) é um conjunto de amostras de sub-banda com base no segundo bloco de amostras do sinal de áudio, ŷv,i-1(N-1-m) é um conjunto de amostras de sub-banda com base no primeiro bloco de amostras do sinal de áudio, av(m) é..., bv(m) é…, cv(m) é… e dv(m) é….
[235] Modalidade 15: Um codificador de áudio que compreende: um processador de áudio (100), de acordo com uma das modalidades 1 a 9; um codificador configurado para codificar a representação de sub-banda reduzida por distorção do sinal de áudio para obter uma representação de sub-banda reduzida por distorção codificada do sinal de áudio; e um formador de fluxo de bits configurado para formar um fluxo de bits a partir da representação de sub-banda reduzida por distorção codificada do sinal de áudio.
[236] Modalidade 16: Um decodificador de áudio que compreende: um interpretador de fluxo de bits configurado para interpretar o fluxo de bits para obter a representação de sub-banda reduzida por distorção codificada; um decodificador configurado para decodificar a representação de sub-banda reduzida por distorção codificada para obter a representação de sub-banda reduzida por distorção do sinal de áudio; e um processador de áudio (200), de acordo com uma das modalidades 10 a 14.
[237] Modalidade 17: Um analisador de áudio que compreende: um processador de áudio (100), de acordo com uma das modalidades 1 a 9; e um extrator de informações configurado para analisar a representação de sub-banda reduzida por distorção para fornecer informações que descrevem o sinal de áudio.
[238] Modalidade 18: Um método (300) para processar um sinal de áudio para obter uma representação de sub-banda do sinal de áudio, sendo que o método compreende realizar (302) uma transformada criticamente amostrada com sobreposição em cascata em pelo menos dois blocos parcialmente justapostos de amostras do sinal de áudio, para obter um conjunto de amostras de sub-banda com base em um primeiro bloco de amostras do sinal de áudio e para obter um conjunto correspondente de amostras de sub-banda com base em um segundo bloco de amostras do sinal de áudio; e realizar (304) uma combinação ponderada de dois conjuntos correspondentes de amostras de sub-banda, um obtido com base no primeiro bloco de amostras do sinal de áudio e um obtido com base no segundo bloco de amostras do sinal de áudio, para obter uma representação de sub-banda reduzida por distorção do sinal de áudio.
[239] Modalidade 19: Um método (400) para processar uma representação de sub-banda de um sinal de áudio para obter o sinal de áudio, sendo que o método compreende: realizar (402) uma combinação ponderada de duas representações de sub-banda reduzidas por distorção correspondentes do sinal de áudio para obter uma representação de sub-banda distorcida, em que a representação de sub-banda distorcida é um conjunto de amostras de sub-banda; e realizar (404) uma transformada criticamente amostrada com sobreposição em cascata inversa no conjunto de amostras de sub-banda para obter um conjunto de amostras associado a um bloco de amostras do sinal de áudio.
[240] Modalidade 20: Um programa de computador para realizar um método, de acordo com uma das modalidades 18 e 19.
[241] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é evidente que esses aspectos também representam uma descrição do método correspondente, em que um bloco ou um dispositivo corresponde a uma etapa do método ou um recurso de uma etapa do método. De modo análogo, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item ou recurso correspondente de um aparelho correspondente. Algumas ou todas as etapas do método podem ser executadas por (ou com o uso de) um aparelho de hardware, como, por exemplo, um microprocessador, um computador programável ou um circuito eletrônico. Em algumas modalidades, uma ou mais das etapas mais importantes do método podem ser executadas por tal aparelho.
[242] Dependendo de determinados requisitos de implementação, as modalidades da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada com o uso de uma mídia de armazenamento digital, por exemplo, um disquete, um DVD, um Blue-Ray, um CD, uma ROM, uma PROM,
uma EPROM, uma EEPROM ou uma memória FLASH, que têm sinais de controle eletronicamente legíveis armazenados nos mesmos, que cooperam (ou têm capacidade para cooperar) com um sistema de computador programável de modo que o respectivo método seja realizado. Portanto, a mídia de armazenamento digital pode ser legível por computador.
[243] Algumas modalidades de acordo com a invenção compreendem uma portadora de dados que tem sinais de controle eletronicamente legíveis, que tem capacidade para cooperar com um sistema de computador programável, de modo que um dos métodos descritos no presente documento seja realizado.
[244] Em geral, as modalidades da presente invenção podem ser implementadas como um produto de programa de computador com um código de programa, em que o código de programa é operacional para realizar um dos métodos quando o produto de programa de computador é executado em um computador. O código de programa pode, por exemplo, ser armazenado em uma portadora legível por máquina.
[245] Outras modalidades compreendem o programa de computador para realizar um dos métodos descritos no presente documento, armazenado em uma portadora legível por máquina.
[246] Em outras palavras, uma modalidade do método inventivo é, portanto, um programa de computador que tem um código de programa para realizar um dos métodos descritos no presente documento, quando o programa de computador é executado em um computador.
[247] Uma modalidade adicional dos métodos inventivos é, portanto, uma portadora de dados (ou uma mídia de armazenamento digital ou uma mídia legível por computador) que compreende, gravado na mesma, o programa de computador para realizar um dos métodos descritos no presente documento. A portadora de dados, a mídia de armazenamento digital ou a mídia gravada são tipicamente tangíveis e/ou não transitórias.
[248] Uma modalidade adicionalmente do método inventivo é, portanto, um fluxo de dados ou uma sequência de sinais que representa o programa de computador para realizar um dos métodos descritos no presente documento. O fluxo de dados ou a sequência de sinais pode ser configurado, por exemplo, para ser transferido por meio de uma conexão de comunicação de dados, por exemplo, por meio da Internet.
[249] Uma modalidade adicional compreende um meio de processamento, por exemplo, um computador ou um dispositivo de lógica programável, configurado ou adaptado para realizar um dos métodos descritos no presente documento.
[250] Uma modalidade adicional compreende um computador que tem, instalado no mesmo, o programa de computador para realizar um dos métodos descritos no presente documento.
[251] Uma modalidade adicional de acordo com a invenção compreende um aparelho ou um sistema configurado para transferir (por exemplo, de modo eletrônico ou óptico) um programa de computador para realizar um dos métodos descritos no presente documento para um receptor. O receptor pode, por exemplo, ser um computador, um dispositivo móvel, um dispositivo de memória ou semelhantes. O aparelho ou sistema pode compreender, por exemplo, um servidor de arquivo para transferir o programa de computador para o receptor.
[252] Em algumas modalidades, um dispositivo de lógica programável (por exemplo, uma matriz de portas programável em campo) pode ser usado para realizar algumas ou todas as funcionalidades dos métodos descritos no presente documento. Em algumas modalidades, uma matriz de portas programáveis em campo pode cooperar com um microprocessador a fim de realizar um dos métodos descritos no presente documento. De modo geral, os métodos são realizados, de preferência, por meio de qualquer aparelho de hardware.
[253] O aparelho descrito no presente documento pode ser implementado com o uso de um aparelho de hardware, ou com o uso de um computador ou com o uso de uma combinação de um aparelho de hardware e um computador.
[254] O aparelho descrito no presente documento ou quaisquer componentes do aparelho descrito no presente documento podem ser implementados pelo menos parcialmente em hardware e/ou em software.
[255] Os métodos descritos no presente documento podem ser realizados com o uso de um aparelho de hardware, ou com o uso de um computador ou com o uso de uma combinação de um aparelho de hardware e um computador.
[256] Os métodos descritos no presente documento ou quaisquer componentes do aparelho descrito no presente documento podem ser realizados pelo menos parcialmente por hardware e/ou por software.
[257] As modalidades descritas acima são apenas ilustrativas para os princípios da presente invenção. Fica entendido que as modificações e variações das disposições e dos detalhes descritos no presente documento serão evidentes para outros indivíduos versados na técnica. Portanto, pretende-se que sejam limitadas somente pelo escopo das reivindicações da patente iminentes e não pelos detalhes específicos apresentados a título de descrição e explicação das modalidades no presente documento.
REFERÊNCIAS
[1] Nils Werner e Bernd Edler, “Nonuniform orthogonal filterbanks based on MDCT analysis/synthesis and time-domain aliasing reduction”, IEEE Signal Processing Letters, volume 24, n° 5, páginas 589 a 593, maio de 2017.
[2] Fernando C. Pereira e Touradj Ebrahimi, The MPEG-4 Book, Prentice Hall PTR, Upper Saddle River, NJ, EUA, 2002.
[3] B. C. Moore e B. R. Glasberg, “Suggested formulae for calculating auditory-filter bandwidths and excitation patterns”, J. Acoust. Soc. Am., volume 74, n° 3, páginas 750 a 753, setembro de 1983.
[4] A. Taghipour, M. C. Jaikumar e B. Edler, “A psychoacoustic model with partial spectral flatness measure for tonality estimation”, em Proc. 22nd Eur. Signal Process. Conf. (EUSIPCO), 2014, páginas 646 a 650.
[5] J. D. Johnston, “Estimation of perceptual entropy using noise masking criteria”, em ICASSP-88, International Conference on Acoustics, Speech, and Signal Processing, abril de 1988, páginas 2.524 a 2.527, volume 5.
[6] B. Edler, “Codierung von Audiosignalen mit überlappender
Transformation und adaptiven Fensterfunktionen”, Frequenz, volume 43, páginas 252 a 256, setembro de 1989.
[7] V. Melkote e K. Rose, “Trellis-based approaches to rate-distortion optimized audio encoding”, IEEE Transactions on Audio, Speech, and Language Processing, volume 18, n° 2, páginas 330 a 341, fevereiro de 2010.
[8] Mukund Narasimhan, Paul Viola e Michael Shilman, “Online decoding of markov models under latency constraints”, em Proceedings of the 23rd International Conference on Machine Learning, Nova York, NY, EUA, 2006, ICML ’06, páginas 657 a 664, ACM.
[9] ITU Radiocommunication Bureau, “BS.1116-3: methods for the subjective assessment of small impairments in audio systems”, Recommendation ITU- R BS. 1116, 2015.
[10] ITU Radiocommunication Bureau, “BS.1534-3: method for the subjective assessment of intermediate quality level of coding systems”, Recommendation ITUR BS. 1534, 2015.
[11] ITU Radiocommunication Bureau, “BS.1770-3: algorithms to measure audio programme loudness e truepeak audio level”, Recommendation ITU-R BS. 1770, 2015.
[12] F. Schuh, S. Dick, R. Füg, C. R. Helmrich, N. Rettelbach e T. Schwegler, “Efficient Multichannel Audio Transform Coding with Low Delay and Complexity”. Audio Engineering Society, setembro de 2016. [Online]. Disponível: http://www.aes.org/e-lib/browse.cfm?elib=18464
[13] WO 2018 019 909 A1
[14] EP 3 276 620 A1

Claims (26)

REIVINDICAÇÕES
1. Processador de áudio (100) para processar um sinal de áudio (102) para obter uma representação de sub-banda do sinal de áudio (102), em que o processador de áudio (100) é caracterizado por compreender: um estágio de transformada criticamente amostrada com sobreposição em cascata (104) configurado para realizar uma transformada criticamente amostrada com sobreposição em cascata em pelo menos dois blocos parcialmente justapostos (108_1;108_2) de amostras do sinal de áudio (102), para obter um conjunto (110_1,1) de amostras de sub-banda com base em um primeiro bloco (108_1) de amostras do sinal de áudio (102) e para obter um conjunto correspondente (110_2,1) de amostras de sub-banda com base em um segundo bloco (108_2) de amostras do sinal de áudio (102); e um estágio de redução por distorção de domínio de tempo (106) configurado para realizar uma combinação ponderada de dois conjuntos correspondentes (110_1,1;110_1,2) de amostras de sub-banda, um obtido com base no primeiro bloco (108_1) de amostras do sinal de áudio (102) e um obtido com base no segundo bloco (108_2) de amostras do sinal de áudio, para obter uma representação de sub-banda reduzida por distorção (112_1) do sinal de áudio (102); em que o estágio de transformada criticamente amostrada com sobreposição em cascata (104) é configurado para segmentar um conjunto (124_1) de bins obtido com base no primeiro bloco (108_1) de amostras com o uso de pelo menos duas funções de janela e para obter pelo menos dois conjuntos (128_1,1;128_1,2) de bins baseados no conjunto segmentado de bins correspondente ao primeiro bloco (108_1) de amostras; em que o estágio de transformada criticamente amostrada com sobreposição em cascata (104) é configurado para segmentar um conjunto (124_2) de bins obtido com base no segundo bloco (108_2) de amostras com o uso das pelo menos duas funções de janela e para obter pelo menos dois conjuntos (128_2,1;128_2,2) de bins baseados no conjunto segmentado de bins correspondente ao segundo bloco (108_2) de amostras; e em que os conjuntos (128_1,1;128_1,2;128_2,1;128_2,2) de bins são processados com o uso de um segundo estágio de transformada criticamente amostrada com sobreposição do estágio de transformada criticamente amostrada com sobreposição em cascata, em que o segundo estágio de transformada criticamente amostrada com sobreposição é configurado para realizar transformadas criticamente amostradas com sobreposição que têm o mesmo comprimento de quadro para pelo menos um conjunto de bins; em que o processador de áudio (100) é configurado para ativar ou manter o estágio de redução por distorção de domínio de tempo (106) ativado, se os mesmos comprimentos de quadro forem usados para dois blocos subsequentes (108_1, 108_2), e/ou em que o processador de áudio (100) é configurado para desativar ou manter o estágio de redução por distorção de domínio de tempo (106) desativado, se diferentes comprimentos de quadro forem usados para dois blocos subsequentes (108_1, 108_2).
2. Processador de áudio (100), de acordo com a reivindicação 1, caracterizado por o segundo estágio de transformada criticamente sobreposta (126) ser configurado para realizar N1,1 transformadas criticamente amostradas com sobreposição em N1,1 subconjuntos de um primeiro conjunto (128_1,1) dos pelo menos dois conjuntos (128_1,1;128_1,2) de bins obtidos com base no conjunto segmentado de bins correspondente ao primeiro bloco (108_1) de amostras, em que as N1,1 transformadas criticamente amostradas com sobreposição compreendem o mesmo comprimento de quadro, em que N 1,1 é um número natural maior ou igual a dois, em que o segundo estágio de transformada criticamente sobreposta (126) é configurado para realizar N1,2 transformadas criticamente amostradas com sobreposição em N1,2 subconjuntos de um primeiro conjunto correspondente (128_1,2) dos pelo menos dois conjuntos (128_2,1;128_2,2) de bins obtidos com base no conjunto segmentado de bins correspondente ao segundo bloco (108_2) de amostras, em que as N2,1 transformadas criticamente amostradas com sobreposição compreendem o mesmo comprimento de quadro, em que N2,1 é um número natural maior ou igual a dois.
3. Processador de áudio (100), de acordo com a reivindicação 1 ou 2, em que o processador de áudio (100) é caracterizado por ser configurado para selecionar individualmente o comprimento de quadro para cada conjunto de bins (128_1,1, 128_1,2, 128_2,1, 128_2,2) ou para cada um dos conjuntos correspondentes (128_1,1 e 128_2,1; 128_1,2 e 128_2,2) de bins.
4. Processador de áudio (100), de acordo com qualquer uma das reivindicações 1 a 3, em que o processador de áudio é caracterizado por ser configurado para selecionar individualmente o comprimento de quadro para cada bloco (108_1, 108_2) de amostras.
5. Processador de áudio (100), de acordo com qualquer uma das reivindicações 1 a 4, em que o processador de áudio (100) é caracterizado por ser configurado para realizar uma otimização comum/conjunta para adaptar os comprimentos de quadro com o uso de uma grade em treliça por conjunto de amostras de sub-banda.
6. Processador de áudio (100), de acordo com qualquer uma das reivindicações 1 a 5, caracterizado por as pelo menos duas funções de janela compreenderem a mesma largura de janela.
7. Processador de áudio (100), de acordo com qualquer uma das reivindicações 1 a 6, caracterizado por as pelo menos duas funções de janela compreenderem largura de janela diferente.
8. Processador de áudio (100), de acordo com qualquer uma das reivindicações 1 a 7,
caracterizado por as pelo menos duas funções de janela compreenderem janelas substancialmente retangulares.
9. Processador de áudio (100), de acordo com qualquer uma das reivindicações 6 a 8, caracterizado por os conjuntos de bins obtidos com base nas pelo menos duas funções de janela serem processados com o uso do segundo estágio de transformada criticamente amostrada com sobreposição, em que o segundo estágio de transformada criticamente amostrada com sobreposição é configurado para realizar pelo menos duas transformadas criticamente amostradas com sobreposição que têm o mesmo comprimento de quadro para pelo menos um dos conjuntos de bins obtidos com base nas pelo menos duas funções de janela.
10. Processador de áudio (100), de acordo com qualquer uma das reivindicações 1 a 9, em que o processador de áudio (100) é caracterizado por ser configurado para realizar conversão em código conjunta de canal.
11. Processador de áudio, de acordo com a reivindicação 10, em que o processador de áudio (100) é caracterizado por ser configurado para realizar M/S ou ferramenta de conversão em código multicanal, MCT, como processamento conjunto de canal.
12. Processador de áudio (100), de acordo com qualquer uma das reivindicações 10 a 11, em que o processador de áudio (100) é caracterizado por ser configurado para ativar ou desativar processamento conjunto de canal individualmente para cada um dos pelo menos dois conjuntos segmentados (128_1,1;128_1,2) de bins.
13. Processador de áudio (100), de acordo com qualquer uma das reivindicações 1 a 12, em que o processador de áudio (100) é caracterizado por ser configurado para formar um fluxo de bits a partir de uma representação de sub-banda reduzida por distorção (112_1, 112_2) codificada do sinal de áudio, em que o processador de áudio (100) é configurado para fornecer o fluxo de bits que compreende pelo menos um parâmetro de fator de mescla, MF, que sinaliza pelo menos um comprimento de quadro dos conjuntos correspondentes (128_1,1 e 128_2,1; 128_1,2 e 128_2,2) de bins no fluxo de bits.
14. Processador de áudio (100), de acordo com a reivindicação 13, em que o processador de áudio (100) é caracterizado por ser configurado para codificar por entropia o pelo menos um parâmetro de fator de mescla, MF.
15. Processador de áudio (100) para processar um sinal de áudio (102) para obter uma representação de sub-banda do sinal de áudio (102), em que o processador de áudio (100) é caracterizado por compreender: um estágio de transformada criticamente amostrada com sobreposição em cascata (104) configurado para realizar uma transformada criticamente amostrada com sobreposição em cascata em pelo menos dois blocos parcialmente justapostos (108_1; 108_2) de amostras do sinal de áudio (102), para obter um conjunto (110_1,1) de amostras de sub-banda com base em um primeiro bloco (108_1) de amostras do sinal de áudio (102) e para obter um conjunto correspondente (110_2,1) de amostras de sub-banda com base em um segundo bloco (108_2) de amostras do sinal de áudio (102); e um estágio de redução por distorção de domínio de tempo (106) configurado para realizar uma combinação ponderada de dois conjuntos correspondentes (110_1,1;110_1,2) de amostras de sub-banda, um obtido com base no primeiro bloco (108_1) de amostras do sinal de áudio (102) e um obtido com base no segundo bloco (108_2) de amostras do sinal de áudio, para obter uma representação de sub-banda reduzida por distorção (112_1) do sinal de áudio (102); em que o estágio de transformada criticamente amostrada com sobreposição em cascata (104) é configurado para segmentar um conjunto (124_1) de bins obtido com base no primeiro bloco (108_1) de amostras com o uso de pelo menos duas funções de janela e para obter pelo menos dois conjuntos
(128_1,1;128_1,2) de bins baseados no conjunto segmentado de bins correspondente ao primeiro bloco (108_1) de amostras; em que o estágio de transformada criticamente amostrada com sobreposição em cascata (104) é configurado para segmentar um conjunto (124_2) de bins obtido com base no segundo bloco (108_2) de amostras com o uso das pelo menos duas funções de janela e para obter pelo menos dois conjuntos (128_2,1;128_2,2) de bins baseados no conjunto segmentado de bins correspondente ao segundo bloco (108_2) de amostras; e em que os conjuntos (128_1,1;128_1,2;128_2,1;128_2,2) de bins são processados com o uso de um segundo estágio de transformada criticamente amostrada com sobreposição do estágio de transformada criticamente amostrada com sobreposição em cascata, em que o segundo estágio de transformada criticamente amostrada com sobreposição é configurado para realizar transformadas criticamente amostradas com sobreposição que têm o mesmo comprimento de quadro para pelo menos um conjunto de bins; em que o processador de áudio (100) é configurado para formar um fluxo de bits a partir de uma representação de sub-banda reduzida por distorção (112_1, 112_2) codificada do sinal de áudio, em que o processador de áudio (100) é configurado para fornecer o fluxo de bits que compreende pelo menos um parâmetro de fator de mescla, MF, que sinaliza pelo menos um comprimento de quadro dos conjuntos correspondentes (128_1,1 e 128_2,1; 128_1,2 e 128_2,2) de bins no fluxo de bits; em que o processador de áudio (100) é configurado para fornecer o fluxo de bits que compreende apenas um subconjunto dos parâmetros de fator de mescla, MF, que sinalizam o comprimento de quadro dos conjuntos correspondentes (128_1,1 e 128_2,1; 128_1,2 e 128_2,2) de bins no fluxo de bits.
16. Processador de áudio (100) para processar um sinal de áudio (102) para obter uma representação de sub-banda do sinal de áudio (102), em que o processador de áudio (100) é caracterizado por compreender:
um estágio de transformada criticamente amostrada com sobreposição em cascata (104) configurado para realizar uma transformada criticamente amostrada com sobreposição em cascata em pelo menos dois blocos parcialmente justapostos (108_1; 108_2) de amostras do sinal de áudio (102), para obter um conjunto (110_1,1) de amostras de sub-banda com base em um primeiro bloco (108_1) de amostras do sinal de áudio (102) e para obter um conjunto correspondente (110_2,1) de amostras de sub-banda com base em um segundo bloco (108_2) de amostras do sinal de áudio (102); e um estágio de redução por distorção de domínio de tempo (106) configurado para realizar uma combinação ponderada de dois conjuntos correspondentes (110_1,1;110_1,2) de amostras de sub-banda, um obtido com base no primeiro bloco (108_1) de amostras do sinal de áudio (102) e um obtido com base no segundo bloco (108_2) de amostras do sinal de áudio, para obter uma representação de sub-banda reduzida por distorção (112_1) do sinal de áudio (102); em que o estágio de transformada criticamente amostrada com sobreposição em cascata (104) é configurado para segmentar um conjunto (124_1) de bins obtido com base no primeiro bloco (108_1) de amostras com o uso de pelo menos duas funções de janela e para obter pelo menos dois conjuntos (128_1,1;128_1,2) de bins baseados no conjunto segmentado de bins correspondente ao primeiro bloco (108_1) de amostras; em que o estágio de transformada criticamente amostrada com sobreposição em cascata (104) é configurado para segmentar um conjunto (124_2) de bins obtido com base no segundo bloco (108_2) de amostras com o uso das pelo menos duas funções de janela e para obter pelo menos dois conjuntos (128_2,1;128_2,2) de bins baseados no conjunto segmentado de bins correspondente ao segundo bloco (108_2) de amostras; e em que os conjuntos (128_1,1;128_1,2;128_2,1;128_2,2) de bins são processados com o uso de um segundo estágio de transformada criticamente amostrada com sobreposição do estágio de transformada criticamente amostrada com sobreposição em cascata, em que o segundo estágio de transformada criticamente amostrada com sobreposição é configurado para realizar transformadas criticamente amostradas com sobreposição que têm o mesmo comprimento de quadro para pelo menos um conjunto de bins; em que o processador de áudio (100) é configurado para formar um fluxo de bits a partir de uma representação de sub-banda reduzida por distorção (112_1, 112_2) codificada do sinal de áudio, em que o processador de áudio (100) é configurado para fornecer o fluxo de bits que compreende pelo menos um parâmetro de fator de mescla, MF, que sinaliza pelo menos um comprimento de quadro dos conjuntos correspondentes (128_1,1 e 128_2,1; 128_1,2 e 128_2,2) de bins no fluxo de bits; em que o processador de áudio (100) é configurado para fornecer o fluxo de bits que compreende um parâmetro de redução por distorção de domínio de tempo, TDAR, para cada um dos conjuntos correspondentes (128_1,1 e 128_2,1; 128_1,2 e 128_2,2) de bins.
17. Processador de áudio (100), de acordo com a reivindicação 16, em que o processador de áudio (100) é caracterizado por ser configurado para realizar conversão em código conjunta por entropia dos parâmetros de fator de mescla, MF, e redução por distorção de domínio de tempo, TDAR.
18. Processador de áudio (100) para processar um sinal de áudio (102) para obter uma representação de sub-banda do sinal de áudio (102), em que o processador de áudio (100) é caracterizado por compreender: um estágio de transformada criticamente amostrada com sobreposição em cascata (104) configurado para realizar uma transformada criticamente amostrada com sobreposição em cascata em pelo menos dois blocos parcialmente justapostos (108_1; 108_2) de amostras do sinal de áudio (102), para obter um conjunto (110_1,1) de amostras de sub-banda com base em um primeiro bloco (108_1) de amostras do sinal de áudio (102) e para obter um conjunto correspondente (110_2,1) de amostras de sub-banda com base em um segundo bloco (108_2) de amostras do sinal de áudio
(102); e um estágio de redução por distorção de domínio de tempo (106) configurado para realizar uma combinação ponderada de dois conjuntos correspondentes (110_1,1;110_1,2) de amostras de sub-banda, um obtido com base no primeiro bloco (108_1) de amostras do sinal de áudio (102) e um obtido com base no segundo bloco (108_2) de amostras do sinal de áudio, para obter uma representação de sub-banda reduzida por distorção (112_1) do sinal de áudio (102); em que o estágio de transformada criticamente amostrada com sobreposição em cascata (104) é configurado para segmentar um conjunto (124_1) de bins obtido com base no primeiro bloco (108_1) de amostras com o uso de pelo menos duas funções de janela e para obter pelo menos dois conjuntos (128_1,1;128_1,2) de bins baseados no conjunto segmentado de bins correspondente ao primeiro bloco (108_1) de amostras; em que o estágio de transformada criticamente amostrada com sobreposição em cascata (104) é configurado para segmentar um conjunto (124_2) de bins obtido com base no segundo bloco (108_2) de amostras com o uso das pelo menos duas funções de janela e para obter pelo menos dois conjuntos (128_2,1;128_2,2) de bins baseados no conjunto segmentado de bins correspondente ao segundo bloco (108_2) de amostras; e em que os conjuntos (128_1,1;128_1,2;128_2,1;128_2,2) de bins são processados com o uso de um segundo estágio de transformada criticamente amostrada com sobreposição do estágio de transformada criticamente amostrada com sobreposição em cascata, em que o segundo estágio de transformada criticamente amostrada com sobreposição é configurado para realizar transformadas criticamente amostradas com sobreposição que têm o mesmo comprimento de quadro para pelo menos um conjunto de bins; em que o processador de áudio (100) é configurado para formar um fluxo de bits a partir de uma representação de sub-banda reduzida por distorção (112_1, 112_2) codificada do sinal de áudio,
em que o processador de áudio (100) é configurado para fornecer o fluxo de bits que compreende pelo menos um parâmetro de fator de mescla, MF, que sinaliza pelo menos um comprimento de quadro dos conjuntos correspondentes (128_1,1 e 128_2,1; 128_1,2 e 128_2,2) de bins no fluxo de bits; em que o processador de áudio (100) é configurado para fornecer o fluxo de bits que compreende o pelo menos um parâmetro de fator de mescla, MF, de modo que um parâmetro de redução por distorção de domínio de tempo, TDAR, seja derivável do pelo menos um parâmetro de fator de mescla, MF.
19. Processador de áudio (100) para processar um sinal de áudio (102) para obter uma representação de sub-banda do sinal de áudio (102), em que o processador de áudio (100) é caracterizado por compreender: um estágio de transformada criticamente amostrada com sobreposição em cascata (104) configurado para realizar uma transformada criticamente amostrada com sobreposição em cascata em pelo menos dois blocos parcialmente justapostos (108_1; 108_2) de amostras do sinal de áudio (102), para obter um conjunto (110_1,1) de amostras de sub-banda com base em um primeiro bloco (108_1) de amostras do sinal de áudio (102) e para obter um conjunto correspondente (110_2,1) de amostras de sub-banda com base em um segundo bloco (108_2) de amostras do sinal de áudio (102); e um estágio de redução por distorção de domínio de tempo (106) configurado para realizar uma combinação ponderada de dois conjuntos correspondentes (110_1,1;110_1,2) de amostras de sub-banda, um obtido com base no primeiro bloco (108_1) de amostras do sinal de áudio (102) e um obtido com base no segundo bloco (108_2) de amostras do sinal de áudio, para obter uma representação de sub-banda reduzida por distorção (112_1) do sinal de áudio (102); em que o estágio de transformada criticamente amostrada com sobreposição em cascata (104) é configurado para segmentar um conjunto (124_1) de bins obtido com base no primeiro bloco (108_1) de amostras com o uso de pelo menos duas funções de janela e para obter pelo menos dois conjuntos
(128_1,1;128_1,2) de bins baseados no conjunto segmentado de bins correspondente ao primeiro bloco (108_1) de amostras; em que o estágio de transformada criticamente amostrada com sobreposição em cascata (104) é configurado para segmentar um conjunto (124_2) de bins obtido com base no segundo bloco (108_2) de amostras com o uso das pelo menos duas funções de janela e para obter pelo menos dois conjuntos (128_2,1;128_2,2) de bins baseados no conjunto segmentado de bins correspondente ao segundo bloco (108_2) de amostras; e em que os conjuntos (128_1,1;128_1,2;128_2,1;128_2,2) de bins são processados com o uso de um segundo estágio de transformada criticamente amostrada com sobreposição do estágio de transformada criticamente amostrada com sobreposição em cascata, em que o segundo estágio de transformada criticamente amostrada com sobreposição é configurado para realizar transformadas criticamente amostradas com sobreposição que têm o mesmo comprimento de quadro para pelo menos um conjunto de bins; em que o processador de áudio (100) é configurado para realizar uma otimização comum/conjunta para adaptar os comprimentos de quadro com o uso de uma grade em treliça por conjunto de amostras de sub-banda.
20. Codificador de áudio caracterizado por compreender: um processador de áudio (100), conforme definido em qualquer uma das reivindicações 1 a 19; um codificador configurado para codificar a representação de sub-banda reduzida por distorção do sinal de áudio, para obter uma representação de sub-banda reduzida por distorção codificada do sinal de áudio; e um formador de fluxo de bits configurado para formar um fluxo de bits a partir da representação de sub-banda reduzida por distorção codificada do sinal de áudio.
21. Método para processar um sinal de áudio (102) para obter uma representação de sub-banda do sinal de áudio (102), em que o método é caracterizado por compreender: realizar uma transformada criticamente amostrada com sobreposição em cascata em pelo menos dois blocos parcialmente justapostos (108_1;108_2) de amostras do sinal de áudio (102), para obter um conjunto (110_1,1) de amostras de sub-banda com base em um primeiro bloco (108_1) de amostras do sinal de áudio (102) e para obter um conjunto correspondente (110_2,1) de amostras de sub-banda com base em um segundo bloco (108_2) de amostras do sinal de áudio (102); e realizar uma combinação ponderada de dois conjuntos correspondentes (110_1,1;110_1,2) de amostras de sub-banda, um obtido com base no primeiro bloco (108_1) de amostras do sinal de áudio (102) e um obtido com base no segundo bloco (108_2) de amostras do sinal de áudio, para obter uma representação de sub-banda reduzida por distorção (112_1) do sinal de áudio (102); em que realizar uma transformada criticamente amostrada com sobreposição em cascata compreende segmentar um conjunto (124_1) de bins obtido com base no primeiro bloco (108_1) de amostras com o uso de pelo menos duas funções de janela, e para obter pelo menos dois conjuntos (128_1,1;128_1,2) de bins baseados no conjunto segmentado de bins correspondente ao primeiro bloco (108_1) de amostras; em que realizar uma transformada criticamente amostrada com sobreposição em cascata compreende segmentar um conjunto (124_2) de bins obtido com base no segundo bloco (108_2) de amostras com o uso das pelo menos duas funções de janela, e para obter pelo menos dois conjuntos (128_2,1;128_2,2) de bins baseados no conjunto segmentado de bins correspondente ao segundo bloco (108_2) de amostras; e em que os conjuntos (128_1,1;128_1,2;128_2,1;128_2,2) de bins são processados com o uso de uma segunda transformada criticamente amostrada com sobreposição da transformada criticamente amostrada com sobreposição em cascata, em que a segunda transformada criticamente amostrada com sobreposição compreende realizar transformadas criticamente amostradas com sobreposição que têm o mesmo comprimento de quadro para pelo menos um conjunto de bins; em que a combinação ponderada dos dois conjuntos correspondentes (110_1,1;110_1,2) de amostras de sub-banda é realizada, se os mesmos comprimentos de quadro forem usados para dois blocos subsequentes (108_1, 108_2), e/ou a combinação ponderada dos dois conjuntos correspondentes (110_1,1;110_1,2) de amostras de sub-banda não é realizada, se diferentes comprimentos de quadro forem usados para dois blocos subsequentes (108_1, 108_2).
22. Método para processar um sinal de áudio (102) para obter uma representação de sub-banda do sinal de áudio (102), em que o método é caracterizado por compreender: realizar uma transformada criticamente amostrada com sobreposição em cascata em pelo menos dois blocos parcialmente justapostos (108_1;108_2) de amostras do sinal de áudio (102), para obter um conjunto (110_1,1) de amostras de sub-banda com base em um primeiro bloco (108_1) de amostras do sinal de áudio (102) e para obter um conjunto correspondente (110_2,1) de amostras de sub-banda com base em um segundo bloco (108_2) de amostras do sinal de áudio (102); e realizar uma combinação ponderada de dois conjuntos correspondentes (110_1,1;110_1,2) de amostras de sub-banda, um obtido com base no primeiro bloco (108_1) de amostras do sinal de áudio (102) e um obtido com base no segundo bloco (108_2) de amostras do sinal de áudio, para obter uma representação de sub-banda reduzida por distorção (112_1) do sinal de áudio (102); em que realizar uma transformada criticamente amostrada com sobreposição em cascata compreende segmentar um conjunto (124_1) de bins obtido com base no primeiro bloco (108_1) de amostras com o uso de pelo menos duas funções de janela, e para obter pelo menos dois conjuntos (128_1,1;128_1,2) de bins baseados no conjunto segmentado de bins correspondente ao primeiro bloco (108_1) de amostras;
em que realizar uma transformada criticamente amostrada com sobreposição em cascata compreende segmentar um conjunto (124_2) de bins obtido com base no segundo bloco (108_2) de amostras com o uso das pelo menos duas funções de janela, e para obter pelo menos dois conjuntos (128_2,1;128_2,2) de bins baseados no conjunto segmentado de bins correspondente ao segundo bloco (108_2) de amostras; e em que os conjuntos (128_1,1;128_1,2;128_2,1;128_2,2) de bins são processados com o uso de uma segunda transformada criticamente amostrada com sobreposição da transformada criticamente amostrada com sobreposição em cascata, em que a segunda transformada criticamente amostrada com sobreposição compreende realizar transformadas criticamente amostradas com sobreposição que têm o mesmo comprimento de quadro para pelo menos um conjunto de bins; formar um fluxo de bits a partir de uma representação de sub-banda reduzida por distorção (112_1, 112_2) codificada do sinal de áudio, fornecer o fluxo de bits que compreende pelo menos um parâmetro de fator de mescla, MF, que sinaliza pelo menos um comprimento de quadro dos conjuntos correspondentes (128_1,1 e 128_2,1; 128_1,2 e 128_2,2) de bins no fluxo de bits; em que fornecer o fluxo de bits compreende fornecer o fluxo de bits que compreende apenas um subconjunto dos parâmetros de fator de mescla, MF, que sinalizam o comprimento de quadro dos conjuntos correspondentes (128_1,1 e 128_2,1; 128_1,2 e 128_2,2) de bins no fluxo de bits.
23. Método para processar um sinal de áudio (102) para obter uma representação de sub-banda do sinal de áudio (102), em que o método é caracterizado por compreender: realizar uma transformada criticamente amostrada com sobreposição em cascata em pelo menos dois blocos parcialmente justapostos (108_1;108_2) de amostras do sinal de áudio (102), para obter um conjunto (110_1,1) de amostras de sub-banda com base em um primeiro bloco (108_1) de amostras do sinal de áudio (102) e para obter um conjunto correspondente (110_2,1) de amostras de sub-banda com base em um segundo bloco (108_2) de amostras do sinal de áudio (102); e realizar uma combinação ponderada de dois conjuntos correspondentes (110_1,1;110_1,2) de amostras de sub-banda, um obtido com base no primeiro bloco (108_1) de amostras do sinal de áudio (102) e um obtido com base no segundo bloco (108_2) de amostras do sinal de áudio, para obter uma representação de sub-banda reduzida por distorção (112_1) do sinal de áudio (102); em que realizar uma transformada criticamente amostrada com sobreposição em cascata compreende segmentar um conjunto (124_1) de bins obtido com base no primeiro bloco (108_1) de amostras com o uso de pelo menos duas funções de janela, e para obter pelo menos dois conjuntos (128_1,1;128_1,2) de bins baseados no conjunto segmentado de bins correspondente ao primeiro bloco (108_1) de amostras; em que realizar uma transformada criticamente amostrada com sobreposição em cascata compreende segmentar um conjunto (124_2) de bins obtido com base no segundo bloco (108_2) de amostras com o uso das pelo menos duas funções de janela, e para obter pelo menos dois conjuntos (128_2,1;128_2,2) de bins baseados no conjunto segmentado de bins correspondente ao segundo bloco (108_2) de amostras; e em que os conjuntos (128_1,1;128_1,2;128_2,1;128_2,2) de bins são processados com o uso de uma segunda transformada criticamente amostrada com sobreposição da transformada criticamente amostrada com sobreposição em cascata, em que a segunda transformada criticamente amostrada com sobreposição compreende realizar transformadas criticamente amostradas com sobreposição que têm o mesmo comprimento de quadro para pelo menos um conjunto de bins; formar um fluxo de bits a partir de uma representação de sub-banda reduzida por distorção (112_1, 112_2) codificada do sinal de áudio, fornecer o fluxo de bits que compreende pelo menos um parâmetro de fator de mescla, MF, que sinaliza pelo menos um comprimento de quadro dos conjuntos correspondentes (128_1,1 e 128_2,1; 128_1,2 e 128_2,2) de bins no fluxo de bits;
em que fornecer o fluxo de bits compreende fornecer o fluxo de bits que compreende um parâmetro de redução por distorção de domínio de tempo, TDAR, para cada um dos conjuntos correspondentes (128_1,1 e 128_2,1; 128_1,2 e 128_2,2) de bins.
24. Método para processar um sinal de áudio (102) para obter uma representação de sub-banda do sinal de áudio (102), em que o método é caracterizado por compreender: realizar uma transformada criticamente amostrada com sobreposição em cascata em pelo menos dois blocos parcialmente justapostos (108_1;108_2) de amostras do sinal de áudio (102), para obter um conjunto (110_1,1) de amostras de sub-banda com base em um primeiro bloco (108_1) de amostras do sinal de áudio (102) e para obter um conjunto correspondente (110_2,1) de amostras de sub-banda com base em um segundo bloco (108_2) de amostras do sinal de áudio (102); e realizar uma combinação ponderada de dois conjuntos correspondentes (110_1,1;110_1,2) de amostras de sub-banda, um obtido com base no primeiro bloco (108_1) de amostras do sinal de áudio (102) e um obtido com base no segundo bloco (108_2) de amostras do sinal de áudio, para obter uma representação de sub-banda reduzida por distorção (112_1) do sinal de áudio (102); em que realizar uma transformada criticamente amostrada com sobreposição em cascata compreende segmentar um conjunto (124_1) de bins obtido com base no primeiro bloco (108_1) de amostras com o uso de pelo menos duas funções de janela, e para obter pelo menos dois conjuntos (128_1,1;128_1,2) de bins baseados no conjunto segmentado de bins correspondente ao primeiro bloco (108_1) de amostras; em que realizar uma transformada criticamente amostrada com sobreposição em cascata compreende segmentar um conjunto (124_2) de bins obtido com base no segundo bloco (108_2) de amostras com o uso das pelo menos duas funções de janela, e para obter pelo menos dois conjuntos (128_2,1;128_2,2) de bins baseados no conjunto segmentado de bins correspondente ao segundo bloco (108_2)
de amostras; e em que os conjuntos (128_1,1;128_1,2;128_2,1;128_2,2) de bins são processados com o uso de uma segunda transformada criticamente amostrada com sobreposição da transformada criticamente amostrada com sobreposição em cascata, em que a segunda transformada criticamente amostrada com sobreposição compreende realizar transformadas criticamente amostradas com sobreposição que têm o mesmo comprimento de quadro para pelo menos um conjunto de bins; formar um fluxo de bits a partir de uma representação de sub-banda reduzida por distorção (112_1, 112_2) codificada do sinal de áudio, fornecer o fluxo de bits que compreende pelo menos um parâmetro de fator de mescla, MF, que sinaliza pelo menos um comprimento de quadro dos conjuntos correspondentes (128_1,1 e 128_2,1; 128_1,2 e 128_2,2) de bins no fluxo de bits; em que fornecer o fluxo de bits compreende fornecer o fluxo de bits que compreende pelo menos um fator de mescal, MF, de modo que um parâmetro de redução por distorção de domínio de tempo, TDAR, seja derivável do pelo menos um parâmetro de fator de mescla, MF.
25. Método para processar um sinal de áudio (102) para obter uma representação de sub-banda do sinal de áudio (102), em que o método é caracterizado por compreender: realizar uma transformada criticamente amostrada com sobreposição em cascata em pelo menos dois blocos parcialmente justapostos (108_1;108_2) de amostras do sinal de áudio (102), para obter um conjunto (110_1,1) de amostras de sub-banda com base em um primeiro bloco (108_1) de amostras do sinal de áudio (102) e para obter um conjunto correspondente (110_2,1) de amostras de sub-banda com base em um segundo bloco (108_2) de amostras do sinal de áudio (102); e realizar uma combinação ponderada de dois conjuntos correspondentes (110_1,1;110_1,2) de amostras de sub-banda, um obtido com base no primeiro bloco (108_1) de amostras do sinal de áudio (102) e um obtido com base no segundo bloco (108_2) de amostras do sinal de áudio, para obter uma representação de sub-banda reduzida por distorção (112_1) do sinal de áudio (102); em que realizar uma transformada criticamente amostrada com sobreposição em cascata compreende segmentar um conjunto (124_1) de bins obtido com base no primeiro bloco (108_1) de amostras com o uso de pelo menos duas funções de janela, e para obter pelo menos dois conjuntos (128_1,1;128_1,2) de bins baseados no conjunto segmentado de bins correspondente ao primeiro bloco (108_1) de amostras; em que realizar uma transformada criticamente amostrada com sobreposição em cascata compreende segmentar um conjunto (124_2) de bins obtido com base no segundo bloco (108_2) de amostras com o uso das pelo menos duas funções de janela, e para obter pelo menos dois conjuntos (128_2,1;128_2,2) de bins baseados no conjunto segmentado de bins correspondente ao segundo bloco (108_2) de amostras; e em que os conjuntos (128_1,1;128_1,2;128_2,1;128_2,2) de bins são processados com o uso de uma segunda transformada criticamente amostrada com sobreposição da transformada criticamente amostrada com sobreposição em cascata, em que a segunda transformada criticamente amostrada com sobreposição compreende realizar transformadas criticamente amostradas com sobreposição que têm o mesmo comprimento de quadro para pelo menos um conjunto de bins; realizar uma otimização comum/conjunta para adaptar os comprimentos de quadro com o uso de uma grade em treliça por conjunto de amostras de sub-banda.
26. Programa de computador caracterizado por se destinar à realização de um método, conforme definido em qualquer uma das reivindicações 21 a 25.
BR112021007516-0A 2018-10-26 2019-10-16 codificador de áudio, processador de áudio e método para processar um sinal de áudio BR112021007516A2 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP18202927.2 2018-10-26
EP18202927 2018-10-26
EP19169635.0 2019-04-16
EP19169635.0A EP3644313A1 (en) 2018-10-26 2019-04-16 Perceptual audio coding with adaptive non-uniform time/frequency tiling using subband merging and time domain aliasing reduction
PCT/EP2019/078112 WO2020083727A1 (en) 2018-10-26 2019-10-16 Perceptual audio coding with adaptive non-uniform time/frequency tiling using subband merging and the time domain aliasing reduction

Publications (1)

Publication Number Publication Date
BR112021007516A2 true BR112021007516A2 (pt) 2021-07-27

Family

ID=64316263

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112021007516-0A BR112021007516A2 (pt) 2018-10-26 2019-10-16 codificador de áudio, processador de áudio e método para processar um sinal de áudio

Country Status (9)

Country Link
US (1) US11688408B2 (pt)
EP (2) EP3644313A1 (pt)
JP (1) JP7279160B2 (pt)
KR (1) KR102630922B1 (pt)
CN (1) CN113330515B (pt)
BR (1) BR112021007516A2 (pt)
CA (1) CA3118121C (pt)
MX (1) MX2021004636A (pt)
WO (1) WO2020083727A1 (pt)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3786948A1 (en) * 2019-08-28 2021-03-03 Fraunhofer Gesellschaft zur Förderung der Angewand Time-varying time-frequency tilings using non-uniform orthogonal filterbanks based on mdct analysis/synthesis and tdar

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5687243A (en) * 1995-09-29 1997-11-11 Motorola, Inc. Noise suppression apparatus and method
US7516064B2 (en) 2004-02-19 2009-04-07 Dolby Laboratories Licensing Corporation Adaptive hybrid transform for signal analysis and synthesis
US7548853B2 (en) * 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
US7548727B2 (en) * 2005-10-26 2009-06-16 Broadcom Corporation Method and system for an efficient implementation of the Bluetooth® subband codec (SBC)
KR100647336B1 (ko) 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
EP2015293A1 (en) * 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
ES2683077T3 (es) * 2008-07-11 2018-09-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada
ES2401487T3 (es) * 2008-07-11 2013-04-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para la codificación/decodificación de una señal de audio utilizando un esquema de conmutación de generación de señal ajena
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
GB2473267A (en) 2009-09-07 2011-03-09 Nokia Corp Processing audio signals to reduce noise
EP2524374B1 (en) * 2010-01-13 2018-10-31 Voiceage Corporation Audio decoding with forward time-domain aliasing cancellation using linear-predictive filtering
US8886523B2 (en) 2010-04-14 2014-11-11 Huawei Technologies Co., Ltd. Audio decoding based on audio class with control code for post-processing modes
TWI483245B (zh) * 2011-02-14 2015-05-01 Fraunhofer Ges Forschung 利用重疊變換之資訊信號表示技術
EP3276620A1 (en) * 2016-07-29 2018-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain aliasing reduction for non-uniform filterbanks which use spectral analysis followed by partial synthesis
US10020930B2 (en) * 2016-11-04 2018-07-10 Commissariat A L'energie Atomique Et Aux Energies Alternatives Method of non-uniform wavelet bandpass sampling
EP3786948A1 (en) * 2019-08-28 2021-03-03 Fraunhofer Gesellschaft zur Förderung der Angewand Time-varying time-frequency tilings using non-uniform orthogonal filterbanks based on mdct analysis/synthesis and tdar

Also Published As

Publication number Publication date
CA3118121C (en) 2023-10-03
JP2022505789A (ja) 2022-01-14
JP7279160B2 (ja) 2023-05-22
EP3871215C0 (en) 2023-09-13
EP3644313A1 (en) 2020-04-29
WO2020083727A1 (en) 2020-04-30
US20210233544A1 (en) 2021-07-29
EP3871215A1 (en) 2021-09-01
KR20210076134A (ko) 2021-06-23
KR102630922B1 (ko) 2024-01-30
EP3871215B1 (en) 2023-09-13
CA3118121A1 (en) 2020-04-30
CN113330515B (zh) 2024-05-24
CN113330515A (zh) 2021-08-31
US11688408B2 (en) 2023-06-27
MX2021004636A (es) 2021-05-28

Similar Documents

Publication Publication Date Title
US11735192B2 (en) Audio encoder, audio decoder and related methods using two-channel processing within an intelligent gap filling framework
US11908484B2 (en) Apparatus and method for generating an enhanced signal using independent noise-filling at random values and scaling thereupon
BR112021007516A2 (pt) codificador de áudio, processador de áudio e método para processar um sinal de áudio
RU2777615C1 (ru) Перцепционное кодирование аудио с адаптивным неравномерным расположением частотно-временными плитками с использованием субполосного объединения и уменьшения наложения спектров во временной области