BRPI0816136B1 - Método e dispositivo para processamento de sinal - Google Patents

Método e dispositivo para processamento de sinal Download PDF

Info

Publication number
BRPI0816136B1
BRPI0816136B1 BRPI0816136-4A BRPI0816136A BRPI0816136B1 BR PI0816136 B1 BRPI0816136 B1 BR PI0816136B1 BR PI0816136 A BRPI0816136 A BR PI0816136A BR PI0816136 B1 BRPI0816136 B1 BR PI0816136B1
Authority
BR
Brazil
Prior art keywords
frame
time domain
temporal
signal
segments
Prior art date
Application number
BRPI0816136-4A
Other languages
English (en)
Inventor
Anisse Taleb
Original Assignee
Telefonaktiebolaget Lm Ericsson (Publ)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget Lm Ericsson (Publ) filed Critical Telefonaktiebolaget Lm Ericsson (Publ)
Publication of BRPI0816136A2 publication Critical patent/BRPI0816136A2/pt
Publication of BRPI0816136B1 publication Critical patent/BRPI0816136B1/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Spectrometry And Color Measurement (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Analysing Materials By The Use Of Radiation (AREA)

Abstract

método e dispositivo para processamento de sinal processamento de sinal é baseado no conceito de uso de um quadro aliased de domínio temporal (12, tda) como uma base para segmentação temporal (14) e análise espectral (16), realizando segmentação temporal com base no quadro aliased de domínio temporal e realizando análise espectral com base nos segmentos temporais resultantes. a resolução temporal da transformada global "segmentada" temporalmente para frequência pode, assim, ser mudada simplesmente adaptando a segmentação temporal para obter um número adequado de segmentos temporais baseado em que a análise espectral é aplicada. o conjunto global de coeficientes espectrais obtidos para todos os segmentos proporciona uma sobreposição selecionável temporalmente - frequência do quadro de sinal original.

Description

MÉTODO E DISPOSITIVO PARA PROCESSAMENTO DE SINAL
CAMPO TÉCNICO
A presente invenção se refere, de um modo geral, ao 5 processamento de sinal, tal como compressão de sinal e codificação de áudio e, mais particularmente, à codificação de áudio e à decodificação de áudio e dispositivos correspondentes.
FU\I)AMFNTOS
Um codificador é um dispositivo, circuito ou programa de 1 O computador que é capaz de analisar um sinal, tal como um sinal de áudio e sair um sinal em uma forma codificada. O sinal resultante é usado, frequentemente, para fins de transmissão, armazenamento e/ou criptografia. Por outro lado, um decodificador é um dispositivo, circuito ou programa de computador que é capaz de inverter a operação de codificador pelo fato de que ele recebe o sinal 15 codificado e sai um sinal decodificado.
Na maioria dos codificadores do estado da técnica, tais como codificadores de áudio. Cada quadro do sinal de entrada é analisado no domínio da frequência. O resultado dessa análise é quantificado e codificado e, então, transmitido ou armazenado, dependendo da aplicação. No lado de 20 recebimento (ou quando usando o sinal codificado armazenado), um procedimento de decodificação seguido por um procedimento de síntese toma possível restaurar o sinal no domínio do tempo.
Codecs são empregados frequentemente para compressão/descompressão de informação, tal como dados de áudio e vídeo 25 para transmissão eficiente através de canais de comunicação com largura de banda limitada.
Em particular, há uma grande necessidade de mercado de transmitir e armazenar sinais de áudio em baixas taxas de bits, enquanto mantém alta qualidade de áudio. Por exemplo, em casos onde recursos ou
Petição 870190127050, de 02/12/2019, pág. 11/15 armazenamento são limitados, uma operação de baixa taxa de bits é um fator de custo essencial. Esse é o caso, tipicamente,, por exemplo, em aplicações de fluxo e mensagens em sistemas de comunicação móvel.
Um exemplo geral de um sistema de transmissão de áudio, usando codificação e decodificação de áudio está ilustrado, esquematicamente na figura 1. O sistema global compreende, basicamente, um codificador de áudio 10 e um módulo de transmissão (TX) 20 no lado de transmissão e um módulo de recebimento (RX) 30 e um decodificador de áudio 40 no lado de recebimento.
E conhecido, comumente, que cuidado especial deve ser tomado a fim de lidar com sinais não estacionários, em particular, para aplicação de codificação de áudio e, em geral, para compressão de sinal. Na codificação de áudio, um artefato conhecido como distorção de pré-eco pode se originar nos chamados codificadores de transformada.
Codificadores de transformada ou, mais geralmente, codecs de transformada (codificador - decodificador), normalmente, são baseados em tomo de uma transformada de domínio temporal para frequência, tal como uma DCT (Transformada de Cosseno Discreto), uma Transformada de Cosseno Discreto Modificada (MDCT) ou outra transformada sobreposta. Uma característica comum de codecs de transformada é que eles operam em Mocks sobrepostos de amostras: quadros sobrepostos. Os coeficientes de codificação resultantes de uma análise de transformada ou uma análise equivalente de subbanda de cada quadro são, normalmente, quantificados e armazenados ou transmitidos para o lado de recebimento como um fluxo de bits. O decodificador, mediante recepção do fluxo de bits, realiza desquantificação e transformada inversa, a fim de reconstruir os quadros de sinais.
Pré-ecos, em geral, ocorrem quando um sinal com um ataque abrupto começa perto do final de um bloco de transformada imediatamente em seguida a uma região de baixa energia.
Essa situação ocorre, por exemplo, quando a codificação do sim de instrumentos de percussão, por exemplo, castanhetes, carrilhão. Em um algoritmo baseado em bloco, quando da quantificação dos coeficientes de transformada, a transformada inversa no lado do decodificador dispersará a distorção do ruído de quantificação uniformemente no tempo. Isso resulta em distorção não mascarada na região de baixa energia processando temporalmente o ataque de sinal, conforme ilustrado nas figuras 2A e B, onde a figura 2A ilustra o som de percussão original e a figura 2b ilustra o sinal codificado de transformada mostrando a dispersão no tempo de ruído de codificação, levando A distorção de pré-eco.
O pré-mascaramento é uma propriedade psicoacústica do ouvido humano que tem o potencial de mascarar essa distorção, porém, isso só é possível quando o tamanho do bloco de transformada é suficientemente pequeno de modo que o pré-mascaramento ocorre.
Mitigação de Artefato Pré-eco (Técnica Anterior) A fim de evitar esse artefato indesejável, diversas metodologias têm sido propostas e aplicadas com sucesso. Algumas dessas tecnologias têm sido padronizadas e são amplamente disseminadas em aplicações comerciais.
Técnicas de Reservatório de Bits
A idéia atrás da técnica de reservatório de bits é salvar alguns bits de quadros que são fáceis de codificar no domínio da frequência. Os bits salvos são usados em seguida, a fim de acomodar os quadros de alta demanda, como quadros transientes. Isso resulta em uma taxa de bits instantânea variável, um ajuste pode ser feito de modo que a taxa média de bits é constante. A principal desvantagem, porém, é que reservatórios muito grandes são de fato necessários a fim de lidar com certos transientes e isso leva a um retardo muito grande, tomando essa tecnologia de pouco interesse para aplicação convencional. Além disso, essa metodologia mitiga apenas ligeiramente o artefato de pré-eco.
Modificação de Ganho e Moldagem de Ruído Temporal
A abordagem de modificação de ganho aplica um nivelamento de picos de transientes no domínio do tempo, antes da análise espectral e da codificação. O envelope de modificação de ganho é enviado como informação lateral e aplicado inverso no sinal de transformada inversa, assim, modelando o ruído de codificação temporal. Uma grande desvantagem da técnica de modificação de ganho está em sua modificação da janela de análise do banco de filtros (por exemplo, MDCT), assim, introduzindo um alargamento da resposta de frequência do banco de filtros. Isso pode levar a problemas em baixas frequências, especialmente se a largura de banda exceder a da banda crítica.
A Modelagem de Ruído Temporal (TNS) é inspirada pela técnica de modificação de ganho. A modificação de ganho é aplicada no domínio da freqüência e opera nos coeficientes espectrais. TNS é aplicada apenas durante ataques de entrada suscetíveis a pré-ecos. A idéia é aplicar predição linear (LP) através de frequência em lugar temporal. Isso é motivado pelo fato de, durante transientes e, em geral, sinais impulsivos, o ganho de codificação de domínio da frequência é maximizado pelo uso de técnicas de LP. TNS foi padronizada em AAC e foi provado proporcionar uma boa mitigação de artefatos de pré-eco. Contudo, o uso de TNS envolve análise de LP e filtragem, o que aumenta significativamente a complexidade do codificador e do decodificador. Adicionalmente, os coeficientes de LP têm que ser quantificados e enviados como informação lateral, que envolve mais complexidade e overhead de taxa de bits.
Comutação de Janela
A figura 3 ilustra comutação de janela (MPEG-1, camada III mp3), onde janelas de transição “início” e “interrupção” são requeridas entre as janelas longas e curtas a fim de preservar as propriedades de PR (Perfect Reconstruction (Reconstrução Perfeita). Essa técnica foi introduzida primeiro por Edler [1] e é popular para supressão de pré-eco, particularmente no caso de algoritmos de codificação de transformada com base em MDCT. A comutação de janela é baseada na idéia de mudança da resolução temporal da transformada mediante detecção de um transiente. Tipicamente, isso envolve a mudança do comprimento do bloco de análise de uma longa duração durante sinais estacionários para uma curta duração, quando transientes são detectados. A idéia é baseada em duas considerações:
• Uma janela curta aplicada ao quadro curto contendo o transiente minimizará a dispersão temporal de ruído de codificação e permitirá que o pré-mascaramento temporal tenha efeito e renderá a distorção inaudível;
• Alocar taxas de bits mais altas para as regiões temporais curtas, contendo o transiente.
Embora a comutação de janela tenha sido bem sucedida, ela apresenta desvantagens significativas. Por exemplo, o modelo perceptual e os módulos de codificação sem perda do codec têm que suportar diferentes resoluções temporais, que se transformam, usualmente, em complexidade aumentada. Além disso, quando usando transformadas sobrepostas, tais como MDCT, e, a fim de satisfazer as restrições da reconstrução perfeita, a comutação de janela precisa inserir janelas de transição entre blocos curtos e longos, conforme ilustrado na figura 3. A necessidade de janelas de transição gera mais desvantagens, a saber, um retardo aumentado devido ao fato de que janelas de comutação não podem ser feitas instantaneamente e, também, as propriedades pobres de localização de frequência de janelas de transição, levando a uma redução dramática no ganho de codificação.
SUMÁRIO
A presente invenção vence essas e outras desvantagens das disposições da técnica anterior.
Desse modo, há uma necessidade geral de técnicas e dispositivos aperfeiçoados de processamento de sinal e, mais particularmente, uma necessidade especial de uma nova estratégia de codec de áudio para manipulação de distorção pré-eco.
E um objetivo geral da presente invenção proporcionar um método e dispositivo aperfeiçoados para processamento de sinal, operando em quadros sobrepostos de um sinal de entrada de domínio do tempo.
Em particular, é desejável proporcionar um codificador de áudio aperfeiçoado.
E outro objetivo da invenção proporcionar um método e um dispositivo aperfeiçoados para a operação de processamento de sinal com base em coeficientes espectrais representativos de um sinal de domínio do tempo.
E particularmente desejável um decodificador de áudio aperfeiçoado.
Esses e outros objetivos são satisfeitos pela invenção conforme definido pelas reivindicações de patente anexas.
Um primeiro aspecto da invenção se refere a um método e a um dispositivo para a operação de processamento de sinal em quadros sobrepostos de um sinal de entrada.
A invenção está baseada no conceito de uso de um quadro com aliasing de domínio do tempo como uma base para segmentação temporal e a análise espectral, realizando segmentação temporal com base no quadro com aliasing de domínio do tempo e realizando análise espectral com base nos segmentos temporais resultantes.
A resolução temporal da transformada global segmentada de tempo para frequência pode, assim, ser mudada, simplesmente adaptando-se a segmentação do tempo para se obter um número adequado de segmentos temporais com base em que análise espectral é aplicada.
Mais especificamente, a idéia básica é realizar aliasing de domínio do tempo (TDA) com base em um quadro sobreposto para gerar um quadro com aliasing de domínio do tempo correspondente e realizar segmentação temporal com base no quadro com aliasing de domínio do tempo para gerar pelo menos dois segmentos, também referidos como subquadros. Com base nesses segmentos, a análise espectral é, então, para se obter, para cada segmento, coeficientes representativos do conteúdo de frequência do segmento.
O conjunto global de coeficientes, também referidos como coeficientes espectrais, para todos os dois segmentos, proporciona uma sobreposição de tempo - frequência selecionável do quadro de sinal original.
A decomposição instantânea em segmentos pode, por exemplo, ser usada para aliviar o efeito de pré-eco, por exemplo, no caso de transientes ou, geralmente, para proporcionar uma representação de sinal eficiente, que permite codificação eficiente das taxas de bits do quadro em questão.
O primeiro aspecto da invenção está particularmente relacionado com um codificador de áudio configurado para operar de acordo com os princípios básicos acima.
Um segundo aspecto da invenção se refere a um método e a um dispositivo para operação de processamento de sinal com base em coeficientes espectrais representativos de sinal de domínio do tempo. Esse aspecto da invenção, basicamente, se refere às operações inversas naturais do processamento de sinal do primeiro aspecto da invenção. Em resumo, a análise espectral segmentada e inversa é realizada com base em diferentes subconjuntos de coeficientes espectrais para gerar, para cada subconjunto de coeficientes espectrais, um subquadro de transformada inversa também referido como um segmento. Então, segmentação temporal inversa é realizada com base em subquadros de transformada inversa sobrepostos para combinar esses subquadros em um quadro com aliasing de domínio temporal. Aliasing de domínio temporal inverso é realizado com base no quadro com aliasing de domínio do tempo para permitir a reconstrução do sinal de domínio do tempo.
O segundo aspecto da invenção está relacionado, particularmente, com um decodificador de áudio configurado para operar de acordo com os princípios básicos acima.
Outras vantagens oferecidas pela invenção serão apreciados quando da leitura da descrição abaixo de modalidades da invenção. BREVE DESCRIÇÃO DOS DESENHOS
A invenção, junto com seus outros objetivos e vantagens, será mais bem compreendida através de referência À descrição a seguir, tomada junto com os desenhos anexos, em que:
A figura 1 é um diagrama em blocos ilustrando um exemplo geral de um sistema de transmissão de áudio, usando codificação e decodificação.
A figura 2A ilustre um som de percussão original e a figura 2B ilustra um sinal codificado de transformada, mostrando a dispersão temporal de um ruído de codificação, levando à distorção de pré-eco.
A figura 3 a técnica de comutação de janela convencional para uma codificação baseada em transformada.
A figura 4A ilustra, esquematicamente, a transformada geral direta de MDCT (Transformada de Cosseno Discreto Modificada).
A figura 4B ilustra, esquematicamente, a transformada geral inversa de MDCT (Transformada de Cosseno Discreto Modificada).
A figura 5 é um diagrama esquemático ilustrando a decomposição da transformada de MDCT (Transformada de Cosseno Discreto Modificada) em dois estágios em cascata.
A figura 6 é um fluxograma esquemático ilustrando um exemplo de um método para processamento de sinal de acordo com uma modalidade exemplificativa preferida da invenção.
A figura 7 é um diagrama em blocos esquemático de um dispositivo geral de processamento de sinal de acordo com uma modalidade exemplificativa preferida da invenção.
A figura 8 é um diagrama em blocos esquemático de um dispositivo de acordo com outra modalidade exemplificativa preferida da invenção.
A figura 9 é um diagrama em blocos esquemático dispositivo de acordo com ainda outra modalidade exemplificativa da invenção.
A figura 10 é um diagrama esquemático de um exemplo de reordenação de aliasing de domínio do tempo acordo com uma modalidade exemplificativa da invenção.
A figura 11 é um diagrama esquemático ilustrando um exemplo de segmentação em dois segmentos temporais, incluindo um enchimento com zeros de acordo com uma modalidade exemplificativa da invenção.
A figura 12 mostra diagramas das duas funções de base para a segmentação da figura 11, que se relacionam com uma frequência normalizada de 0,25 junto com diagramas de resposta de frequência correspondente.
A figura 13 mostra diagramas das funções de base originais de MDCT relacionadas com a frequência normalizada de 0,25 junto com diagramas de respostas de frequência correspondentes.
A figura 14 é um diagrama esquemático ilustrando um exemplo de segmentação em quatro segmentos temporais, incluindo enchimento com zeros de acordo com uma modalidade exemplificativa da invenção.
A figura 15 é um diagrama esquemático ilustrando um exemplo de segmentação em oito segmentos temporais, incluindo enchimento com zeros de acordo com uma modalidade exemplificativa da invenção.
A figura 16 mostra a realização de uma transformada global resultante para o caso de quatro segmentos de acordo com uma modalidade exemplificativa da invenção.
A figura 17 ilustra uma maneira exemplificativa de se obter uma segmentação não uniforme por meio de uma abordagem hierárquica.
A figura 18 ilustra um exemplo de comutação para uma resolução temporal mais fina mediante detecção de um transiente.
A figura 19 é um diagrama em blocos ilustrando um exemplo básico de um dispositivo de processamento de sinal para operação com base em coeficientes espectrais representativos de um sinal de domínio do tempo.
A figura 20 é um diagrama em blocos de um codificador exemplificative adequado para extensão de banda total.
A figura 21 é um diagrama em blocos de um decodificador exemplificative adequado para extensão de banda total.
A figura 22 é um diagrama em blocos esquemático de um exemplo particular de uma transformada inversa e implementação associada para segmentação temporal inversa e reordenação opcional de acordo com a modalidade referida da invenção.
DESCRIÇÃO DETALHADA
Por todos os desenhos, os mesmos caracteres de referência serão usados para elementos correspondentes ou similares. Para uma melhor compreensão da invenção, pode ser útil começar com uma breve introdução para codificação de transformada e, especialmente codificação de transformada baseada nas chamadas transformadas sobrepostas.
Como previamente mencionado, codecs de transformada, normalmente, são baseados em tomo de uma transformada de domínio temporal para frequência, tal como uma DCT (Transformada de Cosseno Discreto), uma transformada sobreposta, tal como uma Transformada de Cosseno Discreto Modificada (MDCT) ou uma Transformada Sobreposta Modulada (MLT).
Por exemplo, a Transformada de Cosseno Discreto Modificada (MDCT) é uma transformada relacionada com Fourier com base na transformada discreta de co-seno do tipo IV (DCT-IV), com a propriedade adicional de ser sobreposta: ela é destinada a ser realizada em blocos consecutivos de um conjunto de dados maior, onde blocos subsequentes são sobrepostos, os chamados quadros sobrepostos de modo que a última metade de um bloco coincide com a primeira metade do bloco seguinte, conforme ilustrado, esquematicamente, na figura 4A. Essa sobreposição, além das qualidades de compactação de energia da DCT, toma a MDCT especialmente atrativa para aplicações de compressão de sinal, uma vez que ajuda a evitar artefatos que se originam dos limites dos blocos. Desse modo, uma MDCT é empregada em MP3, AC-3, Ogg Vorbis e AAC para compressão de áudio, por exemplo.
Como uma transformada sobreposta, a MDCT é um pouco diferente quando comparada com outras transformadas relacionadas com Fourier. De fato, a MDCT é um pouco diferente, quando comparado com outras transformadas relacionadas com Fourier, tem tantas saídas quanto entradas. Formalmente, a MDCT é um mapeamento linear de 932N em 91N (onde 91 denota o conjunto de números reais).
Matematicamente, os números reais Xo, Xi,..., x2n são transformados em Xq, Xi,..., Xn de acordo com a fórmula:
2//-1
Essa fórmula acima, dependendo da convenção, pode conter um coeficiente de normalização adicional.
A MDCT inversa é conhecida como a IMDCT. Como as dimensões da entrada e da saída são diferentes, à primeira vista poderia parecer que a MDCT não será invertível. Contudo, a invertibilidade é obtida pela adição de IMDCT's sobrepostas dos blocos de sobreposição subsequentes, isto é, quadros sobrepostos, fazendo com que os erros sejam cancelados e os dados originais sejam recuperados; essa técnica é conhecida como cancelamento de aliasing de domínio temporal (TDAC) e está ilustrada, esquematicamente, na figura 4B.
Em resumo, para a transformada direta, 2N amostras (de um dos quadros sobrepostos são mapeadas para N coeficientes espectrais e, para a transformada inversa, N coeficientes espectrais são mapeados para 2N amostras de domínio temporal (de um dos quadros sobrepostos reconstruídos, que são adicionados em sobreposição para formar um sinal de domínio temporal de saída.
A MDCT transforma N números reais YQ, YÍt..., YNem números reais Yq, Yit····, Yn de acordo com a formula.
y» =77ÊriC0S -7(^+7+-2)(^+2)
N k^o L-'*
Em uma aplicação típica de compressão de sinal, as propriedades de transformada são ainda acentuadas usando-se uma função de janela Wn, que é multiplicada com o sinal de entrada para a transformada direta xn e o sinal de saída da transformada inversa yn. Em princípio, xH e yn poderiam usar janelas diferentes, mas, para simplicidade, apenas o caso de janelas idênticas é considerado.
Diversas janelas ortogonais e bi-ortogonais para fins gerais existem. No caso ortogonal, as condições generalizadas de Perfect Reconstruction (PR - Reconstrução Perfeita pode ser reduzida para restrições de fase linear e Nyquist na janela, isto é:
w(27V -1 - ri) = w(ri) w2 (n) + w2(n + N) = 1, n = 0...7/-1
Qualquer janela que satisfaça as condições da Reconstrução Perfeita (PR) pode ser usada para gerar o banco de filtros. Contudo, para obter um alto ganho de codificação, a resposta de frequência resultante de banco de filtros será tão seletiva quanto possível.
A referência [2] denota por MLT (Transformada Sobreposta
Modulada - Transformada sobreposta Modulada) o banco de filtros da MDCT que faz uso da janela de senos, definida como:
1A π
2)2N w(«) =sen
Essa janela particular, a chamada janela de senos, é a mais popular na codificação de áudio. Ela aparece, por exemplo, no banco de filtros híbridos da Camada III (MP3) de MPEG-1, assim como, MPEG-2/4 AAC.
Uma das propriedades atrativas que tem contribuído para o uso disseminado da MDCT para codificação de áudio é a disponibilidade de algoritmos rápidos com base em FFT. Isso faz a MDCT um banco de filtros viável para implementações temporais real.
E bem conhecido que a MDCT com um comprimento de janela de 2N pode ser decomposto em dois estágios em cascata. O primeiro estágio consiste de uma operação de aliasing de domínio temporal (TDA) seguida por um segundo estágio com base na DCT do tipo IV, conforme ilustrado na figura 5.
A operação de operação de matriz:
TDA é dada explicitamente pela seguinte lN onde Xw denota o quadro de entrada de domínio temporal em janela:
x„(n) = w(n).x(ri),
As matrizes IN reversão temporal de ordem N:
JN denotam identidade e as matrizes de
'1 0' '0 1'
rN =
0 1 1 0
Um primeiro aspecto da invenção se refere ao processamento de sinal, operando em quadros sobrepostos de um sinal de entrada. Um conceito chave é usar um quadro com aliasing de domínio temporal como uma base para segmentação temporal e análise espectral e realizar segmentação temporal com base nos segmentos temporais resultantes. Os segmentos temporais, ou segmentos, em resumo, também são referidos como subquadros. Isso é natural uma vez que um segmento de um quadro pode ser referido como um subquadro. As expressões segmento e subquadro, em geral, serão usadas permutavelmente por toda a exposição.
A figura 6 é um fluxograma esquemático ilustrando um exemplo de um método para processamento de sinal de acordo com uma modalidade exemplificativa preferida da invenção. Conforme indicado na etapa Sl, o procedimento pode envolver uma etapa opcional de préprocessamento, como será explicado e exemplificado mais tarde. Na etapa S2, uma operação de aliasing de domínio temporal (TDA) é realizada com base em um selecionado dos quadros sobrepostos para gerar um quadro correspondente, o chamado TDA, que, opcionalmente, pode ser processado em um ou mais estágios, conforme indicado na etapa S3, antes que segmentação temporal seja realizada. Em qualquer caso, a segmentação temporal é realizada com base no quadro com aliasing de domínio temporal com base no quadro com aliasing de domínio temporal (que pode ter sido processado) para gerar pelo menos dois segmentos temporais, conforme indicado na etapa S4. Na etapa S5, a chamada análise espectral segmentada é executada com base nos segmentos para obter, para cada segmento, coeficientes representativos do conteúdo de frequência do segmento. De preferência, a análise espectral é baseada na aplicação de uma transformada em cada um dos segmentos para produzir, para cada segmento, um conjunto correspondente de coeficientes espectrais. Também é possível aplicar uma etapa opcional de pós-processamento (não mostrado).
A análise espectral pode ser baseada em qualquer um de um número de transformadas diferentes, de preferência, transformadas sobrepostas. Exemplos de tipos diferentes de transformadas incluem uma Transformada Sobreposta (LT), uma Transformada de Cosseno Discreto (DCT), uma Transformada de Cosseno Discreto Modificada (MDCT) e uma Transformada Sobreposta Modulada (MLT).
A resolução temporal da transformada global segmentada temporalmente para frequência pode, assim, ser mudada simplesmente adaptando-se à segmentação temporal para se obter um número adequado de segmentos temporais com base em que análise espectral é aplicada. O procedimento de segmentação pode ser adaptado para produzir segmentos não sobrepostos, segmentos sobrepostos, segmentos de comprimento não uniforme e/ou segmentos de comprimento uniforme. Dessa maneira, qualquer sobreposição arbitrária temporal - frequência do quadro do sinal original pode ser obtida.
O procedimento global de processamento de sinal, tipicamente, opera em quadros sobrepostos de um sinal de entrada de domínio temporal em uma base de quadro a quadro e as etapas acima de aliasing temporal, segmentação, análise espectral e pré-, pós-processamento e intermediário opcionais, de preferência, são repetidos para cada um de um número de quadros sobrepostos.
De preferência, o processamento de sinal proposto pela presente invenção inclui análise de sinal, compressão de sinal e/ou codificação de áudio. Em um codificador de áudio, por exemplo, os coeficientes espectrais, normalmente, serão quantificados em um fluxo de bits para armazenamento e/ou transmissão.
A figura 7 é um diagrama em blocos de um dispositivo geral de processamento de sinal de acordo com uma modalidade exemplificativa preferida da invenção. Basicamente, compreende uma unidade de aliasing de domínio temporal (TDA) 12, uma unidade de segmentação temporal 14 e uma análise espectral 16. No exemplo básico da figura 7,1 quadro considerado de um número de cinco quadros sobrepostos é aliased em domínio temporal na unidade de TDA 12 para gerar um quadro aliased em domínio temporal e a unidade de segmentação temporal 14 opera no quadro aliased de domínio temporal para gerar um número de segmentos temporais que ela também referidos como subquadros. O analisador espectral 16 é configurado para análise espectral segmentada com base nesses segmentos a fim de gerar, para cada segmento, um conjunto de coeficientes espectrais. Os coeficientes espectrais coletivos de todos os segmentos representam uma parte de tempo frequência do quadro de domínio temporal com uma resolução temporal maior do que o normal.
Uma vez que a invenção utiliza um quadro aliased de domínio temporal como uma base para a análise espectral, há uma possibilidade de comutação entre análise espectral não segmentada com base no quadro aliased de domínio temporal, o chamado processamento de resolução temporal aumentada.
De preferência, essa comutação instantânea é realizada por uma funcionalidade de comutação 17, na dependência da detecção de um transiente de sinal no sinal de entrada. O transiente pode ser detectado no domínio temporal, domínio temporal aliased ou mesmo no domínio de frequência. Tipicamente, um quadro de transiente é processado com uma resolução temporal maior do que um quadro estacionário, que pode, então, ser processado usando processamento normal de frequência total.
Há, também, uma possibilidade de comutar a resolução temporal instantaneamente através do uso de um número maior ou menor de segmentos temporais para a análise espectral.
De preferência, aliasing de domínio temporal, segmentação temporal e análise espectral são repetidos para cada um de um número de quadros sobrepostos consecutivos.
Em uma modalidade preferida da invenção, o dispositivo de processamento de sinal de codificador de áudio 10 da figura 1 ou da figura 20, usando codificação de transformada para a análise espectral.
Com base no procedimento de avanço acima, a cadeia de operações inversas para mapeamento de um conjunto de coeficientes espectrais para um quadro de domínio temporal é, fácil e naturalmente, evidente para a pessoa habilitada.
Resumidamente, em um segundo aspecto da invenção, a análise espectral inversa é realizada com base em subconjuntos diferentes de coeficientes espectrais, a fim de gerar, para cada subconjunto de coeficientes espectrais, também referido como um segmento. A segmentação temporal inversa é, então, realizada com base nos subquadros para combinar esses subquadros em um quadro aliased de domínio total e aliasing inverso de domínio total é realizado com base no quadro aliased de domínio temporal para permitir a reconstrução do sinal de domínio temporal.
O aliasing inverso de domínio temporal é realizado, tipicamente, para reconstruir um primeiro quadro de domínio temporal e o procedimento global pode, então, sintetizar o sinal de domínio temporal com base na sobreposição do primeiro quadro de domínio temporal com um segundo quadro subsequente de domínio temporal reconstruído. Referência pode ser feita, por exemplo, às operações gerais de sobreposição da figura 4B.
De preferência, o processamento inverso de sinal inclui pelo menos um dentre a síntese de sinal e a decodificação de áudio. A análise espectral inversa pode ser baseada em qualquer uma de um número de diferentes transformadas inversas, de preferência, transformadas sobrepostas. Por exemplo, em aplicações de decodificação de áudio, é benéfico usar a transformada inversa de MDCT.
Uma visão geral e explanação mais detalhadas da cadeia inversa de operações, bem como implementações preferidas serão discutidas mais tarde.
A figura 8 é um diagrama em blocos esquemático de um dispositivo de acordo com outra modalidade exemplificativa preferida da invenção. Além dos blocos básicos da figura 7, o dispositivo da figura 8 ainda inclui uma ou mais unidades de processamento opcionais, tais como a unidade de janelamento 11 e a unidade de reordenação 13. No exemplo da figura 8, a unidade de janelamento opcional 11 realiza janelamento com base em um dos quadros sobrepostos para gerar um quadro de janelamento que é avançado para a unidade de TDA 12 para aliasing de domínio temporal. Basicamente, o janelamento pode ser realizado para acentuar as propriedades de seletividade de frequência da transformada. A forma da janela pode ser otimizada para satisfazer certos critérios de seletividade de frequência, diversas técnicas de otimização podem ser usadas e são bem conhecidas por aqueles habilitados na técnica.
A fim de manter a coerência temporal total do sinal de entrada, é benéfico aplicar a reordenação de aliasing de domínio temporal. Por essa razão, uma unidade de reordenação opcional 13 pode ser proporcionada para reordenação do quadro aliased de domínio temporal reordenado que é avançado para a unidade de segmentação 14.
Dessa maneira, a segmentação é realizada com base no quadro aliased de domínio temporal reordenado. O analisador espectral 16, de preferência, opera nos segmentos gerados da unidade de segmentação temporal 14 para obter uma análise espectral segmentada com uma resolução temporal maior do que o normal.
A figura 9 é um diagrama em blocos esquemático de um dispositivo de acordo com outra modalidade exemplificativa da invenção. O exemplo da figura 9 é similar àquele da figura 8, exceto que na figura 9 é explicitamente indicado que a segmentação temporal é baseada em um conjunto de funções de janela adequadas e que a análise espectral está baseada em aplicação de transformadas em segmentos do quadro aliased de domínio temporal reordenado.
Em um exemplo particular, a segmentação envolve a adição de enchimento com zeros ao quadro aliased de domínio temporal (reordenado) e divisão do sinal resultante em segmentos relativamente mais curtos e, de preferência, sobrepostos.
De preferência, a análise espectral é baseada na aplicação de uma transformada sobreposta, tal como MDCT ou MLT em cada um dos referidos segmentos sobrepostos.
No seguinte, a invenção será descrita com referência a outras modalidades exemplificativas e não limitativas.
Conforme mencionado, a invenção está baseada em uso do sinal aliased temporalmente (saída da operação de aliasing de domínio temporal) como um novo quadro de sinal em que a análise espectral é aplicada. Através da mudança da resolução temporal da transformada que é aplicada após aliasing temporal, a fim de obter o coeficiente (por exemplo, MDCT), por exemplo, DCTjv, a invenção permite obter uma análise espectral em segmentos temporais arbitrários com muito pouco overhead em complexidade, bem como instantaneamente, isto é, sem retardo adicional.
A fim de obter uma análise de sinal com uma resolução temporal pré-determinada, é suficiente aplicar diretamente as transformadas ortogonais de comprimentos apropriados entre segmentos de preferência sobrepostos do sinal de entrada com janela aliased temporalmente.
A saída de cada uma dessas transformadas de comprimentos mais curtos levará a um conjunto de coeficientes representativos do conteúdo de frequência de cada segmento em questão. O conjunto de coeficientes para todos os segmentos proporcionará, instantaneamente, uma parte arbitrária de tempo frequência do quadro de sinal original.
Essa decomposição instantânea pode ser usada a fim de aliviar o efeito de pré-eco, por exemplo, no caso de transientes, bem como proporcionar uma representação eficiente do sinal o que permite uma codificação eficiente da taxa de bits do quadro em questão.
Os segmentos sobrepostos do sinal com janela aliased temporalmente não precisam ser de comprimento igual. Por causa da correspondência temporal entre os segmentos no domínio aliased de tempo e no domínio temporal normal, o nível desejado de análise de resolução temporal determinará o número de segmentos, bem como o comprimento de cada um dos segmentos em que a análise de frequências é realizada.
A invenção é mais bem aplicada junto com um detector de transiente e/ou no contexto de codificação através da medição do ganho de codificação obtido por um dado conjunto de segmentações temporais, e incluindo estimativas de ganho de codificação de laço aberto e de laço fechado para cada tentativa de segmentação temporal.
A invenção é útil, por exemplo, junto com o padrão ITU-T G.722.1 e, especialmente para o padrão extensão de banda total de ITU-T G. 722.1 para 20 kHz de áudio de banda total, agora renomeado padrão ITU-T G.719, para codificação e decodificação, como será exemplificado mais tarde.
A invenção permite uma comutação instantânea da resolução temporal da transformada global (por exemplo, com base em MDCT). Desse modo, ao contrário da comutação de janela, a invenção não requer qualquer retardo.
A invenção tem complexidade muito baixa e nenhum banco de filtros adicional é necessário. A invenção, de preferência, usa a mesma transformada que a MDCT, a saber, DCT do tipo IV.
A invenção lida eficientemente com a supressão de artefatos de pré-eco através da comutação instantaneamente para maior resolução temporal.
A invenção também permitirá construir esquemas de codificação de laço fechado/aberto, com base em segmentações temporais adaptativas de sinal.
Para uma melhor compreensão da invenção, exemplos mais detalhados de operações individuais de processamento de sinal (possivelmente opcional), bem como outros exemplos de implementações globais serão agora descrito. A análise espectral será descrita, principalmente, com referência à transformada de MDCT no seguinte, mas deve ser compreendido que a invenção não está limitada a tal, embora o uso de uma transformada sobreposta seja benéfico. Se houver exigências severas sobre a coerência temporal, a chamada reordenação é recomendada.
Reordenação de TDA
A fim de manter a coerência temporal do sinal de entrada, a saída da operação de aliasing de domínio temporal precisa ser reordenada antes de novo processamento. A operação de ordenação é necessária, sem ordenação as funções de base do banco de filtros resultante terão respostas incoerentes de tempo e de frequência. Um exemplo de uma operação de reordenação é ilustrado na figura 10 e envolve o embaralhamento da metade superior e inferior do sinal de saída de TDA x(n). Essa reordenação é conceituai e, na realidade nenhuma computação está envolvida. A invenção não está limitada ao exemplo mostrado na figura 10. Naturalmente, outros tipos de reordenação podem ser implementados.
Modalidade Simples - Aperfeiçoamento da resolução temporal
Uma primeira modalidade mostra como dobrar a resolução temporal de acordo com a presente invenção. Em conseqüência, uma análise de tempo - frequência é aplicada a v(n), a fim de dobrar a resolução temporal, v(n) que dividido em dois segmentos, de preferência, de sobreposição. Como v(n) é um sinal limitado temporalmente, uma quantidade de enchimento com 0 é adicionada no início e no final de v(n). De preferência, o sinal de entrada é um sinal de janela aliased temporalmente real ordenado de comprimento N. O comprimento de enchimento de 0 é dependente do comprimento do sinal v(n) e da quantidade desejada de segmentos, nesse caso, uma vez que dois segmentos sobrepostos são desejados, o complemento de enchimento de 0 é igual a um quarto do comprimento de v(n) e são anexados no início e no final de v(n). O uso desse enchimento de 0 leva a dois segmentos 50% sobrepostos do mesmo comprimento que o comprimento de v(n).
De preferência, os segmentos sobrepostos resultantes são janelados, conforme exemplificado na figura 11. Deve ser notado que, embora a forma de janela possa ser, até certo ponto, otimizada para a aplicação desejada, ela tem que obedecer às restrições de reconstrução perfeita. Isso pode ser visto na figura 11, onde a metade direita da janela do segundo segmento tem um valor 1 para a parte que se aplica ao sinal v(n) e o valor 0 para o enchimento com zeros anexo.
Cada um dos segmentos obtidos tem um cumprimento de exatamente N. A aplicação da MDCT a cada segmento leva a N/2 coeficientes; isto é, um total de N coeficientes, portanto, o banco de filtros resultante é amostrado criticamente, veja a figura 11. Por causa das restrições às formas de janelas, a operação é invertível e a aplicação dessas operações inversas nos dois conjuntos de coeficientes de MDCT (coeficientes de MDCT de segmento 1 e 2) levará de volta ao sinal v(n).
Para essa modalidade, as funções de base de banco de filtros resultantes têm localização de tempo aperfeiçoada, mas soltas em localização de frequência, que é um efeito bem conhecido do princípio de incerteza de tempo frequência.
A figura 12 mostra as funções de base que se referem à frequência normalizada 0,25. Claramente, a propagação do tempo é muito limitada, porém, que há um derramamento na propagação do tempo, que é devido à sobreposição das duas seções do sinal aliased temporalmente. Esse derramamento no domínio do tempo é um efeito do cancelamento de aliasing do domínio do tempo e sempre estará presente. Contudo, pode ser mitigado por uma escolha adequada (otimização numérica) das funções de janelamento. A figura 12 também mostra as respostas de frequência. Como uma comparação, as funções de base de MDCT originais são mostradas na figura 13, essas correspondem a uma amostragem muito mais estreita do domínio da frequência, porém, e seu intervalo de tempo é muito mais amplo. A figura 13 mostra as funções de base originais correspondendo ao banco de filtros de MLT (MDCT + janela de senos).
Maiores Resoluções temporais
Resolução temporal mais alta pode ser obtida através da divisão do sinal aliased temporalmente reordenado em mais segmentos. As figuras 14 e 15 mostram como isso é obtido para quatro e oito segmentos, respectivamente. A figura 14 ilustra uma resolução temporal maior através da divisão em quatro segmentos e a figura 15 ilustra uma resolução temporal maior através da divisão em oito segmentos. Como será compreendido, qualquer número adequado de segmentos temporais pode ser usado, dependendo da resolução temporal desejada.
Em geral, a unidade de segmentação temporal é configurada para gerar um número selecionável N10 de segmentos com base em um quadro aliased de domínio do tempo, onde N é um inteiro e igual ou maior do que dois.
Para o caso de quatro segmentos, a figura 16 mostra uma realização da transformada global resultante. O janelamento de um quadro de entrada é realizado em uma unidade de janelamento 11, aliasing temporalmente é realizado em uma unidade de aliasing de domínio temporal 12 e reordenação opcional é realizada na unidade de reordenação 13. A análise espectral segmentada é, então, realizada pela aplicação de pós-janelamento em quatro segmentos usando unidades de pós-janelamento 14 e transformadas segmentadas por unidades de transformada 16. De preferência, a transformada segmentada global está baseada em MDCT segmentada, usando aliasing temporalmente e DCTw para cada segmento.
Sobreposição de domínio temporal não uniforme
Com a presente invenção também é possível obter segmentações não uniformes de acordo com o mesmo conceito. Há pelo menos duas maneiras possíveis de realizar essa operação. Um primeiro método é baseado em uma segmentação temporal não uniforme do sinal aliased de tempo reordenado. Desse modo, as janelas usadas para segmentar o sinal têm comprimentos diferentes.
Um segundo método é baseado em uma abordagem hierárquica. A idéia é aplicar, primeiro, segmentação temporal bruta e, então, reaplicar a invenção dos segmentos brutos resultantes até que a sobreposição desejada seja obtido.
A figura 17 mostra um exemplo de como esse segundo método pode ser implementado. Por este exemplo, primeiro dividido em dois segmentos temporais de acordo com a presente invenção; em seguida um dos segmentos é dividido mais uma vez em dois segmentos. Um exemplo de uma transformada adequada é a transformada de MDCT, usando aliasing- tempo e DCTIV para cada segmento considerado.
Operação com detecção de transientes
A invenção pode ser usada a fim de mitigar os artefatos de préeco e, nesse caso, está mais bem associada com um detector de transientes, conforme exemplificado na figura 18. Mediante a detecção de um transiente, o detector de transientes ajustará um sinalizador (IsTransient). O sinalizador do detector de transientes, então, usará o mecanismo de comutação 17 para comutar instantaneamente de um processamento de resolução de frequência total normal (análise espectral não segmentada) para resolução temporal superior (análise espectral segmentada, conforme representado na figura 18 Com essa modalidade é possível, então, analisar sinais de transientes com uma resolução temporal muito mais fina, assim, eliminando os artefatos de pré-eco desagradáveis.
Operações de Codificação de Laço Fechado/Laço Aberto
A invenção também pode ser usada como um meio para encontrar sobreposição ótima de tempo - frequência para a análise de um sinal antes da codificação. Dois modos exemplificativos de operação podem ser usados, laço fechado e laço aberto.
Em operação de laço aberto, um dispositivo externo decidirá o melhor (em termos de eficiência de codificação) sobreposição de tempo frequência para um dado quadro de sinal e usará a invenção a fim de analisar o sinal de acordo com a sobreposição ótima. Em operação de laço fechado, um conjunto de sobreposições pré-definidas é usado para cada um dessas sobreposições, o sinal é analisado e codificado de acordo com a sobreposição. Para cada sobreposição uma medida de fidelidade é computada. A sobreposição que leva à melhor fidelidade é selecionada.
A sobreposição selecionada, junto com os coeficientes codificados, correspondendo a essa sobreposição, é transmitido para o decodificador. Conforme mencionado, os princípios e conceitos acima descritos para o procedimento de envio permitem que uma pessoa habilitada na técnica imagine uma cadeia inversa de operações em um procedimento inverso.
A figura 19 é um diagrama em blocos ilustrando um exemplo básico de um dispositivo de processamento de sinal para operar com base em coeficientes espectrais representativos de um sinal de domínio temporal. O dispositivo inclui uma transformada inversa 42, uma unidade 44 para segmentação temporal inversa, uma unidade de TDA inversa 46 e um somador de sobreposição opcional 48.
Basicamente, é desejável sintetizar um sinal de domínio temporal de um fluxo de bits quantificado e codificado. Uma vez que coeficientes espectrais tenham sido recuperados, análise espectral inversa é realizada na transformada inversa 42 com base em diferentes subconjuntos de coeficientes espectrais a fim de gerar, para cada subconjunto de coeficientes espectrais, um subquadro transformado inverso, também referido como um segmento. A unidade 44 para segmentação temporal inversa opera com base em subquadros transformados inversos sobrepostos para combinar esses subquadros em um quadro aliased de domínio temporal. A unidade de TDA inversa 46, então, realiza aliasing de domínio temporal inverso, baseado no quadro aliased de domínio temporal para permitir a reconstrução do sinal de domínio temporal.
O aliasing de domínio temporal inverso é realizado para reconstruir um primeiro quadro de domínio temporal e o procedimento global pode, então, sintetizar o sinal de domínio temporal baseado na adição sobreposição do primeiro quadro de domínio temporal com um segundo quadro subsequente de domínio temporal reconstruído, pelo uso do somador sobreposição 48.
Estágios opcionais de pré-, pós-processamento e intermediário podem ser incluídos no dispositivo da figura 19.
A análise espectral inversa pode ser baseada em qualquer um de um número de transformadas inversas diferentes, de preferência, transformadas, de preferência, sobrepostas. Por exemplo, em aplicações de decodificação de áudio, é benéfico usar a transformada inversa de MDCT (IMDCT).
De preferência, dispositivo de processamento de sinal é configurado para síntese e/ou decodificação de áudio para reconstruir um sinal de áudio de domínio temporal. Em uma modalidade preferida da invenção, o dispositivo de processamento de sinal da figura 19 é parte de um decodificador de áudio tal como o decodificador de áudio 40 da figura 1 ou da figura 21.
No seguinte, a invenção será descrita em relação a uma realização específica, exemplificativa e não limitativa adequada para a extensão de codec de banda total ITU-T G.722.1, a saber, o codec ITU-T G.719. Neste exemplo particular, o codec é apresentado como um codec de áudio baseado em transformada de baixa complexidade, o qual, de preferência opera em uma taxa de amostragem de 48kHz e oferece a largura de banda de áudio total que oscila de 20 Hz a 20 kHz. O codificador processa sinais de PCM lineares de 16 bits de entrada em quadros de 20 ms e o codec tem um retardo global de 40 ms. O algoritmo de codificação está baseado, de preferência, em codificação de transformada com resolução temporal adaptativa, alocação de bits adaptativa e quantificação de vetor de baixa complexidade. Além disso, o decodificador pode substituir componentes de espectro não codificados através de extensão de largura de banda ou preenchimento de ruído adaptativo de sinal.
A figura 20 é um diagrama em blocos de um codificador adequado para extensão de banda total. O sinal de entrada amostrado em 48 kHz é processado através de um detector de transiente. Dependendo da detecção de um transiente, uma transformada de alta resolução de frequência ou uma baixa resolução de frequência (alta resolução temporal) é aplicada no quadro de sinal de entrada. A transformada adaptativa é baseada, de preferência, Transformada de Cosseno Discreto Modificada (MDCT) em caso de quadros estacionários. Para quadros não estacionários uma transformada de resolução temporal mais alta é usada sem a necessidade de retardo adicional e com overhead muito pequeno em complexidade. Quadros não estacionários, de preferência, têm uma resolução temporal equivalente a quadros de 5 ms (embora qualquer resolução arbitrária possa ser selecionada).
Pode ser benéfico agrupar os coeficientes espectrais obtidos em bandas de comprimentos desiguais. A norma de cada banda é estimada e o envelope espectral resultante consistindo das normas de todas as bandas é quantificado e codificado. Os coeficientes são, então, normalizados pelas normas quantificadas. As normas quantificadas são ainda ajustadas com base em ponderação espectral adaptativa usada como entrada para alocação de bits. Os coeficientes espectrais normalizados são vetores de rede quantificados e codificados com base nos bits alocados para cada banda de frequência. O nível dos coeficientes espectrais não codificados é estimado, codificado e transmitido para o decodificador. Codificação de Huffman é aplicada, de preferência, aos índices de quantificação para os coeficientes espectrais codificados, bem como as normas codificadas.
A figura 21 é um diagrama em blocos de um decodificador exemplificative adequado para extensão de banda total. O sinalizador de transiente é primeiro decodificado, o que indica a configuração do quadro, isto é, estacionário ou transiente. O envelope espectral é decodificado e os mesmos ajustes de normas, bits-exatos e algoritmos de alocação de bits são usados no decodificador para re-computar a alocação de bits, que é essencial para decodificação de índices de quantificação dos coeficientes de transformada normalizados.
Após a desquantificação, coeficientes espectrais não codificados de baixa frequência (alocados zero bits) são regenerados, de preferência, através do uso de um livro de códigos de preenchimento espectral construído dos coeficientes espectrais recebidos (coeficientes espectrais com alocação de bits não zero).
O índice de ajuste de nível de ruído pode ser usado para ajustar o nível dos coeficientes regenerados. Os coeficientes espectrais não codificados de alta frequência são, de preferência, regenerados usando extensão de largura de banda.
Os coeficientes espectrais decodificados e os coeficientes espectrais regenerados são misturados e levam a um espectro normalizado. O envelope espectral decodificado é aplicado, levando ao espectro de banda total decodificado.
Finalmente, a transformada inversa é aplicada para recuperar o sinal decodificado de domínio temporal. Isso é realizado, de preferência, pela aplicação da Transformada de Cosseno Discreto Modificada (IMDCT) inversa para modos estacionários ou a inversa da transformada de resolução temporal maior para modo de transiente. O algoritmo adaptado para extensão de banda total é baseado em tecnologia de codificação de transformada adaptativa.
Opera em quadros de 20 ms de áudio de entrada e de saída.
Como a janela de transformada (comprimento de função base) é de 40 ms e uma sobreposição de 50 por cento é usada entre quadros sucessivos de entrada e de saída, o tamanho efetivo do buffer de antecipação é 20 ms. Portanto, o retardo algorítmico total é de 40 ms, que é a soma do tamanho de quadro mais o tamanho. Todos os outros retardos adicionais experimentados em uso de um codec de banda total G.722.1 são devido aos retardos computacionais e/ou de transmissão de rede.
A figura 22 é um diagrama em blocos esquemático de um exemplo particular de uma transformada inversa e implementação associada para segmentação temporal inversa e reordenação opcional de acordo com uma modalidade preferida da invenção. A transformada inversa é baseado em DCTIV em cascata com aliasing temporal inverso. Quatro chamados subespectros z/(k), onde /= 0, 1, 2, 3 são processados pela transformada inversa e cada subespectro é primeiro submetido à transformada inversa por meio de uma respectiva DCTjv no domínio aliased de domínio temporal e, então, aliased de tempo inverso, isto é, aliased de domínio temporal inverso, para proporcionar uma transformada inversa global do tipo MDCT para cada subespectro. O comprimento do sinal resultante para cada índice de subquadro f é igual ao dobro do comprimento do espectro de entrada, isto é, L/2. Os sinais aliased de domínio temporal inverso para cada subquadro f são colocados em janelas, usando a mesma configuração de janelas que aquelas no codificador. Os sinais de janela resultantes são adicionados sobrepostos. Note que a janela para o primeiro m — 0 e o último m = 3 subquadros é zero. Isso é devido ao enchimento com zeros que é usado no codificador.
Essas duas bordas de quadro não precisam ser computadas e são abandonadas efetivamente. O sinal resultante das operações de adição sobrepostas de todos os subquadros vq(n) é reordenado usando a operação inversa realizada no codificador, que leva ao sinal xq(n), n = 0,...,L-l.
A saída da transformada inversa, no modo estacionário ou transiente é de comprimento L. Antes do janelamento (não mostrado na figura 22), o sinal é primeiro aliased de domínio temporal inverso (ITDA), levando a um sinal de comprimento 2L de acordo com:
1/2
L12
-C/2 ~ JLn ϊ'
O sinal resultante é colocado em janela para cada quadro r de acordo com :
x(r)(ri) = h(ri)x^.j(ri)} n = 0,...,2£-1, onde h(n) tem função de janela.
Finalmente, o sinal de banda total de saída é construído através de adição com sobreposição dos sinais xw(n) para dois quadros sucessivos:
x(r)(n) = ^(r-D+ £) + χω (η), n = 0,.. .,2L -1.
As modalidades descritas acima são dadas apenas como exemplos e deve ser construído que a presente invenção não está limitada às mesmas. Outras modificações, mudanças e aperfeiçoamentos que conservam os princípios básicos subjacentes aqui divulgados e reivindicados estão dentro do escopo da invenção.

Claims (6)

  1. REIVINDICAÇÕES
    1. Método para processamento de sinal, operando em quadros sobrepostos de um sinal de áudio no domínio temporal, o dito método compreendendo as etapas de:
    realizar (S2) aliasing de domínio temporal (TDA) baseado em um quadro sobreposto, tendo um comprimento 2N, para gerar um quadro aliased de domínio temporal (x) correspondente tendo um comprimento N;
    o dito método caracterizado por:
    reordenar (13) o quadro aliased de domínio temporal (x) para gerar um quadro aliased de domínio temporal reordenado (v);
    realizar (S4) segmentação temporal, compreendendo preenchimento zero do quadro aliased de domínio temporal reordenado (v) de comprimento N para gerar um quadro tendo um comprimento maior do que N e então dividir o quadro produzido resultante em pelo menos dois segmentos sobrepostos, cada um tendo um comprimento igual ou menor que N; e realizar (S5) análise espectral com base nos ditos pelo menos dois segmentos sobrepostos pela aplicação, em cada um dos ditos pelo menos dois segmentos sobrepostos, uma Transformada de Cosseno Discreto Modificada (MDCT) para o segmento obter, para cada segmento, um conjunto de coeficientes correspondente representativo do conteúdo de frequência dosegmento.
  2. 2. Método, de acordo com a reivindicação 1, caracterizado por a dita MDCT (16) ser formada por um estágio de operação de aliasing de domínio temporal (TDA) seguido por um segundo estágio com base em uma Transformada de Cosseno Discreto (DCT) do tipo IV e cada segmento ter um comprimento menor que N.
    Petição 870190127050, de 02/12/2019, pág. 12/15
    2/3
  3. 3. Método, de acordo com a reivindicação 1, caracterizado por compreender a etapa de comutar (17), na dependência da detecção de um transiente de sinal no dito sinal de áudio, entre:
    análise espectral não segmentada (116) baseada no dito quadro aliased de domínio temporal (X), chamada processamento de resolução de frequência total; e análise espectral segmentada (14, 16) com base nos ditos pelo menos dois segmentos sobrepostos, chamada processamento de resolução temporal aumentada.
  4. 4. Dispositivo (30, 40) para processamento de sinal, operando em quadros sobrepostos de um sinal de áudio, o dito dispositivo compreendendo:
    meios para realizar aliasing de domínio temporal (12) (TDA) baseado em um quadro sobreposto, tendo um comprimento 2N, para gerar um quadro aliased de domínio temporal tendo um comprimento N;
    o dispositivo caracterizado por:
    meios para reordenar (13) o quadro aliased de domínio temporal para gerar um quadro aliased de domínio temporal reordenado (v);
    meios para realizar segmentação (14) temporal, compreendendo preenchimento zero do quadro aliased de domínio temporal reordenado (v) de comprimento N para gerar um quadro tendo um comprimento maior do que N e então dividir o quadro produzido resultante em pelo menos dois segmentos sobrepostos, cada um tendo um comprimento igual ou menor que N; e um analisador espectral (16) configurado para realizar análise espectral segmentada com base nos ditos pelo menos dois segmentos sobrepostos pela aplicação, em cada um dos ditos pelo menos dois
    Petição 870190127050, de 02/12/2019, pág. 13/15
    3/3 segmentos sobrepostos, uma Transformada de Cosseno Discreto Modificada (MDCT) para o segmento obter, para cada segmento, um conjunto de coeficientes correspondente representativo do conteúdo de frequência do segmento.
  5. 5. Dispositivo (30, 40) de acordo com a reivindicação 4, caracterizado por a dita MDCT ser formada por um estágio de operação de aliasing de domínio temporal (TDA) seguido por um segundo estágio com base em uma Transformada de Cosseno Discreto (DCT) do tipo IV e cada segmento tem um comprimento menor que N.
  6. 6. Dispositivo (30, 40) de acordo com a reivindicação 4, caracterizado por compreender meios para comutar (17), na dependência da detecção de um transiente de sinal no dito sinal de áudio, entre análise espectral não segmentada (116) baseada no dito quadro aliased de domínio temporal (X), e análise espectral segmentada (14, 16) com base nos ditos pelo menos dois segmentos.
BRPI0816136-4A 2007-08-27 2008-08-25 Método e dispositivo para processamento de sinal BRPI0816136B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US96812507P 2007-08-27 2007-08-27
US60/968125 2007-08-27
PCT/SE2008/050959 WO2009029032A2 (en) 2007-08-27 2008-08-25 Low-complexity spectral analysis/synthesis using selectable time resolution

Publications (2)

Publication Number Publication Date
BRPI0816136A2 BRPI0816136A2 (pt) 2015-02-24
BRPI0816136B1 true BRPI0816136B1 (pt) 2020-03-03

Family

ID=40388070

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0816136-4A BRPI0816136B1 (pt) 2007-08-27 2008-08-25 Método e dispositivo para processamento de sinal

Country Status (11)

Country Link
US (2) US8392202B2 (pt)
EP (3) EP2186088B1 (pt)
JP (1) JP5140730B2 (pt)
CN (2) CN103594090B (pt)
BR (1) BRPI0816136B1 (pt)
CA (1) CA2698039C (pt)
DK (2) DK3288028T3 (pt)
ES (3) ES2748843T3 (pt)
MX (1) MX2010001763A (pt)
PT (1) PT3550564T (pt)
WO (1) WO2009029032A2 (pt)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2571024B1 (en) 2007-08-27 2014-10-22 Telefonaktiebolaget L M Ericsson AB (Publ) Adaptive transition frequency between noise fill and bandwidth extension
PL2186090T3 (pl) 2007-08-27 2017-06-30 Telefonaktiebolaget Lm Ericsson (Publ) Detektor stanów przejściowych i sposób wspierający kodowanie sygnału audio
US8548815B2 (en) * 2007-09-19 2013-10-01 Qualcomm Incorporated Efficient design of MDCT / IMDCT filterbanks for speech and audio coding applications
US9189250B2 (en) * 2008-01-16 2015-11-17 Honeywell International Inc. Method and system for re-invoking displays
WO2010086461A1 (en) 2009-01-28 2010-08-05 Dolby International Ab Improved harmonic transposition
CA3162808C (en) 2009-01-28 2023-10-10 Dolby International Ab Improved harmonic transposition
CN103559891B (zh) * 2009-09-18 2016-05-11 杜比国际公司 改进的谐波转置
EP2372705A1 (en) * 2010-03-24 2011-10-05 Thomson Licensing Method and apparatus for encoding and decoding excitation patterns from which the masking levels for an audio signal encoding and decoding are determined
CN102222505B (zh) * 2010-04-13 2012-12-19 中兴通讯股份有限公司 可分层音频编解码方法系统及瞬态信号可分层编解码方法
EP2619758B1 (en) * 2010-10-15 2015-08-19 Huawei Technologies Co., Ltd. Audio signal transformer and inverse transformer, methods for audio signal analysis and synthesis
EP2676267B1 (en) 2011-02-14 2017-07-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding of pulse positions of tracks of an audio signal
MY159444A (en) 2011-02-14 2017-01-13 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Encoding and decoding of pulse positions of tracks of an audio signal
EP2676264B1 (en) 2011-02-14 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder estimating background noise during active phases
AU2012217216B2 (en) 2011-02-14 2015-09-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result
PL2676268T3 (pl) 2011-02-14 2015-05-29 Fraunhofer Ges Forschung Urządzenie i sposób przetwarzania zdekodowanego sygnału audio w domenie widmowej
WO2012110482A2 (en) 2011-02-14 2012-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Noise generation in audio codecs
RU2630390C2 (ru) 2011-02-14 2017-09-07 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для маскирования ошибок при стандартизированном кодировании речи и аудио с низкой задержкой (usac)
JP6110314B2 (ja) 2011-02-14 2017-04-05 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 整列したルックアヘッド部分を用いてオーディオ信号を符号化及び復号するための装置並びに方法
ES2458436T3 (es) * 2011-02-14 2014-05-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Representación de señal de información utilizando transformada superpuesta
PL2676266T3 (pl) 2011-02-14 2015-08-31 Fraunhofer Ges Forschung Układ kodowania na bazie predykcji liniowej wykorzystujący kształtowanie szumu w dziedzinie widmowej
KR20150032614A (ko) * 2012-06-04 2015-03-27 삼성전자주식회사 오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 및 이를 채용하는 멀티미디어 기기
US9760536B2 (en) 2012-08-16 2017-09-12 Ecole polytechnique fédérale de Lausanne (EPFL) Method and apparatus for low complexity spectral analysis of bio-signals
EP3564953B1 (en) 2013-04-05 2022-03-23 Dolby Laboratories Licensing Corporation Apparatus and methods for expanding and compressing to reduce quantization noise using advanced spectral extension
CN104240697A (zh) * 2013-06-24 2014-12-24 浙江大华技术股份有限公司 一种音频数据的特征提取方法及装置
EP3028275B1 (en) 2013-08-23 2017-09-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal using a combination in an overlap range
CN103745726B (zh) * 2013-11-07 2016-08-17 中国电子科技集团公司第四十一研究所 一种自适应的变采样率音频采样方法
US10410645B2 (en) 2014-03-03 2019-09-10 Samsung Electronics Co., Ltd. Method and apparatus for high frequency decoding for bandwidth extension
WO2015162500A2 (ko) * 2014-03-24 2015-10-29 삼성전자 주식회사 고대역 부호화방법 및 장치와 고대역 복호화 방법 및 장치
CN105336336B (zh) 2014-06-12 2016-12-28 华为技术有限公司 一种音频信号的时域包络处理方法及装置、编码器
JP6754764B2 (ja) * 2014-12-09 2020-09-16 ドルビー・インターナショナル・アーベー Mdct領域の誤り隠蔽
EP3271736B1 (en) 2015-03-17 2019-09-04 Zynaptiq GmbH Methods for extending frequency transforms to resolve features in the spatio-temporal domain
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
EP3276620A1 (en) * 2016-07-29 2018-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain aliasing reduction for non-uniform filterbanks which use spectral analysis followed by partial synthesis
JP6486978B2 (ja) * 2017-02-10 2019-03-20 三菱重工業株式会社 積層部材、並びに、これを用いた羽根車、圧縮機及びエンジン
US10699723B2 (en) * 2017-04-25 2020-06-30 Dts, Inc. Encoding and decoding of digital audio signals using variable alphabet size
EP3616197A4 (en) * 2017-04-28 2021-01-27 DTS, Inc. AUDIO ENCODER WINDOW SIZES AND TIME-FREQUENCY TRANSFORMATIONS
CN112255456B (zh) * 2020-12-22 2021-03-16 深圳市鼎阳科技股份有限公司 一种用于频谱分析仪的扫频方法和扫频装置
WO2022177481A1 (en) * 2021-02-18 2022-08-25 Telefonaktiebolaget Lm Ericsson (Publ) Encoding and decoding complex data

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5297236A (en) * 1989-01-27 1994-03-22 Dolby Laboratories Licensing Corporation Low computational-complexity digital filter bank for encoder, decoder, and encoder/decoder
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
US6115689A (en) * 1998-05-27 2000-09-05 Microsoft Corporation Scalable audio coder and decoder
CN100361405C (zh) * 1998-05-27 2008-01-09 微软公司 利用可升级的音频编码器和解码器处理输入信号的方法
JP2000134105A (ja) * 1998-10-29 2000-05-12 Matsushita Electric Ind Co Ltd オーディオ変換符号化に用いられるブロックサイズを決定し適応させる方法
US6233549B1 (en) * 1998-11-23 2001-05-15 Qualcomm, Inc. Low frequency spectral enhancement system and method
US6226608B1 (en) * 1999-01-28 2001-05-01 Dolby Laboratories Licensing Corporation Data framing for adaptive-block-length coding system
US6430529B1 (en) * 1999-02-26 2002-08-06 Sony Corporation System and method for efficient time-domain aliasing cancellation
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
JP3753956B2 (ja) * 2001-06-21 2006-03-08 シャープ株式会社 符号化装置
JP3815323B2 (ja) * 2001-12-28 2006-08-30 日本ビクター株式会社 周波数変換ブロック長適応変換装置及びプログラム
US7275036B2 (en) * 2002-04-18 2007-09-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a time-discrete audio signal to obtain coded audio data and for decoding coded audio data
DE10217297A1 (de) * 2002-04-18 2003-11-06 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Codieren eines zeitdiskreten Audiosignals und Vorrichtung und Verfahren zum Decodieren von codierten Audiodaten
CN1460992A (zh) * 2003-07-01 2003-12-10 北京阜国数字技术有限公司 用于感知音频编/解码的低延时、自适应的多分辨率滤波器组
US7516064B2 (en) * 2004-02-19 2009-04-07 Dolby Laboratories Licensing Corporation Adaptive hybrid transform for signal analysis and synthesis
US7630902B2 (en) 2004-09-17 2009-12-08 Digital Rise Technology Co., Ltd. Apparatus and methods for digital audio coding using codebook application ranges
US7974837B2 (en) * 2005-06-23 2011-07-05 Panasonic Corporation Audio encoding apparatus, audio decoding apparatus, and audio encoded information transmitting apparatus
EP2015293A1 (en) * 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain

Also Published As

Publication number Publication date
CN101878504A (zh) 2010-11-03
CN103594090A (zh) 2014-02-19
EP2186088B1 (en) 2017-11-15
US8392202B2 (en) 2013-03-05
DK2186088T3 (en) 2018-01-15
CA2698039A1 (en) 2009-03-05
EP2186088A4 (en) 2015-05-06
US20100250265A1 (en) 2010-09-30
EP2186088A2 (en) 2010-05-19
ES2658942T3 (es) 2018-03-13
JP2010538314A (ja) 2010-12-09
EP3550564A1 (en) 2019-10-09
ES2823560T3 (es) 2021-05-07
PT3550564T (pt) 2020-08-18
DK3288028T3 (da) 2019-09-02
US20130246074A1 (en) 2013-09-19
EP3288028A1 (en) 2018-02-28
CN101878504B (zh) 2013-12-04
CA2698039C (en) 2016-05-17
CN103594090B (zh) 2017-10-10
ES2748843T3 (es) 2020-03-18
BRPI0816136A2 (pt) 2015-02-24
MX2010001763A (es) 2010-03-10
US8706511B2 (en) 2014-04-22
WO2009029032A2 (en) 2009-03-05
WO2009029032A3 (en) 2009-04-23
EP3288028B1 (en) 2019-07-03
JP5140730B2 (ja) 2013-02-13
EP3550564B1 (en) 2020-07-22

Similar Documents

Publication Publication Date Title
BRPI0816136B1 (pt) Método e dispositivo para processamento de sinal
ES2953084T3 (es) Decodificador de audio para procesar audio estéreo usando una dirección de predicción variable
ES2375192T3 (es) Codificación por transformación mejorada de habla y señales de audio.
BR122023025309A2 (pt) Aparelho e método para carregamento estéreo em conversão em código multicanal e sistema
BR122019020171B1 (pt) Banco de filtros [filterbank] de análise, banco de filtros de síntese, codificador, decodificador, mixador e sistema de conferência
BRPI0910783B1 (pt) Aparelho e método para codificar/decodificar um sinal de áudio utilizando um esq de transferência allastng
BRPI0414618B1 (pt) Dispositivo e método para o processamento de um sinal tendo uma seqüência de valores discretos
BR112020026967A2 (pt) Codificação de áudio de multissinal usando branqueamento de sinal como pré-processamento
BR122020017853B1 (pt) Sistema e aparelho para codificar um sinal de voz em um fluxo de bits, e método e aparelho para decodificar sinal de áudio
BRPI0412166B1 (pt) aparato e método para a conversão em uma representação transformada ou para a conversão inversa da representação transformada
BR112015014643A2 (pt) atenuação eficaz de pré-ecos em um sinal audionumérico
ES2666719T3 (es) Codificación/decodificación por transformada, con ventanas adaptativas
US20230360657A1 (en) Downscaled decoding
EP1692686A1 (en) Audio signal coding
CA3163373A1 (en) Switching between stereo coding modes in a multichannel sound codec
ES2704261T3 (es) Codificación de audio multicanal que utiliza predicción compleja y un indicador de longitud de transformada

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 03/03/2020, OBSERVADAS AS CONDICOES LEGAIS.