BR112013020587B1

BR112013020587B1 - esquema de codificação com base em previsão linear utilizando modelagem de ruído de domínio espectral

Info

Publication number: BR112013020587B1
Application number: BR112013020587-3A
Authority: BR
Inventors: Gorgan Markovic; Guillaume Fuchs; Nikolaus Rettelbach; Christian Helmrich; Benjamin SCHUBERT
Original assignee: Fraunhofer-Gesellschaft Zur Forderung De Angewandten Forschung E.V.
Priority date: 2011-02-14
Filing date: 2012-02-14
Publication date: 2021-03-09
Also published as: RU2013142133A; EP2676266A1; BR112013020592B1; KR101617816B1; US9595262B2; BR112013020592A2; KR20130133848A; JP5625126B2; CN103477387B; AU2012217156A1; WO2012110476A1; AU2012217156B2; BR112013020587A2; MY165853A; ZA201306840B; AR085794A1; US20130332153A1; CA2827277C; HK1192050A1; EP2676266B1

Abstract

Esquema de Codificação com Base em Previsão Linear Utilizando Modelagem de Ruído de Domínio Espectral Um conceito de codificação que tem como base uma previsão linear e utiliza modelagem de ruído no domínio espectral é processado de forma menos complexa com uma eficiência de codificação comparável em termos de, por exemplo, relação de taxa/distorção, utilizando a decomposição espectral do sinal de entrada de áudio para um espectrograma compreendendo uma sequência de espectros tanto para o cálculo do coeficiente de previsão linear quanto para a modelagem de domínio espectral com base nos coeficientes de previsão linear. A eficiência de codificação pode permanecer mesmo se tal transformação sobreposta for utilizada para a decomposição espectral, que causa aliasing [serrilhado] e necessita de cancelamento de aliasing de tempo, tais como transformações sobrepostas criticamente amostradas, tal como uma MDCT.

Description

Descrição

A presente invenção diz respeito a um codec de áudio com base em previsão linear utilizando a modelagem de ruído no domínio da frequência tal como o modo TCX conhecido da USAC.

Como um codec de áudio relativamente novo, a USAC foi finalizada recentemente. USAC é um codec que suporta a comutação entre vários modos de codificação, como um modo de codificação similar à AAC, um modo de codificação no domínio do tempo utilizando codificação de previsão linear, ou seja, ACELP, e codificação de excitação codificada de transformação formando um modo de codificação intermediário, segundo o qual a modelagem de domínio espectral é controlada utilizando os coeficientes de predições lineares transmitidos através do fluxo de dados. Na Patente WO 2011147950, a proposta foi feita para tornar o esquema de codificação USAC mais adequado para aplicações de baixo atraso, excluindo a disponibilidade do modo de codificação similar à AAC e restringindo os modos de codificação para ACELP e TCX somente. Além disso, foi proposto reduzir o comprimento da estrutura.

No entanto, seria favorável para ter uma possibilidade para reduzir a complexidade de um esquema de codificação com base em previsão linear, utilizando a modelagem de domínio espectral enquanto se obtém eficiência similar da codificação em termos de, por exemplo, sensação de relação de taxa/distorção.

Assim, é um objeto da presente invenção proporcionar tal esquema de codificação com base em previsão linear utilizando a modelagem de dominio espectral permitindo uma redução da complexidade com uma eficiência de codificação comparável ou mesmo superior. Este objetivo é atingido pelo objeto das reivindicações independentes pendentes.

É uma ideia básica subjacente a presente invenção que um conceito de codificação com base em previsão linear, o qual utiliza modelagem de ruido no dominio espectral, pode ser processado de forma menos complexa com uma eficiência de codificação comparável em termos de, por exemplo, relação de taxa/distorção, se a decomposição espectral do sinal de entrada de áudio em um espectrograma compreendendo uma sequência de espectros for utilizada tanto para o cálculo de coeficiente de previsão linear, como para a entrada para uma modelagem de dominio espectral com base nos coeficientes de previsão linear.

A este respeito, verificou-se que a eficiência de codificação permanece mesmo se tal transformação sobreposta for utilizada para a decomposição espectral, que causa aliasing [serrilhado] e necessita de cancelamento de aliasing de tempo, como transformações sobrepostas criticamente amostradas como uma MDCT. Implementações vantajosas de aspectos da presente invenção são objeto das reivindicações dependentes.

Em particular, aplicações preferidas do presente pedido de patente são descritas em relação às figuras, entre as quais: A Figura 1 mostra um diagrama em bloco de um codificador de áudio de acordo com uma comparação ou aplicação; A Figura 2 mostra um codificador de áudio de acordo com uma aplicação do presente pedido de patente; A Figura 3 mostra um diagrama em bloco de um possivel decodificador de áudio sendo acoplado ao codificador de áudio da Figura 2; e A Figura 4 mostra um diagrama em bloco de um codificador de áudio alternativo, de acordo com uma aplicação do presente pedido de patente. A fim de facilitar a compreensão dos principais aspectos e vantagens das aplicações da presente invenção descritos adicionalmente abaixo, é preliminarmente feita referência à Figura 1, que mostra um codificador de áudio com base em previsão linear utilizando a modelagem de ruido em domínio espectral.

Em particular, o codificador de áudio da Figura 1 compreende um decompositor espectral 10 para a decomposição espectral de um sinal áudio de entrada 12 para dentro de um espectrograma constituído por uma sequência de espectros, o que é indicado em 14 na Figura 1. Como é mostrado na Figura 1, o decompositor espectral 10 pode usar um MDCT, a fim de transferir o sinal de áudio de entrada 10 do domínio do tempo para o domínio espectral. Em particular, um janelador [ivíndoiver] 16 precede o módulo MDCT 18 do decompositor espectral 10 de modo a enquadrar porções mutuamente sobrepostas do sinal de entrada de áudio 12, cujas porções enquadradas são individualmente sujeitas a respectiva transformação no módulo MDCT 18, de modo a se obter os espectros da sequência de espectros do espectrograma 14. No entanto, o decompositor espectral 10 pode como alternativa utilizar qualquer outra transformação sobreposta causando aliasing, como qualquer outra transformação sobreposta criticamente amostrada.

Além disso, o codificador de áudio da Figura 1 compreende um analisador de previsão linear 20, para analisar o sinal de entrada de áudio 12, de modo a derivar os coeficientes de previsão linear do mesmo. Um modelador de dominio espectral 22 de codificador de áudio da Figura 1 é configurado para modelar espectralmente um. espectro atual da sequência de espectros do espectrograma 14, com base nos coeficientes de previsão linear fornecidos pelo analisador de previsão linear 20. Em particular, o modelador de dominio espectral 22 é configurado para moldar espectralmente um espectro atual inserindo o modelador de dominio espectral 22 de acordo com uma função de transferência, que corresponde a uma função de transferência de filtro de análise de previsão linear convertendo os coeficientes de previsão linear do analisador 20 em valores de ponderação espectral e aplicando estes valores de ponderação espectral como divisores de modo a formar ou moldar espectralmente o espectro atual. O espectro formado está sujeito a uma quantificação no quantificador 24 do codificador de áudio da Figura 1. Devido à modelagem no modelador de dominio espectral 22, o ruído de quantificação, que resulta da desmodelagem do espectro quantizado no lado do decodificador, é deslocado, de modo a ser oculto, ou seja, a codificação é tão transparente perceptualmente quanto possível.

Apenas para fins de completude, observa-se que um módulo de modelagem de ruído temporal 26 pode opcionalmente sujeitar o espectro encaminhado do decompositor espectral 10 para o modelador de domínio espectral 22 para uma modelagem de ruído temporal e um módulo de ênfase de baixa frequência 28 pode adaptativamente filtrar cada saida de espectro modelado pelo modelador de dominio espectral 22 antes da quantificação 24.

O espectro quantificado e espectralmente modelado é inserido no fluxo de dados 30 juntamente com a informação sobre os coeficientes de previsão linear utilizados na modelagem espectral de modo a que, no lado da decodificação, a desmodelagem e desquantificação possam ser realizadas.

A maior parte do codec de áudio, uma exceção sendo o módulo TNS 26, mostrado na Figura 1 é, por exemplo, aplicada e descrita no novo codec de áudio USAC e em particular, dentro do próprio modo TCX. Consequentemente, para obter mais detalhes, é feita referência, exemplarmente, ao padrão USAC, por exemplo [1].

No entanto, mais ênfase é fornecida a seguir com relação ao analisador de previsão linear 20. Como é mostrado na Figura 1, o analisador de previsão linear 20 opera diretamente com o sinal de áudio de entrada 12. Um módulo de pré-ênfase 32 pré- filtra o sinal áudio de entrada 12, tal como, por exemplo, por filtragem FIR, e como a seguir designado, uma autocorrelação é continuamente derivada por uma concatenação de um janelador 34, autocorrelacionador 36 e janelador de atraso 38. O janelador 34 forma porções de janela a partir do sinal de entrada de áudio pré- filtrado, cujas porções de janela podem mutuamente se sobrepor no tempo. Um autocorrelacionador 36 que calcula uma autocorrelação por saida de janela de porção pelo janelador 34 e janelador de atraso 38 é opcionalmente fornecido para aplicar uma função de janela de atraso para as autocorrelações, de modo a produzir as autocorrelações mais adequadas para o seguinte algoritmo de estimativa de parâmetros de previsão linear. Em particular, um estimador de parâmetro de previsão linear 40 recebe a saida da janela de atraso e executa, por exemplo, um algoritmo Wiener- Levinson-Durbin ou outro algoritmo apropriado para as autocorrelações de janela de modo a derivar os coeficientes de previsão linear por autocorrelação. Dentro do modelador de dominio espectral 22, os coeficientes de previsão linear resultantes são passados através de uma cadeia de módulos 42, 44, 4 6 e 48. O módulo 42 é responsável por transferir informação sobre os coeficientes de previsão linear dentro do fluxo de dados 30 para o lado da decodificação. Como mostrado na Figura 1, o insersor de fluxo de dados do coeficiente de previsão linear 42 pode ser configurado para executar uma quantificação dos coeficientes de previsão linear determinados pelo analisador de previsão linear 20 em um par espectral de linha ou dominio da frequência de linha espectral com a codificação dos coeficientes quantificados no fluxo de dados 30 e reconvertendo os valores de predição quantificados em coeficientes LPC novamente. Opcionalmente, alguma interpolação pode ser utilizada de modo a reduzir a taxa de atualização na qual a informação sobre os coeficientes de previsão linear são transportados dentro do fluxo de dados 30. Consequentemente, o módulo subsequente 44 que é responsável pela sujeição dos coeficientes de previsão linear em relação ao espectro atual entrando no modelador de dominio espectral 22 para algum processo de ponderação, tem acesso a coeficientes de previsão linear, conforme eles também são disponíveis no lado da decodificação, isto é, acesso aos coeficientes de previsão linear quantificados. Um módulo subsequente 46 converte os coeficientes de previsão linear ponderada para ponderações espectrais que são então aplicadas pelo módulo modelador de ruido de dominio de frequência 48, de modo a modelar espectralmente o espectro atual de entrada.

Como ficou evidente a partir da discussão acima, a análise de previsão linear realizada por um analisador 20 causa uma sobrecarga que é completamente adicionada à decomposição espectral e à modelagem de dominio espectral feito nos blocos 10 e 22 e, consequentemente, a sobrecarga computacional é considerável. A Figura 2 mostra um codificador de áudio de acordo com uma aplicação do presente pedido de patente, que oferece uma eficiência de codificação comparável, mas com reduzida complexidade da codificação.

Resumidamente falando, no codificador de áudio da Figura 2, que representa uma aplicação do presente pedido de patente, o analisador de previsão linear da Figura 1 é substituído por uma concatenação de um computador de autocorrelação 50 e um computador de coeficiente de previsão linear 52 ligados em série entre o decompositor espectral 10 e o modelador de dominio espectral 22. A motivação para a modificação da Figura 1 para a Figura 2 e a explicação matemática que revela a funcionalidade detalhada dos módulos 50 e 52 serão fornecidos a seguir. No entanto, é óbvio que a sobrecarga de cálculo do codificador de áudio da Figura 2 é reduzida em relação ao codificador de áudio da Figura 1, considerando que o computador de autocorrelação 50 envolve cálculos menos complexos, quando comparado a uma sequência de cálculos envolvidos com a autocorrelação e janelas antes da autocorrelação.

Antes de descrever a estrutura detalhada e matemática da aplicação da Figura 2, a estrutura do codificador de áudio da Figura 2 é descrita resumidamente. Em particular, o codificador de áudio da Figura 2, que é geralmente indicado utilizando o sinal de referência 60, compreende uma entrada 62 para receber o sinal áudio de entrada 12 e uma saida 64 para a saida do fluxo de dados 30, na qual o codificador de áudio codifica o sinal de áudio de entrada 12. O decompositor espectral 10, modelador de ruido temporal 26, modelador de dominio espectral 22, enfatizador de baixa frequência 28 e quantificador 24 são ligados em série na ordem de menção entre a entrada 62 e saida 64. O modelador de ruido temporal 26 e enfatizador de baixa frequência 28 são módulos opcionais e podem, de acordo com uma aplicação alternativa, ser desconsiderados. Se estiver presente, o modelador de ruido temporal 26 pode ser configurado para ser ativado de forma adaptativa, isto é, a modelagem de ruido temporal pelo modelador de ruido temporal 26 pode ser ativada ou desativado dependendo da característica do sinal de entrada de áudio, por exemplo, com um resultado da decisão, sendo, por exemplo, transferida para o lado da decodif icação por meio do fluxo de dados 30, como será explicado em maior detalhe abaixo.

Como mostrado na Figura 1, o modelador de dominio espectral 22 da Figura 2 é construído internamente, tal como foi descrito em relação à Figura 1. No entanto, a estrutura interna da Figura 2 não é para ser interpretada como uma questão critica e a estrutura interna do modelador de dominio espectral 22 pode também ser diferente quando comparada com a estrutura exata mostrada na Figura 2.

O computador de coeficiente de previsão linear 52 da Figura 2 compreende o janelador de atraso 38 e o estimador de coeficiente de previsão linear 40 que estão ligados em série entre o computador de autocorrelação 50, por um lado, e o modelador de dominio espectral 22 por outro lado. Deve notar-se que o janelador de atraso, por exemplo, é também uma característica opcional. Se presente, a janela aplicada pelo janelador de atraso 38 sobre as autocorrelações individuais fornecidas pelo computador de autocorrelação 50 pode ser uma janela em forma de Gauss ou binomial. No que diz respeito ao estimador de coeficiente de previsão linear 40, é de notar que o mesmo não necessariamente usa o algoritmo de Wiener-Levinson- Durbin. Em vez disso, um algoritmo diferente poderia ser utilizado para calcular os coeficientes de previsão linear.

Internamente, o computador de autocorrelação 50 compreende uma sequência de um computador de espectro de potência 54, seguido por um ponderador de espectro / deformador de escala 56, o qual por sua vez é seguido por um transformador inverso 58. Os detalhes e significado da sequência dos módulos 54 a 58 serão descritos em maior detalhe abaixo.

Para entender por que é possível compartilhar a utilização da decomposição espectral do decompositor 10 tanto para a modelagem de ruído de domínio espectral dentro do modelador 22 quanto para o cálculo de coeficiente de previsão linear, deve-se considerar o Teorema de Wiener-Khinichin, que mostra que uma autocorrelação pode ser calculada utilizando um DFT:

onde

Assim, Rm são os coeficientes de autocorrelação do autocorrelação da porção do sinal xn dos quais a DPT é Xk.

Consequentemente, se o decompositor espectral 10 utiliza um DPT a fim de implementar a transformação sobreposta e gerar a sequência de espectros do sinal de áudio de entrada 12, então a calculadora de autocorrelação 50 é capaz de efetuar um cálculo mais rápido de uma autocorrelação na sua saida, meramente obedecendo ao teorema de Wiener-Khinichin esboçado.

Se os valores para todos os atrasos (m) da autocorrelação são necessários, o DPT do decompositor espectral 10 pode ser realizado utilizando um FFT e um FFT inverso pode ser usado dentro do computador de autocorrelação 50 de modo a derivar a autocorrelação dai utilizando a fórmula já mencionada. Quando, no entanto, apenas atrasos M<<N são necessários, é mais rápido utilizar um FFT para a decomposição espectral e aplicar diretamente um DFT inverso, de modo a obter os coeficientes de autocorrelação relevantes.

O mesmo é válido quando o DFT mencionado acima é substituído por uma ODFT, ou seja, DFT de frequência estranha, onde um DFT generalizado de uma sequência de tempo x é definido como:

é definido para ODFT [Odd Frequency DFT | DFT de frequência estranha].

Se, no entanto, uma MDCT for utilizada na aplicação da Figura 2, ao invés de um DFT ou FFT, as coisas serão diferentes. A MDCT envolve uma transformação cosseno discreta do tipo IV e só revela um espectro de valores reais. Isto é, a informação de fase se perde por essa transformação. A MDCT pode ser escrita como:

onde xn, com n = 0 ... 2N-1 define uma porção de janela atual do sinal de áudio de entrada 12 como saida pelo janelador 16 e Xk é, consequentemente, o coeficiente espectral k- th do espectro resultante para esta porção de janela.

O computador de espectro de potência 54 calcula a partir da saida da MDCT o espectro de potência ao elevar ao quadrado cada coeficiente de transformação Xk de acordo com:

A relação entre um espectro MDCT, tal como definido por Xk e um espectro ODFT, Xk0DFT pode ser escrita como:

Isto significa que utilizando a MDCT no lugar de uma ODFT como entrada para o computador de autocorrelação 50 para realizar o procedimento de MDCT para autocorrelação, é equivalente à autocorrelação obtida da ODFT com a ponderação de espectro de

Esta distorção da autocorrelação determinada é, no entanto, transparente para o lado de decodificação conforme a modelagem de dominio espectral dentro do modelador 22 opera exatamente no mesmo dominio espectral como o do decompositor espectral 10, ou seja, a MDCT. Em outras palavras, uma vez que a modelagem de ruido no dominio da frequência realizado pelo modelador de ruido no dominio de frequência 48 da Figura 2 é aplicada no dominio da MDCT, isto significa efetivamente que a ponderação do espectro fkmdct anula a modulação da MDCT e produz resultados semelhantes, como um LPC convencional como mostrado na Figura 1 produz quando a MDCT é substituída com uma ODFT.

Deste modo, no computador de autocorrelação 50, o transformador inverso 58 executa uma ODFT inversa e uma ODFT inversa de uma entrada real simétrico é igual a uma DCT tipo II:

base em MDCT no computador de autocorrelação 50 da Figura 2, conforme a autocorrelação como determinado pela ODFT inversa na saida do transformador inverso 58 apresenta um custo computacional relativamente baixo, pois etapas computacionais meramente mínimas são necessárias, como a simples elevação ao quadrado mencionada e o computador de espectro de potência 54 e a ODFT inversa no transformador inverso 58.

Detalhes sobre o ponderador de espectro / deformador de escala 56 ainda não foram descritos. Em particular, este módulo é opcional e pode ser deixado de lado ou substituído por um decimador de domínio da frequência. Detalhes sobre possíveis medidas executadas pelo módulo 56 são descritos a seguir. Antes disso, no entanto, alguns detalhes sobre alguns dos outros elementos mostrados na Figura 2 são delineados. Quanto ao janelador de atraso 38, por exemplo, é notado que o mesmo pode executar uma compensação de ruído branco, a fim de melhorar o condicionamento da estimativa do coeficiente de previsão linear executada pelo estimador 40. A ponderação LPC realizada no módulo 44 é opcional, mas se presente, pode ser executada de modo a conseguir uma expansão de largura de banda efetiva. Isto é, os polos de LPC's são movidos para a origem por um fator constante de acordo com, por exemplo,

Assim, a ponderação LPC desta forma realizada aproxima o mascaramento simultâneo. A constante de y = 0,92 ou algo entre 0,85 e 0,95, ambos inclusive, produz bons resultados.

Quanto ao módulo 42, note-se que a codificação de taxa de bits variável ou algum outro esquema de codificação de entropia pode ser utilizado de modo a codificar as informações relativas aos coeficientes de previsão linear para o fluxo de dados 30. Como já foi mencionado acima, a quantificação pode ser realizada no domínio LSP / LSF, mas o domínio ISP / ISF é também viável.

Em relação ao módulo de LPC para MDCT 4 6 que converte o LPC em valores de ponderação espectrais que são chamados, no caso de domínio de MDCT, em ganhos MDCT no seguinte, é feita referência, por exemplo, para o codec USAC, onde esta transformação é explicada em detalhes. Resumidamente falado, os coeficientes de LPC podem ser sujeitos a uma ODFT de modo a obter ganhos MDCT, o inverso do que pode então ser usado como ponderações para modelar o espectro no módulo 48 através da aplicação das ponderações resultantes para bandas respectivos do espectro. Por exemplo, 16 coeficientes de LPC são convertidos em ganhos MDCT. Naturalmente, em vez de a ponderação utilizar a inversa, a ponderação utilizando os ganhos MDCT numa forma não invertida é utilizada no lado do decodificador a fim de obter uma função de transferência semelhante a um filtro de sintese de LPC de modo a formar o ruido de quantificação como já mencionado acima. Assim, resumindo, no módulo 46, os ganhos utilizados pelo FDNS 48 são obtidos a partir dos coeficientes de previsão linear utilizando uma ODFT e são chamados ganhos MDCT em caso de utilização de MDCT.

Por fins de completude, a Figura 3 mostra uma implementação possivel de um decodificador de áudio que pode ser utilizado a fim de reconstruir um sinal de áudio a partir do fluxo de dados 30 novamente. O decodificador da Figura 3 compreende um desenfatizador de baixa frequência 80, que é opcional, um desmodelador de dominio espectral 82, um desmodelador de ruido temporal 84, que também é opcional, e um conversor de dominio espectral para tempo 86, que estão ligados em série entre uma entrada de fluxo de dados 88 do decodificador de áudio no qual o fluxo de dados 30 entra e uma saida 90 do decodificador de áudio onde o sinal de áudio reconstruído é saida. O desenfatizador de baixa frequência recebe do fluxo de dados 30 o espectro quantificado e espectralmente modelado e realiza uma filtragem neste, a qual é inversa à função de transferência do enfatizador de baixa frequência da Figura 2. Como já foi mencionado, o desenfatizador 80 é, contudo, opcional.

O desmodelador de domínio espectral 82 tem uma estrutura que é muito semelhante à do modelador de domínio espectral 22 da Figura 2. Em particular, o mesmo compreende internamente uma concatenação de extrator LPC 92, ponderador LPC 94, que é igual ao ponderador LPC 44, um conversor de LPC para MDCT 96, que também é igual ao módulo 4 6 da Figura 2 e um modelador de ruído de domínio de frequência 98, que aplica os ganhos MDCT sobre o espectro de entrada (desenfatizado) inversamente ao FDNS 48 de Figura 2, isto é, através da multiplicação ao invés da divisão, a fim de obter uma função de transferência que corresponde a um filtro de síntese de previsão linear dos coeficientes de previsão linear extraídos do fluxo de dados 30, pelo extrator LPC 92. O extrator LPC 92 pode executar a retransformação acima mencionada de um domínio de quantificação correspondente como LSP / LSF ou ISP / ISF para obter os coeficientes de previsão linear para os espectros individuais codificados dentro do fluxo de dados 30 para as porções que se sobrepõem mutuamente consecutivas do sinal de áudio a ser reconstruído.

O modelador de ruído no domínio de tempo 84 inverte a filtragem do módulo 26 da Figura 2, e as possíveis implementações para estes módulos são descritas em mais detalhes abaixo. Em qualquer caso, contudo, o módulo TNS 84 da Figura 3 é opcional e pode ser deixado de lado como também já foi mencionado em relação ao módulo TNS 26 da Figura 2.

O compositor espectral 86 compreende, internamente, um transformador inverso 100 realizando, por exemplo, uma IMDCT individualmente sobre o espectro desmodelado de entrada, seguido por um cancelador de aliasing tal como um adicionador de sobreposição 102 configurado para temporariamente registrar corretamente a saida das versões de janelas reconstruídas pelo retransformador 100, de modo a realizar cancelamento de aliasing de tempo entre o mesmo e gerar a saida do sinal de áudio reconstruído na saida 90.

Como já foi mencionado acima, devido à modelagem de dominio espectral 22 de acordo com uma função de transferência a um filtro de análise LPC definido pelos coeficientes LPC transportados dentro de fluxo de dados 30, a quantificação no quantificador 24, que tem, por exemplo, um ruido espectral plano, é modelado pelo desmodelador de dominio espectral 82 num lado de decodificação de um modo a ser oculto abaixo do limite de mascaramento.

Existem diferentes possibilidades de execução do módulo TNS 26 e o seu inverso no decodificador, ou seja, o módulo 84. A modelagem de ruido temporal modela o ruido no sentido temporal dentro das porções de tempo que o espectro individual espectralmente formado pelo modelador de dominio espectral referido. A modelagem de ruido temporal é especialmente útil no caso de transientes estarem presentes dentro da porção de tempo respectiva a que se refere o espectro atual. De acordo com uma aplicação especifica, modelador de dominio espectral 26 é configurado como um previsor do espectro configurado para filtrar preditivamente o espectro atual ou a sequência de espectros de saida pelo decompositor espectral 10 ao longo de uma dimensão espectral. Isto é, o previsor de espectro 26 pode também determinar os coeficientes de filtro de predição, que podem ser inseridos no fluxo de dados 30. Isto é ilustrado por uma linha tracejada na Figura 2. Como consequência, o espectro filtrado de ruido temporal é plano ao longo da dimensão espectral e devido à relação entre o dominio espectral e dominio do tempo, a filtragem inversa dentro do desmodelador de ruido no dominio de tempo 84 em conformidade com os filtros de predição de Modelagem de ruido no dominio de tempo transmitidos dentro do fluxo de dados 30, o desmodelagem leva a ocultação ou compressão do ruido dentro dos tempos ou tempo no qual o ataque ou transientes ocorrem. Os chamados pré-ecos são, portanto, evitados.

Em outras palavras, pela filtragem preditiva do espectro atual no modelador de ruido no dominio do tempo 26, o modelador de ruido no dominio do tempo 26 obtém como lembrete de espectro, ou seja, o espectro preditivamente filtrado que é encaminhado para o modelador de dominio espectral 22, em que os coeficientes de predição correspondentes são inseridos no fluxo de dados 30. O desmodelador de ruido no dominio do tempo 84, por sua vez, recebe do desmodelador de dominio espectral 82 o espectro desmodelado e inverte a filtragem no dominio do tempo ao longo do dominio espectral pela filtragem inversa deste espectro em conformidade com os filtros de previsão recebidos do fluxo de dados, ou extraidos do fluxo de dados 30. Em outras palavras, o modelador de ruido no dominio de tempo 2 6 usa um filtro de previsão de análise tal como um filtro de previsão linear, enquanto que o desmodelador de ruido no dominio do tempo 84 utiliza um filtro de sintese correspondente com base nos mesmos coeficientes de predição.

Como já foi mencionado, o codificador de áudio pode ser configurado para decidir sobre ativar ou desativar a modelagem de ruido temporal dependendo do ganho de predição de filtro ou uma tonalidade ou transiência do sinal de entrada de áudio 12 na porção de tempo respectiva correspondente ao espectro atual. Novamente, a respectiva informação sobre a decisão é inserida no fluxo de dados 30.

A seguir, a possibilidade é discutida de acordo com a qual o computador de autocorrelação 50 está configurado para calcular a autocorrelação da preditivamente filtrada, isto é, filtrada por TNS, versão do espectro, em vez do espectro não filtrado mostrado como na Figura 2. Existem duas possibilidades: os espectros TNS filtrados podem ser utilizados sempre que o TNS é aplicado, ou de um modo escolhido pelo codificador de áudio baseado, por exemplo, nas características do sinal de entrada de áudio 12 a ser codificado. Deste modo, o codificador de áudio da Figura 4 difere do codificador de áudio da Figura 2 em que a entrada do computador de autocorrelação 50 é conectada tanto à saida do decompositor espectral 10, bem como à salda do módulo TNS 26.

Como já mencionado, o espectro MDCT filtrado por TNS como saida pelo decompositor espectral 10 pode ser utilizado como uma entrada ou uma base para o cálculo de autocorrelação dentro do computador 50. Como já mencionado, o espectro filtrado por TNS pode ser utilizado sempre que TNS é aplicado, ou o codificador de áudio pode decidir por espectros para os quais o TNS foi aplicado entre usar o espectro não filtrado ou o espectro filtrado por TNS. A decisão pode ser tomada, como mencionado acima, dependendo das características do sinal de entrada de áudio. A decisão pode ser, no entanto, transparente para o decodificador, que meramente aplica a informação de coeficiente LPC para o desmodelagem de domínio da frequência. Outra possibilidade é que o codificador de áudio alterne entre o espectro filtrado por TNS e o espectro não filtrado para os espectros ao quais foi aplicado o TNS, isto é, para tomar a decisão entre estas duas opções para esses espectros, dependendo do comprimento de transformação escolhido do decompositor espectral 10.

Para ser mais preciso, o decompositor 10 na Figura 4 pode ser configurado para alternar entre os diferentes comprimentos de transformação na decomposição espectral do sinal de entrada de áudio, de forma que a saída de espectros de pelo decompositor espectral 10 é diferente da resolução espectral. Isto é, o decompositor espectral 10 utiliza, por exemplo, uma transformação sobreposta como a MDCT, a fim de transformar mutuamente as porções de tempo sobrepostas de comprimentos diferentes para transformações ou espectros de comprimento também variável, com a duração de transformação do espectro correspondente ao comprimento das correspondentes porções de tempo sobrepostas. Nesse caso, o computador de autocorrelação 50 pode ser configurado para calcular a autocorrelação do espectro atual preditivamente filtrada ou filtrado por TNS em caso de uma resolução espectral do espectro atual cumprindo um critério pré- determinado, ou a partir de um espectro atual não preditivamente filtrado, ou seja, não filtrado, no caso da resolução espectral do espectro atual não satisfazer o critério predeterminado. O critério predeterminado pode ser, por exemplo, que a resolução espectral do espectro atual exceda algum limite. Por exemplo, o uso do espectro filtrado por TNS como saida do módulo TNS 26 para o cálculo de autocorrelação é benéfico para os quadros mais longos (porções de tempo), coma estruturas mais longos do que 15 ms, mas pode ser desvantajoso para os quadros curtos (porções de tempo) sendo mais curtos do que, por exemplo, 15 ms, e por conseguinte, a entrada para o computador de autocorrelação 50 para os quadros mais longos pode ser o espectro MDCT filtrado por TNS, enquanto que para os quadros mais curtos o espectro MDCT como saida pelo decompositor 10 pode ser utilizado diretamente.

Até agora, ainda não foi descrito que modificações perceptuais relevantes poderiam ser realizadas no espectro de potência dentro do módulo 56. Agora, são explicadas diferentes medidas, as quais podem ser aplicadas individualmente ou em combinação para todas as aplicações e variantes descritas até agora. Em particular, uma ponderação de espectro pode ser aplicada pelo módulo 56 para a saida do espectro de potência pelo computador de espectro de potência 54. A ponderação de espectro poderia ser:

onde Sk são os coeficientes do espectro de potência como já mencionado acima.

A ponderação espectral pode ser utilizada como um mecanismo para distribuir o ruido de quantificação de acordo com aspectos psicoacústicos. A ponderação do espectro correspondente a uma pré-ênfase no sentido da Figura 1 pode ser definida por:

Além disso, a deformação de escala pode ser usada dentro do módulo 56. O espectro completo pode ser dividido, por exemplo, em M bandas para espectros correspondentes aos quadros ou porções de tempo de um comprimento de amostra de li e bandas 2M para espectros correspondentes a porções de tempo de quadros com um comprimento de amostra de 12 , em que 12 pode ser duas vezes llz onde li pode ser 64, 128 ou 256. Em particular, a divisão pode obedecer:

A divisão de faixa pode incluir a deformação de frequência para uma aproximação da escala de Bark de acordo com:

alternativamente, as faixas podem ser igualmente distribuídas para formar uma escala linear de acordo com:

Para os espectros de quadros de comprimento 11; por exemplo, um número de faixas pode ser entre 20 e 40, e entre 48 e 72 para espectros pertencentes aos quadros de comprimento 12, onde 32 faixas para espectros de quadros de comprimento 12 e 64 faixas para espectros de quadros de comprimento 12 são preferidos.

A ponderação espectral e deformação de frequência como opcionalmente realizadas pelo módulo opcional 56 podem ser consideradas como um meio de alocação de bits (Modelagem de ruido de quantificação). A ponderação de espectro em uma escala linear correspondente à pré-ênfase pode ser realizada utilizando uma constante u = 0,9 ou uma constante que se encontra entre 0,8 e 0,95, de modo que a pré-ênfase correspondente se aproxima à deformação da escala de Bark.

A modificação do espectro de potência dentro do módulo 56 pode incluir espalhamento do espectro de potência, modelando o mascaramento simultâneo, e, portanto substitui os Módulos de Ponderação LPC 44 e 94.

Se uma escala linear é utilizada e a ponderação do espectro correspondente à pré-ênfase é aplicada, então os resultados do codificador de áudio da Figura 4 tal como obtido no lado de decodificação, isto é, na saida do decodificador de áudio da Figura 3, são perceptivelmente muito semelhantes aos resultados de reconstrução convencional tal como obtido de acordo com a aplicação da Figura 1.

Alguns resultados de testes de escuta foram realizados utilizando aplicações acima identificadas. A partir dos testes, descobriu-se que a análise LPC convencional como mostrado na Figura 1 e a análise LPC baseada em MDCT de escala linear produziu resultados perceptivamente equivalentes quando

A ponderação do espectro na análise LPC com base em MDCT corresponde à pré-ênfase na análise LPC convencional, A mesma janela é utilizada dentro da decomposição espectral, tal como uma janela de seno de baixa sobreposição, e A escala linear é utilizada na análise LPC baseada em MDCT.

A diferença insignificante entre a análise LPC convencional e a análise LPC com base em MDCT de escala linear provavelmente vem do fato de que LPC é usado para a modelagem de ruido de quantificação e que há bits suficientes em 48 kbit/s para codificar coeficientes de MDCT com precisão suficiente.

Além disso, descobriu-se que utilizar a escala de Bark ou escala não linear através da aplicação de deformação de escala dentro do módulo 56 resulta em eficiência de codificação ou resultados de testes de audição de acordo com os quais a escala de Bark supera a escala linear para os itens de áudio para o teste Applause, Fatboy, RockYou, Waiting, bohemian, fuguepremikres, kraftwerk, lesvoleurs, teardrop.

A escala de Bark falha seriamente para hockey e linchpin. Outro item que tem problemas na escala de Bark é o bibilolo, mas não foi incluido no teste, uma vez que apresenta uma música experimental com estrutura de espectro especifico. Alguns ouvintes também expressaram forte antipatia ao item bibilolo.

No entanto, é possivel para o codificador de áudio das Figuras 2 e 4 alternar entre diferentes escalas. Isto é, o módulo 56 pode aplicar diferentes escalas para diferentes espectros de dependência de características do sinal de áudio, tal como a transiência ou tonalidade ou usar diferentes escalas de frequência para produzir vários sinais quantificados e uma medida para determinar qual dos sinais quantificados é perceptivamente o melhor. Descobriu-se que a mudança de escala resulta em melhorias na presença de transientes, tais como os transientes em RockYou e linchpin quando comparado com ambas as versões não alteradas (Escala de Bark e escala linear).

Deve ser mencionado que as aplicações descritas acima podem ser utilizadas como o modo TCX em um codec de áudio multimodo, como um codec compatível com ACELP e a aplicação acima descrita como um modo semelhante à TCX. Como um enquadramento, quadros de um comprimento constante, tal como de 20 ms podem ser utilizados. Deste modo, uma versão de baixo atraso do codec USAC pode ser obtida, a qual é muito eficiente. Como o TNS, o TNS de AAC-ELD pode ser utilizado. Para reduzir o número de bits usados para a informação lateral, o número de filtros pode ser fixado em dois, um operando de 600 Hz a 4500 Hz e um segundo a partir de 4500 Hz até o final do espectro do codificador principal. Os filtros podem ser ligados e desligados de forma independente. Os filtros podem ser aplicados e transmitidos como uma estrutura reticulada utilizando coeficientes parcor. A ordem máxima de filtro pode ser configurada para serem oito e quatro bits podem ser utilizados por coeficiente de filtro. A codificação de Huffman pode ser utilizada para reduzir o número de bits utilizados para a ordem de um filtro e para os seus coeficientes.

Embora alguns aspectos tenham sido descritos no contexto de um aparelho, está claro que estes aspectos também representam uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa do método ou uma característica de uma etapa do método. De forma análoga, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item ou característica correspondente de um aparelho correspondente. Algumas ou todas as etapas do método podem ser executadas por (ou utilizando) um aparelho de hardware, como, por exemplo, um microprocessador, um computador programável ou um circuito eletrônico. Em algumas aplicações, uma ou mais das etapas do método mais importantes podem ser executadas por tal aparelho.

Dependendo de certas exigências da implementação, as aplicações da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando um meio de armazenamento digital, por exemplo, um disquete, um DVD, um Blu-Ray, um CD, uma memória ROM, PROM, EPROM, EEPROM ou uma memória FLASH, tendo sinais de controle eletronicamente legiveis armazenados nela, que cooperam (ou são capazes de cooperar) com um sistema programável por computador de modo que o respectivo método seja realizado. Desta forma, o meio de armazenamento digital pode ser legivel por computador.

Algumas aplicações de acordo com a invenção compreendem um suporte de dados tendo sinais de controle eletronicamente legiveis que podem cooperar com um sistema programável por computador, de modo que um dos métodos descritos neste documento seja realizado.

Geralmente, as aplicações da presente invenção podem ser implementadas como um produto do programa de computador com um código de programa, o código de programa sendo operativo para realizar um dos métodos quando o produto do programa de computador operar em um computador. O código de programa pode, por exemplo, ser armazenado em um suporte legivel por máquina.

Outras aplicações compreendem o programa de computador para realizar um dos métodos descritos neste documento, armazenados em um suporte legivel por máquina.

Em outras palavras, uma aplicação do método inventivo é, portanto, um programa de computador tendo um código de programa para realizar um dos métodos descritos neste documento, quando o programa de computador operar em um computador.

Uma aplicação adicional do método inventivo é, portanto, um suporte de dados (ou um meio de armazenamento digital, ou um meio legivel por computador) compreendendo, gravado nele, o programa de computador para realizar um dos métodos descritos neste documento. O suporte de dados, o meio de armazenamento digital ou o meio gravado são tipicamente tangíveis e/ou não transitórios.

Uma aplicação adicional do método inventivo é, portanto, um fluxo de dados ou uma sequência de sinais que representam o programa de computador para realizar um dos métodos descritos neste documento. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido através de uma conexão de comunicação de dados, por exemplo, através da Internet.

Uma aplicação adicional compreende um meio de processamento, por exemplo, um computador, ou um dispositivo lógico programável, configurado ou adaptado para realizar um dos métodos descritos neste documento.

Uma aplicação adicional compreende um computador tendo instalado nele o programa de computador para realizar um dos métodos descritos neste documento.

Uma aplicação adicional de acordo com a invenção compreende um aparelho ou um sistema configurado para transferir (por exemplo, eletrônica ou opticamente) um programa de computador para realizar um dos métodos descritos neste documento a um receptor. O receptor pode, por exemplo, ser um computador, um dispositivo móvel, um dispositivo de memória ou semelhante. O aparelho ou sistema pode, por exemplo, compreender um servidor de arquivo para transferir o programa de computador ao receptor.

Em algumas aplicações, um dispositivo lógico programável (por exemplo, um arranjo de portas lógicas programáveis) pode ser utilizado para realizar algumas ou todas as funcionalidades dos métodos descritos neste documento. Em algumas aplicações, um arranjo de portas lógicas programáveis pode cooperar com um microprocessador para realizar um dos métodos descritos neste documento. Geralmente, os métodos são preferivelmente realizados por qualquer aparelho de hardware.

As aplicações descritas acima são meramente ilustrativas para os princípios da presente invenção. É entendido que as modificações e variações das disposições e os detalhes descritos aqui serão evidentes aos especialistas na técnica. É intenção, portanto, ser limitada apenas pelo escopo das reivindicações iminentes da patente e não pelos detalhes específicos apresentados para fins de descrição e explicação das aplicações do presente documento. Literatura: [1]: USAC codec (Unified Speech and Audio Codec), ISO/IEC CD 23003-3 dated September 24, 2010.

Claims

1. Codificador de áudio compreende um decompositor espectral (10) para espectralmente decompor um sinal de entrada de áudio (12) utilizando uma MDCT em um espectrograma (14) de uma sequência de espectros; um computador de autocorrelação (50) configurado para computar a autocorrelação a partir de um espectro atual da sequência de espectros; um computador de coeficiente de previsão linear (52), configurado para computar os coeficientes de previsão linear com base na autocorrelação; um modelador de domínio espectral (22) configurado para modelar espectralmente o espectro atual com base nos coeficientes de previsão linear; e um estágio de quantificação (24), configurado para quantificar o espectro modelado espectralmente; caracterizado por o codificador de áudio ser configurado para inserir informação sobre o espectro quantificado modelado espectralmente e informação sobre os coeficientes de previsão linear em um fluxo de dados, em que o computador de autocorrelação é configurado para, ao computar a autocorrelação a partir do espectro atual, computar o espectro de potência a partir do espectro atual e sujeitar o espectro de potência a uma transformação ODFT inversa.

2. Codificador de áudio de acordo com a reivindicação 1, compreendendo um previsor de espectro (26) configurado para filtrar preditivamente o espectro atual ao longo de uma dimensão espectral, caracterizado por o modelador de domínio espectral ser configurado para modelar espectralmente o espectro atual preditivamente filtrado, e o codificador de áudio ser configurado para inserir informação sobre como reverter a filtragem preditiva no fluxo de dados.

3. Codificador de áudio de acordo com a reivindicação 2, caracterizado por o previsor de espectro ser configurado para realizar a filtragem por previsão linear no espectro atual ao longo da dimensão espectral, em que o fluxo anterior de dados é configurado de tal modo que a informação sobre como reverter a filtragem preditiva compreende informações sobre coeficientes adicionais de previsão linear subjacente à filtragem de previsão linear no espectro atual ao longo da dimensão espectral.

4. Codificador de áudio de acordo com a reivindicação 2 ou 3, caracterizado por o codificador de áudio ser configurado para decidir habilitar ou desabilitar o previsor de espectro, dependendo da tonalidade ou transiência do sinal de entrada de áudio ou um ganho de predição de filtro, em que o codificador de áudio é configurado para inserir informações na decisão.

5. Codificador de áudio de acordo com quaisquer das reivindicações 2 a 4, caracterizado por o computador de autocorrelação ser configurado para computar a autocorrelação a partir do espectro atual preditivamente filtrado.

6. Codificador de áudio de acordo com quaisquer das reivindicações de 2 a 5, caracterizado por o decompositor espectral (10) ser configurado para alternar entre diferentes comprimentos de transformação na decomposição espectral do sinal de entrada de áudio (12) de modo que os espectros sejam de diferentes resoluções espectrais, em que o computador de autocorrelação (50) é configurado para computar a autocorrelação do espectro atual preditivamente filtrado caso uma resolução espectral do espectro atual cumpra com um critério pré- determinado, ou a partir do espectro atual não preditivamente filtrado caso a resolução espectral do espectro atual não cumpra com o critério predeterminado.

7. Codificador de áudio de acordo com a reivindicação 6, caracterizado por o computador de autocorrelação ser configurado de tal forma que o critério pré-determinado seja cumprido se a resolução espectral do espectro atual for maior do que um limite de resolução espectral.

8. Codificador de áudio de acordo com quaisquer das reivindicações de 1 a 7, caracterizado por o computador de autocorrelação ser configurado para, ao computar a autocorrelação do espectro atual, perceptualmente ponderar o espectro de potência e sujeitar o espectro de potência a uma transformação ODFT inversa como perceptualmente ponderado.

9. Codificador de áudio de acordo com a reivindicação 8, caracterizado por o computador de autocorrelação ser configurado para mudar uma escala de frequência do espectro atual e para realizar a ponderação perceptual do espectro de potência na escala de frequência alterada.

10. Codificador de áudio de acordo com quaisquer das reivindicações de 1 a 9, caracterizado por o codificador de áudio ser configurado para inserir a informação sobre os coeficientes de previsão linear no fluxo de dados de uma forma quantificada, em que o modelador de domínio espectral é configurado para modelar espectralmente o espectro atual com base nos coeficientes de previsão linear quantificados.

11. Codificador de áudio de acordo com a reivindicação 10, caracterizado por o codificador de áudio ser configurado para inserir a informação sobre os coeficientes de previsão linear no fluxo de dados em uma forma de acordo com a qual a quantificação dos coeficientes de previsão linear ocorra no domínio LSF ou LSP.

12. Método de codificação de áudio que inclui, decomposição espectral, utilizando uma MDCT, de um sinal de entrada de áudio (12) em um espectrograma (14) de uma sequência de espectros; cálculo computacional de uma autocorrelação a partir de um espectro atual da sequência de espectros; cálculo computacional dos coeficientes de previsão linear, com base na correlação de áudio; modelagem espectral do espectro atual com base nos coeficientes de previsão linear; quantificação do espectro modelado espectralmente, e inserção das informações sobre o espectro modelado espectralmente quantificado e informação sobre os coeficientes de previsão linear em um fluxo de dados caracterizado por o cálculo computacional da autocorrelação a partir do espectro atual compreender computar o espectro de potência a partir do espectro atual e sujeitar o espectro de potência a uma transformação ODFT inversa.