BR112014032735B1

BR112014032735B1 - Codificador e decodificador de áudio com base em predição linear e respectivos métodos para codificar e decodificar

Info

Publication number: BR112014032735B1
Application number: BR112014032735-1A
Authority: BR
Inventors: Tom Bäckström; Christian Helmrich; Guillaume Fuchs; Markus Multrus; Martin Dietz
Original assignee: Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V
Priority date: 2012-06-28
Filing date: 2013-06-19
Publication date: 2022-04-26
Also published as: TW201405549A; EP2867892B1; KR20150032723A; CA2877161A1; PT2867892T; ZA201500504B; CA2877161C; US9536533B2; MX353385B; US20150106108A1; AR091631A1; KR20170049642A; KR101866806B1; RU2651187C2; WO2014001182A1; JP2015525893A; ES2644131T3; EP2867892A1; AU2013283568B2; RU2015102588A

Abstract

CODIFICADOR E DECODIFICADOR DE ÁUDIO COM BASE EM PREDIÇÃO LINEAR, MÉTODOS PARA CODIFICAR E DECODIFICAR ÁUDIO COM BASE EM PREDIÇÃO LINEAR E PROGRAMA DE COMPUTADOR. Codificação de áudio com base em predição linear é melhorada codificando um espectro composto de uma pluralidade de componentes espectrais usando uma estimação de distribuição de probabilidade determinada para cada uma da pluralidade de componentes espectrais a partir de informação de coeficiente de predição linear. Em particular, a informação de coeficiente de predição linear está disponível de qualquer maneira. Por conseguinte, pode ser usado para determinar a estimação de distribuição de probabilidade em ambos lados de codificação e decodificação. A última determinação pode ser implementada em uma maneira simples computacionalmente usando, por exemplo, uma parametrização apropriada para a estimação da distribuição de probabilidade na pluralidade de componentes espectrais. Tudo junto, a eficiência de codificação como fornecida pela codificação por entropia é compatível com estimações de distribuição de probabilidade como alcançado usando seleção de contexto, mas sua derivação é menos complexa. Por exemplo, a derivação pode ser puramente analiticamente e/ou não requer qualquer informação sobre atributos de linhas espectrais de vizinhança tal como valores espectrais codificados / decodificados anteriormente de linhas espectrais de vizinhança como é (...).

Description

[001] A presente invenção diz respeito a codificação de áudio com base em predição linear e, em particular, codificação de áudio com base em predição linear usando codificação de espectro.

[002] A abordagem clássica para quantização e codificação no domínio de frequência é tomar (sobrepor) janelas do sinal, executar uma transformada tempo-frequência, aplicar um modelo perceptual e quantizar as frequências individuais com um codificador por entropia, tal como um codificador aritmético [1]. O modelo perceptual é basicamente uma função de ponderação que é multiplicada para as linhas espectrais tal que erros em cada linha espectral ponderada têm um impacto perceptual igual. Todas as linhas ponderadas podem assim ser quantizadas com a mesma exatidão, e a exatidão global determina o compromisso entre qualidade perceptual e consumo de bit.

[003] Em AAC e no modo de domínio de frequência de USAC (não-TCX), o modelo perceptual foi definido em bandas tal que um grupo de linhas espectrais (a banda espectral) teria a mesma ponderação. Estas ponderações são conhecidas como fatores de escala, uma vez que elas definem por que fator a banda é dimensionada em escala. Além disso, os fatores de escala foram diferencialmente codificados.

[004] Em domínio TCX, as ponderações não são codificadas usando fatores de escala, mas por um modelo LPC [2] que define o envelope espectral, que é a forma global do espectro. O LPC é usado porque permite comutação suave entre TCX e ACELP. No entanto, o LPC não corresponde bem ao modelo perceptual, que deveria ser muito mais suave, pelo que um processo conhecido como ponderação é aplicado ao LPC tal que o LPC ponderado aproximadamente corresponde ao modelo perceptual desejado.

[005] No domínio TCX de USAC, linhas espectrais são codificadas por um codificador aritmético. Um codificador aritmético é baseado em atribuir probabilidades a todas as possíveis configurações do sinal, tal que valores de alta probabilidade podem ser codificados com um pequeno número de bits, tal que consumo de bit é minimizado. Para estimar a distribuição de probabilidade de linhas espectrais, o codec emprega um modelo de probabilidade que prediz a distribuição de sinal baseado em linhas já codificadas precedentes no espaço de tempo- frequência. As linhas precedentes são conhecidas como o contexto da linha atual para codificar [3].

[006] Recentemente, NTT propôs um método para melhorar o contexto do codificador aritmético (comparar [4]). Baseia-se em usar o LTP para determinar posições aproximadas de linhas harmônicas (filtro comp) e rearranjar as linhas espectrais tal que predição de magnitude do contexto é mais eficiente.

[007] De modo geral, quanto melhor a estimação de distribuição de probabilidade é, mais eficiente a compressão alcançada pela codificação por entropia é. Seria favorável ter um conceito em mão que permitiria a realização de uma estimação de distribuição de probabilidade de qualidade semelhante como que se pode obter usando quaisquer das técnicas acima delineadas, mas em uma complexidade reduzida.

[008] Por conseguinte, é um objetivo da presente invenção fornecer um esquema de codificação de áudio com base em predição linear tendo características melhoradas. Este objetivo é alcançado pelo conteúdo das Reivindicações independentes.

[009] É uma descoberta básica da presente invenção que codificação de áudio com base em predição linear pode ser melhorada codificando um espectro composto de uma pluralidade de componentes espectrais, usando uma estimação de distribuição de probabilidade determinada para cada uma da pluralidade de componentes espectrais a partir de informação de coeficiente de predição linear. Em particular, a informação de coeficiente de predição linear está disponível de qualquer modo. Por conseguinte, pode ser usada para determinar a estimação de distribuição de probabilidade em ambos lados de codificação e decodificação. A última determinação pode ser implementada em uma maneira simples computacionalmente usando, por exemplo, uma parametrização apropriada para a estimação de distribuição de probabilidade na pluralidade de componentes espectrais. Tudo junto, a eficiência de codificação como fornecida pela codificação por entropia é compatível com estimações de distribuição de probabilidade como alcançadas usando seleção de contexto, mas sua derivação é menos complexa. Por exemplo, a derivação pode ser puramente analiticamente e/ou não requer qualquer informação sobre atributos de linhas espectrais de vizinhança, tais como valores espectrais codificados/decodificados anteriormente de linhas espectrais de vizinhança, como é o caso em seleção de contexto espacial. Isto, por sua vez, torna paralelização de processos de computação mais fácil, por exemplo. Além disso, menos requisitos de memória e menos acessos de memória podem ser necessários.

[0010] De acordo com uma modalidade do presente pedido, o espectro, os valores espectrais de que são codificados por entropia usando a estimação de probabilidade determinada como apenas esboçado, pode ser uma excitação codificada por transformada obtida usando a informação de coeficiente de predição linear.

[0011] De acordo com uma modalidade do presente pedido, por exemplo, o espectro é uma excitação codificada por transformada definida, contudo, em um domínio ponderado perceptualmente. Isto é, o espectro, codificado por entropia usando a estimação de distribuição de probabilidade determinada, corresponde a um espectro de sinais de áudio pré-filtrado usando uma função de transformada correspondente a um filtro de síntese de predição linear ponderado perceptualmente definido pela informação de coeficiente de predição linear e para cada uma da pluralidade de componentes espectrais, um parâmetro de distribuição de pluralidade é determinado tal que os parâmetros de distribuição de probabilidade seguem espectralmente, por exemplo, são uma versão em escala de uma função que depende de um produto de uma função de transferência do filtro de síntese de predição linear e um inverso de uma função de transferência da modificação ponderada perceptualmente do filtro de síntese de predição linear. Para cada uma da pluralidade de componentes espectrais, a estimação de distribuição de pluralidade é, então, uma função parametrizável parametrizada com o parâmetro de distribuição de probabilidade do componente espectral respectivo. Novamente, a informação de coeficiente de predição linear está disponível de qualquer modo, e a derivação do parâmetro de distribuição de probabilidade pode ser implementado como um processo analítico puramente e/ou um processo que não requer qualquer interdependência entre os valores espectrais em diferentes componentes espectrais do espectro.

[0012] De acordo ainda com uma outra modalidade, o parâmetro de distribuição de probabilidade é em alternativa ou adicionalmente determinado tal que os parâmetros de distribuição de probabilidade seguem espectralmente uma função que multiplicativamente depende de uma estrutura fina espectral que, por sua vez, é determinada usando predição de longo prazo (LTP). Novamente, em alguns codecs com base em predição linear, informação de LTP está disponível de qualquer modo e além disso, a determinação dos parâmetros de distribuição de probabilidade é ainda factível para ser executada puramente analiticamente e/ou sem interdependências entre codificação de valores espectrais de diferentes componentes espectrais do espectro. Quando combinando o uso de LTP com a codificação de excitação codificada de transformada perceptual, a eficiência de codificação é ainda melhorada em aumentos de complexidade moderados.

[0013] Implementações e modalidades vantajosas são o assunto das Reivindicações dependentes. Modalidades preferidas do presente pedido são descritas mais abaixo a respeito das figuras, entre as quais FIG. 1 mostra um diagrama de bloco de um codificador de áudio com base em predição linear de acordo com uma modalidade; FIG. 2 mostra um diagrama de bloco de um determinador de espectro da Fig. 1 de acordo com uma modalidade; FIG. 3a mostra diferentes funções de transferência ocorrendo na descrição do modo de operação dos elementos mostrados nas Figs. 1 e 2 quando implementando mesma codificação perceptual de uso; FIG. 3b mostra as funções da Fig. 3a ponderadas, contudo, usando o inverso do modelo perceptual; FIG. 4 mostra um diagrama de bloco ilustrando a operação interna de estimador de distribuição de probabilidade 14 da Fig. 1 de acordo com uma modalidade usando codificação perceptual; FIG. 5a mostra um gráfico ilustrando um sinal de áudio original após filtragem de pré-ênfase e seu envelope estimado; FIG. 5b mostra um exemplo para uma função de LTP usada para estimar de forma mais estreita o envelope de acordo com uma modalidade; FIG. 5c mostra um gráfico ilustrando o resultado da estimação de envelope aplicando a função de LTP da Fig. 5b ao exemplo da Fig. 5a; FIG. 6 mostra um diagrama de bloco da operação interna de estimador de distribuição de probabilidade 14 em uma modalidade adicional usando codificação perceptual bem como processamento de LTP; FIG. 7 mostra um diagrama de bloco de um decodificador de áudio com base em predição linear de acordo com uma modalidade; FIG. 8 mostra um diagrama de bloco de um decodificador de áudio com base em predição linear de acordo com uma ainda outra modalidade; FIG. 9 mostra um diagrama de bloco do filtro da Fig. 8 de acordo com uma modalidade; FIG. 10 mostra um diagrama de bloco de uma estrutura mais detalhada de uma parte do codificador da Fig. 1 posicionado em etapa de quantização e codificação por entropia e estimador de distribuição de probabilidade 14 de acordo com uma modalidade; e FIG. 11 mostra um diagrama de bloco de uma parte dentro de um decodificador de áudio com base em predição linear de, por exemplo, Figs. 7 e 8 posicionado em uma parte do mesmo, que corresponde à parte em que Fig. 10 está localizada no lado de codificação, isto é localizada em estimador de distribuição de probabilidade 102 e etapa de decodificação por entropia e dequantização 104, de acordo com uma modalidade.

[0014] Antes de descrever várias modalidades do presente pedido, as ideias subjacentes à mesma são exemplarmente discutidas contra os antecedentes indicados na parte introdutória da especificação do presente pedido. As características específicas decorrentes da comparação com técnicas de comparação concretas tais como USAC, não devem ser tratadas como restringindo o escopo do presente pedido e suas modalidades.

[0015] Na abordagem USAC para codificação aritmética, o context basicamente prediz a distribuição de magnitude das seguintes linhas. Isto é, as linhas espectrais ou componentes espectrais são esquadrinhados em dimensões espectrais enquanto codificando/ decodificando, e a distribuição de magnitude é predita continuamente dependendo dos valores espectrais codificados/decodificados anteriormente. No entanto, o LPC já codifica a mesma informação explicitamente, sem a necessidade de predição. Por conseguinte, empregar o LPC em vez deste contexto devia trazer um resultado semelhante, contudo em complexidade computacional mais baixa ou pelo menos com a possibilidade de alcançar uma complexidade mais baixa. Na realidade, uma vez que em baixas taxas de bit o espectro essencialmente consiste de um e zeros, o contexto irá quase sempre ser muito esparso e desprovido de informação útil. Portanto, em teoria o LPC deve, na realidade, ser uma fonte muito melhor para estimativas de magnitude, visto que o modelo de vizinhança, valores espectrais já codificados/decodificados usados para estimação de distribuição de probabilidade é meramente esparsamente povoado com informação útil. Além disso, informação LPC já está disponível em ambos o codificador e decodificador, pelo que veio a custo zero em termos de consumo de bit.

[0016] O modelo LPC apenas define a forma do envelope espectral,isto é, as magnitudes relativas de cada linha, mas não a magnitude absoluta. Para definir uma distribuição de probabilidade para uma única linha, sempre precisamos da magnitude absoluta, isto é, um valor para a variância de sinal (ou uma medida semelhante). Uma parte essencial da maioria dos modelos quantizadores espectrais com base em LPC deveria, por conseguinte, ser um dimensionamento em escala do envelope de LPC, tal que a variância desejada (e assim o consumo de bit desejado) é alcançada. Esse dimensionamento em escala deve geralmente ser realizado em ambos o codificador bem como o decodificador uma vez que as distribuições de probabilidade para cada linha, então, dependem do LPC dimensionado em escala.

[0017] Como descrito acima, o modelo perceptual (LPC ponderado) pode ser usado para definir o modelo perceptual, isto é quantização pode ser executada no domínio perceptual tal que o erro de quantização esperado em cada linha espectral causa aproximadamente uma quantidade igual de distorção perceptual. Por conseguinte, se assim for, o modelo LPC é transformado para o domínio perceptual também multiplicando-o com o LPC ponderado como definido abaixo. Nas modalidades descritas abaixo, é frequentemente assumido que o envelope de LPC é transformado para o domínio perceptual.

[0018] Assim, é possível aplicar um modelo de probabilidade independente para cada linha espectral. É razoável assumir que as linhas espectrais não têm correlação de fase previsível, pelo que é suficiente modelar a magnitude apenas. Uma vez que o LPC pode ser presumido para codificar a magnitude eficientemente, ter um codificador aritmético baseado em contexto provavelmente não irá melhorar a eficiência da estimativa de magnitude.

[0019] Por conseguinte, é possível aplicar um codificador por entropia baseado em contexto tal que o contexto depende do, ou mesmo consiste em envelope de LPC.

[0020] Além do envelope de LPC, o LTP pode também ser usado para inferir informação de envelope. Afinal, o LTP pode corresponder a um filtro comb no domínio de frequência. Alguns detalhes práticos são discutidos mais abaixo.

[0021] Após ter explicado alguns pensamentos que conduziram à ideia subjacente às modalidades descritas mais abaixo, a descrição destas modalidades agora começa a respeito da Fig. 1, que mostra uma modalidade para um codificador de áudio com base em predição linear de acordo com uma modalidade do presente pedido. O codificador de áudio com base em predição linear da Fig. 1 é geralmente indicado usando sinal de referência 10 e compreende um analisador de predição linear 12, uma estimação de distribuição de probabilidade 14, um determinador de espectro 16 e uma etapa de quantização e codificação por entropia 18. O codificador de áudio com base em predição linear 10 da Fig. 1 recebe um sinal de áudio a ser codificado em, por exemplo, uma entrada 20, e gera um fluxo de dados 22, que, por conseguinte, tem o sinal de áudio codificado no mesmo. Analisador de LP 12 e determinador de espectro 16 são, como mostrado na Fig. 1, ou diretamente ou indiretamente acoplados com a entrada 20. O estimador de distribuição de probabilidade 14 é acoplado entre o analisador de LP 12 e a etapa de quantização e codificação por entropia 18, e a etapa de quantização e codificação por entropia 18, por sua vez, é acoplada a uma saída de determinador de espectro 16. Como pode ser visto na Fig. 1, analisador de LP 12 e etapa de quantização e codificação por entropia 18 contribuem para a formação/geração de fluxo de dados 22. Como será descrito em mais detalhe abaixo, codificador 10 pode opcionalmente compreender um filtro de pré-ênfase 24 que pode ser acoplado entre entrada 20 e analisador de LP 12 e/ou determinador de espectro 16. Além disso, o determinador de espectro 16 pode opcionalmente ser acoplado à saída de analisador de LP 12.

[0022] Em particular, o analisador de LP 12 é configurado para determinar informação de coeficiente de predição linear baseado na entrada de sinal de áudio na entrada 20. Como representado na Fig. 1, o analisador de LP 12 pode ou executar análise de predição linear sobre o sinal de áudio na entrada 20 diretamente ou sobre alguma versão modificada do mesmo, tal como por exemplo uma versão pré-enfatizada do mesmo como obtido por filtro de pré-ênfase 24. O modo de operação de analisador de LP 12 pode, por exemplo, envolver um janelamento do sinal de entrada de modo a obter uma sequência de partes janeladas do sinal a ser analisado por LP, uma determinação de autocorrelação de modo a determinar a autocorrelação de cada parte janelada e janelamento de atraso, que é opcional, para aplicar uma função de janela de atraso para as autocorrelações. Estimação de parâmetro de predição linear pode, então, ser executada para as autocorrelações ou a saída de janela de atraso, isto é, funções de autocorrelação janeladas. A estimação de parâmetro de predição linear pode, por exemplo, envolver o desempenho de um Wiener-Levinson-Durbin ou outro algoritmo adequado para as autocorrelações (janeladas de atraso) de modo a derivar coeficientes de predição linear por autocorrelação, isto é, por parte janelada do sinal a ser analisado por LP.Isto é, na saída do analisador de LP 12, coeficientes LPC resultam que são, como descritos mais abaixo, usados pelo estimador de distribuição de probabilidade 14 e, opcionalmente, o determinador de espectro 16. O analisador de LP 12 pode ser configurado para quantizar o coeficiente de predição linear para inserção dentro do fluxo de dados 22. A quantização dos coeficientes de predição linear pode ser executada em outro domínio do que o domínio de coeficiente de predição linear tal como, por exemplo, em um par espectral de linha ou domínio de frequência espectral de linha. Os coeficientes de predição linear quantizados podem ser codificados no fluxo de dados 22. A informação de coeficiente de predição linear usada na realidade pelo estimador de distribuição de probabilidade 14 e, opcionalmente, o determinador de espectro 16 pode levar em conta a perda de quantização, isto é, pode ser a versão quantizada que é transmitida sem perda via fluxo de dados. Isto é, este último pode na realidade usar como a informação de coeficiente de predição linear os coeficientes de predição linear quantizados como obtidos por analisador de predição linear 12. Meramente por uma questão de completude, nota-se que existe uma enorme quantidade de possibilidades de executar a determinação de informação de coeficiente de predição linear por analisador de predição linear 12. Por exemplo, outros algoritmos diferentes de um algoritmo Wiener-Levinson-Durbin podem ser usados. Além disso, uma estimativa da autocorrelação local do sinal a ser analisado por LP pode ser obtida baseada em uma decomposição espectral do sinal a ser analisado por LP. Em WO 2012/110476 A1, por exemplo, é descrito que a autocorrelação pode ser obtida por janelamento do sinal a ser analisado por LP, sujeitando cada parte janelada a uma MDCT, determinando o espectro de potência por espectro de MDCT e executando um ODFT inverso para transição do domínio MDCT a uma estimativa da autocorrelação. Para resumir, o analisador de LP 12 fornece informação de coeficiente de predição linear e o fluxo de dados 22 transmite ou compreende esta informação de coeficiente de predição linear. Por exemplo, o fluxo de dados 22 transmite a informação de coeficiente de predição linear na resolução temporal que é determinada pela taxa de parte janelada que acabou-se de mencionar, em que as partes janeladas podem, como conhecido na técnica, sobrepor-se umas às outras, tal como por exemplo em uma sobreposição de 50%.

[0023] Na medida em que o filtro de pré-ênfase 24 está em causa, nota-se que o mesmo pode, por exemplo, ser implementado usando filtragem FIR. O filtro de pré-ênfase 24 pode, por exemplo, ter uma função de transferência de alta passagem. Conforme uma modalidade, o filtro de pré-ênfase 24 é incorporado como um filtro de alta passagem de ordem n-th, tal como, por exemplo, H (z) = 1 - αz-1 com α sendoestabelecido, por exemplo, a 0,68.

[0024] O determinador de espectro está descrito a seguir. O determinador de espectro 16 é configurado para determinar um espectro composto de uma pluralidade de componentes espectrais baseado no sinal de áudio na entrada 20. O espectro é para descrever o sinal de áudio. Semelhante a analisador de predição linear 12, determinador de espectro 16 pode operar sobre o sinal de áudio 20 diretamente, ou em alguma versão modificada do mesmo, tal como, por exemplo, a versão filtrada de pré-ênfase do mesmo. O determinador de espectro 16 pode usar qualquer transformada a fim de determinar o espectro tal como, por exemplo, uma transformada superposta ou mesmo uma transformada superposta criticamente amostrada, tal como, por exemplo, um MDCT embora outras possibilidades existam também. Isto é, determinador de espectro 16 pode sujeitar o sinal a ser espectralmente decomposto a janelamento de modo a obter uma sequência de partes janeladas e sujeitar cada parte janelada a uma transformação respectiva tal como um MDCT. A taxa de parte janelada de determinador de espectro 16, isto é a resolução temporal da decomposição espectral, pode diferir da resolução temporal em que analisador de LP 12 determina a informação de coeficiente de predição linear.

[0025] Determinador de espectro 16, deste modo, emite um espectro composto de uma pluralidade de componentes espectrais. Em particular, determinador de espectro 16 pode emitir, por parte janelada que é sujeita a uma transformação, uma sequência de valores espectrais, a saber um valor espectral por componente espectral, por exemplo, por linha espectral de frequência. Os valores espectrais podem ser de valor complexo ou de valor real. Os valores espectrais são de valor real no caso de usar um MDCT, por exemplo. Em particular, os valores espectrais podem ser sinalizados, isto é, o mesmo pode ser uma combinação de sinal e magnitude.

[0026] Como denotado acima, a informação de coeficiente de predição linear forma uma predição de curto prazo do envelope espectral do sinal analisado por LP e pode, deste modo, servir como uma base para determinar, para cada uma da pluralidade de componentes espectrais, uma estimação de distribuição de probabilidade, isto é, uma estimação de como, estatisticamente, a probabilidade que o espectro no componente espectral respectivo, assume um certo valor espectral possível, varia ao longo do domínio de valores espectrais possíveis. A determinação é realizada por estimador de distribuição de probabilidade 14. Possibilidades diferentes existem no que diz respeito aos detalhes da determinação da estimação de distribuição de probabilidade. Por exemplo, embora o determinador de espectro 16 poderia ser implementado para determinar o espectrograma do sinal de áudio ou a versão pré-enfatizada do sinal de áudio, conforme as modalidades ainda esboçadas abaixo, o determinador de espectro 16 é configurado para determinar, como o espectro, um sinal de excitação, isto é um sinal residual obtido filtrando com base em LP o sinal de áudio ou alguma versão modificada do mesmo, tal como a versão filtrada pré-ênfase do mesmo. Em particular, o determinador de espectro 16 pode ser configurado para determinar o espectro da entrada de sinal a determinador de espectro 16, após filtrar o sinal de entrada usando uma função de transferência que depende de, ou é igual a, um inverso de um filtro de síntese de predição linear definido pela informação de coeficiente de predição linear, isto é o filtro de análise de predição linear. Alternativamente, o codificador de áudio com base em LP pode ser um codificador de áudio com base em LP perceptual e o determinador de espectro 16 pode ser configurado para determinar o espectro da entrada de sinal a determinador de espectro 16, após filtrar o sinal de entrada usando uma função de transferência que depende de, ou é igual a, um inverso de um filtro de síntese de predição linear definido pela informação de coeficiente de predição linear, mas foi modificado de modo a, por exemplo, corresponder ao inverso de uma estimação de um limiar de mascaramento. Isto é, determinador de espectro 16 pode ser configurado para determinar o espectro da entrada de sinal, filtrada com uma função de transferência que corresponde ao inverso de um filtro de síntese de predição linear modificado perceptualmente. Nesse caso, o determinador de espectro 16 reduz comparativamente o espectro em regiões espectrais onde o mascaramento perceptual é mais alto em relação a regiões espectrais onde o mascaramento perceptual é mais baixo. Pelo uso da informação de coeficiente de predição linear, o estimador de distribuição de probabilidade 14 é, contudo, ainda capaz de estimar o envelope do espectro determinado por determinador de espectro 16, a saber levando a modificação perceptual do filtro de síntese de predição linear em conta quando determinando a estimação de distribuição de probabilidade. Detalhes a respeito disso estão ainda esboçados abaixo.

[0027] Além disso, como esboçado em mais detalhe abaixo, o estimador de distribuição de probabilidade 14 é capaz de usar predição de longo prazo a fim de obter uma informação de estrutura fina no espectro de modo a obter uma melhor estimação de distribuição de probabilidade por componente espectral. Parâmetro(s) de LTP é/são enviados, por exemplo, à decodificação de modo a permitir uma reconstrução da informação de estrutura fina. Detalhes a respeito disso estão descritos mais abaixo.

[0028] Em todo caso, a etapa de quantização e codificação por entropia 18 é configurada para quantizar e codificar por entropia o espectro usando a estimação de distribuição de probabilidade como determinado para cada uma da pluralidade de componentes espectrais por estimador de distribuição de probabilidade 14. Para ser mais preciso, etapa de quantização e codificação por entropia 18 recebe de determinador espectral 16 um espectro 26, composto de componentes espectrais k, ou para ser mais preciso, uma sequência de espectros 26 em alguma taxa temporal correspondente à taxa parte janelada supracitada de partes janeladas sujeitas a transformação. Em particular, etapa 18 pode receber um valor de sinal por valor espectral em componente espectral k e uma magnitude | xk | correspondente por componente espectral k.

[0029] Por outro lado, etapa de quantização e codificação por entropia 18 recebe, por componente espectral k, uma estimação de distribuição de probabilidade 28 definindo, para cada valor possível que o valor espectral pode assumir, uma estimativa de valor de probabilidade determinando a probabilidade do valor espectral no componente espectral respectivo k ter este valor muito possível. Por exemplo, a estimação de distribuição de probabilidade determinada por estimador de distribuição de probabilidade 14 concentra-se nas magnitudes dos valores espectrais apenas e determina, por conseguinte, valores de probabilidade para valores positivos incluindo zero, apenas. Em particular, a etapa de quantização e codificação por entropia 18 quantiza os valores espectrais, por exemplo, usando uma regra de quantização que é igual para todos os componentes espectrais. Os níveis de magnitude para os componentes espectrais k, assim obtidos, são definidos conformemente sobre um domínio de inteiros incluindo zero até, opcionalmente, algum valor máximo. A estimação de distribuição de probabilidade poderia, para cada componente espectral k, ser definida sobre este domínio de inteiros possíveis i, isto é p(k, i) seria a estimação de probabilidade para componente espectral k e seria definido sobre inteiro i e [0;max] com inteiro k e [0;kmax] com kmax sendo o componente espectral máximo e p(k;i) e [0;1] para todos k,i e a soma sobre p(k,i) sobre todos i e [0;max] sendo um para todos k.

[0030] A etapa de quantização e codificação por entropia 18 pode, por exemplo, usar um tamanho do passo de quantização constante para a quantização com o tamanho do passo sendo igual para todos os componentes espectrais k. Quanto melhor a estimação de distribuição de probabilidade 28 é, melhor é a eficiência de compressão alcançada por etapa de quantização e codificação por entropia 18.

[0031] Francamente falando, o estimador de distribuição de probabilidade 14 pode usar a informação de coeficiente de predição linear fornecido por analisador de LP 12 de modo a ganhar uma informação sobre um envelope 30, ou forma aproximada, de espectro 26. Usando esta estimativa 30 do envelope ou forma, estimador 14 pode derivar uma medida de dispersão 32 para cada componente espectral k, por exemplo, dimensionando em escala apropriadamente, usando um fator de escala comum igual para todos os componentes espectrais, o envelope. Estas medidas de dispersão em componentes espectrais k podem servir como parâmetros para parametrizações das estimações de distribuição de probabilidade para cada componente espectral k. Por exemplo, p(k,i) pode ser f(i,l(k)) para todo k com l(i) sendo a medida de dispersão determinada em componente espectral k, com f(i,l) sendo, para cada l fixo, uma função apropriada de i variável tal como uma função monotônica tal como, como definido abaixo, uma função de Gauss ou de Laplace definida para valores positivos i incluindo zero, enquanto l é parâmetro de função que mede a “declividade” ou “amplitude” da função como será delineado abaixo em termos mais precisos. Usando as parametrizações parametrizadas, etapa de quantização e codificação por entropia 18 é assim capaz de codificar por entropia eficientemente os valores espectrais do espectro dentro do fluxo de dados 22. Como se tornará claro a partir da descrição apresentada abaixo em mais detalhe, a determinação da estimação de distribuição de probabilidade 28 pode ser implementada puramente analiticamente e/ou sem requerer interdependências entre valores espectrais de componentes espectrais diferentes do mesmo espectro 26, isto é, independente de valores espectrais de componentes espectrais diferentes relativos ao mesmo instante de tempo. Etapa de quantização e codificação por entropia 18 poderia, conformemente, executar a codificação por entropia dos valores espectrais quantizados ou níveis de magnitude, respectivamente, em paralelo. A codificação por entropia real pode, por sua vez, ser uma codificação aritmética ou uma codificação de comprimento variável ou alguma outra forma de codificação por entropia tal como codificação por entropia por particionamento de intervalo de probabilidade ou semelhantes. Na realidade, etapa de quantização e codificação por entropia 18 codifica por entropia cada valor espectral em um certo componente espectral k usando a estimação de distribuição de probabilidade 28 para aquele componente espectral k, de modo que um consumo de bit para um valor espectral respectivo k para sua codificação em fluxo de dados 22 é mais baixo dentro das partes do domínio de valores possíveis do valor espectral no componente espectral k onde a probabilidade indicada pela estimação de distribuição de probabilidade 28 é mais alta, e o consumo de bit é maior em partes do domínio de valores possíveis onde a probabilidade indicada por estimação de distribuição de probabilidade 28 é mais baixa. Em caso de codificação aritmética, por exemplo, codificação aritmética com base em tabela pode ser usada. Em caso de codificação de comprimento variável, tabelas de palavra de código diferentes mapeando os possíveis valores para as palavras de código podem ser selecionadas e aplicadas pela etapa de quantização e codificação por entropia dependendo da estimação de distribuição de probabilidade 28, determinada por estimador de distribuição de probabilidade 14 para o componente espectral k respectivo.

[0032] A Fig. 2 mostra uma implementação possível do determinador de espectro 16 da Fig. 1. Conforme a Fig. 2, o determinador de espectro 16 compreende um determinador de fator de escala 34, um transformador 36 e um conformador espectral 38. Transformador 36 e conformador espectral 38 estão conectados em série um ao outro entre na entrada e saída de determinador espectral 16 através do qual o determinador espectral 16 está conectado entre a entrada 20 e etapa de quantização e codificação por entropia 18 na Fig.1. O determinador de fator de escala 34 está, por sua vez, conectado entre analisador de LP 12 e uma entrada adicional de conformador espectral 38 (ver Fig. 1).

[0033] O determinador de fator de escala 34 está configurado para usar a informação de coeficiente de predição linear de modo a determinar fatores de escala. O transformador 36 decompõe espectralmente o sinal que o mesmo recebe, para obter um espectro original. Como esboçado acima, o sinal de entrada pode ser o sinal de áudio original na entrada 20 ou, por exemplo, uma versão pré- enfatizada do mesmo. Como também já esboçado acima, transformador 36 pode submeter internamente o sinal a ser transformado a janelamento, em partes, usando partes sobrepostas, enquanto transformando individualmente cada parte janelada. Como já denotado acima, um MDCT pode ser usado para a transformação. Isto é, transformador 36 emite um valor espectral x'k por componente espectral k e o conformador espectral 38 é configurado para moldar espectralmente este espectro original dimensionando em escala o espectro usando os fatores de escala, isto é, dimensionando em escala cada valor espectral original x'k usando os fatores de escala sk emitidos por determinador de fator de escala 34 de modo a obter um valor espectral respectivo xk, que é, então, sujeito a quantização e codificação por entropia no estado 18 da Fig. 1.

[0034] A resolução espectral em que determinador de fator de escala 34 determina os fatores de escala não necessariamente coincide com a resolução definida pelo componente espectral k. Por exemplo, um agrupamento motivado perceptualmente de componentes espectrais em grupos espectrais, tais como bark bands, pode formar a resolução espectral em que os fatores de escala, isto é, as ponderações espectrais pelas quais os valores espectrais do espectro emitidos pelo transformador 36 são ponderados, são determinados.

[0035] O determinador de fator de escala 34 é configurado para determinar os fatores de escala tal que os mesmos representam, ou aproximam-se, uma função de transferência que depende de um inverso de um filtro de síntese de predição linear definido pela informação de coeficiente de predição linear. Por exemplo, o determinador de fator de escala 34 pode ser configurado para usar os coeficientes de predição linear como obtidos a partir de analisador de LP 12 em, por exemplo, sua forma quantizada em que eles também estão disponíveis no lado de decodificação via fluxo de dados 22, como uma base para uma conversão LPC a MDCT que, por sua vez, pode envolver um ODFT. Naturalmente, alternativas existem também. No caso das alternativas acima esboçadas onde o codificador de áudio da Fig. 1 é um codificador de áudio com base em predição linear perceptual, o determinador de fator de escala 34 pode ser configurado para realizar uma ponderação motivada perceptualmente dos LPCs primeiro antes de realizar a conversão a fatores espectrais usando, por exemplo, um ODFT. No entanto, outra possibilidade pode existir também. Como será esboçado em mais detalhe abaixo, a função de transferência da filtragem resultante do dimensionamento em escala espectral por conformador espectral 38 pode depender, via a determinação de fator de escala realizada por determinador de fator de escala 34, do inverso do filtro de síntese de predição linear 1/A(z) definido pela informação de coeficiente de predição linear tal que a função de transferência é um inverso de uma função de transferência de 1/A(k.z), onde k aqui denota uma constante que pode, por exemplo, ser 0,92.

[0036] A fim de melhor compreender a relação mútua entre a funcionalidade do determinador de espectro por um lado e estimador de distribuição de probabilidade 14 por outro lado e a maneira que esta relação conduz à operação eficaz de etapa de quantização e codificação por entropia 18 no caso do codificador de áudio com base em predição linear agindo como um codificador de áudio com base em predição linear perceptual, referência é feita às Figs. 3a e 3b. A Fig. 3a mostra um espectro original 40. Aqui, é exemplarmente o espectro do sinal de áudio ponderado pela função de transferência do filtro de pré-ênfase. Para ser mais preciso, a Fig. 3a mostra a magnitude do espectro 40 traçado sobre componentes espectrais ou linhas espectrais k. No mesmo gráfico, Fig. 3a mostra a função de transferência do filtro de síntese de predição linear A(z) vezes a função de transferência 24 do filtro de pré-ênfase, o produto resultante sendo denotado 42. Como pode ser visto, a função 42 aproxima-se do envelope ou forma grosseira de espectro 40. Na Fig. 3a, a modificação motivada perceptualmente do filtro de síntese de predição linear é mostrada, tal como A(0,92z) no caso exemplificativo mencionado acima. Este “modelo perceptual” é denotado por sinal de referência 44. Função 44 assim representa uma estimação simplificada de um limiar de mascaramento do sinal de áudio levando em conta, pelo menos, oclusões espectrais. Determinador de fator espectral 34 determina os fatores de escala assim como aproxima o inverso de modelo perceptual 44. O resultado de multiplicação de funções 40 a 44 da Fig. 3a com o inverso de modelo perceptual 44 está mostrado na Fig. 3b. Por exemplo, 46 mostra o resultado de multiplicar espectro 40 com o inverso de 44 e assim corresponde ao espectro ponderado perceptualmente como emitido por conformador espectral 38 no caso de codificador 10 agindo como um codificador com base em predição linear perceptual como descrito acima. Como multiplicar função 44 com o inverso da mesma resulta em uma função constante, o produto resultante está representado como sendo plano na Fig. 3b, ver 50.

[0037] Agora voltando-se para estimador de distribuição de probabilidade 14, o mesmo também tem acesso à informação de coeficiente de predição linear como descrito acima. Estimador 14 é assim capaz de computar função 48, resultante de multiplicação da função 42 com o inverso da função 44. Essa função 48 pode servir, como é visível a partir da Fig. 3b, como uma estimativa do envelope ou forma grosseira do pré-filtrado 46 conforme emitido por conformador espectral 38.

[0038] Por conseguinte, o estimador de distribuição de probabilidade 14 poderia operar como ilustrado na Fig. 4. Em particular, o estimador de distribuição de probabilidade 14 poderia submeter os coeficientes de predição linear definindo o filtro de síntese de predição linear 1/A(z) a uma ponderação perceptual 64 de modo que o mesmo corresponde a um filtro de síntese de predição linear modificado perceptualmente 1/A(k.z). Ambos, os coeficientes de predição linear não ponderados assim como os ponderados são submetidos a conversão de LPC a ponderação espectral 60 e 62, respectivamente, e o resultado é submetido a, por componente espectral k, divisão. O quociente resultante é opcionalmente submetido a alguma derivação de parâmetro 68 onde os quocientes para os componentes espectrais k são individualmente, isto é para cada k, submetidos a alguma função de mapeamento de modo a resultar em um parâmetro de distribuição de probabilidade representando uma medida, por exemplo, para a dispersão da estimação de distribuição de probabilidade. Para ser mais preciso, as conversões de LPC a ponderação espectral 60, 62 aplicadas aos coeficientes de predição linear não ponderados e ponderados resultam em ponderações espectrais sk e s'k para os componentes espectrais k. As conversões 60, 62 podem, como já denotado acima, ser realizadas em uma resolução espectral mais baixa do que a resolução espectral definida pelos próprios componentes espectrais k, mas interpolação pode, por exemplo, ser usada para suavizar o quociente qk resultante sobre o componente espectral k. A derivação de parâmetro, então, resulta em um parâmetro de distribuição de probabilidade πk por componente espectral k, por exemplo, dimensionando em escala todos qk usando um fator de escala comum para todos k. A etapa de quantização e codificação por entropia 18 pode, então, usar estes parâmetros de distribuição de probabilidade πk para codificar por entropia eficientemente o espectro espectralmente moldado da quantização. Em particular, como πk é uma medida para uma dispersão da estimação de distribuição de probabilidade de valor de espectro de envelope xk ou pelo menos sua magnitude, uma função parametrizável, tal como o supra mencionado f(i,l(k)), pode ser usada por etapa de quantização e codificação por entropia 18 para determinar, para cada componente espectral k, a estimação de distribuição de probabilidade 28 usando πk como um quadro para a função parametrizável, isto é como l(k). De preferência, a parametrização da função parametrizável é tal que o parâmetro de distribuição de probabilidade, por exemplo l(k), é, na realidade, uma medida para uma dispersão da estimação de distribuição de probabilidade, isto é, o parâmetro de distribuição de probabilidade mede uma largura da função parametrizável de distribuição de probabilidade. Em uma modalidade específica esboçada mais abaixo, uma distribuição de Laplace é usada como a função parametrizável, por exemplo f(i,l(k)).

[0039] No que diz respeito à Fig. 1, nota-se que estimador de distribuição de probabilidade 14 pode adicionalmente inserir informação dentro do fluxo de dados 22 que permite ao lado de decodificação aumentar a qualidade da estimação de distribuição de probabilidade 28 para os componentes espectrais individuais k comparado à qualidade unicamente fornecida baseada na informação de LPC. Em particular, de acordo com estes específicos detalhes de implementação descritos exemplarmente mais esboçado abaixo, estimador de distribuição de probabilidade 14 pode usar predição de longo prazo a fim de obter uma estimação mais fina espectralmente 30 do envelope ou forma de espectro 26 no caso do espectro 26 representando uma excitação codificada de transformada tal como o espectro resultante de filtragem com uma função de transformada correspondente a um inverso do modelo perceptual ou o inverso do filtro de síntese de predição linear.

[0040] Por exemplo, ver Figs. 5a a 5c para ilustrar este último, funcionalidade opcional de estimador de distribuição de probabilidade 14. A Fig. 5a mostra, como a Fig. 3a, o espectro de sinais de áudio original 40 e o modelo LPC A(z) incluindo a pré-ênfase. Isto é, temos o sinal original 40 e seu envelope de LPC 42 incluindo pré-ênfase. A Fig. 5b exibe, como um exemplo da saída da análise de LTP realizada por estimador de distribuição de probabilidade 14, um filtro comb de LTP 70, isto é uma função comb sobre componentes espectrais k parametrizados, por exemplo, por um ganho de LTP de valor descrevendo a proporção vale a pico a/b e um atraso de LTP de parâmetro definindo o declive ou distância entre os picos da função comb 70, isto é, c. O estimador de distribuição de probabilidade 14 pode determinar os parâmetros de LTP que se acabou de mencionar de modo que multiplicar a função comb de LTP 70 com a estimação baseada em coeficiente de predição linear 30 de espectro 26 estima mais de perto o espectro real 26. Multiplicação da função comb de LTP 70 com o modelo LPC 42 é mostrado exemplarmente na Figura 5c e pode ser visto que o produto 72 de função comb de LTP 70 e modelo LPC 42 aproxima mais de perto a forma real de espectro 40.

[0041] No caso de combinar a funcionalidade LTP de estimador de distribuição de probabilidade 14 com o uso do domínio perceptual, o estimador de distribuição de probabilidade 14 pode operar como mostrado na Fig. 6. O modo de operação largamente coincide com o mostrado na Fig. 4. Isto é, os coeficientes de LPC definindo o filtro de síntese de predição linear 1/A(z) são submetidos a conversão LPC a ponderação espectral 60 e 62, a saber uma vez diretamente e a outra vez após ser ponderado perceptualmente 64. Os fatores de escala resultantes são submetidos a divisão 66 e os quocientes resultantes qk são multiplicados usando multiplicador 47 com a função comb de LTP 70, o ganho de LTP de parâmetros e atraso de LTP de que são determinados por estimador de distribuição de probabilidade 14 apropriadamente e inseridos no fluxo de dados 22 para acesso para o lado de decodificação. O produto resultante lk . qk com lk denotando a função comb de LTP em componente espectral k, é, então, submetido à derivação de parâmetro de distribuição de probabilidade 68 de modo a resultar nos parâmetros de distribuição de probabilidade πk. Por favor, note que na seguinte descrição do lado de decodificação, referência é feita a, entre outros aspectos, Fig. 6 a respeito da funcionalidade do lado de decodificador da estimação de distribuição de probabilidade. A respeito disso, por favor note que, no lado do codificador, o(s) parâmetro(s) de LTP são determinados via otimização são os semelhantes e inseridos no fluxo de dados 22, enquanto o lado de decodificação meramente tem que ler os parâmetros de LTP do fluxo de dados.

[0042] Após ter descrito várias modalidades para um codificador de áudio com base em predição linear em relação às Figs. 1 a 6, a seguinte descrição concentra-se no lado de decodificação. A Fig. 7 mostra uma modalidade para um decodificador de áudio com base em predição linear 100. Compreende um estimador de distribuição de probabilidade 102 e uma etapa de decodificação por entropia e dequantização 104. O decodificador de áudio com base em predição linear tem acesso ao fluxo de dados 22 e enquanto estimador de distribuição de probabilidade 102 é configurado para determinar, para cada um da pluralidade de componentes espectrais k, uma estimação de distribuição de probabilidade 28 a partir da informação de coeficiente de predição linear contida no fluxo de dados 22, etapa de decodificação por entropia e dequantização 104 é configurada para decodificar por entropia e dequantizar o espectro 26 a partir do fluxo de dados 22 usando a estimação de distribuição de probabilidade como determinado para cada uma da pluralidade de componentes espectrais k por estimador de distribuição de probabilidade 102. Isto é, ambos estimador de distribuição de probabilidade 102 e etapa de decodificação por entropia e dequantização 104 têm acesso a fluxo de dados 22 e estimador de distribuição de probabilidade 102 tem sua saída conectada a uma entrada de etapa de decodificação por entropia e dequantização 104. Na saída deste último, o espectro 26 é obtido.

[0043] Deve-se notar que, naturalmente, a saída de espectro por etapa de decodificação por entropia e dequantização 104 pode ser submetida a processamento adicional dependendo da aplicação. A saída do decodificador 100 não necessariamente precisa, contudo, ser o sinal de áudio que é codificado no fluxo de dados 22, em domínio temporal a fim de, por exemplo, ser reproduzido usando alto-falantes. Em vez disso, decodificador de áudio com base em predição linear 100 pode fazer a interface com a entrada de, por exemplo, o mixer de um sistema de conferência, um decodificador multicanal ou multi-objeto ou semelhante, e este interfaceamento pode estar no domínio espectral. Em alternativa, o espectro ou alguma versão pós-processada do mesmo pode estar submetido a conversão espectral a tempo por uma conversão de decomposição espectral tal como uma transformada inversa usando um processo overlap/add (sobreposição/adição) como descrito mais abaixo.

[0044] Como o estimador de distribuição de probabilidade 102 tem acesso à mesma informação de LPC que estimador de distribuição de probabilidade 14 no lado de codificação, estimador de distribuição de probabilidade 102 opera o mesmo que o estimador correspondente no lado de codificação exceto, por exemplo, pela determinação do parâmetro de LTP adicional no lado de codificação, o resultado de que a determinação é sinalizada para o lado de decodificação via fluxo de dados 22. A etapa de decodificação por entropia e dequantização 104 é configurada para usar a estimação de distribuição de probabilidade em decodificação por entropia dos valores espectrais do espectro 62, tal como os níveis de magnitude do fluxo de dados 22 e dequantizar o mesmo igualmente para todos os componentes espectrais de modo a obter o espectro 26. Como para as várias possibilidades para implementar a codificação por entropia, referência é feita às declarações acima relativo a codificação por entropia. Além disso, a mesma regra de quantização é aplicada em uma direção inversa relativa à usada no lado de codificação de modo que todas as alternativas e detalhes descritos acima em relação à codificação por entropia e quantização deve também se aplicar às modalidades de decodificador correspondentemente. Isto é, por exemplo, a etapa de decodificação por entropia e dequantização pode ser configurada para usar um tamanho do passo de quantização constante para dequantizar os níveis de magnitude e pode usar, por exemplo, decodificação aritmética.

[0045] Como já denotado acima, o espectro 26 pode representar uma excitação de codificação de transformada e conformemente a Fig. 8 mostra que o decodificador de áudio com base em predição linear pode adicionalmente compreender um filtro 106 que tem também acesso à informação de LPC e fluxo de dados 22 e é conectado à saída de etapa de decodificação por entropia e dequantização 104 de modo a receber espectro 26 e emitir o espectro de um sinal de áudio pós- filtrado/reconstruído em sua saída. Em particular, o filtro 106 é configurado para moldar o espectro 26 de acordo com uma função de transferência dependendo de um filtro de síntese de predição linear definido pela informação de coeficiente de predição linear. Para ser ainda mais preciso, o filtro 106 pode ser implementado pela concatenação do determinador de fator de escala 34 e conformador espectral 38, com conformador espectral 38 recebendo o espectro 26 da etapa 104 e emitindo o sinal pós filtrado, isto é o sinal de áudio reconstruído. A única diferença seria que o dimensionamento em escala realizado dentro do filtro 106 seria exatamente o inverso do dimensionamento por escala realizado por conformador espectral 38 no lado de codificação, isto é, onde o conformador espectral 38 no lado de codificação realiza, por exemplo, uma multiplicação usando os fatores de escala, e em filtro 106 uma divisão pelos fatores de escala seria realizada ou vice-versa.

[0046] A última circunstância é mostrada na Fig. 9, que mostra uma modalidade para filtro 106 da Fig. 8. Como pode ser visto, o filtro 108 pode compreender um determinador de fator de escala 110 operando, por exemplo, como o determinador de fator de escala 34 na Fig. 2 faz, e um conformador espectral 112 que, como esboçado acima, aplica os fatores de escala para determinar o fator de escala 110 para a entrada de espectro, inversamente em relação ao conformador espectral 38.

[0047] A Fig. 9 ilustra que o filtro 106 pode ainda compreender exemplarmente um transformador inverso 114, um overlap adder 116 e um filtro de de-ênfase 118. Os últimos componentes 114 a 118 podem ser sequencialmente conectados à saída de conformador espectral 112 na ordem de sua menção, em que filtro de-ênfase 118 ou ambos overlap/adder 116 e filtro de de-ênfase 118 podem, conforme uma alternativa adicional, ser deixados.

[0048] O filtro de de-ênfase 118 realiza o inverso da filtragem de pré-ênfase de filtro 24 na Fig. 1 e a overlap/adder 116 pode, como conhecido na técnica, resultar em cancelamento de aliasing no caso da transformada inversa usada dentro do transformador inverso 114 ser uma transformada superposta criticamente amostrada. Por exemplo, o transformador inverso 114 poderia submeter cada espectro 26 recebido a partir de conformador espectral 112 em uma taxa temporal em que estes espectros são codificados dentro de um fluxo de dados 22, a uma transformada inversa de modo a obter partes janeladas que, por sua vez, são adicionadas por sobreposição por overlap/adder 116 para resultar em uma versão de sinal tempo-domínio. O filtro de de-ênfase 118, assim como o filtro de pré-ênfase 24 faz, pode ser implementado como um filtro FIR.

[0049] Após ter descrito modalidades do presente pedido a respeito das figuras, na sequencia uma descrição mais matemática de modalidades do presente pedido é fornecida com esta descrição, então, acabando na descrição correspondente das Fig. 10 e 11. Em particular, nas modalidades descritas abaixo assume-se que binarização unária dos valores espectrais do espectro com codificação aritmética binária dos bins das sequências de bins resultantes é usada para codificar o espectro.

[0050] Em particular, nos detalhes exemplares descritos abaixo, que deve entender-se como sendo transferível para as modalidades acima descritas, foi exemplarmente decidido calcular a estrutura de envelope 30 em 64 bandas quando o comprimento de quadro, isto é a taxa de espectro em que o espectro 26 é atualizado dentro de fluxo de dados 22, é 256 amostras e 80 bandas quando o comprimento de quadro é 320 amostras. Se o modelo LPC é A(z), então, o LPC ponderado é, por exemplo, A(yz) com y = 0,92 e o prazo de pré-ênfase associado de filtro 24 é (1-0,68z-1), por exemplo em que as constantes podem variar baseadas na aplicação. O envelope 30 e o domínio perceptual é deste modo

[0051] Deste modo, a função de transferência do filtro definido pela fórmula (1) corresponde à função 48 na Fig. 3b e é o resultado da computação nas Figs. 4 e 6 na saída do divisor 66.

[0052] Deve-se notar que as Figs. 4 e 6 representam o modo de operação de ambos o estimador de distribuição de probabilidade 14 e o estimador de distribuição de probabilidade 102 na Fig. 7. Além disso, no caso do filtro de pré-ênfase 24 e do filtro de de-ênfase 118 serem usados, a conversão do LPC a ponderação espectral 60 leva a função de filtro de pré-ênfase em conta, de modo que, no fim, representa o produto das funções de transferência do filtro de síntese e do filtro de pré-ênfase.

[0053] Em qualquer caso, a transformada tempo-frequência do filtro definida pela fórmula (1) deve ser calculada tal que o envelope final está alinhado pela frequência com a representação espectral do sinal de entrada. Além disso, deve-se notar novamente que o estimador de distribuição de probabilidade pode meramente computar a magnitude absoluta do envelope ou função de transferência do filtro de fórmula (1). Nesse caso, o componente de fase pode ser descartado.

[0054] No caso de calcular o envelope para bandas espectrais e não linhas individuais, o envelope aplicado a linhas espectrais será contínuo em etapas. Para obter um envelope mais contínuo é possível interpolar ou suavizar o envelope. No entanto, deve ser observado que as bandas espectrais contínuas em etapas fornecem uma redução em complexidade computacional. Portanto, este é um equilíbrio entre exatidão contra complexidade.

[0055] Como notado antes, o LTP pode também ser usado para inferir um envelope mais detalhado. Alguns dos principais desafios de aplicar informação harmônica à forma de envelope são: i. Escolher a codificação e exatidão de informação de LTP tal como atraso de LTP e ganho de LTP. Por exemplo, a mesma codificação que em ACELP poderia ser usada. ii. O LTP pode corresponder a um filtro comb no domínio de frequência. No entanto, as modalidades acima ou qualquer outra modalidade de acordo com a presente invenção não é limitada a usar um filtro comb da mesma forma que a LTP. Outras funções poderiam ser usadas também. iii. Além da forma de filtro comb de LTP, é também possível escolher aplicar o LTP diferentemente em regiões de frequência diferentes. Por exemplo, picos harmônicos são geralmente mais proeminentes em baixas frequências. Faria, então, sentido aplicar o modelo harmônico na baixa frequência com amplitude mais alta do que em altas frequências.

[0056] Como notado acima, a forma de envelope é calculada em bandas. No entanto, um filtro comb em LTP irá certamente ter uma estrutura e frequência muito mais detalhadas do que o que os valores de envelope estimados em banda tem. Na implementação de um modelo harmônico, é, então, benéfico reduzir complexidade computacional.

[0057] Nas modalidades acima, uma suposição pode ser usada de acordo com quais as linhas individuais, ou mais especificamente as magnitudes do espectro 26 nos componentes espectrais k, estão distribuídas de acordo com a distribuição de Laplace, isto é, a distribuição exponencial sinalizada. Em outras palavras, f(i,l(k)) supracitado pode ser uma função de Laplace. Uma vez que o sinal do espectro 26 no componente espectral k pode sempre ser codificado por um bit, e a probabilidade de ambos sinais pode ser seguramente assumida como sendo 0,5, então, o sinal pode sempre ser codificado separadamente e precisamos considerar a distribuição exponencial apenas.

[0058] Em geral, sem qualquer informação prévia, a primeira escolha para qualquer distribuição seria a distribuição normal. A distribuição exponencial, contudo, tem muito mais massa de probabilidade próxima a zero do que a distribuição normal e ela assim descreve um sinal mais esparso do que a distribuição normal. Uma vez que uma das principais metas de transformadas tempo-frequência é alcançar um sinal esparso, então, uma distribuição de probabilidade que descreve sinais esparsos é bem garantida. Além disso, a distribuição exponencial também fornece equações que são prontamente tratáveis em forma analítica. Estes dois argumentos fornecem a base para usar a distribuição exponencial. As seguintes derivações podem naturalmente ser prontamente modificadas para outras distribuições.

[0059] Uma variável x distribuída exponencialmente tem a função de densidade de probabilidade (x > 0):

e a função de distribuição cumulative

[0060] A entropia de uma variável exponencial é 1 - ln(X), pelo que o consumo de bit esperado de uma única linha, incluindo sinal, seria log2(2eX). Contudo, isto é um valor teórico que é válido para variáveis discretas apenas quando X é grande.

[0061] O consumo de bit real pode ser estimado por simulações, mas uma fórmula analítica exata não está disponível. Um consumo de bit aproximado é, contudo, log2(2eX + 0,15 + 0,035/X) para X > 0,08.

[0062] Isto é, as modalidades acima descritas com o estimador de distribuição de probabilidade em lados de codificação e decodificação podem usar uma distribuição de Laplace como uma função parametrizável para determinar a estimação de distribuição de probabilidade. O parâmetro de escala X da distribuição de Laplace pode servir como o parâmetro de distribuição de probabilidade supracitado, isto é como πk.

[0063] Em seguida, uma possibilidade para realizer dimensionamento em escala de envelope é descrito. Uma abordagem é baseada em fazer uma primeira suposição para o dimensionamento em escala, calculando seu consumo de bit e melhorando o dimensionamento em escala iterativamente até suficientemente próximo ao nível desejado. Em outras palavras, os estimadores de distribuição de probabilidade supracitados no lado de codificação e decodificação poderiam realizar as etapas seguintes.

[0064] Seja fk o valor de envelope para posição k. O valor de envelope médio é, então,

, onde N é o número de linhas espectrais. Se o consumo de bit desejado é b, então, o dimensionamento em escala de primeira suposição g0 pode ser prontamente resolvido a partir de

[0065] O consumo de bit estimado bk para iteração k e com dimensionamento em escala gk é então

[0066] A operação de logaritmo é computacionalmente complexa, assim, podemos em vez disso calcular

[0067] Embora o prazo de produto seja um número muito grande e seu cálculo em ponto fixo requer muita administração, é ainda menos complexo do que um grande número de operações de log2().

[0068] Para reduzir mais complexidade, podemos estimar o consumo de bit por log2(2e-À), pelo que o consumo de bit total é b = log2n2efh'g. A partir desta equação, o coeficiente de escala g pode ser prontamente resolvido analiticamente, pelo que a iteração de dimensionamento em escala de envelope não é requerida.

[0069] Em geral, nenhuma forma analítica existe para resolver gk da Eq. 5, pelo que um método iterativo tem de ser usado. Se a busca de bisseção é usada, então, se b0<b, então, o tamanho do passo inicial é ' 1 e, de outro modo, o tamanho do passo é ' <iV. Por esta abordagem, a busca de bisseção converge tipicamente em iterações 5-6.

[0070] O envelope tem de ser dimensionado em escala de igual modo em ambos o codificador assim como o decodificador. Uma vez que as distribuições de probabilidade são derivadas do envelope, até uma diferença de 1 bit no dimensionamento em escala no codificador e decodificador faria o decodificador aritmético produzir saída aleatória. É, portanto, muito importante que a implementação opere exatamente igualmente sobre todas as plataformas. Na prática, isto requer que o algoritmo seja implementado com operações de ponto fixo e número inteiro.

[0071] Enquanto o envelope já foi dimensionado em escala tal que a expectativa do consumo de bit é igual ao nível desejado, as linhas espectrais reais em geral não corresponderão à provisão de bit sem dimensionar em escala. Mesmo se o sinal estivesse dimensionado em escala tal que sua variância correspondesse à variância do envelope, a distribuição de amostra iria invariavelmente diferir da distribuição modelo, pelo que o consumo de bit desejado não é alcançado. É, portanto, necessário dimensionar em escala o sinal de tal forma que, quando é quantizado e codificado, o consumo de bit final alcança o nível desejado. Uma vez que isto geralmente tem de ser realizado em uma maneira iterativa (nenhuma solução analítica existe), o processo é conhecido como o rate-loop.

[0072] Escolhemos começar por um dimensionamento em escala de primeira suposição tal que a variância do envelope e o sinal dimensionado em escala correspondem. Simultaneamente, podemos encontrar aquela linha espectral, quem tem a menor probabilidade de acordo com nosso modelo de probabilidade. Cuidados devem ser tomados para que o menor valor de probabilidade não esteja abaixo da precisão de máquina. Isto, desta maneira, estabelece um limite sobre o fator de escala que será estimado no rate-loop.

[0073] Para o rate-loop, novamente empregamos a busca de bisseção, tal que o tamanho do passo começa na metade do fator de escala inicial. Em seguida, o consumo de bit é calculado sobre cada iteração como uma soma de todas as linhas espectrais e a exatidão de quantização é atualizada dependendo de quão perto da provisão de bits estamos.

[0074] Em cada iteração, o sinal é primeiro quantizado com o dimensionamento em escala atual. Em segundo lugar, cada linha é codificada com o codificador aritmético. De acordo com o modelo de probabilidade, a probabilidade que uma linha xk é quantizada a zero é p(xk = 0) = 1 - exp(.5/fk), onde fk é o valor de envelope (= desvio padrão da linha espectral). O consumo de bit de tal linha é naturalmente -log2 p(xk = 0). Um xk de valor diferente de zero tem a probabilidade p(| xk | = q) = exp((q + .5)/fk) - exp((q - .5)/fk). A magnitude pode assim ser codificada com log2(p(| xk | = q)) bits, mais um bit para o sinal.

[0075] Desta maneira, o consumo de bit de todo o espectro pode ser calculado. Além disso, note-se que podemos estabelecer um limite K tal que todas as linhas k>K são zero. É, então, suficiente codificar as primeiras K linhas. O decodificador pode, então, deduzir que se as primeiras K linhas foram decodificadas, mas nenhum bit adicional está disponível, então, as linhas remanescentes devem ser todas zero. Não é, portanto, necessário transmitir o limite K, mas pode ser deduzido do fluxo de bits. Desta maneira, podemos evitar codificar linhas que são zero, pelo que economizamos bits. Uma vez que para os sinais de voz e áudio acontece frequentemente que a parte superior do espectro é quantizada a zero, é benéfico começar a partir das baixas frequências, e na medida do possível, usar todos os bits para as primeiras K linhas.

[0076] Note que uma vez que os valores de envelope fk são iguais dentro de uma banda, podemos prontamente reduzir complexidade pré- calculando valores que são necessários para cada linha em uma banda. Especificamente, em linhas de codificação, o termo exp(.5/fk) é sempre necessário e é igual dentro de cada banda. Além disso, este valor não muda dentro do rate-loop, pelo que pode ser calculado fora do rate-loop e o mesmo valor pode ser usado para a quantização final também.

[0077] Além disso, uma vez que o consumo de bit de uma linha é log2() da probabilidade, podemos, em vez de calcular a soma de logaritmos, calcular o logaritmo de um produto. Desta forma, complexidade é novamente salva. Além disso, uma vez que o rate-loop é uma característica apenas do codificador, operações de ponto flutuante nativas podem ser usadas em vez de ponto fixo.

[0078] Com relação ao acima, é feita referência à Fig. 10, que mostra uma subparte fora do codificador explicada acima no que diz respeito às figuras, a qual parte é responsável por realizar o dimensionamento em escala de envelope supracitado e rate loop de acordo com uma modalidade. Em particular, a Fig. 10 mostra elementos fora da etapa de quantização e codificação por entropia 18 por um lado e o estimador de distribuição de probabilidade 14 por outro lado. Um binarizador de binarização unária 130 sujeita as magnitudes dos valores espectrais xk de espectro 26 em componentes espectrais k a uma binarização unária, desse modo gerando, para cada magnitude em componente espectral k, uma sequência de bins. O codificador aritmético binário 132 recebe estas sequências de bins, isto é, um por componente espectral k, e sujeita o mesmo a codificação aritmética binária. Ambos binarizador de binarização unária 130 e codificador aritmético binário 132 são parte da etapa de quantização e codificação por entropia 18. A Fig. 10 também mostra o derivador de parâmetro 68, que é responsável por realizar o dimensionamento em escala supracitado a fim de dimensionar em escala os valores de estimação de envelope qk, ou como eles foram também denotados acima por fk, de modo a resultar em parâmetros de distribuição de probabilidade dimensionados em escala corretamente πk ou usando a notação que se acabou de utilizar, gkfk. Como descrito acima usando fórmula (5), derivador binário 68 determina o valor de escala gk iterativamente, de modo que a estimação analítica do consumo de bit, um exemplo do qual está representado por equação (5), reúne algumas taxas de bit alvo para todo o espectro 26. Como uma nota lateral menor, nota-se que k conforme usado em conexão com a equação (5) denotou o número de passo de iteração, enquanto em outro lugar k variável tinha como objetivo denotar a linha espectral ou componente k. Além disso, deve-se notar que derivador de parâmetro 68 não necessariamente dimensiona em escala os valores de envelope originais exemplarmente derivados, como mostrado nas Figs. 4 e 6, mas poderia alternativamente modificar iterativamente diretamente os valores de envelope usando, por exemplo, modificadores aditivos.

[0079] Em qualquer caso, o codificador aritmético binário 132 aplica, para cada componente espectral, a estimação de distribuição de probabilidade como definida por parâmetro de distribuição de probabilidade πk, ou como alternativamente usado acima, gkfk, para todos os bins da binarização unária da magnitude respectiva dos valores espectrais xk.

[0080] Como também descrito acima, um verificador de rate loop 134 pode ser fornecido a fim de verificar o consumo de bit real produzido usando os parâmetros de distribuição de probabilidade como determinado por derivador de parâmetro 68 como uma primeira suposição. O verificador de rate loop 134 verifica a suposição estando conectado entre codificador aritmético binário 132 e derivador de parâmetro 68.

[0081] Se o consumo de bit real excede o consumo de bit permitido apesar da estimação realizada por derivador de parâmetro 68, verificador de rate loop 134 corrige os valores de primeira suposição dos parâmetros de distribuição de parâmetro πk (ou gkfk), e a codificação aritmética binária real 132 das binarizações unárias é realizada novamente.

[0082] A Fig. 11 mostra, por uma questão de completude, uma parte semelhante fora do decodificador da Fig. 8. Em particular, o derivador de parâmetro 68 opera nos lados de codificação e decodificação da mesma maneira e é conformemente, do mesmo modo, mostrado na Fig. 11. Em vez de usar uma concatenação de binarizador de binarização unária seguido por um codificador aritmético binário, no lado de decodificação o arranjo sequencial inverso é usado, isto é, a etapa de decodificação por entropia e dequantização 104 conforme a Fig. 11 exemplarmente compreende um decodificador aritmético binário 136 seguido por um debinarizador de dispositivo de binarização unária 138. O decodificador aritmético binário 136 recebe a parte do fluxo de dados 22 que codifica aritmeticamente espectro 26. A saída de decodificador aritmético binário 136 é uma sequência de sequências de bin, a saber uma sequência de bins de uma certa magnitude de valor espectral em componente espectral k seguido pela sequência de bin da magnitude do valor espectral do seguinte componente espectral k + 1 e assim por diante. Debinarizador de binarização unária 138 realiza a debinarização, isto é, emite as magnitudes debinarizadas dos alores espectrais em componente espectral k e informa o decodificador aritmético binário 136 no começo e fim das sequências de bin das magnitudes individuais dos valores espectrais. Assim como o codificador aritmético binário 132 faz, decodificador aritmético binário 136 usa, por decodificação aritmética binária, as estimações de distribuição de parâmetro definidas pelos parâmetros de distribuição de parâmetro, a saber o parâmetro de distribuição de probabilidade πk (gkfk), para todos os bins pertencentes a uma magnitude respectiva de um valor espectral de componente espectral k.

[0083] Como também foi descrito acima, codificador e decodificador podem explorar o fato que ambos os lados podem ser informados da taxa de bit máxima disponível em que ambos os lados podem explorar a circunstância em que a codificação real das magnitudes de valores espectrais de espectro 26 podem ser cheesed quando atravessando o mesmo da frequência mais baixa à frequência mais alta, assim que a taxa de bit máxima disponível no fluxo de bits 22 for alcançada. Por convenção, a magnitude não transmitida pode ser estabelecida como zero.

[0084] No que diz respeito às modalidades descritas mais recentemente, nota-se que, por exemplo, o dimensionamento em escala de primeira suposição do envelope para obter os parâmetros de distribuição de probabilidade pode ser usado sem o rate loop para obedecer a alguma taxa de bit constante tal como, por exemplo, se o cumprimento não é solicitado pelo cenário da aplicação, por exemplo.

[0085] Embora alguns aspectos tenham sido descritos no context de um aparelho, está claro que estes aspectos também representam uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a um passo de método ou uma característica de um passo de método. Analogamente, aspectos descritos no contexto de um passo de método também representam uma descrição de um bloco ou item ou característica correspondente de um aparelho correspondente. Alguns ou todos os passos de método podem ser executados por (ou usando) um aparelho de hardware, como por exemplo, um microprocessador, um computador programável ou um circuito eletrônico. Em algumas modalidades, algum ou mais dos passos de método mais importantes podem ser executados por tal aparelho.

[0086] O sinal de áudio codificado inventivo pode ser armazenado em um meio de armazenamento digital ou pode ser transmitido em um meio de transmissão tal como um meio de transmissão sem fio ou um meio de transmissão com fio tal como a Internet.

[0087] Dependendo de certos requisitos de implementação, modalidades da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada usando um meio de armazenamento digital, por exemplo um disco flexível, um DVD, um Blu-Ray, um CD, um ROM, um PROM, um EPROM, um EEPROM ou uma memória FLASH, tendo sinais de controle legíveis eletronicamente armazenados no mesmo, que cooperam (ou são capazes de cooperar) com um sistema de computador programável tal que o método respectivo é executado. Portanto, o meio de armazenamento digital pode ser legível em computador.

[0088] Algumas modalidades de acordo com a invenção compreendem um suporte de dados tendo sinais de controle legíveis eletronicamente, que são capazes de cooperar com um sistema de computador programável, tal que um dos métodos descritos nesse documento é realizado.

[0089] Em geral, modalidades da presente invenção podem ser implementadas como um produto de programa de computador com um código de programa, o código de programa sendo operativo para a realização de um dos métodos quando o produto de programa de computador é executado em um computador. O código de programa pode por exemplo ser armazenado em um suporte legível de máquina.

[0090] Outras modalidades compreendem o programa de computador para realizar um dos métodos descritos nesse documento, armazenados em um suporte legível em máquina.

[0091] Em outras palavras, uma modalidade do método inventive é, portanto, um programa de computador tendo um código de programa para realizar um dos métodos descritos nesse documento, quando o programa de computador é executado em um computador.

[0092] Uma modalidade adicional dos métodos inventivos é, portanto, um suporte de dados (ou um meio de armazenamento digital, ou um meio legível em computador) compreendendo, gravado no mesmo, o programa de computador para executar um dos métodos descritos nesse documento. O suporte de dados, o meio de armazenamento digital ou o meio gravado são tipicamente tangíveis e/ou não transitório.

[0093] Uma modalidade adicional do método inventivo é, portanto, um fluxo de dados ou uma sequência de sinais representando o programa de computador para executar um dos métodos descritos nesse documento. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido via uma conexão de comunicação de dados, por exemplo, via a Internet.

[0094] Uma modalidade adicional compreende meios de processamento, por exemplo, um computador, ou um dispositivo lógico programável, configurado para ou adaptado para realizar um dos métodos descritos nesse documento.

[0095] Uma modalidade adicional compreende um computador tendo instalado no mesmo o programa de computador para realizar um dos métodos descritos nesse documento.

[0096] Uma modalidade adicional conforme a invenção compreende um aparelho ou um sistema configurado para transferir (por exemplo, eletronicamente ou opticamente) um programa de computador para executar um dos métodos descritos nesse documento para um receptor. O receptor pode, por exemplo, ser um computador, um dispositivo móvel, um dispositivo de memória ou semelhantes. O aparelho ou sistema pode, por exemplo, compreender um servidor de arquivo para transferir o programa de computador ao receptor.

[0097] Em algumas modalidades, um dispositivo lógico programável (por exemplo arranjo de portas programável em campo) pode ser usado para realizar alguma ou todas as funcionalidades dos métodos descritos nesse documento. Em algumas modalidades, um arranjo de portas programável em campo pode cooperar com um microprocessador a fim de executar um dos métodos descritos nesse documento. Em geral, os métodos são de preferência executados por qualquer aparelho de hardware.

[0098] As modalidades acima descritas são meramente ilustrativas para os princípios da presente invenção. Compreende-se que as modificações e variações dos arranjos e os detalhes descritos nesse documento estarão evidentes a outros versados na técnica. É a intenção, portanto, estar limitado apenas pelo escopo das Reivindicações de patente iminente e não pelos detalhes específicos apresentados por meio de descrição e explicação das modalidades desse documento. Referências [1] ISO/IEC 23003-3:2012, “MPEG-D (MPEG audio technologies), Part 3: Unified speech and audio coding,” 2012. [2] J. Makhoul, “Linear prediction: A tutorial review,” Proc. IEEE, vol. 63, no. 4, pp. 561-580, Abril 1975. [3] G. Fuchs, V. Subbaraman, e M. Multrus, “Efficient context adaptive entropy coding for real-time applications,” em Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on, Maio 2011, pp. 493-496. [4] US8296134 e WO2012046685.

Claims

1. Decodificador de Áudio com Base em Predição Linear, (100), caracterizado por que compreende: um estimador de distribuição de probabilidade (102) configurado para determinar, para cada um dos componentes espectrais, uma estimação de distribuição de probabilidade (28) de informação de coeficiente de predição linear (30) contida em um fluxo de dados (22) dentro do qual um sinal de áudio (20) é codificado; uma etapa de decodificação por entropia e dequantização (104) configurada para decodificar por entropia e dequantizar um espectro (26) composto por componentes espectrais do fluxo de dados (22) usando a estimação de distribuição de probabilidade (28) como determinado para cada um dos componentes espectrais; e um filtro (106) configurado para moldar o espectro (26) de acordo com uma função de transferência dependendo de um filtro de síntese de predição linear definido pela informação de coeficiente de predição linear (30), em que o estimador de distribuição de probabilidade (102) é configurado para determinar uma estrutura fina espectral de parâmetros de predição de longo prazo contida no fluxo de dados (22) e determinar, para cada um dos componentes espectrais, um parâmetro de distribuição de probabilidade tal que os parâmetros de distribuição de probabilidade seguem espectralmente uma função que depende multiplicativamente da estrutura fina espectral, em que, para cada um dos componentes espectrais, a estimação de distribuição de probabilidade (28) é uma função parametrizável parametrizada com o parâmetro de distribuição de probabilidade do respectivo componente espectral.

2. Decodificador de Áudio com Base em Predição Linear, (100), de acordo com a Reivindicação 1, caracterizado por que compreende ainda: um determinador de fator de escala (34) configurado para determinar fatores de escala baseado na informação de coeficiente de predição linear (30); e um conformador espectral (38) configurado para moldar espectralmente o espectro (26) dimensionando em escala o espectro (26) usando os fatores de escala, em que o determinador de fator de escala (34) é configurado para determinar os fatores de escala tal que o mesmo representa uma função de transferência dependendo de um filtro de síntese de predição linear definido pela informação de coeficiente de predição linear (30).

3. Decodificador de Áudio com Base em Predição Linear, (100), de acordo com a Reivindicação 1 ou 2, caracterizado por que a dependência da função de transferência no filtro de síntese de predição linear definida pela informação de coeficiente de predição linear (30) é tal que a função de transferência é ponderada perceptualmente.

4. Decodificador de Áudio com Base em Predição Linear, (100), de acordo com qualquer uma das Reivindicações de 1 a 3, caracterizado por que a dependência da função de transferência no filtro de síntese de predição linear 1/A(z) definida pela informação de coeficiente de predição linear (30) é tal que a função de transferência é uma função de transferência de 1/A (k.z), onde k é uma constante.

5. Decodificador de Áudio com Base em Predição Linear, (100), de acordo com qualquer uma das Reivindicações anteriores, caracterizado por que o estimador de distribuição de probabilidade (102) é configurado tal que a estrutura fina espectral é uma estrutura semelhante a comb definida pelos parâmetros de predição de longo prazo.

6. Decodificador de Áudio com Base em Predição Linear, (100), de acordo com qualquer uma das Reivindicações anteriores, caracterizado por que os parâmetros de predição de longo prazo compreendem um ganho de predição de longo prazo e um declive de predição de longo prazo.

7. Decodificador de Áudio com Base em Predição Linear, (100), de acordo com qualquer uma das Reivindicações de 1 a 6, caracterizado por que, para cada um dos componentes espectrais, a função parametrizável é definida tal que o parâmetro de distribuição de probabilidade é uma medida para uma dispersão da estimação de distribuição de probabilidade (28).

8. Decodificador de Áudio com Base em Predição Linear, (100), de acordo com qualquer uma das Reivindicações de 1 a 7, caracterizado por que, para cada um dos componentes espectrais, a função parametrizável é uma distribuição de Laplace e o parâmetro de distribuição de probabilidade do componente espectral respectivo forma um parâmetro de escala da respectiva distribuição de Laplace.

9. Decodificador de Áudio com Base em Predição Linear, (100), de acordo com qualquer uma das Reivindicações de 1 a 8, caracterizado por que compreende ainda um filtro de de-ênfase (118).

10. Decodificador de Áudio com Base em Predição Linear, (100), de acordo com qualquer uma das Reivindicações anteriores, caracterizado por que a etapa de decodificação por entropia e dequantização (104) é configurada para, ao dequantizar e decodificar por entropia o espectro (26) dos componentes espectrais, tratar sinal e magnitude nos componentes espectrais separadamente com o uso da estimação de distribuição de probabilidade (28) como determinado para cada um dos componentes espectrais para a magnitude.

11. Decodificador de Áudio com Base em Predição Linear, (100), de acordo com qualquer uma das Reivindicações anteriores, caracterizado por que a etapa de decodificação por entropia e dequantização (104) é configurada para usar a estimação de distribuição de probabilidade (28) na decodificação por entropia de um nível de magnitude do espectro (26) por componente espectral e dequantizar os níveis de magnitude igualmente para todos os componentes espectrais de modo a obter o espectro (26).

12. Decodificador de Áudio com Base em Predição Linear, (100), de acordo com a Reivindicação 11, caracterizado por que a etapa de decodificação por entropia e quantização (104) é configurada para usar um tamanho de passo de quantização constante para dequantizar os níveis de magnitude.

13. Decodificador de Áudio com Base em Predição Linear, (100), de acordo com qualquer uma das Reivindicações anteriores, caracterizado por que compreende ainda um transformador inverso (114) configurado para submeter o espectro (26) a uma transformada inversa amostrada criticamente de valor real de modo a obter uma parte de sinal que sofre distorção de domínio de tempo (aliasing-suffering time-domain); e um overlap-adder (116) configurado para submeter a parte de sinal que sofre distorção de domínio de tempo a um processo de sobreposição e adição com uma parte de domínio de tempo anterior e/ou posterior de modo a reconstruir o sinal de áudio (20).

14. Codificador de Áudio com Base em Predição Linear, (10), caracterizado por que compreende: um analisador de predição linear (12) configurado para determinar informação de coeficiente de predição linear (30); um estimador de distribuição de probabilidade (102) configurado para determinar, para cada um dos componentes espectrais, uma estimação de distribuição de probabilidade (28) a partir da informação de coeficiente de predição linear (30); e um determinador de espectro (16) configurado para determinar um espectro (26) composto por componentes espectrais de um sinal de áudio (20); uma etapa de quantização e codificação por entropia (18) configurada para quantizar e codificar por entropia o espectro (26) usando a estimação de distribuição de probabilidade (28) como determinada para cada um dos componentes espectrais, em que o determinador de espectro (16) é configurado para moldar um espectro original do sinal de áudio (20) conforme uma função de transferência que depende de um inverso de um filtro de síntese de predição linear definido pela informação de coeficiente de predição linear (30) e em que o codificador de áudio com base na predição linear (10) compreende ainda um preditor de longo prazo configurado para determinar parâmetros de predição de longo prazo e o estimador de distribuição de probabilidade (102) é configurado para determinar uma estrutura fina espectral a partir dos parâmetros de predição de longo prazo e determinar, para cada um dos componentes espectrais, um parâmetro de distribuição de probabilidade tal que os parâmetros de distribuição de probabilidade seguem espectralmente uma função que depende de um produto de uma função de transferência do filtro de síntese de predição linear, um inverso de uma função de transferência de uma modificação ponderada perceptualmente do filtro de síntese de predição linear e a estrutura fina espectral, em que, para cada um dos componentes espectrais, a estimação de distribuição de probabilidade (28) é uma função parametrizável parametrizada com o parâmetro de distribuição de probabilidade do respectivo componente espectral.

15. Codificador de Áudio com Base em Predição Linear, (10), de acordo com a Reivindicação 14, caracterizado por que o determinador de espectro (16) compreende: um determinador de fator de escala (34) configurado para determinar fatores de escala com base na informação de coeficiente de predição linear (30); um transformador (36) configurado para decompor espectralmente o sinal de áudio (20) para obter o espectro original; e um conformador espectral (38) configurado para moldar espectralmente o espectro original dimensionando em escala o espectro (26) usando os fatores de escala, em que o determinador de fator de escala (34) é configurado para determinar os fatores de escala tal que a conformação espectral pelo conformador espectral (38) usando os fatores de escala corresponde a uma função de transferência que depende de um inverso de um filtro de síntese de predição linear definido pela informação de coeficiente de predição linear (30).

16. Codificador de Áudio com Base em Predição Linear, (10), de acordo com a Reivindicação 14 ou 15, caracterizado por que a dependência da função de transferência no inverso do filtro de síntese de predição linear definida pela informação de coeficiente de predição linear (30) é tal que a função de transferência é ponderada perceptualmente.

17. Codificador de Áudio com Base em Predição Linear, (10), de acordo com qualquer uma das Reivindicações de 14 a 16, caracterizado por que a dependência da função de transferência no inverso do filtro de síntese de predição linear 1/A(z) definida pela informação de coeficiente de predição linear (30) tal que a função de transferência é um inverso de uma função de transferência de 1/A(k.z), onde k é uma constante.

18. Codificador de Áudio com Base em Predição Linear, (10), de acordo com qualquer uma das Reivindicações de 14 a 17, caracterizado por que o estimador de distribuição de probabilidade (102) é configurado de tal modo que a estrutura fina espectral é uma estrutura semelhante a comb definida pelos parâmetros de predição de longo prazo.

19. Codificador de Áudio com Base em Predição Linear, (10), de acordo com qualquer uma das Reivindicações de 14 a 18, caracterizado por que os parâmetros de predição de longo prazo compreendem um ganho de predição de longo prazo e um declive de predição de longo prazo.

20. Codificador de Áudio com Base em Predição Linear, (10), de acordo com qualquer uma das Reivindicações de 14 a 19, caracterizado por que, para cada um dos componentes espectrais, a função parametrizável é definida de tal modo que o parâmetro de distribuição de probabilidade é uma medida para uma dispersão da estimação de distribuição de probabilidade (28).

21. Codificador de Áudio com Base em Predição Linear, (10), de acordo com qualquer uma das Reivindicações de 14 a 20, caracterizado por que, para cada um dos componentes espectrais, a função parametrizável é uma distribuição de Laplace e o parâmetro de distribuição de probabilidade do componente espectral respectivo forma um parâmetro de escala da respectiva distribuição de Laplace.

22. Codificador de Áudio com Base em Predição Linear, (10), de acordo com qualquer uma das Reivindicações de 14 a 21, caracterizado por que compreende ainda um filtro de pré-ênfase (24) configurado para submeter o sinal de áudio (20) a uma pré-ênfase.

23. Codificador de Áudio com Base em Predição Linear, (10), de acordo com qualquer uma das Reivindicações de 14 a 22, caracterizado por que a etapa de quantização e codificação por entropia é configurada para, ao quantizar e codificar por entropia o espectro (26) dos componentes espectrais, tratar sinal e magnitude nos componentes espectrais separadamente com o uso da estimação de distribuição de probabilidade (28) como determinado para cada um dos componentes espectrais para a magnitude.

24. Codificador de Áudio com Base em Predição Linear, (10), de acordo com qualquer uma das Reivindicações de 14 a 23, caracterizado por que a etapa de quantização e codificação por entropia (18) é configurada para quantizar o espectro (26) igualmente para todos os componentes espectrais de modo a obter níveis de magnitude para os componentes espectrais e usar a estimação de distribuição de probabilidade (28) em codificação por entropia dos níveis de magnitude do espectro (26) por componente espectral.

25. Codificador de Áudio com Base em Predição Linear, (10), de acordo com a Reivindicação 24, caracterizado por que a etapa de quantização e codificação por entropia é configurada para usar um tamanho de passo de quantização constante para a quantização.

26. Codificador de Áudio com Base em Predição Linear, (10), de acordo com qualquer uma das Reivindicações de 14 a 25, caracterizado por que o transformador é configurado para realizar uma transformada amostrada criticamente de valor real.

27. Método Para Decodificar Áudio com Base em Predição Linear, (100), caracterizado por que compreende: determinar, para cada um dos componentes espectrais, uma estimação de distribuição de probabilidade (28) a partir de informação de coeficiente de predição linear (30) contida em um fluxo de dados (22) dentro do qual um sinal de áudio (20) é codificado; e decodificar por entropia e dequantizar um espectro (26) composto por componentes espectrais a partir do fluxo de dados (22) usando a estimação de distribuição de probabilidade (28) como determinado para cada um dos componentes espectrais, o método também compreende moldar o espectro (26) de acordo com uma função de transferência dependendo de um filtro de síntese de predição linear definido pela informação de coeficiente de predição linear (30), em que a determinação da estimação de distribuição de probabilidade (28) compreende determinar uma estrutura fina espectral de parâmetros de predição de longo prazo contida no fluxo de dados (22) e determinar, para cada um dos componentes espectrais, um parâmetro de distribuição de probabilidade tal que os parâmetros de distribuição de probabilidade seguem espectralmente uma função que multiplicativamente depende da estrutura fina espectral, em que, para cada um dos componentes espectrais, a estimação de distribuição de probabilidade (28) é uma função parametrizável parametrizada com o parâmetro de distribuição de probabilidade do respectivo componente espectral.

28. Método Para Codificar Áudio com Base em Predição Linear, (10), caracterizado por que compreende: determinar informação de coeficiente de predição linear (30); determinar, para cada um dos componentes espectrais, uma estimação de distribuição de probabilidade (28) a partir da informação de coeficiente de predição linear (30); e determinar um espectro (26) composto por componentes espectrais de um sinal de áudio (20); quantizar e codificar por entropia o espectro (26) usando a estimação de distribuição de probabilidade (28) como determinado para cada um dos componentes espectrais, em que a determinação do espectro (26) compreende moldar um espectro original de sinal de áudio (20) de acordo com uma função de transferência dependendo de um inverso de um filtro de síntese de predição linear definido pela informação do coeficiente de predição linear (30) e em que o método compreende ainda determinar parâmetros de predição de longo prazo e a determinação da estimação de distribuição de probabilidade (28) compreende determinar uma estrutura fina espectral de parâmetros de predição de longo prazo e determinar, para cada um dos componentes espectrais, um parâmetro de distribuição de probabilidade de modo que os parâmetros de distribuição de probabilidade seguem espectralmente uma função que depende de um produto de uma função de transferência do filtro de síntese de predição linear, um inverso de uma função de transferência de uma modificação perceptualmente ponderada do filtro de síntese de predição linear e estrutura fina espectral, em que, para cada um dos componentes espectrais, a estimação de distribuição de probabilidade (28) é uma função parametrizável parametrizada com o parâmetro de distribuição de probabilidade do respectivo componente espectral.