BRPI0507815B1

BRPI0507815B1 - método e equipamento para a determinação de uma estimativa

Info

Publication number: BRPI0507815B1
Application number: BRPI0507815A
Authority: BR
Inventors: Hilpert Johannes; Neuendorf Max; Schug Michael; Geyersberger Stefan
Original assignee: Fraunhofer Ges Forschung
Priority date: 2004-03-01
Filing date: 2005-02-17
Publication date: 2018-09-11
Also published as: JP2007525715A; BRPI0507815A; NO338917B1; EP2034473A2; CA2559354C; RU2337414C2; WO2005083680A1; DE102004009949A1; IL176978A0; ES2847237T3; PT2034473T; RU2006134638A; HK1093813A1; NO20064432L; KR100852482B1; CN1938758A; EP2034473A3; KR20060121978A; EP3544003A1; EP3544003B1

Abstract

"método e quipamento para determinação de uma estimativa" para a determinação de uma estimativa da necessidade de unidades de informações para a codificação de um sinal, é levada em conta uma medida (nl) (b) para a distriuição da energia na banda de frequências (102, 106) além da interferência admissível para uma banda frequências e uma energia da banda de frequências. com isso, é obtida uma melhor estimativa da necessidade de unidades de informações, de maneira a ser feita uma codificação mais eficiente e mais preciosa.

Description

(54) Título: MÉTODO E EQUIPAMENTO PARA A DETERMINAÇÃO DE UMA ESTIMATIVA (51) Int.CI.: G10L 19/02 (30) Prioridade Unionista: 01/03/2004 DE 10 2004 009 949.9 (73) Titular(es): FRAUNHOFER-GESELLSCHAFT ZUR FÓRDERUNG DER ANGEWANDTEN FORSCHUNG E.V.

(72) Inventor(es): MICHAEL SCHUG; JOHANNES HILPERT; STEFAN GEYERSBERGER; MAX NEUENDORF (85) Data do Início da Fase Nacional: 31/08/2006

1/21 “MÉTODO E EQUIPAMENTO PARA A DETERMINAÇÃO DE UMA ESTIMATIVA”

Descrição [0001] A presente invenção refere-se a codificadores para a codificação de um sinal que inclui informações de áudio e/ou vídeo, e em particular, à estimativa da necessidade de unidades de informações para a codificação desse sinal.

[0002] Será apresentado abaixo o codificador da técnica anterior. É enviado um sinal de áudio a ser codificado para uma entrada 1000. Esse sinal de áudio é inicialmente enviado a um estágio de graduação 1002, caracterizado pelo fato de que o denominado controle de ganho AAC é feito para estabelecer o nível do sinal de áudio. São enviadas as informações colaterais da graduação a um formatador de seqüência de bits 1004, como representado pela flecha localizada entre o bloco 1002 e o bloco 1004. O sinal de áudio graduado é então enviado a um banco de filtros MDCT 1006. Com o codificador AAC, o banco de filtros implementa uma transformada co-seno discreta modificada com 50% de janelas de sobreposição, sendo o comprimento da janela determinado por um bloco 1008.

[0003] Falando geralmente, o bloco 1008 existe com o objetivo de janelar os sinais transientes com janelas relativamente curtas, e janelar sinais que tendem a serem estacionários com janelas relativamente longas. Isto serve para atingir um maior nível de resolução de tempo (às custas da resolução de freqüência) para sinais transientes, devido às janelas relativamente curtas, considerando que para os sinais que tendem a ser estacionários, é alcançada uma maior resolução de freqüência (às custas da resolução de tempo)devido às janelas mais

Petição 870180053396, de 21/06/2018, pág. 5/32

2/21 longas, havendo uma tendência para a preferência de janelas mais longas, já que resultam em um maior ganho de codificação. Na saída do banco de filtros 1006, existem blocos de valores espectrais os blocos sendo sucessivos no tempo - que podem ser coeficientes

MDCT, coeficientes de Fourier ou sinais de sub-banda, dependendo da implementação do banco de filtros, cada sinal de sub-banda tendo uma largura de banda limitada especificada pelo respectivo canal de sub-banda no banco de filtros 1006, e cada sinal de subbanda tendo um número específico de amostras de sub-bandas.

[0004] Segue-se uma apresentação, na forma de exemplo, do caso em que o banco de filtros envia temporalmente sucessivos blocos de coeficientes espectrais MDCT que, falando geralmente, representam sucessivos espectros de curto prazo do sinal de áudio a ser codificado na entrada 1000. Um bloco de valores espectrais

MDCT é então enviado ao bloco de processamento TNS 1010 (TNS = temporary noise shaping) , caracterizado pelo fato de que é realizada a formatação de ruído temporal. A técnica TNS é usada para formatar a forma temporal do ruído de quantização dentro de cada janela da transformada. Isto é feito aplicando um processo de filtragem às partes dos dados espectrais de cada canal. A codificação é feita com base nas janelas. Em particular, são feitas as seguintes etapas para aplicar a ferramenta TNS a uma janela de dados espectrais, isto é, a um bloco de valores espectrais.

[0005] Inicialmente, é selecionada uma faixa de freqüências para a ferramenta TNS . Uma seleção adequada compreende a cobertura de uma faixa de freqüências de 1,5 KHz com um filtro, até a mais alta banda de fator de escala possível. Deve ser

Petição 870180053396, de 21/06/2018, pág. 6/32

3/21 ressaltado que essa faixa de freqüências depende da taxa de amostragem, como especificado no padrão AAC (ISO/IEC 14496-3: 2001 (E) ) .

[0006] Subseqüentemente, é realizado um cálculo LPC (LPC = linear predictive coding) , para ser exato, usando os coeficientes MDCT espectrais presentes na faixa de freqüência alvo selecionada. Para maior estabilidade, os coeficientes que correspondem às freqüências abaixo de 2,5 kHz estão excluídos deste processo. Os procedimentos LPC comuns como são conhecidos a partir de processamentos de fala podem ser usados para os cálculos LPC, por exemplo, o conhecido algoritmo de Levinson-Durbin. O cálculo é feito para a ordem máxima admissível do filtro de formatação de ruído.

[0007] Como resultado do cálculo LPC, é obtido o ganho de predição esperado PG. Além disso, são obtidos os coeficientes de reflexão, ou coeficientes Parcor.

[0008] Se o ganho de predição não ultrapassar um limite específico, a ferramenta TNS não é aplicada. Nesse caso, é escrita uma peça de informações de controle no seqüência de bits, de maneira que um decodificador saiba que não foi feito o processamento TNS.

[0009] Entretanto, se o ganho de predição ultrapassa um limite, é aplicado o processamento TNS.

[0010] Em uma próxima etapa, os coeficientes de reflexão são quantizados. A ordem usada do filtro de formatação de ruídos é determinada removendo todos os coeficientes de reflexão que têm valor absoluto menor do que um limite a partir da “cauda” do conjunto de coeficientes de reflexão. O número dos

Petição 870180053396, de 21/06/2018, pág. 7/32

4/21 coeficientes de reflexão restantes está na ordem de magnitude do filtro de formatação de ruídos. Um limite adequado é 0,1.

[0011] Os coeficientes de reflexão restantes são tipicamente convertidos em coeficientes de predição linear, sendo essa técnica também conhecida como procedimento “step-up”.

[0012] Os coeficientes LPC calculados são então usados como coeficientes de filtro de formatação de ruído de codificador, isto é, como coeficientes de filtro de predição. Esse filtro FIR é usado para filtrar na faixa especificada da freqüência alvo. É usado um filtro auto-regressivo para a decodificação, considerando que é usado na codificação o denominado filtro médio de movimento. Eventualmente, as informações colaterais para a ferramenta TNS são fornecidas para o formatador de seqüência de bits, como representado pela flecha mostrada entre o bloco de processamento

TNS 1010 e o formatador de seqüência de bits 1004 na Fig. 3.

[0013] Depois, são passadas várias ferramentas opcionais que não são mostradas na Fig. 3, como uma ferramenta de predição de longo prazo, uma ferramenta de intensidade/acoplamento, uma ferramenta de predição, uma ferramenta de substituição de ruídos, até se chegar eventualmente a um codificador mid/side 1012. O codificador mid/side 1012 está ativo quando o sinal de áudio a ser codificado é um sinal multicanais, isto é, um sinal estéreo tendo um canal esquerdo e um canal direito. Até agora, isto é, a montante do bloco 1012 na Fig. 3, foram processados os canais estéreo esquerdo e direito,isto é, graduados, transformados pelo banco de filtros, submetidos ou não ao processamento TNS, etc., separadamente entre si.

Petição 870180053396, de 21/06/2018, pág. 8/32

5/21 [0014] No codificador mid/side, verifica-se inicialmente se uma codificação mid/side faz sentido, ou seja, se produzirá algum ganho de codificação. A codificação mid/side produzirá um ganho de codificação se os canais esquerdo e direito tenderem a ser similares, já que nesse caso, o canal meio, isto é, a soma dos canais esquerdo e direito, é quase igual ao canal esquerdo ou ao canal direito, separada da graduação por um fator de 1/2, considerando que o canal lateral tem somente valores muito pequenos, já que é igual à diferença entre os canais esquerdo e direito. Como conseqüência, é possível ver que quando os canais esquerdo e direito são aproximadamente o mesmo, a diferença é aproximadamente zero, ou inclui somente valores muito pequenos que - e esta é a esperança - serão quantizados para zero em um quantizador subseqüente 1014, e assim pode ser transmitido de maneira muito eficiente, já que um codificador de entropia 1016 está conectado à jusante do quantizador 1014.

[0015] O quantizador 1014 recebe uma interferência admissível por banda de fator de escala por um modelo psicoacústico 1020. O quantizador opera de maneira iterativa, isto é, é chamado inicialmente um loop de iteração externa, que então chamará um loop de iteração interna. Falando em geral, partindo dos valores iniciais do tamanho do passo do quantizador, é feita inicialmente uma quantização de um bloco de valores na entrada do quantizador 1014. Em particular, o loop interno quantiza os coeficientes MDCT, sendo consumido no processo um número específico de bits. O loop externo calcula a distorção e a energia modificada dos coeficientes que usam o fator de escala, de maneira a novamente chamar um loop interno. Esse processo tem iteração

Petição 870180053396, de 21/06/2018, pág. 9/32

6/21 por um tempo, até que seja alcançada uma cláusula condicional específica. Para cada iteração no loop de iteração externa, o sinal é reconstruído de maneira a calcular a interferência introduzida pela quantização, e para compará-la com a interferência permitida fornecida pelo modelo psico-acústico 1020. Além disso, os fatores de escala dessas bandas de freqüência que, depois dessa comparação, ainda forem considerados como interferidos, são aumentados de um ou mais estágios de iteração em iteração, para ser preciso, para cada iteração do loop de iteração externa.

[0016] Quando for alcançada uma situação onde a interferência de quantização introduzida pela quantização estiver abaixo da interferência permitida determinada pelo modelo psicoacústico, e se ao mesmo tempo forem observadas as necessidades de bits, que declaram, para ser preciso, que não pode ser ultrapassado uma taxa de bits máxima, a iteração, isto é, o método de análise por síntese está acabado, e os fatores de escala obtidos são codificados como ilustrado no bloco 1014, e são enviados codificados, ao formatador de bit 1004 como indicado pela flecha desenhada entre o bloco 1014 e o bloco 1004. Os valores quantizados são então enviados a um codificador de entropia 1016, que tipicamente faz a codificação de entropia para várias bandas de fator de escala usando várias tabelas de codificação de Huffman, de maneira a traduzir os valores quantizados em um formato binário. Como é sabido, a codificação de entropia sob a forma de codificação de Huffman envolve um retorno às tabelas de códigos que são criadas com base na estatística do sinal esperado, e onde os valores de ocorrência freqüente recebem palavras de código mais

Petição 870180053396, de 21/06/2018, pág. 10/32

7/21 curtas do que os valores de ocorrência menos freqüente. Os valores com codificação de entropia são então enviados, como informações principais reais, ao formatador de seqüência de bits 1004, que então envia o sinal de áudio codificado para o lado da saída, de acordo com uma sintaxe específica de seqüência de bits.

[0017] A redução de dados dos sinais de áudio até o momento é uma técnica conhecida que é a matéria de uma série de padrões internacionais (ex. ISO/MPEG-1, MPEG-2 AAC, MPEG-4).

[0018] Os métodos supramencionados têm em comum o fato que o sinal de entrada é transformado em uma representação compacta, com dados reduzidos, por meio de um denominado codificador, obtendo vantagens dos efeitos relacionados à percepção (psico-acústicos, psico-óticos). Para essa finalidade, é normalmente feita uma análise espectral de sinal, e os componentes do sinal correspondente são quantizados, levando em conta um modelo de percepção, e então codificados como um denominado seqüência de bits, da maneira mais compacta possível.

[0019] Para estimar, antes da quantização real, quantos bits uma determinada porção de sinal irá necessitar, pode ser empregada a denominada entropia perceptiva (PE). A PE também provê uma medida de quanto é difícil para o codificador codificar um determinado sinal ou suas partes.

[0020] O desvio da PE do número de bits realmente necessários é crucial para a qualidade da estimativa.

[0021] Além disso, a entropia perceptiva e/ou cada estimativa sobre a necessidade das unidades de informações codificarem um sinal podem ser empregadas para estimar se o sinal é transiente ou estacionário, já que os sinais transientes também

Petição 870180053396, de 21/06/2018, pág. 11/32

8/21 exigem mais bits para a codificação do que os sinais estacionários. A estimativa de uma propriedade transiente de um sinal é, por exemplo, usada para tomar a decisão sobre o comprimento de janela, como indicado no bloco 1008 na Fig. 3.

[0022] Na Fig. 6, a entropia perceptiva está ilustrada como calculada de acordo com ISO/IEC IS 13818-7 (MPEG-2 advanced audio coding (AAC)). A equação ilustrada na Fig. 6 é usada para o cálculo dessa entropia perceptiva, quer dizer, uma entropia perceptiva direcionada à banda. Nessa equação, o parâmetro pe representa a entropia perceptiva. Além disso, a largura(b) representa o número de coeficientes espectrais na respectiva banda b. Além disso, e(b) é a energia do sinal nessa banda. Finalmente, nb(b) é o correspondente limite de mascaramento ou, mais geralmente, a interferência admissível que pode ser introduzida no sinal, por exemplo pela quantização, de maneira que um ouvinte humano, não obstante não ouve ou ouve somente uma interferência infinitesimal.

[0023] As bandas podem se originar da divisão de bandas do modelo psico-acústico (bloco 1020 na Fig. 3), ou podem ser as denominadas bandas de fator de escala (scfb) usadas na quantização. O limite de mascaramento psico-acústico é o valor de energia que o erro de quantização não deve ultrapassar.

[0024] A ilustração mostrada na Fig. 6 indica assim quão bem a entropia perceptiva determinada dessa forma funciona como uma estimativa do número de bits necessários para a codificação.

Para isso, foi plotado a respectiva entropia perceptiva dependendo dos bits usados no exemplo de um codificador AAC em diferentes taxas de bits para cada bloco individual. A peça de teste usada

Petição 870180053396, de 21/06/2018, pág. 12/32

9/21 contém uma mistura típica de música, fala e instrumentos individuais.

[0025] De maneira ideal, os pontos se uniriam ao longo de uma linha reta que passa pelo ponto zero. A expansão da série de pontos com os desvios da linha ideal torna clara a estimativa imprecisa.

[0026] Assim, o que é desvantajoso no conceito mostrado na Fig. 6 é o desvio, que se faz sentir pelo fato que, por exemplo, surge um valor muito alto para a entropia perceptiva, que por sua vez significa que é assinalado para o quantizador que são necessários mais bits do que o realmente solicitado. Isso conduz ao fato de que o quantizador faz a quantização muito fina, isto é, que não exaure a medida da interferência admissível, que resulta em ganho reduzido de codificação. Por outro lado, se o valor da entropia perceptiva é determinado muito pequeno, é sinalizado para o quantizador que menos bits que o realmente necessário são precisos para a codificação do sinal. Por sua vez, isto resulta no fato que o quantizador está quantizando muito grosseiramente, o que imediatamente conduz a uma interferência audível no sinal, caso não sejam tomadas contramedidas. As contramedidas podem ser que o quantizador ainda precisa de um ou mais loops de iteração, o que aumenta o tempo de computação do codificador.

[0027] Para melhorar o cálculo da entropia perceptiva, um termo constante, como 1,5, poderia ser introduzido na expressão logarítmica, como mostrado na Fig. 7. Então, já pode ser obtido um melhor resultado, isto é, um menor desvio para cima ou para baixo, apesar de poder ser visto que, ao levar em conta um termo

Petição 870180053396, de 21/06/2018, pág. 13/32

10/21 constante na expressão logarítmica, no caso em que a entropia perceptiva sinaliza muito otimista, pode ser reduzida realmente a necessidade de bits. Por outro lado, pode ser claramente visto na

Fig. 7, entretanto, que um número muito alto de bits é sinalizado de maneira significativa, o que conduz ao fato de que o quantizador sempre quantizará de maneira muito fina, isto é, que a necessidade de bits é suposta como maior do que realmente é, que por sua vez resulta em ganho reduzido de codificação. A constante na expressão logarítmica é uma estimativa grosseira dos bits necessários para as informações colaterais.

[0028] Assim, inserindo um termo na expressão logarítmica, realmente proporciona um aperfeiçoamento da entropia perceptiva direcionada à banda, como ilustrado na Fig. 6, já que as bandas com distâncias muito pequenas entre a energia e o limite de mascaramento têm maior probabilidade de serem levadas em conta, já que uma certa quantidade de bits é também necessária para a transmissão dos coeficientes espectrais quantizados para zero. [0029] Um outro cálculo com tempo de computação muito intenso da entropia perceptiva está ilustrado na Fig. 8. Na Fig. 8, está mostrado o caso em que a entropia perceptiva é calculada linearmente. A desvantagem, entretanto, reside no maior custo de computação do cálculo linear. Aqui, ao invés de energia, são empregados coeficientes espectrais X(k), caracterizados pelo fato de que kOffset(b) indica o primeiro índice de banda b. Ao comparar a Fig. 8 com a Fig. 7, pode ser vista claramente uma redução das “excursões” para cima na faixa de 2.000 a 3.000 bits. Portanto, a estimativa PE será mais exata, isto é, não estimada de maneira muito pessimista mas, ao invés disso no ideal, de maneira que o

Petição 870180053396, de 21/06/2018, pág. 14/32

11/21 ganho de codificação possa aumentar em comparação com os métodos de cálculo mostrados nas Figs. 6 e 7, e/ou que possa ser reduzido o número de iterações no quantizador.

[0030] Entretanto, o tempo de computação necessário para avaliar a equação mostrada na Fig. 8 é desvantajoso no cálculo linear da entropia perceptiva.

[0031] As desvantagens desse tempo de computação não desempenham, necessariamente, qualquer papel se o codificador operar em um PC potente ou em uma estação de trabalho potente. Mas as coisas parecem completamente diferentes se o codificador estiver instalado em um dispositivo portátil, tal como em um telefone celular UMTS que, por um lado deve ser pequeno e barato, e que por outro lado deve ter baixa necessidade de corrente e que, além disso deve funcionar rapidamente, de maneira a permitir a transmissão da codificação de um sinal de áudio ou de um sinal de vídeo por uma conexão UMTS.

[0032] É o objetivo da presente invenção prover um conceito eficiente e, não obstante exato para a determinação de uma estimativa da necessidade de unidades de informações para a codificação de um sinal.

[0033] Esse objetivo é alcançado pelo objeto da reivindicação 1 e método da reivindicação 10.

[0034] A presente invenção se baseia na constatação de que um cálculo baseado na banda de freqüência da estimativa da necessidade de unidades de informações deve ser retido por motivos de tempo de computação, mas que, de maneira a obter uma determinação precisa da estimativa, deve ser levada em consideração a distribuição da energia na banda de freqüência a

Petição 870180053396, de 21/06/2018, pág. 15/32

12/21 ser calculada de maneira direcionada à banda.

[0035] Com isso, o codificador de entropia após o quantizador está, de certa forma, implicitamente inserido na determinação da estimativa da necessidade de unidades de informações. A codificação de entropia permite que seja necessária uma menor quantidade de bits para a transmissão de menores valores espectrais do que para a transmissão de maiores valores espectrais. O codificador de entropia é especialmente eficiente quando os valores espectrais quantizados para zero podem ser transmitidos. Como esses ocorrerão comumente de maneira mais freqüente, a palavra código para a transmissão de uma linha espectral quantizada para zero é a menor palavra código, e a palavra código para a transmissão de uma linha espectral quantizada ainda maior é sempre maior. Além disso, para um conceito especialmente eficiente para a transmissão de uma seqüência de valores espectrais quantizados para zero, pode até ser empregada a codificação de comprimento de série, o que resulta no fato de que, no caso de uma série de zeros por valor espectral quantizada para zero, vista em média, não ser necessário nem um único bit.

[0036] Foi determinado que um cálculo de entropia perceptiva direcionado à banda para a determinação da estimativa da necessidade de unidades de informações usado na técnica anterior, ignora completamente o modo de operação do codificador de entropia à jusante se a distribuição de energia na banda de freqüência desvia de uma distribuição completamente uniforme.

[0037] Assim, de acordo com a invenção, para a redução das imprecisões do cálculo direcionado à banda, é levado em

Petição 870180053396, de 21/06/2018, pág. 16/32

13/21 consideração a maneira que a energia está distribuída dentro da banda.

[0038] Dependendo da implementação, a medida da distribuição da energia na banda de freqüência pode ser determinada com base nas amplitudes reais ou por uma estimativa das linhas de freqüência que não forem quantizadas para zero pelo quantizador. Essa medida, também denominada de nl, caracterizada pelo fato de que nl significa o número de linhas ativas, é preferida por motivos de eficiência de tempo de computação.

Entretanto, o número de linhas espectrais quantizadas para zero ou uma subdivisão mais fina pode também ser levada em conta, onde essa estimativa se torna mais e mais precisa, quanto mais informações sejam levadas em conta pelo codificador de entropia a jusante. Se o codificador de entropia for construído com base nas tabelas de codificação de Huffman, as propriedades dessas tabelas de codificação podem ser particularmente bem integradas, já que as tabelas de codificação não são calculadas em linha, quer dizer, devido à estatística de sinais, já que as tabelas de codificação são fixadas independentemente do sinal real.

[0039] Entretanto, dependendo das limitações do tempo de computação, no caso de um cálculo especialmente eficiente, a medida da distribuição de energia na banda de freqüência é feita pela determinação das linhas que ainda existem após a quantização, isto é, o número de linhas ativas.

[00 40] A presente invenção tem a vantagem de ser determinada uma estimativa da necessidade do teor de informações, que é tanto mais exata e mais eficiente do que na técnica anterior.

[0041] Também, a presente invenção pode ser graduada

Petição 870180053396, de 21/06/2018, pág. 17/32

14/21 para várias aplicações, já que mais propriedades do codificador de entropia podem sempre ser consideradas na estimativa da necessidade de bits, dependendo da precisão desejada da estimativa, mas com o custo de um maior tempo de computação.

[0042] As configurações preferidas da presente invenção serão explicadas em maiores detalhes a seguir, com referência aos desenhos de acompanhamento, onde:

[0043] Fig. 1 é um diagrama de circuito de bloco do equipamento da invenção para a determinação de uma estimativa;

[0044] Fig. 2 mostra uma configuração preferida do meio de cálculo de uma medida da distribuição de energia na banda de freqüência;

[0045] Fig. 2b mostra uma configuração preferida do meio de cálculo da estimativa da necessidade de bits;

[0046] Fig. 3 é um diagrama de circuito de bloco de um conhecido codificador de áudio;

[0047] Fig. 4 é uma ilustração do princípio para a explicação da influência da distribuição de energia dentro de uma banda na determinação da estimativa;

[0048]		Fig. 5	é um diagrama	para	o	cálculo	da
estimativa	de	acordo com	a presente invenção	^;
[0049]		Fig. 6	é um diagrama	para	o	cálculo	da
estimativa	de	acordo com	a ISO/IEC IS 13818-	7(AAC)	^;
[0050]		Fig. 7	é um diagrama	para	o	cálculo	da
estimativa	com termo constante;
[0051]		Fig. 8	é um diagrama	para	o	cálculo	da
estimativa	direcionada à	linha com termo constante	^.
[0052]		Subseqüentemente, com referência	à	Fig. 1,	será

Petição 870180053396, de 21/06/2018, pág. 18/32

15/21 ilustrado o equipamento da invenção para a determinação de uma estimativa da necessidade de unidades de informações para a codificação de um sinal. O sinal, que pode ser um sinal de áudio e/ou vídeo, é alimentado por meio de uma entrada 100. De preferência, o sinal já está presente como uma representação espectral com valores espectrais. Entretanto, isto não é absolutamente necessário, já que também podem ser feitos, por exemplo, alguns cálculos com um sinal de tempo por meio da correspondente filtragem de passe de banda.

[0053] O sinal é enviado ao meio 102 para prover uma medida de uma interferência admissível de uma banda de freqüência do sinal. A interferência admissível pode ser, por exemplo, determinada por meio de um modelo psico-acústico, como foi explicado com base na Fig. 3 (bloco 1020). O meio 102 também é operável para prover uma medida da energia do sinal na banda de freqüências. É um pré-requisito para um cálculo direcionado à banda, que uma banda de freqüências para a qual seja indicada uma interferência admissível ou energia de sinal, contenha pelo menos duas ou mais linhas espectrais da representação espectral do sinal. Nos codificadores de áudio comuns padronizados, a banda de freqüências será, de preferência, uma banda de fator de escala, já que a estimativa da necessidade de bits é imediatamente necessária pelo quantizador, para garantir se a quantização que ocorre está ou não em conformidade com o critério de bits.

[0054] O meio 102 é formado para fornecer tanto a interferência admissível nb(b) como a energia do sinal e(b) do sinal na banda a um meio 104 para o cálculo da estimativa da necessidade de bits.

Petição 870180053396, de 21/06/2018, pág. 19/32

16/21 [0055] De acordo com a invenção, o meio 104 para o cálculo da estimativa da necessidade de bits é formado para levar em conta a medição nl(b) de uma distribuição da energia na banda de freqüências, independente da interferência admissível e da energia do sinal, caracterizado pelo fato de que a distribuição da energia na banda de freqüências desvia de uma distribuição completamente uniforme. A medida da distribuição da energia é calculada em um meio 106, caracterizado pelo fato de que o meio 106 requer pelo menos uma banda, isto é, a banda considerada de freqüências do sinal de áudio ou vídeo, seja como sinal de passe de banda ou diretamente como resultado das linhas espectrais, de maneira a poder realizar uma análise espectral da banda, por exemplo, para obter a medida da distribuição das energias na banda de freqüências.

[0056] É claro, que o sinal de áudio ou vídeo pode ser enviado ao meio 106 como um sinal de tempo, caracterizado pelo fato de que o meio 106 realiza então uma filtragem de banda, assim como uma análise da banda. Como alternativa, o sinal de áudio ou vídeo fornecido ao meio 106 pode já existir no domínio da freqüência, por exemplo, como coeficientes MDCT, ou também como sinal de passe de banda no banco de filtros com um menor número de filtros de passe de banda, em comparação com um banco de filtros

MDCT.

[0057] Em uma configuração preferida, o meio 106 para o cálculo é formado para levar em conta as magnitudes existentes dos valores espectrais na banda de freqüências para o cálculo da estimativa.

[0058] Além disso, o meio para o cálculo da medida para

Petição 870180053396, de 21/06/2018, pág. 20/32

17/21 a distribuição de energia pode ser formado para determinar, como uma medida da distribuição de energia, um número de valores espectrais cujas magnitudes são maiores ou iguais a um limite predeterminado de magnitudes, ou cuja magnitude é menor ou igual ao limite de magnitudes, caracterizado pelo fato de que o limite de magnitudes é, preferivelmente, um estágio quantizador estimado fazendo com que os valores menores ou iguais ao estágio quantizador sejam quantizados para zero no quantizador. Nesse caso, a medida da energia é o número de linhas ativas, isto é, o número de linhas restantes ou que não sejam iguais a zero após a quantização.

[0059] A Fig. 2a mostra uma configuração preferida do meio 106 para o cálculo da medida da distribuição da energia na banda de freqüências. A medida da distribuição da energia na banda de freqüências é indicada por nl(b) na Fig. 2a. O fator de forma ffac(b) já é uma medida para a distribuição da energia na banda de freqüências. Como pode ser visto no bloco 106, a medida da distribuição espectral nl é determinada a partir do fator de forma ffac(b) ponderando com a raiz quarta da energia do sinal e(b) dividida pela largura da banda width(b) e/ou o número de linhas na banda do fator de escala b. Nesse contexto, deve ser ressaltado o fato que o fator de forma é também um exemplo de uma quantidade que indica uma medida da distribuição das energias, enquanto nl(b), como contraste, é um exemplo da quantidade que representa uma estimativa do número de linhas relevantes para a quantização. [0060] O fator de forma ffac(b) é calculado por meio da formação da magnitude de uma linha espectral, seguindo a formação de raiz dessa linha espectral e seguindo a soma das magnitudes

Petição 870180053396, de 21/06/2018, pág. 21/32

18/21 “em raízes” das linhas espectrais na banda.

[0061] A Fig. 2b mostra uma configuração preferida do meio 104 para o cálculo da estimativa pe, caracterizado pelo fato de que é também introduzida uma diferenciação de caso na Fig. 2b, isto é, quando o logaritmo na base 2 do índice da energia com relação à interferência admissível é maior do que um fator constante c1 ou igual ao fator constante. Nesse caso, é levada em conta a alternativa superior do bloco 104, isto é, a medida da distribuição espectral nl é multiplicada pela expressão logarítmica.

[0062] Por outro lado, se for determinado que o logaritmo na base 2 da razão da energia do sinal com relação à interferência admissível é menor do que o valor c1, é usada a alternativa inferior no bloco 104 da Fig. 2b, que também tem uma constante aditiva c2, assim como uma constante multiplicativa c3 calculada a partir da constante c2 e c1.

[0063] Subseqüentemente, com base nas Fig. 4a e Fig.

4b, será ilustrado o conceito da invenção. A Fig. 4a mostra uma banda onde existem quatro linhas espectrais, todas igualmente grandes. A energia nessa banda é, portanto, distribuída uniformemente na banda. Em contraste, a Fig. 4b mostra uma situação onde a energia da banda reside em uma linha espectral, enquanto as demais três linhas espectrais são iguais a zero. A banda mostrada na Fig. 4b poderia estar presente, por exemplo, antes da quantização ou poderia ser obtida após a quantização, se as linhas espectrais ajustadas em zero na Fig. 4b forem menores do que o primeiro estágio quantizador antes da quantização, sendo, portanto, ajustadas em zero pelo quantizador, isto é, não

Petição 870180053396, de 21/06/2018, pág. 22/32

19/21 “sobreviverem”.

[0064] O número de linhas ativas na Fig. 4b é, portanto, igual a 1, caracterizado pelo fato de que o parâmetro nl na Fig.

4b é calculado para a raiz quadrada de 2. Em contraste, o valor nl, isto é, a medida da distribuição espectral da energia, é calculada para 4 na Fig. 4a. Isto significa que a distribuição espectral da energia é mais uniforme se a medida da distribuição da energia espectral for maior.

[0065] Deve ser ressaltado o fato de que o cálculo direcionado à banda da entropia perceptiva de acordo com a técnica anterior não garante uma diferença entre os dois casos. Em particular, se existir a mesma energia em ambas as bandas mostradas nas Figs. 4a e 4b, nenhuma diferença é garantida.

[0066] Mas o caso mostrado na Fig. 4b pode ser obviamente codificado com somente uma linha relevante com menos bits, já que as três linhas espectrais ajustadas em zero podem ser transmitidas com muita eficiência. Em geral, a capacidade mais simples de quantização do caso mostrado na Fig. 4b se baseia no fato que, após a quantização e a codificação sem perdas, menores valores e, em particular, valores quantizados em zero exigem menos bits para a transmissão.

[0067] De acordo com a invenção, é, portanto, levado em consideração como a energia é distribuída na banda. Como foi mostrado, isto é feito substituindo o número de linhas por banda na equação conhecida (Fig. 6) por uma estimativa do número de linhas que não são iguais a zero após a quantização. Esta estimativa está mostrada na Fig. 2a.

[0068] Além disso, é ressaltado o fato de que o fator

Petição 870180053396, de 21/06/2018, pág. 23/32

20/21 de forma mostrado na Fig. 2a é também necessário em outro ponto no codificador, por exemplo, dentro do bloco de quantização 1014 para determinar o tamanho da etapa de quantização. Se o fator de forma já estiver calculado em algum outro ponto, então não deve ser calculado novamente para a estimativa de bits, de maneira que o conceito da invenção para a estimativa aperfeiçoada da medida dos bits necessários é administrado com uma carga mínima de computação.

[0069] Como já mencionado, X(k) é o coeficiente espectral a ser quantizado posteriormente, enquanto a variável kOffset(b) indica o primeiro índice na banda b.

[0070] Como pode ser visto nas Figs. 4a e 4b, o espectro na Fig. 4a produz um valor de nl=4, enquanto o espectro na Fig. 4b produz um valor de 1.41. Assim, com a ajuda do fator de forma, fica disponível uma medida para a quantização da estrutura do campo espectral dentro da banda.

[0071] A nova fórmula para o cálculo de uma melhor entropia direcionada à banda se baseia, portanto, na multiplicação da medida da distribuição espectral da energia e a expressão logarítmica, onde ocorre a energia do sinal e(b) no numerador e a interferência admissível no denominador, caracterizado pelo fato de que pode ser inserido um termo dentro do logaritmo, dependendo da necessidade, como já ilustrado na Fig. 7. Esse termo pode, por exemplo, também ser 1,5, podendo ser também igual a zero, como no caso mostrado na Fig. 2b, onde isto pode ser determinado de maneira empírica, por exemplo.

[0072] Nesse ponto, deve ser novamente ressaltada a

Fig. 5, na qual a entropia perceptiva calculada de acordo com a

Petição 870180053396, de 21/06/2018, pág. 24/32

21/21 invenção está aparente, isto é, plotada com relação aos bits necessários. Pode ser claramente vista a maior precisão da estimativa, contrariamente aos exemplos comparativos nas Figs. 6,

7, e 8. O cálculo modificado direcionado à banda de acordo com a invenção, também funciona pelo menos tão bem quanto o cálculo direcionado à linha.

[0073] Dependendo das circunstâncias, o método de acordo com a invenção pode ser implementado em hardware ou em software. A implementação pode ser feita em meio de armazenamento digital, em particular em disquete ou CD, com sinais de controle de leitura eletrônica capazes de cooperar com um sistema de computador programável, de maneira a executar o método. Em geral, a invenção, portanto, também consiste de um produto de programa de computador com código de programa armazenado em portador com leitura por máquina para a realização do método da invenção, quando o produto de programa de computador é executado em um computador. Em outras palavras, a invenção pode, portanto, ser também realizada como um programa de computador com código de programa para a realização do método, quando o programa de computador é executado em um computador.

Petição 870180053396, de 21/06/2018, pág. 25/32

1/5

Claims

R E I V I N D I C A Ç Õ E S

1. Equipamento para a determinação de uma estimativa (pe) da necessidade de unidades de informações para a codificação de um sinal tendo informações de áudio ou vídeo, onde o sinal tem várias bandas de freqüências, compreendendo: meio (102) para prover uma medida (nb(b)) de uma interferência admissível para uma banda de freqüências (b) do sinal, onde a banda de freqüências (b) inclui pelo menos dois valores espectrais de uma representação espectral do sinal, e uma medida (e(b)) de uma energia do sinal na banda de freqüências; meio (106) para calcular uma medida (nl(b)) para a distribuição da energia (e(b)) na banda de freqüências (b), onde a distribuição da energia na banda de freqüências desvia de uma distribuição completamente uniforme ; meio (104) para calcular a estimativa (pe) usando a medida (nb(b)) para a interferência, a medida para a energia, e a medida para a distribuição da energia; caracterizado por o meio (106) para calcular a medida (nl(b)) da distribuição da energia (e(b)) ser formado para determinar, como uma medida da distribuição da energia, uma estimativa de um número de valores espectrais, cujas magnitudes são maiores ou iguais a um limite predeterminado de magnitudes, ou cujas magnitudes são menores ou iguais ao limite de magnitudes, onde o limite de magnitudes é um estágio quantizador exato ou estimado fazendo com que, em um quantizador (1014), os valores menores ou iguais ao estágio quantizador sejam quantizados para zero.
2. Equipamento, de acordo com a reivindicação 1, caracterizado pelo fato de que o meio (106) de cálculo é formado para levar em conta as magnitudes dos valores espectrais na banda

Petição 870180053396, de 21/06/2018, pág. 26/32

2/5 de freqüências para o cálculo da medida da distribuição de energia.
3. Equipamento, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que o meio (106) de cálculo é formado para calcular um fator de forma de acordo com a seguinte equação:

kOffset (6+1)-1 _ ffac(b) = Σ VX^, k=kOffset (b) onde X(k) é um valor espectral no índice de freqüência k, onde kOffset é o primeiro valor espectral em uma banda b, e onde ffac(b) é o fator de forma.
4. Equipamento, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que o meio (106) para o cálculo é formado para levar em conta a raiz quarta de uma razão entre a energia na banda de freqüências e uma largura da banda de freqüências ou o número de valores espectrais na banda de freqüências.
5. Equipamento, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que o meio (106) de cálculo é formado para calcular a medida da distribuição de energia de acordo com as seguintes equações:

ffac(b) nl(b) = ( e(b) )0.25 ⁽ width (b) ) kOfset (b+1)-1 ffac(b) = Σ l\^X(k)|, k=kOffset (b) onde X(k) é um valor espectral no índice de freqüência k, onde kOffset é um primeiro valor espectral em uma banda b, onde ffac(b) é u fator de forma, onde nl(b) representa a

Petição 870180053396, de 21/06/2018, pág. 27/32

3/5 medida da distribuição da energia na banda b, onde e(b) é uma energia de sinal na banda b, e onde width(b) é uma largura da banda.
6. Equipamento, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que o meio (104) para o cálculo da estimativa é formado para usar um quociente da energia na banda de freqüências e a interferência na banda de freqüências.
7. Equipamento, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que o meio (104) para o cálculo da estimativa é formado para calcular a estimativa usando a seguinte expressão:

pe = Σ nl(b) log₂1 ^e(b + s | ^P nb(b) ) onde pe é a estimativa, onde nl(b) representa a medida da distribuição da energia na banda b, onde e(b) é uma energia do sinal na banda b, onde nb(b) é a interferência admissível na banda b, e onde s é um termo aditivo, preferivelmente igual a 1,5.
8. Equipamento, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que o meio (104) para o cálculo da estimativa é formado para calcular a estimativa de acordo com a seguinte equação:

p^e = Σ^{nl (b)} ^log2 +^s I b < nb(b) ) onde:

n b = ⁽ width (b))

Petição 870180053396, de 21/06/2018, pág. 28/32

4/5 onde :

kOffset (6+1)-1 _ ffac(b) = Σ , k=kOffset (b) onde pe é a estimativa, onde nl(b) representa a medida da distribuição da energia na banda b, onde e(b) é uma energia do sinal na banda b, onde nb(b) é a interferência admissível na banda b, onde s é um termo aditivo, preferivelmente igual a 1,5, onde X(k) é um valor espectral em um índice de freqüência k, onde kOffset é um primeiro valor espectral em uma banda b, onde ffac(b) é um fator de forma, e onde width(b) é a largura da banda.
9. Equipamento, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que o sinal é dado como uma representação espectral com valores espectrais.
10. Método para a determinação de uma estimativa da necessidade de unidades de informações para a codificação de um sinal com informações de áudio ou vídeo, onde o sinal tem várias bandas de frequências, compreendendo as etapas de: prover (102) uma medida (nb(b)) de uma interferência admissível para uma banda de freqüências (b) do sinal, onde a banda de freqüências inclui pelo menos dois valores espectrais de uma representação espectral do sinal, e uma medida (e(b)) de uma energia do sinal em uma banda de freqüências (b); calcular (106) uma medida (nl(b)) para uma distribuição de energia na banda de freqüências (b), onde a distribuição da energia na banda de freqüências desvia de uma distribuição completamente uniforme; e calcular (104) a estimativa (pe) usando a medida (nb(b)) para a interferência, a medida (e(b)) para a energia, e a medida (nl(b)) para a distribuição da energia;

Petição 870180053396, de 21/06/2018, pág. 29/32

5/5 caracterizado por, como a medida (nl(b)) da distribuição da energia, é determinada uma estimativa de vários valores espectrais, cujas magnitudes são maiores ou iguais a um limite predeterminado de magnitudes, ou cujas magnitudes são menores ou iguais ao limite de magnitudes, onde o limite de magnitudes é um estágio quantizador exato ou estimado fazendo com que, em um quantizador (1014), valores menores ou iguais ao estágio quantizador sejam quantizados para zero.

Petição 870180053396, de 21/06/2018, pág. 30/32

1/7

FIGURA 1 • · · • ·· • · • · • · • ·

3Τ

SINAL nl eb=en pe=nl{ • · » · • · • · ··· ·· • · * nl(b)=

2/7 ffac(b) / 6(b) xO.2S 'widthfb)⁷

R0ffseit(b+1|-1 ffac<b)= k=kOffset(b)

FIGURA 2A k<) en (c2+c3log₂(^)) «r Ι«8₂φ«1 “^Γ Ιθ0₂φ<ϋ1 d=log2(8), c2=log₂(2,5), c3=1-c2/c1 nl(b)>

thr

FIGURA 2B

MEDIDA DA DISTRIBUIÇÃO DE ENERGIA

NA BANDA.

pe PARA A BANDA DO FATOR DE ESCALA.

• ··:

► · · ► · ·

9ο • · • · ·· ··

3/7

1000

FIGURA 3 (TÉCNICA ANTERIOR) • · · • · • · • · • · • · • · i/Ί ··

LLU__„L.

nl—4 nl=T2

FIGURA 4A

FIGURA 4B pe=nl(b)-log2 +1,5

8000

7000

6000

5000

s. 4000

3000

2000

1000

0 1000 2000 3000 4000 5000 6000 7000 bits

FIGURA 5 .· · ·· ♦ ·* * : :. : : .·

:.::::

. ·

ΊΟ pe CALCULADO DE ACORDO COM A ISO/IEC IS

13818-7 MPEG-2 ADVANCED AUDIO CODING (AAC)

... · . · · ·· » · ··

5/7

FIGURA 6 (TÉCNICA ANTERIOR) ♦ ♦ ♦ * · • * ♦ ··

6/7

CÁLCULO DE pe COM TERMOCONSTANTE.

FIGURA 7 i

4' '

Λ • · · ♦

• ·· *

*

4 · « · • * • · «

• t «

7/7 « · • · * · β *

• · • » «* • * • « · • · · » ··« « » <· • · «

··

CÁLCULO DE pe DIRECIONADO À LINHA COM TERMO CONSTANTE

FIGURA 8