BR122017018553B1

BR122017018553B1 - Método e aparelho para a determinação de um fator de escala otimizado

Info

Publication number: BR122017018553B1
Application number: BR122017018553-5A
Authority: BR
Inventors: Magdalena Kaniewska; Stéphane Ragot
Original assignee: Koninklijke Philips N.V.
Priority date: 2013-07-12
Filing date: 2014-07-04
Publication date: 2022-04-19
Also published as: KR20160030555A; JP2017215618A; CN107492385A; JP6515147B2; KR102315639B1; CN107527629A; BR112016000337B1; US10672412B2; RU2756435C2; CN107527629B; CN107492385B; RU2016104466A3; RU2016104466A; RU2017144519A3; US20190385626A1; US10943593B2; KR102343019B1; US10446163B2; US10438600B2; CA3109028C

Abstract

A presente invenção refere-se a um processo de determinação de um fator de escala otimizado para aplicar em um sinal de excitação ou em um filtro no momento de um processo de extensão de banda de frequência de um sinal de audiofrequência, o processo de extensão de banda (E601) compreendendo uma etapa de decodificação ou de extração, em uma primeira banda de frequência, de um sinal de excitação e de parâmetros da primeira banda de frequência compreendendo coeficientes de um filtro de predição linear, uma etapa de geração de um sinal de excitação estendido pelo menos sobre uma segunda banda de frequência e uma etapa de filtragem por um filtro de predição linear para a segunda banda de frequência. O processo de determinação compreende as etapas de determinação (E602) de um filtro de predição linear chamado filtro adicional, de ordem inferior ao filtro de predição linear da primeira banda de frequência, os coeficientes do filtro adicional sendo obtidos a partir dos parâmetros decodificados ou extraídos da primeira banda de frequência e de cálculo (E603) do fator de escala otimizado em função pelo menos dos coeficientes do filtro adicional. A invenção se refere também a um dispositivo de determinação de (...).

Description

[001] O presente pedido é dividido do BR 11 2016 000337 3, de 07/01/2016

[002] A presente invenção refere-se ao domínio da codificação/decodificação e do processamento de sinais de audiofrequências (como sinais de palavra, de música ou outros) para sua transmissão ou sua armazenagem.

[003] Mais particularmente, a invenção se refere a um processo e a um dispositivo de determinação de um fator de escala otimizado servindo para ajustar o nível de um sinal de excitação ou de modo equivalente de um filtro no momento de uma extensão de banda de frequência em um decodificador ou em um processador realizando uma melhoria de sinal de audiofrequência.

[004] Há numerosas técnicas para comprimir (com perda) um sinal de audiofrequência como a palavra ou a música.

[005] Os métodos convencionais de codificação para as aplicações interativas são em geral classificados de codificação de forma de onda (MIC para "Modulação por Impulso e codificação", MICDA para "Modulação por Impulso e Codificação Diferencial Adaptativa", codificação por transformada ...), codificação paramétrica (LPC para "Linear Predictive Coding" em inglês, codificação sinusoidal ...) e codificação híbrida paramétrica com uma quantificação dos parâmetros por "análise por síntese" cuja codificação CELP (para "Code Excited Linear Prediction" em inglês) é o exemplo mais conhecido.

[006] Para as aplicações não interativas, o estado da técnica de codificação de sinal áudio (mono) é constituído pela codificação perceptual por transformada ou em sub-bandas, com uma codificação paramétrica das altas frequências por replicação de banda.

[007] Uma revista dos métodos convencionais de codificação da palavra e de áudio existe nas obras W.B. Kleijn and K.K. Paliwal (Eds.), Speech Coding and Synthesis, Elsevier, 1995; M. Bosi, R.E. Goldberg, Introduction to Digital Audio Coding and Standards, Springer 2002; J. Benesty, M.M. Sondhi, Y. Huang (Eds), Handbook of Speech Processing, Springer 2008.

[008] Há interesse mais particularmente aqui no codec (codificador e decodificador) normalizado 3GPP AMR-WB (para "Adaptive Multi- Rate Wideband" em inglês) que funciona com uma frequência de entrada/ saída de 16 kHz e onde o sinal está dividido em duas subbandas, a banda baixa (0-6,4 kHz) que é amostrada a 12,8 kHz e codificada por modelo CELP e a banda alta (6,4-7 kHz) que é reconstruída de modo paramétrico por «extensão de banda»( ou BWE para "Bandwidth Extension" em inglês) com ou sem informação suplementar de acordo com o modo da trama corrente. Se pode verificar aqui que a limitação da banda codificada do codec AMR-WB de 7kHZ está essencialmente ligada ao fato de que a resposta de frequência na emissão dos terminais de banda larga foi aproximada no momento da normalização (ETSI/3GPP depois UIT-T) de acordo com a máscara de frequência definida na norma UIT-T P.341 e mais precisamente utilizando um filtro chamado «P.341» definido na norma UIT-T G.191 que corta as frequências acima de 7 kHz (esse filtro respeita a máscara definida em P.341). No entanto, em teoria, é bem sabido que um sinal amostrado de 16 kHz pode ter uma banda áudio definida de 0 a 8000 Hz; o codec AMR-WB introduz, portanto, uma limitação da banda alta em comparação com a largura de banda teórica de 8 kHz.

[009] O codec de palavra 3GPP AMR-WB foi normalizado em 2001 principalmente para as aplicações de telefonia no modo circuito (CS) sobre GSM (2G) e UMTS (3G). Esse mesmo codec foi também normalizado em 2003 para UIT-T como recomendação G.722.2 "Wideband coding speech at around 16kbit/s using Adaptive Multi-Rate Wideband (AMR-WB)".

[0010] Compreende nove débitos chamados modos de 6,6 a 23,85 kbit/s, e compreende mecanismos de transmissão contínua (DTX para "Discontinuous Transmission") com detecção de atividade vocal (VAD para "Voice Activity Detection") e geração de ruído de conforto (CNG para "Confort Noise Generation") a partir de tramas de descrição de silêncio (SID para "Silence Insertion Descriptor"), assim como mecanismos de correção de tramas perdidas (FEC para "Frame Erasure Concealment"), por vezes chamado PLC para "Packet Loss Concealment").

[0011] Não se retomam aqui os detalhes do algoritmo de codificação e de decodificação AMR-WB, existe uma descrição detalhada desse codec nas especificações 3GPP (TS 26.190, 26.191, 26.192, 26.193, 26.194, 26.204) e UIT-T- G.722.2 (e os Anexos e Apêndice correspondentes) assim como no artigo de B. Bessette e outros intitulado « The adaptive multirate wideband speech codec (AMR-WB)», IEEE Transactions on Speech and Audio Processing, vol. 10, n° 8, 2002, pp.620-636 e os códigos fontes dos padrões 3GPP e UIT-T associados.

[0012] O princípio da extensão de banda no codec AMR-WB é bastante rudimentar. Com efeito, a banda alta (6.4-7 kHz) é gerada modelizando um ruído branco através de um invólucro temporal (aplicado na forma de ganhos por subtrama) e de frequência (pela aplicação de um filtro de síntese de predição linear ou LPC para "Linear Predictive Coding"). Essa técnica de extensão de banda é ilustrada na figura 1.

[0013] Um ruído branco UHBi(n), n = 0, ... ,79, é gerado a 16 kHz por sub trama de 5 ms por gerador de congruência linear (bloco 100). Esse ruído UHB1(n) é modelizado no tempo por aplicação de ganhos por sub-trama; essa operação está dividida em duas etapas de processamento (blocos 102, 106 ou 109):

[0014] Um primeiro fator é calculado (bloco 101) para colocar o ruído branco uHB1 (n) (bloco 102) em um nível semelhante ao da excitação, u(n), n = 0, ... ,63, decodificada a 12,8 kHz na banda baixa:

[0015] Se pode notar aqui que a normalização das energias é feita comparando blocos de tamanho diferente (64 para U(n) e 80 para UHB1(n), sem compensação das diferenças de frequências de amostragem (12,8 ou 16 kHz).

[0016] • A excitação na banda alta é obtida em seguida (bloco 106 ou 109) sob a forma: UHB (n) = 9HBUHB2 (n)

[0017] onde o ganho gm é obtido diferentemente de acordo com o débito. Se o débito da trama atual é <23,85 kbit/s, o ganho §HB é estimado «às cegas» (isto é, sem informação suplementar), nesse caso, o bloco 103 filtra o sinal decodificado de banda baixa por um filtro passa alto tendo uma frequência de corte com 400 Hz para obter um sinal Shp(n), n = 0, ... , 63 - esse filtro passa alto elimina a influência das frequências muito baixas que podem distorcer a estimativa feita no bloco 104 - depois é calculado o «tilt» (indicador de declive espectral) assinalado etilt do sinal Shp(n) por autocorrelação normalizada (bloco 104):

[0018] e finalmente é calculado ÔHB sob a forma:

[0019] ÇHB = WSP gsp + (1 — WSP) gBG

[0020] onde gSP = 1 - etilt é o ganho aplicado nas tramas ativas de palavra (SP para speech), gBG = 1,25gSP é o ganho aplicado nas tramas inativas de palavra associadas a um ruído de fundo (BG para Background) e WSP é uma função de ponderação que depende da detecção de atividade vocal (VAD). Se compreende que a estimativa do tilt (etilt) permite adaptar o nível da banda alta em função da natureza espectral do sinal; essa estimativa é particularmente importante quando o declive espectral do sinal decodificado CELP é tal que a energia média diminui quando a frequência aumenta (caso de um sinal de voz onde etilt está próximo de 1, portanto gSP = 1 - etilt é assim reduzido) . De notar também que o fator ÔHB na decodificação AMR-WB é limitado para assumir valores no intervalo [0,1, 1,0]. Com efeito, para os sinais cuja energia cresce quando a frequência aumenta (etilt próximo de -1, gSP próximo de 2), o ganho CJHB é habitualmente subestimado.

[0021] • Para 23,85 kbit/s, uma informação de correção é transmitida pelo codificador AMR-WB e decodificada (blocos 107, 108) para refinar o ganho estimado por sub-trama (4 bits todos os 5ms, ou 0,8 kbit/s). A excitação artificial uHB(n) é em seguida filtrada (bloco 111) por um filtro de síntese LPC (bloco 111) de função de transferência 1/AHB(z) e funcionando na frequência de amostragem de 16 kHz. A realização desse filtro depende do débito da trama corrente:

[0022] • Para 6,6 kbit/s, o filtro 1/AHB(z) é obtido ponderando por um fator y = 0,9 um filtro LPC de ordem 20, 1/Âext(z) que «extrapola» o filtro LPC de ordem de 16, 1/Â(z), decodificado na banda baixa (a 12,8 kHz) - os detalhes da extrapolação no domínio dos parâmetros ISF (para "Imittance Spectral Frequency" em inglês) são descritos na norma G.722.2 na seção 6.3.2.1; nesse caso,

[0023] 1/AHB (z) = 1/Âext (z/y)

[0024] • Para os débitos> 6,6 kbit/s, o filtro 1/AHB(z) é de ordem 16 e corresponde simplesmente a:

[0025] 1/AHB (z) = 1/Â (z/ y)

[0026] onde y = 0,6. De notar que nesse caso o filtro 1/Â(z/ y) é utilizado a 16 kHz, o que resulta em uma expansão (por homotetia) da resposta de frequência desse filtro de [0, 6,4 kHz] a [0, 8 kHz].

[0027] O resultado sHB(n), é finalmente processado por um filtro de passa banda (bloco 112) de tipo FIR ("Finite Impulse Response"), a fim de só manter a banda 6 - 7 kHz; a 23,85 kbit/s, um filtro passa baixo também de tipo FIR (bloco 113) é acrescentado ao processamento para atenuar ainda mais as frequências superiores de 7 kHz. A síntese de altas frequências (HF) é finalmente adicionada (bloco 130) à síntese de baixas frequências (BF) obtida com os blocos de 120 a 122 e reamostrada a 16 kHz (bloco 123). Assim mesmo se a banda se estende em teoria de 6,4 a 7 kHz no codec AMR-WB, a síntese HF está de preferência compreendida na banda 6-7 kHz antes da adição com a síntese BF.

[0028] Podem ser identificados vários inconvenientes na técnica de extensão de banda do codec AMR- WB, em particular:

[0029] • A estimativa de ganhos por sub-trama (bloco 101, 103 a 105) não é ótima. Em parte, é baseada em uma igualização da energia «absoluta» por sub-trama (bloco 101) entre sinais com frequências diferentes: a excitação artificial de 16 kHz (ruído branco) e um sinal de 12,8 kHz (excitação ACELP decodificada). Se pode notar em particular que essa aproximação induz implicitamente uma redução da excitação de banda alta (por uma razão 12,8/16 = 0,8); na realidade, é de notar também que nenhuma desacentuação (ou falta de ênfase) é efetuada na banda alta no codec AMR-WB, o que induz implicitamente uma amplificação, relativa próxima de 0,6 (que corresponde ao valor da resposta de frequência de 1/(1-0,68 z-1) para 6400 Hz). Efetivamente, os fatores de 1/0,8 e de 0,6 se compensam aproximadamente.

[0030] • Sobre a palavra, os testes de caracterização do codec 3GPP AMR-WB documentados na relação 3GPP TR 26.976 mostraram que o modo de 23,85 kbit/s tem uma qualidade pior do que a 23,05 kbit/s, sua qualidade é na verdade similar à do modo de 15,85 kbit/s. Mostra isso em particular que o nível do sinal HF artificial deve ser controlado de maneira muito prudente, porque a qualidade se degrada a 23,85 kbit/s enquanto os 4 bits por trama devem permitir uma aproximação melhor para a energia das altas frequências originais.

[0031] • O filtro passa baixo de 7 kHz (bloco 113) introduz uma distância de perto de 1 ms entre as bandas baixas e altas, o que pode potencialmente degradar a qualidade de alguns sinais dessincronizando ligeiramente as duas bandas para 23,85 kbit/s - essa dessincronização pode também colocar problema no momento de uma comutação de débito de 23,85 kbit/s para outros modos.

[0032] Um exemplo de extensão de banda por aproximação temporal é descrito na norma 3GPP TS 26.290 descrevendo o codec AMR-WB+ (normalizado em 2005). Esse exemplo é ilustrado nos esquemas blocos das figuras 2a (esquema global) e 2b (predição de ganho por correção de nível de respostas) que correspondem respectivamente às figuras 16 e 10 da especificação 3GPP TS 26.290.

[0033] No codec AMR-WB+, o sinal de entrada (mono) amostrado na frequência Fs (em Hz) está dividido em duas bandas de frequências disjuntas, onde dois filtros LPC são calculados e codificados separadamente:

[0034] • um filtro LPC, assinalado A(z), na banda baixa (0-Fs/4) - sua versão quantificada é assinalada Â(z)

[0035] • um outro filtro LPC assinalado AHF(z), na banda alta dobrada espectralmente (Fs/4-Fs/2) - sua versão quantificada é assinalada ÂHF(z)

[0036] A extensão da banda é feita no codec AMR- WB+ como detalhado nas seções 5.4 (codificação HF) e 6.2 (decodificação HF) da especificação 3GPP TS 26.290. Se resume aqui o princípio: a extensão consiste em utilizar a excitação decodificada de baixas frequências (LF excitação) e em modelizar essa excitação por um ganho temporal por sub-trama (bloco 205) e uma filtragem LPC de síntese (bloco 207); para além disso, melhorias dos processamentos (pósprocessamento da excitação (bloco 206) e alisamento da energia do sinal HF reconstruído (bloco 208) são implementados como ilustrado na figura 2a.

[0037] É importante notar que essa extensão em AMR-WB+ precisa da transmissão de informações suplementares: os coeficientes do filtro ÂHF (z) em 204 e um ganho de modelização temporal por subtrama (bloco 201). Uma particularidade do algoritmo de extensão de banda em AMR-WB+ é que o ganho por sub-trama é quantificado por uma aproximação preditiva; em outras palavras, não se codificam os ganhos diretamente, mas de preferência correções de ganho que são relativas a uma estimativa do ganho assinalado gmatch. Essa estimativa, gmatch, correspondendo efetivamente a um fator de igualização do nível entre os filtros Â(z) e ÂHF (z) na frequência de separação entre banda baixa e banda alta (Fs/4). O cálculo do fator gmatch (bloco 203) é detalhado na figura 10 da especificação 3GPP TS 26.290 aqui retomada na figura 2b. Não se irá pormenorizar mais essa figura aqui. Se irá fixar para resumir que os blocos de 210 a 213 servem para

calcular a energia da resposta impulsiva de lembrando que o filtro ÂHF (z) modeliza uma banda alta espectral dobrada (por causa das propriedades espectrais do banco de filtro que separa as bandas baixa e alta). Já que os filtros são interpolados por sub-tramas, o ganho gmatch só é calculado uma vez por trama, e é interpolado por subtramas.

[0038] A técnica de codificação dos ganhos de extensão de banda em AMR-WB+ e mais precisamente a compensação de níveis dos filtros LPC no seu ponto de junção, é um método adaptado no contexto de uma extensão de banda por modelos LPC de banda baixa e alta e se pode notar que uma tal compensação de nível entre filtros LPC não está presente na extensão de banda do codec AMR-WB. No entanto, se pode verificar na prática que a igualização direta do nível entre os dois filtros LPC na frequência de separação não é um método ótimo e pode provocar uma sobreavaliação de energia de banda alta e artefatos audíveis em certos casos; se recorda que um filtro LPC representa um invólucro espectral, assim o princípio da igualização do nível entre dois filtros LPC para uma frequência determinada torna a ajustar o nível relativo de dois invólucros LPC. Ora uma tal igualização realizada em uma frequência exata não garante uma continuidade completa e coerência global da energia (de frequência) na proximidade do ponto de igualização quando o invólucro de frequência do sinal flutua de forma significativa nessa proximidade. Uma forma matemática de colocar o problema consiste em observar que a continuidade entre duas curvas pode ser garantida forçando-as a se juntarem em um mesmo ponto, mas nada garante que as propriedades locais (derivadas sucessivas) coincidam de modo a garantir uma coerência mais global. O risco assegurando uma continuidade pontual entre invólucros LPC bandas baixa e alta é fixar o invólucro de LPC de banda alta a um nível relativo demasiado forte ou demasiado fraco, o caso de um nível demasiado forte sendo mais prejudicial porque resulta em artefatos mais incômodos.

[0039] Por outro lado, a compensação de ganho em AMR-WB+ é antes de tudo uma predição do ganho conhecida do codificador e do decodificador e que serve para reduzir o débito necessário à transmissão de informação de ganho colocando à escala o sinal de excitação banda alta. Ora, no contexto de uma melhoria da codificação/decodificação AMR-WB de maneira interoperável, não é possível modificar a codificação existente dos ganhos por sub-tramas (0,8 kbit/s) da extensão de banda no modo 23,85 kbit/s de AMR-WB. Para além disso, para os débitos estritamente inferiores a 23,85 kbit/s, a compensação de níveis de filtros LPC de bandas baixa e alta pode ser aplicada na extensão de banda de uma decodificação compatível com AMR-WB, no entanto a experiência mostra que essa única técnica derivadada codificação AMR-WB+, aplicada sem otimização, pode gerar problemas de sobreavaliação de energia da banda alta (>6 kHz).

[0040] Existe, portanto, uma necessidade de melhorar a compensação de ganhos entre filtros de predição linear de banda de frequências diferentes para a extensão de banda de frequência em um codec de tipo AMR-WB ou uma versão interoperável desse codec sem sobreavaliar a energia em uma banda de frequência e sem necessitar de informações suplementares do codificador.

[0041] A presente invenção vem melhorar a situação.

[0042] Para esse fim, a invenção visa um processo de determinação de um fator de escala otimizado para aplicar em um sinal de excitação ou em um filtro no momento de um processo de extensão de banda de frequência de um sinal de audiofrequência, o processo de extensão de banda compreendendo uma etapa de decodificação ou de extração, em uma primeira banda de frequência, de um sinal de excitação e de parâmetros da primeira banda de frequência compreendendo coeficientes de um filtro de predição linear, uma etapa de geração de um sinal de excitação estendido sobre pelo menos uma segunda banda de frequência e uma etapa de filtragem por um filtro de predição linear para a segunda banda de frequência. O processo de determinação é tal que compreende as seguintes etapas:

[0043] - determinação de um filtro de predição linear chamado filtro adicional, de ordem inferior ao filtro de predição linear da primeira banda de frequência, os coeficientes do filtro adicional sendo obtidos a partir dos parâmetros decodificados ou extraídos da primeira banda de frequência; e

[0044] - cálculo do fator de escala otimizado pelo menos em função dos coeficientes do filtro adicional.

[0045] Assim, a utilização de um filtro adicional de ordem inferior ao filtro da primeira banda de frequência para igualizar, permite evitar as sobreavaliações de energia nas altas frequências que poderiam resultar de flutuações locais do invólucro e que podem perturbar a igualização dos filtros de predição.

[0046] A igualização de ganhos entre os filtros de predição linear da primeira e segunda banda de frequência é assim melhorada.

[0047] Em uma aplicação vantajosa do fator de escala otimizado assim obtido, o processo de extensão de banda compreende uma etapa de aplicação do fator de escala otimizado ao sinal de excitação estendido.

[0048] Em uma modalidade de realização adaptada, a aplicação do fator de escala otimizado é combinada para a etapa de filtragem na segunda banda de frequência.

[0049] Assim as etapas de filtragem e de aplicação do fator de escala otimizado são combinadas para uma única etapa de filtragem para reduzir a complexidade do processamento.

[0050] Em uma modalidade de realização particular, os coeficientes do filtro adicional são obtidos por truncatura da função de transferência do filtro de predição linear da primeira banda de frequência para obter uma ordem inferior.

[0051] Esse filtro adicional de ordem inferior é pois obtido de modo simples.

[0052] Além disso, de modo a obter um filtro estável, os coeficientes do filtro adicional são modificados em função de um critério de estabilidade do filtro adicional.

[0053] Em uma modalidade de realização particular, o cálculo do fator de escala otimizado compreende as seguintes etapas:

[0054] - cálculo das respostas de frequência dos filtros de predição linear da primeira e da segunda bandas de frequência para uma frequência comum;

[0055] - cálculo da resposta de frequência do filtro adicional para essa frequência comum;

[0056] - cálculo do fator de escala otimizado em função das respostas de frequência assim calculadas.

[0057] Assim, o fator de escala otimizado é calculado de modo a evitar os artefatos prejudiciais que poderiam sobrevir se a resposta de frequência de filtro de ordem superior da primeira banda na proximidade da frequência comum revelasse um pico ou um vale do sinal.

[0058] Em uma modalidade de realização particular, o processo compreende além disso as seguintes etapas implementadas para um débito de decodificação predeterminado:

[0059] - primeira colocação à escala do sinal de excitação estendido por um ganho calculado por sub-trama função de uma relação de energia entre o sinal de excitação decodificado e o sinal de excitação estendido;

[0060] - segunda colocação à escala do sinal de excitação proveniente da primeira colocação à escala por um ganho de correção decodificado;

[0061] - ajustamento da energia da excitação para a sub-trama corrente por um fator de ajustamento calculado em função da energia do sinal obtido após a segunda colocação à escala e em função do sinal obtido após aplicação do fator de escala otimizado.

[0062] Assim, podem ser utilizadas informações suplementares para melhorar a qualidade do sinal estendido para um modo de funcionamento predeterminado.

[0063] A invenção visa também um dispositivo de determinação de um fator de escala otimizado para aplicar em um sinal de excitação ou em um filtro em um dispositivo de extensão de banda de frequência de um sinal de audiofrequência, o dispositivo de extensão de banda compreendendo um módulo de decodificação ou de extração, em uma primeira banda de frequência, de um sinal de excitação e de parâmetros da primeira banda de frequência compreendendo coeficientes de um filtro de predição linear, um módulo de geração de um sinal de excitação estendido sobre pelo menos uma segunda banda de frequência e um módulo de filtragem por um filtro de predição linear para a segunda banda de frequência. O dispositivo de determinação é tal que compreende:

[0064] - um módulo de determinação de um filtro de predição linear chamado filtro adicional, de ordem inferior ao filtro de predição linear da primeira banda de frequência, os coeficientes do filtro adicional sendo obtidos a partir dos parâmetros decodificados ou extraídos da primeira banda de frequência; e

[0065] - um módulo de cálculo do fator de escala otimizado em função pelo menos dos coeficientes do filtro adicional.

[0066] A invenção visa um decodificador compreendendo um dispositivo tal como descrito.

[0067] Visa um programa informático compreendendo instruções de código para a implementação das etapas do processo de determinação de um fator de escala otimizado tal como descrito, quando essas instruções são executadas por um processador.

[0068] Finalmente a invenção se refere a um suporte de armazenagem, legível por um processador, integrado ou não no dispositivo de determinação de um fator de escala otimizado, eventualmente amovível, memorizando um programa informático que implementa um processo de determinação de um fator de escala otimizado tal como descrito anteriormente.

[0069] Outras características e vantagens da invenção vão aparecer mais claramente com a leitura da descrição seguinte, dada unicamente a título de exemplo não limitativo, e feita em referência aos desenhos anexos, nos quais:

[0070] - a figura 1 ilustra uma parte de um decodificador de tipo AMR-WB implementando etapas de extensão de banda de frequência do estado da técnica e tal como descrito anteriormente;

[0071] - as figuras 2a e 2b apresentam a codificação da banda alta no codec AMR-WB+ de acordo com o estado da técnica e tal como descrito anteriormente;

[0072] - a figura 3 ilustra um decodificador interoperável com a codificação AMR-WB e integrando um dispositivo de extensão de banda usado de acordo com uma modalidade de realização da invenção;

[0073] - a figura 4 ilustra um dispositivo de determinação de um fator de escala otimizado por sub-trama em função do débito, de acordo com uma modalidade de realização da invenção; e

[0074] - as figuras 5a e 5b ilustram as respostas de frequências dos filtros utilizados para o cálculo do fator de escala otimizado de acordo com uma modalidade de realização da invenção;

[0075] - a figura 6 ilustra na forma de um organograma, as etapas principais de um processo de determinação de um fator de escala otimizado de acordo com uma modalidade de realização da invenção;

[0076] - a figura 7 ilustra uma modalidade de realização no domínio de frequência de um dispositivo de determinação de fator de escala otimizado no momento de uma extensão de banda;

[0077] - a figura 8 ilustra uma realização material de um dispositivo de determinação de fator de escala otimizado no momento de uma extensão de banda de acordo com a invenção.

[0078] A figura 3 ilustra um exemplo de decodificador, compatível com a norma AMR-WB/G.722.2 onde se encontra uma extensão de banda compreendendo uma determinação de um fator de escala otimizado de acordo com uma modalidade de realização do processo da invenção, implementado pelo dispositivo de extensão de banda ilustrado pelo bloco 309.

[0079] Contrariamente à decodificação AMR-WB que funciona com uma frequência de amostragem de saída de 16 kHz, é considerado aqui um decodificador que pode funcionar com um sinal de saída (síntese) na frequência fs = 8, 16, 32 ou 48 kHz. De notar que é suposto aqui que a codificação foi efetuada de acordo com o algoritmo AMRWB com uma frequência interna de 12,8 kHz para a codificação CELP de banda baixa e a 23,85 kbit/s uma codificação de ganho por subtrama na frequência de 16 kHz; mesmo se a invenção é descrita aqui ao nível da decodificação, é suposto aqui que a codificação pode também funcionar com um sinal de entrada na frequência fs = 8, 16, 32 ou 48 kHz e operações de reamostragem adequada, ultrapassando o quadro da invenção, são implementadas na codificação em função do valor de fs. Se pode notar que quando fs =8 kHz, no caso de uma decodificação compatível com AMR-WB, não é necessário estender a banda baixa 0-6,4 kHz, porque a banda áudio reconstruída para a frequência fs é limitada a 0-4000 Hz.

[0080] Na figura 3, a decodificação CELP (BF para baixas frequências) funciona sempre na frequência interna de 12,8 kHz, como em AMR-WB, e a extensão de banda (HF para altas frequências) utilizada para a invenção funciona na frequência de 16 kHz, as sínteses BF e HF são combinadas (bloco 312) para a frequência fs após reamostragem adequada (bloco 306 e processamento interno no bloco 311). Em variantes de realização, a combinação das bandas baixa e alta poderá ser feita a 16 kHz, após ter reamostrado a banda baixa de 12,8 para 16 kHz, antes de tornar a mostrar o sinal combinado na frequência fs.

[0081] A decodificação de acordo com a figura 3 depende do modo (ou débito) AMR-WB associado à trama corrente recebida. A título indicativo e sem que isso afete o bloco 309, a decodificação da parte CELP de banda baixa compreende as seguintes etapas:

[0082] • Desmultiplexação dos parâmetros codificados (bloco 300) no caso de trama corretamente recebida (bfi=0 onde bfi é o «bad frame indicator» valendo 0 para uma trama recebida e 1 para uma trama perdida)

[0083] • Decodificação dos parâmetros ISF com interpolação e conversão em coeficientes LPC (bloco 301) como descrito na cláusula 6.1 da norma G722.2.

[0084] • Decodificação da excitação CELP (bloco 302), com uma parte adaptativa e fixa para reconstruir a excitação (exc ou u’(n)) em cada sub-trama de comprimento 64 para 12,8 kHz;

[0085] u’(n) = gpv(n) + gcc(n), n = 0, - ,63

[0086] seguindo as notações da cláusula 7.1.2.1 da recomendação ITU-T G.718 de um decodificador interoperável com o codificador/decodificador AMR-WB, referindo a decodificação CELP, onde v(n) ec(n) são respectivamente as palavras de código dos dicionários adaptativo e fixo, e gp e gc são os ganhos decodificados associados. Essa excitação u’(n) é utilizada no dicionário adaptativo da sub-trama seguinte; é em seguida pós-processada e é distinguida como em G.718 a excitação u’(n) (também assinalada exc) de sua versão pósprocessada modificada u(n) (também assinalada exc2) que serve de entrada ao filtro de síntese, 1/ Â(z), no bloco 303.

[0087] • Filtragem de síntese por 1/ Â(z) (bloco 303) onde o filtro LPC decodificado Â(z) é de ordem 16;

[0088] • Pós-processamento de banda estreita (bloco 304) de acordo com a cláusula 7.3 de G.718 se fs = 8 kHz.

[0089] • Desacentuação (bloco 305) pelo filtro 1/ (1-0.68z-1)

[0090] • Pós-processamento das baixas frequências (chamado «bass posfilter») (bloco 306) atenuando o ruído inter harmônico de baixas frequências tal como descrito na cláusula 7.14.1.1 de G.718. Esse processamento introduz um atraso que é tido em conta na decodificação da banda alta (>6,4 kHz).

[0091] • Reamostragem da frequência interna de 12,8 kHz na frequência de saída fs (bloco 307). Várias realizações são possíveis. Sem perda de generalidade, é considerado aqui a título de exemplo que se fs =8 ou 16 kHz, a reamostragem descrita na cláusula 7.6 de G.718 é retomada aqui, e se fs=32 ou 48 kHz, são utilizados filtros de resposta impulsiva finita (FIR) suplementares.

[0092] • Cálculo dos parâmetros do «noise gate» (bloco 308) que é realizado de forma preferencial como descrito na cláusula 7.14.3 de G.718 para «melhorar» a qualidade dos silêncios por redução do nível.

[0093] Em variantes que podem ser implementadas para a invenção, os pós-processamentos aplicados na excitação podem ser modificados (por exemplo, a dispersão de fase pode ser melhorada) ou esses pós-processamentos podem ser estendidos (por exemplo, uma redução do ruído inter harmônico pode ser implementada), sem afetar a natureza da extensão de banda.

[0094] Se pode notar que a utilização dos blocos 306, 308, 314 é opcional.

[0095] É de notar também que a decodificação da banda baixa descrita mais acima supõe uma trama corrente chamada «ativa» com um débito entre 6,6 e 23,85 kbit/s. Efetivamente, quando o modo DTX (transmissão contínua em francês) é ativado, algumas tramas podem ser codificadas como «inativas» e nesse caso se pode ou transmitir um descritor de silêncio (sobre 35 bits) ou não se transmitir nada. Em particular, se recorda que a trama SID descreve parâmetros variados: parâmetros ISF intermédios sobre 8 tramas, energia média sobre 8tramas, flag de "dithering" para a reconstrução de ruído não estacionário. Em todos os casos, para o decodificador, se encontra o mesmo modelo de decodificação que para uma trama ativa, com uma reconstrução da excitação, e de um filtro LPC para a trama corrente, o que permite aplicar a extensão de banda mesmo em tramas inativas. A mesma constatação é aplicada para a decodificação de «tramas perdidas » (ou FEC, PLC) onde é aplicado o modelo LPC.

[0096] Em uma modalidade de realização descrita aqui e em referência à figura 7, o decodificador permite estender a banda baixa decodificada (50-6400 Hz tendo em conta filtragem passa alto de 50 Hz no decodificador, 0-6400 Hz no caso geral) para uma banda estendida cuja largura varia, indo aproximadamente de 50-6900 Hz a 50-7700 Hz em função do modo implementado na trama corrente. Se pode assim falar de uma primeira banda de frequência de 0 a 6400 Hz e de uma segunda banda de frequência de 6400 a 8000 Hz. Na realidade, na modalidade de realização privilegiada, a extensão da excitação é efetuada no domínio de frequência em uma banda de 5000 a 8000 Hz, para permitir uma filtragem passa banda com largura de 6000 a 6900 ou 7700 Hz.

[0097] A 23,85 kbit/s, a informação de correção de ganho HF (0,8 kbit/s) transmitida a 23,85 kbit/s é aqui decodificada. Seu uso é detalhado mais adiante, em referência à figura 4. A parte síntese da banda alta é realizada no bloco 309 representando o dispositivo de extensão de banda utilizado para a invenção e que é detalhado na figura 7 em uma modalidade de realização.

[0098] Para alinhar as bandas baixas e altas decodificadas, é introduzido um atraso (bloco 310) para sincronizar as saídas dos blocos 306 e 307 e a banda alta sintetizada a 16 kHz é reamostrada de 16 kHz para a frequência fs (saída do bloco 311). O valor do atraso T depende da forma de sintetizar o sinal de banda alta, da frequência fs assim como do pós-processamento das baixas frequências. Assim, de modo geral o valor de T no bloco 310 deverá ser ajustado em função da implementação específica.

[0099] As bandas baixa e alta são em seguida combinadas (acrescentadas) no bloco 312 e a síntese obtida é pós-processada por filtragem passa alto a 50 Hz (de tipo IIR) de ordem 2 cujos coeficientes dependem da frequência fs (bloco 313) e pós-processamento de saída com aplicação opcional do «noise gate» de modo similar a G.718 (bloco 314).

[00100] Em referência à figura 3, se descreve presentemente uma modalidade de realização de um dispositivo de determinação de um fator de escala otimizado para aplicar em um sinal de excitação no momento de um processo de extensão de banda de frequência. Esse dispositivo está incluído no bloco de extensão de banda 309 descrito anteriormente.

[00101] Assim, o bloco 400, a partir de um sinal de excitação decodificado em uma primeira banda de frequência u(n), efetua uma extensão de banda para obter um sinal de excitação estendido uHB (n) em pelo menos uma segunda banda de frequência.

[00102] É de notar aqui, que a estimativa de fator de escala otimizado de acordo com a invenção é independente do modo de obter o sinal uHB (n). É, todavia, importante uma condição referindo sua energia. Com efeito, é preciso que a energia da banda alta de 6000 a 8000 Hz esteja a um nível similar à energia da banda de 4000 a 6000 Hz do sinal de excitação decodificado à saída do bloco 302. Para além disso, visto que o sinal de banda baixa é desacentuado (bloco 305), também é preciso aplicar a desacentuação ao sinal de excitação de banda alta, ou usando um filtro de desacentuação próprio, ou multiplicando por um fator constante que corresponde a uma diminuição média do filtro mencionado. Essa condição não é aplicada ao caso do débito 23,85 kbit/s que utiliza as informações suplementares transmitidas pelo codificador. Nesse caso a energia do sinal de excitação de banda alta deve ser coerente com a energia do sinal correspondente ao codificador, como explicado mais adiante.

[00103] A extensão de banda de frequência pode por exemplo ser implementada do mesmo modo que para o codificador de tipo AMRWB descrito em referência à figura 1 nos blocos de 100 a 102, a partir de um ruído branco.

[00104] Em uma outra modalidade de realização, essa extensão de banda pode ser efetuada a partir de uma combinação de um ruído branco e de um sinal de excitação decodificado como ilustrado e descrito posteriormente para os blocos de 700 a 707 da figura 7.

[00105] Outros métodos de extensão de banda de frequência com conservação do nível de energia entre o sinal de excitação decodificado e o sinal de excitação estendido como descrito mais abaixo, podem evidentemente ser considerados para o bloco 400.

[00106] Além disso, o módulo de extensão de banda pode também ser independente do decodificador e pode efetuar uma extensão de banda de um sinal áudio existente armazenado ou transmitido ao módulo de extensão, com uma análise do sinal áudio para extrair uma excitação e um filtro LPC. Nesse caso, o sinal de excitação de entrada do módulo de extensão, já não é um sinal decodificado, mas um sinal extraído após análise, assim como os coeficientes do filtro de predição linear da primeira banda de frequência usados no processo de determinação do fator de escala otimizado em uma implementação da invenção.

[00107] No exemplo ilustrado na figura 4, é considerado primeiramente o caso dos débitos <23,85kbit/s, para o qual a determinação do fator de escala otimizado está limitada ao bloco 401. Nesse caso é calculado um fator de escala otimizado, assinalado gHB2(m). Em uma modalidade de realização, esse cálculo é efetuado de modo preferencial por sub-trama e consiste em igualizar os níveis das respostas de frequências dos filtros LPC 1/ Â(z) e 1/ Â(z/Y) utilizados em baixas e altas frequências, como descrito posteriormente em referência à figura 7, com precauções suplementares para evitar os casos de sobreavaliações que podem resultar em uma energia demasiado grande da banda alta sintetizada e portanto produzir artefatos audíveis.

[00108] Em uma modalidade de realização alternativa, se poderá guardar o filtro de síntese HF extrapolado 1 /Âext(z/Y) tal como implementado no decodificador AMR-WB ou um decodificador interoperável com o codificador/decodificador AMR-WB, por exemplo de acordo com a recomendação ITU-T G.718, em vez do filtro 1/ Â(z/Y). A compensação de acordo com a invenção é efetuada então a partir dos filtros 1/Â(z) e 1/ Âext(z/Y).

[00109] A determinação do fator de escala otimizado é efetuada também pela determinação (em 401a) de um filtro de predição linear chamado filtro adicional, de ordem inferior ao filtro de predição linear da primeira banda de frequência 1/ Â(z), os coeficientes do filtro adicional sendo obtidos a partir dos parâmetros decodificado ou extraídos da primeira banda de frequência. O fator de escala otimizado é calculado em seguida (em 401b) pelo menos em função desses coeficientes para ser aplicado ao sinal de excitação estendido uHB(n).

[00110] O princípio da determinação do fator de escala otimizado, implementado no bloco 401 é ilustrado nas figuras 5a e 5b com exemplos concretos obtidos a partir de sinais amostrados a 16 kHz; os valores de amplitude de resposta de frequência, anotados mais adiante R, P, Q, de 3 filtros são calculados para a frequência comum de 6000 Hz (linha vertical a tracejado) na sub-trama corrente, cujo índice m não é lembrado aqui na notação dos filtros LPC interpolados por sub-trama para diminuir o texto. O valor de 6000 Hz é escolhido de modo que esteja perto da frequência de Nyquist da banda baixa, ou 6400 Hz. É preferível não tomar essa frequência de Nyquist para determinar o fator de escala otimizado. Com efeito a energia do sinal decodificado de baixas frequências é já tipicamente atenuada a 6400 Hz. Para além disso, a extensão de banda descrita aqui é efetuada sobre uma segunda banda de frequência chamada banda alta que vai de 6000 a 8000 Hz. De notar que em variantes da invenção, uma outra frequência de 6000 Hz poderá ser escolhida, sem perda de generalidade para determinar o fator de escala otimizado. Se poderá também considerar o caso em que os dois filtros LPC são definidos para as bandas separadas (como em AMR-WB+). Nesse caso R, P e Q serão calculados para a frequência de separação.

[00111] As figuras 5a e 5b ilustram como são definidas as quantidades R, P, Q.

[00112] A primeira etapa consiste em calcular as respostas de frequências R e P respectivamente do filtro de predição linear da primeira banda de frequência (banda baixa) e da segunda banda de frequência (banda alta) para a frequência de 6000 Hz. É calculado primeiramente:

[00113] onde M = 16 é de ordem do filtro LPC decodificado 1/ Â(z), e θ corresponde à frequência de 6000 Hz normalizada para a frequência de amostragem de 12,8 kHz, ou:

[00114] Em seguida de forma semelhante, é calculado:

[00115] Onde

[00116] Em uma modalidade de realização privilegiada, as quantidades P e R são calculadas de acordo com o pseudocódigo seguinte:

[00117] px = py = 0

[00118] rx = ry = 0

[00119] para i=0 to 16

[00120] px = px + Ap[i]*exp_tab_p[i]

[00121] py = py + Ap[i]*exp_tab_p

[00122] rx = rx + Aq[i]*exp_tab_q[i]

[00123] ry = ry + Aq[i]*exp_tab_q

[00124] end for

[00125] P = 1/sqrt(px*px+py*py)

[00126] R = 1/sqrt(rx*rx+ry*ry)

[00127] onde Aq[i] = âi corresponde aos coeficientes de Â(z) (de ordem 16), Ap[i] = i âi corresponde ao coeficiente de Â(z/ ), sqrt() corresponde à operação de raiz quadrada e os quadros exp_tab_p e exp_tab_q de tamanho reais e imaginárias dos exponenciais frequência de 6000 Hz, com

exp_tab_q[i]

[00128] O filtro de predição adicional é obtido por exemplo truncando de modo adequado o polinômio Â(z) da ordem 2.

[00129] Efetivamente a truncatura direta da ordem conduz ao filtro 1+â1+â2, o que pode ser problema porque nada garante em geral que esse filtro de ordem 2 seja estável. Em uma modalidade de realização privilegiada, é, pois, detectada a estabilidade do filtro 1+â1+â2 e é utilizado um filtro 1+â1’+â2’, cujos coeficientes são tirados de 1+â1+â2 em função da detecção de instabilidade. Mais precisamente, se inicializa: âi’ = âi, i=1,2

[00130] A estabilidade do filtro 1+â1+â2 pode ser verificada de diferente forma, se usa aqui uma conversão no domínio dos coeficientes PARCOR (ou coeficientes de reflexão) calculando: k1 = â1’/(1+â2’) k2 = â2’

[00131] A estabilidade é verificada se |ki| <1, i=1,2. Portanto é modificado de modo convencional o valor de ki antes de garantir a estabilidade do filtro, com as seguintes etapas:

[00132] onde min(.,.) e max(.,.) dão respectivamente o mínimo e o máximo de 2 operandos.

[00133] Se nota que os valores de limiares, 0,99 para k1 e 0,6 para k2, poderão ser ajustados em variantes da invenção. Se recorda que o primeiro coeficiente de reflexão, k1, caracteriza o declive espectral (ou tilt) do sinal modelizado da ordem 1; na invenção se satura o valor de k1 para um valor próximo do limite de estabilidade, a fim de preservar esse declive e conservar um tilt semelhante ao de 1/ Â(z). Se recorda também que o segundo coeficiente de reflexão, k2, caracteriza o nível de ressonância do modelo de sinal da ordem 2; uma vez que a utilização de um filtro de ordem 2 pretende eliminar a influência de tais ressonâncias em torno da frequência de 6000 Hz, é limitado mais fortemente o valor de k2, esse limite é fixado em 0,6.

[00134] Os coeficientes de 1+â1 ‘+â2 ‘ são então obtidos por: â1’ = (1+k2)k1 â2’ = k2

[00135] Portanto é calculada, finalmente a resposta de frequência do filtro adicional:

[00136] Com i~oG0 . Essa quantidade é calculada de modo preferencialmente de acordo com o pseudocódigo seguinte:

[00137] qx = qy = 0

[00138] para i=0 to 2

[00139] qx = qx + As[i]*exp_tab_q[i];

[00140] qy = qy + As[i]*exp_tab_q;

[00141] end for

[00142] Q = 1/sqrt(qx*qx+qy*qy)

[00143] onde As[i] = âi’.

[00144] Sem perda de generalidade, poderão ser calculados os coeficientes do filtro de ordem 2 de outra forma, por exemplo aplicando ao filtro LPC Â(z) de ordem 16 o procedimento de redução da ordem LPC chamada «STEP DOWN» descrita em J.D. Markel e A.H. Gray, Linear Prediction of Speech. Springer Verlag, 1976 ou efetuando duas iterações de algoritmo de Levinson-Dublin (ou STEP-UP) a partir das autocorrelações calculadas sobre o sinal sintetizado (decodificado) de 12,8 kHz e de abertura de janela.

[00145] Para alguns sinais, a quantidade Q, calculada a partir dos 3 primeiros coeficientes LPC decodificados, tem mais em conta a influência do declive espectral (ou tilt) no espectro e evita a influência de picos ou de vales «parasitas» próximos de 6000 Hz que podem distorcer ou aumentar o valor da quantidade R, calculada a partir de todos os coeficientes LPC.

[00146] Em uma modalidade de realização privilegiada, o fator de escala otimizado é deduzido das quantidades pré-calculadas R, P, Q de modo condicional como se segue:

[00147] Se o tilt (calculado como em AMR-WB no bloco 104, por autocorrelação normalizada sob a forma r(1)/r(0) onde r(i) é a autocorrelação) é negativo (tilt<0 como representado na figura 5b), o cálculo do fator de escala é feito do modo seguinte:

[00148] Para evitar artefatos devidos a variações demasiado bruscas de energia da banda alta, é aplicado um alisamento com o valor de R. Em uma modalidade de realização privilegiada, um alisamento exponencial é efetuado com um fator fixo no tempo (0,5) sob a forma: R = 0,5R + 0,5Rprev Rprev = R

[00149] onde Rprev corresponde ao valor de R na sub-trama anterior e o fator 0,5 é otimizado de forma empírica - evidentemente, o fator 0,5 poderá ser mudado para um outro valor e outros métodos de alisamento são também possíveis. De notar que o alisamento permite reduzir as variantes temporais e, portanto, evita artefatos.

[00150] O fator de escala otimizado é então dado por: gHB2(m) = max(min)(R,Q)P)/ P

[00151] Em uma modalidade de realização alternativa, poderá ser substituído o alisamento de R por um alisamento de gHB2 (m) tal que: gHB2(m) ^0,5gHB2(m) +0,5gHB2(m - 1)

[00152] Se o tilt (calculado como em AMR-WB no bloco 104) é positivo (tilt>0 como na figura 5a), o cálculo do fator de escala é feito do seguinte modo:

[00153] A quantidade R é alisada de modo adaptativo no tempo, com um alisamento mais forte quando R é fraco - como no caso anterior, esse alisamento permite reduzir as variantes temporais e, portanto, evita artefatos: R = (1 - α) R + αRprev com α = 1 - R2 Rprev = R

[00154] Em seguida, o fator de escala otimizado é dado por: gHB2(m) = min (R, P, Q) /P

[00155] Em uma modalidade de realização alternativa, poderá ser substituído o alisamento de R por um alisamento de gHB2(m) tal como calculado mais acima. gHB(m)=(1 - α)gHB(m)+αgHB(m - 1), m = 0,..., 3, α=1 -g2HB (m)

[00156] onde gHB (-1) é o fator de escala ou ganho calculado para a última sub-trama da trama anterior.

[00157] Se toma aqui o mínimo de R, P, Q para evitar sobreavaliar o fator de escala.

[00158] Em uma variante, a condição acima dependendo unicamente do tilt poderá ser estendida para ter em conta não só o parâmetro de tilt mas também outros parâmetros para refinar a decisão. Para além disso, o cálculo de gHB2 (m) poderá ser ajustado em função desses referidos parâmetros suplementares.

[00159] Um exemplo de parâmetro suplementar é o número de passagem por zero (ZCR, zero crossing rate) que pode ser definido como:

[00160] Onde

[00161] O parâmetro zcr dá geralmente os resultados similares ao tilt. Um bom critério de classificação é a razão entre zcrs calculada para o sinal sintetizado s(n) e zcru calculado para o sinal de excitação u(n) de 12800 Hz. Essa razão é entre 0 e 1, onde 0 significa que o sinal tem um espectro decrescente, 1 que o espectro é crescente (o que corresponde a (1 - tilt) /2. Nesse caso, uma razão zcrs /zcru >0,5 corresponde ao caso tilt <0, uma razão zcrs / zcru >0,5 corresponde ao tilt <0.

[00162] Em uma variante, se poderá utilizar uma função de um parâmetro tilthp onde tilthp é o tilt calculado para o sinal sintetizado s(n) filtrado por um filtro passa alto com uma frequência de corte por exemplo de 4800 Hz; nesse caso, a resposta 1 / Â(z/Y) de 6 a 8 kHz (aplicada a 16 kHz) corresponde à resposta ponderada de 1 / Â(z) de 4,8 a 6,4 kHz. Como 1 / Â(z/Y) tem uma resposta mais achatada, é preciso compensar essa mudança de tilt. A função de fator de escala de acordo com tilthp é então dada em uma modalidade de realização por: (1 - tilthp)2 +0,6. Se multiplica portanto Q e R por min(1,(1 - tilthp)2 +0,6) quando tilt >0 ou por max(1,(1 - tilthp)2 +0,6) quando tilt <0.

[00163] Se considera agora o caso do débito de 23,85kbit/s, para o qual é realizada uma correção de ganho pelos blocos de 403 a 408. Essa correção de ganho poderia aliás ser objeto de uma invenção separada. Nessa modalidade particular de acordo com a invenção, a informação de correção de ganho, anotada gHBcorr(m), transmitida pela codificação (compatível) AMR-WB com um débito de 0,8 kbit/s é utilizada para melhorar a qualidade para 23,85 kbit/s.

[00164] É suposto aqui que a codificação (compatível) AMR-WB efetuou uma quantificação de ganho de correção sobre 4 bits como descrito na cláusula UIT-T G.722.2/5.11 ou de modo equivalente na cláusula 3GPP TS 26.190/5.11.

[00165] No codificador AMR-WB, o ganho de correção é calculado comparando a energia do sinal original amostrado de 16 kHz e filtrado por um filtro passa banda 6-7 kHz, sHB(n), com a energia do ruído branco de 16 kHz filtrado por um filtro de síntese 1 / Â(z/y) e um filtro passa banda 6-7 kHz (antes da filtragem a energia do ruído é colocada a um nível semelhante ao da excitação a 12,8 kHz), sHB2 (n). O ganho é a raiz da razão de energia do sinal original sobre a energia do ruído dividido por dois. Em uma modalidade possível de realização se poderá mudar o filtro passa banda para um filtro com uma banda mais larga (por exemplo de 6 a 7,6kHz).

[00166] Para poder aplicar a informação de ganho recebida a 23,85 kbit/s (no bloco 407), é importante reconduzir a excitação para um nível semelhante ao esperado na codificação (compatível) AMR-WB. Assim, o bloco 404 efetua equação seguinte: UHBi(n) = gHB3 (m)uHB(n), n = 80m, ..., 80(m+1)-1

[00167] onde gHB3(m) é um ganho por sub-trama calculado no bloco 403 sob a forma:

[00168] onde o fator 5 do denominador serve para compensar a diferença de largura de banda entre o sinal u(n) e o sinal uHB(n), sabendo que para a codificação AMR-WB a excitação HF é um ruído branco sobre a banda 0-8000 Hz.

[00169] O índice de 4 bits por sub-trama, anotado indexHF_ganho(m), enviado de 23,85 kbit/s é desmultiplexado do trem binário (bloco 405) e decodificado pelo bloco 406 do modo seguinte: gHBcorr(m) = 2.HP_gain (indexHF_ganho(m))

[00170] onde HP_gain (.) é o dicionário de quantificação de ganho HF definido na codificação AMR-WB e lembrado mais abaixo:

[00171] Tabela 1 (dicionário de ganho de 23,85

[00172] O bloco 407 efetua a colocação à escala do sinal de excitação de acordo com a equação seguinte: uHB2(n)= gHβcorr (m)uHB1 (n), n =80m, „., 80(m + 1)-1

[00173] Finalmente, é ajustada a energia da excitação ao nível da sub-trama corrente com as condições seguintes (bloco 408). É calculado:

[00174] O numerador representa aqui a energia de sinal banda alta que será obtida no modo 23.05. Como explicado antes, para os débitos <23,85 kbit/s é preciso manter o nível de energia entre o sinal de excitação decodificado e o sinal de excitação estendido uHB(n), mas essa tensão não é necessária no caso do débito de 23,85 kbit/s, visto que uHB(n) é nesse caso colocado à escala pelo ganho gHB3(m). Para evitar as duplas multiplicações certas operações de multiplicações aplicadas ao sinal no bloco 400 são aplicadas no bloco 402 multiplicando por g(m). O valor de g(m) depende do algoritmo de síntese de uHB(n) e deve ser ajustado de tal modo que o nível de energia entre o sinal de excitação decodificado de banda baixa e o sinal g (m)uHB (n) seja mantido.

[00175] Em uma modalidade de realização particular, que será descrita em detalhe mais tarde em referência à figura 7, g(m) = 0,6gHB1(m), onde gHB1(m) é um ganho que garante, para o sinal uHB, a mesma razão entre energia por sub-trama e energia por trama que para o sinal u(n) e 0,6 corresponde ao valor médio de amplitude de resposta de frequência do filtro de desacentuação de 5000 a 6400 Hz.

[00176] É suposto que no bloco 408 se tem uma informação sobre o tilt do sinal de banda baixa -em uma modalidade de realização privilegiada esse tilt é calculado como no codec AMR-WB de acordo com os blocos 103 e 104, no entanto outros métodos de estimativa do tilt são possíveis sem mudar o princípio da invenção.

[00177] Se fac(m) >1 ou tilt<0, se toma: uHB’(n) = UHB2(n), n = 80m, ..., 80(m + 1)-1

[00178] Senão:

[00179] É de notar que o cálculo de fator de escala otimizado apresentado aqui, nomeadamente nos blocos 401 e 402, se distingue da igualização supracitada de níveis de filtros efetuada no codec AMRWB+ por vários aspetos:

[00180] • O fator de escala otimizado é calculado diretamente a partir das funções de transferência dos filtros LPC sem envolver filtragem temporal. Isso simplifica o processo.

[00181] • A igualização é feita preferencialmente a uma frequência diferente da frequência de Nyquist (6400 Hz) associada à banda baixa. Com efeito, a modelização LPC representa implicitamente a atenuação do sinal tipicamente causada pelas operações de reamostragem e, portanto, a resposta de frequência de um filtro LPC pode ser sujeita à frequência de Nyquist uma diminuição que não se encontra na frequência comum escolhida.

[00182] • A igualização assenta aqui sobre um filtro de ordem menos elevada (aqui de ordem 2) além dos 2 filtros para igualizar. Esse filtro adicional permite evitar os efeitos de flutuações espectrais locais (pico ou vale) que podem estar presentes na frequência comum para o cálculo da resposta de frequência dos filtros de predição.

[00183] • Para os blocos de 403 a 408, a vantagem da invenção é que a qualidade do sinal decodificado a 23,85 kbit/s de acordo com a invenção melhora em relação a um sinal decodificado a 23,05 kbit/s, o que não é o caso em um codificador AMR-WB. Na realidade, esse aspecto da invenção permite utilizar a informação suplementar (0,8 kbit/s) recebida a 23,85 kbit/s, mas de modo controlado (bloco 408), para melhorar a qualidade do sinal de excitação estendido ao débito de 23,85.

[00184] O dispositivo de determinação do fator de escala otimizado tal como ilustrado pelos blocos de 401 a 408 da figura 4, implementa um processo de determinação do fator de escala otimizado descrito agora em referência à figura 6.

[00185] As etapas principais são implementadas pelo bloco 401.

[00186] Assim, um sinal de excitação estendido uHB(n) é obtido no momento de um processo de extensão de banda de frequência E601 que compreende uma etapa de decodificação ou de extração em uma primeira banda de frequência chamada banda baixa, de um sinal de excitação e de parâmetros da primeira banda de frequência como por exemplo os coeficientes do filtro de predição linear da primeira banda de frequência.

[00187] Uma etapa E602 determina um filtro de predição linear chamado filtro adicional, de ordem inferior ao da primeira banda de frequência. Para determinar esse filtro, são utilizados os parâmetros decodificados ou extraídos da primeira banda de frequência.

[00188] Em uma modalidade de realização essa etapa é efetuada por truncatura da função de transferência do filtro de predição linear da banda baixa para obter uma ordem de filtro inferior, por exemplo 2. Esses coeficientes podem em seguida ser modificados em função de um critério de estabilidade como explicado anteriormente em referência à figura 4.

[00189] A partir dos coeficientes do filtro adicional assim determinado, é implementada uma etapa E603 para calcular o fator de escala otimizado para aplicar ao sinal de excitação estendido. Esse fator de escala otimizado é por exemplo calculado a partir da resposta de frequência do filtro adicional a uma frequência comum entre a banda baixa (primeira banda de frequência) e a banda alta (segunda banda de frequência). Um valor mínimo podendo ser escolhido entre a resposta de frequência desse filtro e as dos filtros banda baixa e banda alta.

[00190] Isso evita, pois, as sobreavaliações de energia que podiam existir nos métodos do estado da técnica.

[00191] Essa etapa de cálculo do fator de escala otimizado é por exemplo descrita anteriormente em referência à figura 4 e às figuras 5a e 5b.

[00192] A etapa E604 realizada pelo bloco 402 ou 409 (de acordo com a taxa de decodificação) para a extensão de banda, aplica o fator de escala otimizado assim calculado ao sinal de excitação estendido de modo a obter um sinal de extensão estendido otimizado uHB’(n).

[00193] Em uma modalidade de realização particular, o dispositivo de determinação do fator de escala otimizado 708 está integrado em um dispositivo de extensão de banda descrito agora em referência à figura 7. Esse dispositivo de determinação do fator de escala otimizado ilustrado pelo bloco 708 implementa o processo de determinação do fator de escala otimizado descrito anteriormente em referência à figura 6.

[00194] Nessa modalidade de realização, o bloco 400 de extensão de banda da figura 4 compreende os blocos de 700 a 707 da figura 7 descrita agora.

[00195] Assim, na entrada do dispositivo de extensão de banda, um sinal de excitação de banda baixa decodificado ou estimado por análise é recebido (u(n)). A extensão de banda utiliza aqui a excitação decodificada a 12,8 kHz (exc2 ou u(n)) na saída do bloco 302 da figura 3.

[00196] É de notar que nessa modalidade de realização, a geração da excitação sobreamostrada e estendida é efetuada em uma banda de frequência indo de 5 a 8 kHz incluindo, portanto, uma segunda banda de frequência (6,4-8kHz) superior à primeira banda de frequência (0-6,4 kHz).

[00197] A geração de um sinal de excitação estendido é efetuada pelo menos sobre a segunda banda de frequência, mas também sobre uma parte da primeira banda de frequência.

[00198] Evidentemente, os valores definindo essas bandas de frequências podem ser diferentes de acordo com o decodificador ou o dispositivo de processamento onde a invenção é aplicada.

[00199] Para esse exemplo de realização, esse sinal é transformado para obter um espectro de sinal de excitação U(k) pelo módulo de transformação tempo frequência 500.

[00200] Em uma modalidade de realização particular, a transformada utiliza uma DCT-IV (para "Discrete Cosine Transform" - Tipo IV em inglês) (bloco 700) sobre a trama corrente de 20 ms (256 amostras), sem gestão de janelas, o que volta a transformar diretamente u(n) com n = 0, ..., 255 de acordo com a fórmula seguinte:

[00201] onde N = 256 e k = 0, ... , 255

[00202] Se nota aqui a transformação sem gestão de janelas (ou de modo equivalente com uma janela retangular implícita do comprimento da trama) é possível porque o processamento é efetuado no domínio da excitação, e não no domínio do sinal, embora nenhum artefato (efeitos de bloco) seja audível, o que constitui uma vantagem importante dessa modalidade de realização da invenção.

[00203] Nessa modalidade de realização, a transformação DCT-IV é implementada por FFT segundo o algoritmo chamado «Evolved DCT(EDCT)» descrito no artigo de D.M. Zhang, H.T. Li, A Low Complexity Transform - Evolved DCT, IEEE 14a International Conference on Computational Science and Engineering (CSE), agosto 2011, pp 144-149, e implementado nas normas UIT-T G.718 Anexo B e G.729.1 Anexo E.

[00204] Em variantes da invenção e sem perda de generalidade, a transformação DCT-IV poderá ser substituída por outras transformações de tempos-frequências a curto prazo com o mesmo comprimento e no domínio da excitação, como uma FFT (para "Fast Fourier Transform" em inglês) ou uma DCT-II (Discrete Cosine Transform -Tipo II). De modo alternativo, poderá ser substituída a DCT-IV sobre a trama por uma transformação com recobrimento adição e gestão de janelas de comprimento superior ao comprimento da trama corrente, por exemplo utilizando uma MDCT (para "Modified Discrete Cosine Transform" em inglês). Nesse caso o atraso T no bloco 310 da figura 3, deverá ser ajustado (reduzido) de modo adequado em função do atraso adicional devido à análise/síntese por essa transformada.

[00205] O espectro DCT, U(k), de 256 amostras cobrindo a banda 0-6400 Hz (de 12,8 kHz), é em seguida estendido (bloco 701) em um espectro de 320 amostras cobrindo a banda 0-8000 Hz (de 16 kHz) na forma seguinte:

[00206] onde se toma de modo preferencial start_band = 160.

[00207] O bloco 701 funciona como módulo de geração de um sinal de excitação sobreamostrado e estendido e realiza uma reamostragem de 12,8 a 16 kHz no domínio de frequência, acrescentando % de amostras (k = 240, ..., 319) ao espectro, a razão entre 16 e 12,8 sendo de 5/4.

[00208] Para além disso, o bloco 701 realiza uma filtragem passa alto implícita na banda 0-5000 Hz visto que as 200 primeiras amostras de UHB1 (k) são colocadas a zero; como explicado mais tarde, essa filtragem passa alto é também completada por uma parte de atenuação progressiva dos valores espectrais de índices k = 200, ..., 255 na banda 5000-6400 Hz, essa atenuação progressiva é implementada no bloco 704 mas poderia ser realizada separadamente fora do bloco 704. De modo equivalente e em variantes da invenção, a implementação da filtragem passa alto separada em blocos de coeficientes de índice k = 0, ...,199 colocado a zero, de coeficientes k = 200, ..., 255 atenuados no domínio transformado, poderá, pois, ser efetuado em uma única etapa.

[00209] Nesse exemplo de realização e de acordo com a definição de UHB1 (k), se observa que a banda 5000-6000 Hz de UHB1(k) (que corresponde aos índices k = 200, ., 239) é copiada a partir da banda 5000-6000 Hz de U(k). Essa aproximação permite manter o espectro original nessa banda e evita introduzir distorções na banda 5000-6000 Hz no momento da adição da síntese HF com a síntese BF - em particular a fase do sinal (implicitamente representada no domínio DCT-IV) nessa banda é preservada.

[00210] A banda 6000-8000 Hz de UHB1 (k) é aqui definida copiando a banda 4000-6000 Hz de U(k) visto que o valor de start_band é fixado preferencialmente a 160.

[00211] Em uma variante da modalidade de realização, o valor de start_band se poderá tornar adaptativo em torno do valor de 160. Os detalhes da adaptação do valor start_band não são aqui descritos porque ultrapassam o quadro da invenção.

[00212] Para alguns sinais de banda larga (amostrados a 16 kHz), a banda alta (>6 kHz) pode ser barulhenta, harmônica ou compreender uma mistura de ruído e de harmônicas. Para além disso, o nível de harmonicidade na banda 6000-8000 Hz está geralmente correlacionado ao das bandas de frequências inferiores. Assim o bloco 702 de geração de ruído, realiza uma geração de ruído no domínio de frequência UHBN(k) para k = 240, ..., 319 (80 amostras) correspondente a uma segunda banda de frequência chamada de alta frequência para combinar em seguida esse ruído com o espectro UHB1 (k) no bloco 703.

[00213] Em uma modalidade de realização particular, o ruído (na banda 6000-8000 Hz) é gerado de modo pseudo-aleatório com um gerador de congruência linear sobre 16 bits:

[00214] com a convenção que UHBN (239) na trama corrente corresponde ao valor UHBN (319) da trama precedente. Em variantes da invenção, poderá ser substituída essa geração de ruído por outros métodos.

[00215] O bloco 703 de combinação pode ser realizado de diferentes maneiras. De modo privilegiado é considerado uma mixagem adaptativa da forma: UHB2 (k) = βUHBl (k) + αGHBNUHBN (k), k = 240, ..., 319

[00216] onde GHBN é um fator de normalização servindo para igualizar o nível de energia entre os dois sinais,

[00217] com £ = 0,01, e o coeficiente α (compreendido entre 0 e 1) é ajustado em função de parâmetros estimados a partir da banda baixa decodificada e o coeficiente β (compreendido entre 0 e 1) depende de α.

[00218] Em uma modalidade de realização privilegiada é calculada a energia do ruído em três bandas: 2000-4000 Hz, 4000-6000 Hz e 6000-8000 Hz, com:

[00219] e N(k1, k2) é o conjunto dos índices k para os quais o coeficiente de índice k é classificado como estando associado a ruído. Esse conjunto pode por exemplo ser obtido detectando os picos locais em U’(k) verificando |U’(k)| |U’(k -1)| e |U’(k)| |U’(k) + 1)| e considerando que essas linhas não estão associadas a ruído, ou (aplicando a negação da condição anterior): N(a,b)={a < k <b||U’(k)|<|U’(k-1)|ou U'(k)|<|U' (k + 1)|}

[00220] Se pode notar que outros métodos de cálculo da energia do ruído são possíveis, por exemplo tomando o valor médio do espectro sobre a banda considerada ou aplicando um alisamento a cada linha de frequência antes de calcular a energia por banda.

[00221] É fixado α de tal modo que a razão entre a energia do ruído nas bandas 4-6 kHz e 6-8 kHz seja a mesma que a entre as bandas 2-4 kHz e 4-6 kHz:

onde

[00222] Em variantes da invenção, o cálculo de α poderá ser substituído por outros métodos. Por exemplo, em uma variante, se poderão extrair (calcular) diferentes parâmetros (ou «features» em inglês) caracterizando o sinal de banda baixa, cujo parâmetro «tilt» semelhante ao calculado no codec AMR-WB, e se estimará o fator α em função de uma regressão linear a partir desses diferentes parâmetros limitando seu valor entre 0 e 1. A regressão linear poderá por exemplo ser estimada de modo supervisionado estimando o fator α dando a banda alta original em uma base de aprendizagem. Se notará que o modo de cálculo de α não limita a natureza da invenção.

[00223] Em uma modalidade de realização privilegiada, se toma

para preservar a energia do sinal estendido após mixagem.

[00224] Em uma variante os fatores β e α poderão ser adaptados para ter em conta o fato de que um ruído injetado em uma determinada banda do sinal é captada em geral como mais forte do que um sinal harmônico com a mesma energia na mesma banda. Assim se poderão modificar os fatores β e α como se segue:

[00225] β ^ β.f(α)

[00226] a ^ α.f(α)

[00227] onde f(α) é uma função decrescente de α, por exemplo

, b = 1,1 a = 1,2, /(a) limitado de 0,3 a 1. É preciso notar que após multiplicação por /(α), α2 + β2 <1 embora a energia do sinal UHB2 (k) = βUHb1 (k) + aGHBNUHBN (k) é mais baixa do que a energia de UHB1(k) (a diferença de energia depende de a, quanto mais se acrescenta ruído, mais a energia é atenuada).

[00228] Em outras variantes da invenção se poderá ter:

[00229] β = 1 - α

[00230] o que permite preservar o nível de amplitude (quando os sinais combinados são do mesmo sinal); no entanto essa variante tem a desvantagem de resultar em uma energia global (ao nível de UHB2(k)) que não é monótona em função de α.

[00231] Se nota, portanto, aqui que o bloco 703 realiza o equivalente do bloco 101 da figura 1 para normalizar o ruído branco em função de uma excitação que aqui está por outro lado no domínio da frequência, já entendida na cadência de 16 kHz; para além disso, a mixagem está limitada à banda 6000-8000 Hz.

[00232] Em uma variante simples, se pode considerar uma realização do bloco 703, onde os espectros UHB1,(k) ou GHBNUHBN(k), são selecionados (comutados) de modo adaptativo, o que equivale a apenas permitir os valores 0 ou 1 para α; essa aproximação volta para classificar o tipo de excitação a produzir na banda 6000-8000 Hz.

[00233] O bloco 704 realiza de modo opcional, uma operação dupla de aplicação de resposta de frequência de filtro passa banda e de filtragem de desacentuação (ou falta de ênfase) no domínio de frequência.

[00234] Em uma variante da invenção, a filtragem de desacentuação se poderá realizar no domínio temporal, após o bloco 705 realmente antes do bloco 700; no entanto, nesse caso, a filtragem passa banda efetuada no bloco 704 pode deixar alguns componentes de baixa frequências de níveis muito fracos que se veem amplificar por desacentuação, o que pode modificar de modo ligeiramente perceptível a banda baixa decodificada. Por essa razão, é preferível realizar aqui a desacentuação no domínio de frequência. Na modalidade de realização privilegiada, os coeficientes de índice k = 0, ..., 199 são colocados a zero, assim a desacentuação é limitada aos coeficientes superiores.

[00235] A excitação é antes de mais desacentuada de acordo com a equação seguinte:

[00236] onde Gdeemph(k) é a resposta de frequência do filtro 1/(1-0,68Z-1) sobre uma banda de frequência discreta restrita. Tendo em conta as frequências discretas (ímpares) da DCT-IV, se define aqui Gdeemph(k) como:

[00237] Se uma outra transformação que a DCT-IV utiliza, a definição de θk poderá ser ajustada (por exemplo para frequências pares).

[00238] É de notar que a desacentuação é aplicada em duas fases para k = 200, ..., 255 correspondendo à banda de frequência 5000-6400 Hz, onde a resposta 1/(1-0,68Z-1) é aplicada como a 12,8kHz, e para k = 256, ..., 319 correspondendo à banda de frequência 6400-8000 Hz, onde a resposta se estende de 16 kHz aqui com um valor constante na banda 6,4-8 kHz.

[00239] Se pode notar que no codec AMR-WB a síntese HF não é desacentuada. Na modalidade de realização apresentada aqui, o sinal de altas frequências é pelo contrário desacentuado de modo a reconduzi-lo em um domínio coerente com o sinal de baixas frequências (0,6-4 kHz) que sai do bloco 305 da figura 3. Isso é importante para a estimativa e para o ajustamento ulterior da energia da síntese HF.

[00240] Em uma variante da modalidade de realização, para reduzir a complexidade, se poderá fixar Gdeemph(k) em um valor constante independente de k, tomando por exemplo Gdeemph(k) = 0,6 o que corresponde aproximadamente ao valor médio de Gdeemph(k) para k = 200, ..., 319 nas condições da modalidade de realização descrita mais acima.

[00241] Em uma outra variante da modalidade de realização do dispositivo de extensão, a desacentuação poderá ser feita de modo equivalente no domínio temporal após DCT inverso.

[00242] Além da desacentuação, uma filtragem passa banda é aplicada com duas partes separadas: uma passa alto fixa, a outra passa baixo adaptativa (função do débito).

[00243] Essa filtragem é efetuada no domínio de frequência.

[00244] Em uma modalidade de realização privilegiada, é calculada a resposta artificial de filtro passa baixo no domínio de frequência como segue:

[00245]

[00246] onde Nlp = 60 a 6,6 kbit/s, 40 a 8,85 kbit/s, 20 para débitos >8,85 bits/s.

[00247] Em seguida é aplicado um filtro passa banda na forma:

[00248] A definição de Ghp(k), k = 0,..., 55 é dada por exemplo na tabela 1 mais abaixo.

[00249] É de notar que em variantes da invenção os valores de Ghp(k) poderão ser modificados guardando uma diminuição progressiva. Assim a filtragem passa baixo com largura de banda variável, Glp(k), poderá ser ajustada com valores ou com um suporte de frequência diferentes, sem mudar o princípio dessa etapa de filtragem.

[00250] É de notar também que a filtragem passa banda poderá ser adaptada definindo uma única etapa de filtragem combinando as filtragens passa alto e passa baixo.

[00251] Em uma outra modalidade de realização, a filtragem passa banda poderá ser realizada de modo equivalente no domínio temporal (como no bloco 112 da figura 1) com diferentes coeficientes de filtro de acordo com o débito, após uma etapa de DCT inversa. No entanto, se notará que é vantajoso realizar essa etapa diretamente no domínio de frequência porque a filtragem é efetuada no domínio da excitação LPC e, portanto, os problemas de convolução circular e de efeitos de borda são muito limitados nesse domínio.

[00252] É de notar também que no caso do débito de 23,85 kbit/s não se efetua a desacentuação da excitação UHB2(k) para ficar em acordo com o modo cujo ganho de correção é calculado no codificador AMR-WB e para evitar as multiplicações duplas. Nesse caso o bloco 704 realiza somente a filtragem passa baixo.

[00253] O bloco 705 de transformada inversa realiza uma DCT inversa em 320 amostras para encontrar a excitação de alta frequência amostrada a 16 kHz. Sua implementação é idêntica ao bloco 700, porque a DCT-IV é ortonormal, a não ser que o comprimento da transformada seja de 320 em vez de 256, e se obtém:

[00254] onde N16K = 320 e k = 0, ..., 319.

[00255] Essa excitação amostrada a 16 kHz é em seguida de modo opcional colocada à escala por ganhos definidos por sub-trama de 80 amostras (bloco 707).

[00256] Em uma modalidade de realização privilegiada, é calculado primeiro (bloco 706) um ganho gHB1(m) por sub-trama por razões de energia das sub-tramas tal que cada sub-trama de índice m = 0, 1, 2 ou 3 da trama corrente:

[00257] com S=0,01. Se pode escrever o ganho por sub-trama gHB1(m) sob a forma:

[00258] o que mostra que se garante no sinal uHB a mesma razão entre energia por sub-trama e energia por trama que no sinal u(n).

[00259] O bloco 707 efetua a colocação à escala do sinal combinado de acordo com a equação seguinte:

[00260] UHB(n)=gHBi(m)uHB0(n), n = 80m,... , 80(m+1)- 1

[00261] É de notar que a realização do bloco 706 difere da do bloco 101 da figura 1, porque a energia ao nível da trama corrente é tida em conta além daquela da sub-trama. Isso permite ter a razão da energia de cada sub-trama em relação à energia da trama. Se comparam, pois, razões de energia (ou energias relativas) em vez das energias absolutas entre banda baixa e banda alta.

[00262] Assim, essa etapa de colocação à escala permite manter na banda alta a razão de energia entre a subtrama e a trama do mesmo modo que na banda baixa.

[00263] É de notar aqui que no caso do débito 23,85 kbit/s os ganhos gHB1(m) são calculados, mas aplicados na etapa seguinte, como explicado em referência à figura 4, para evitar as multiplicações duplas. Nesse caso uHB(n) = uHB0(n).

[00264] De acordo com a invenção, o bloco 708 efetua em seguida um cálculo de fator de escala por sub-trama do sinal (etapas E602 a E603 da figura 6), como descrito anteriormente em referência à figura 6 e detalhado na figura 4 e 5.

[00265] Finalmente, a excitação corrigida uHB’(n) é filtrada pelo módulo de filtragem 710 que se pode realizar aqui tomando como função de transferência 1 / Â (z/Y), onde Y = 0,9 a 6,6 kbit/s e Y = 0,6 nos outros débitos, o que limita a ordem do filtro para a ordem 16.

[00266] Em uma variante, essa filtragem se poderá realizar do mesmo modo que a que é descrita para o bloco 111 da figura 1 do decodificador AMR-WB, no entanto a ordem do filtro passa a 20 no débito de 6,6, o que não muda de modo significativo a qualidade do sinal sintetizado. Em uma outra variante, se poderá efetuar a filtragem de síntese LPC no domínio de frequência, após ter calculado a resposta de frequência do filtro implementado no bloco 710.

[00267] Em uma variante de realização, a etapa de filtragem por um filtro 710 de predição linear para a segunda banda de frequência é combinado para a aplicação do fator de escala otimizado, o que permite reduzir a complexidade de processamento. Assim as etapas de filtragem 1/ Â(z/y) e de aplicação do fator de escala otimizado gHB2 são combinada em uma única etapa de filtragem gHB2 /Â(z/y) para reduzir a complexidade de processamento.

[00268] Em variantes de realização da invenção, a codificação da banda baixa (0-6,4 kHz) poderá ser substituída por um codificador CELP diferente do usado em AMR-WB, como por exemplo o codificador CELP em G.718 para 8 kbit/s. Sem perda de generalidade outros codificadores de banda larga ou funcionando em frequências superiores a 16 kHz, onde a codificação de banda baixa funciona a uma frequência interna de 12,8 kHz poderiam ser usados. Por outro lado, a invenção pode ser adaptada de modo evidente em outras frequências de amostragem de 12,8 kHz, quando um codificador de baixas frequências funciona em uma frequência de amostragem inferior à do sinal original ou reconstruído. Quando a decodificação de banda baixa não utiliza predição linear, não se dispõe de um sinal de excitação para estender, nesse caso se poderá realizar uma análise LPC do sinal reconstruído na trama corrente e se calculará uma excitação LPC de modo a poder aplicar a invenção.

[00269] Finalmente, em uma outra variante da invenção, a excitação (u(n)) é reamostrada, por exemplo por interpolação linear ou "spline" cúbico, de 12,8 a 16 kHz antes de transformação (por exemplo DCT-IV) de comprimento 320. Essa variante tem o defeito de ser mais complexa, porque a transformada (DCT-IV) da excitação é então calculada sobre uma largura maior e a reamostragem não se efetua no domínio da transformada.

[00270] Para além disso, em variantes da invenção, todos os cálculos necessários para a estimativa dos ganhos (GHBN, gHB1 (m), gHB2 (m), gHBN, ...) poderão ser efetuados em um domínio logarítmico.

[00271] Em variantes da extensão de banda, a excitação de banda baixa u(n) e o filtro LPC 1 /Â (z) serão estimados por trama, por análise LPC de um sinal de banda baixa cuja banda deve ser estendida. O sinal de excitação de banda baixa é então extraído por análise do sinal áudio.

[00272] Em uma modalidade possível de realização dessa variante, o sinal áudio de banda baixa é reamostrado antes da etapa de extração, embora a excitação extraída do sinal áudio (por predição linear) seja já reamostrada.

[00273] A extensão de banda ilustrada na figura 7, é aplicada nesse caso a uma banda baixa que não está decodificada, mas analisada.

[00274] A figura 8 representa um exemplo de realização material de um dispositivo de determinação de um fator de escala otimizado 800 de acordo com a invenção. Esse pode ser parte integrante de um decodificador de sinal de audiofrequência ou de um equipamento que recebe sinais de audiofrequências decodificados ou não.

[00275] Esse tipo de dispositivo compreende um processador PROC cooperando com um bloco de memória BM compreendendo uma memória de armazenagem e/ou de trabalho MEM.

[00276] Um tal dispositivo compreende um módulo de entrada E apto para receber um sinal áudio de excitação decodificado ou extraído em uma primeira banda de frequência chamada banda baixa (u(n) ou U (k)) e os parâmetros de um filtro de síntese de predição linear (Â( )). Compreende um módulo de saída S apto para transmitir o sinal de alta frequência sintetizado e otimizado (uHB’(n)) por exemplo para um modo de filtragem como o bloco 710 da figura 7 ou para um módulo de reamostragem como o módulo 311 da figura 3.

[00277] O bloco de memória pode vantajosamente compreender um programa de informática compreendendo instruções de código para a implementação das etapas do processo de determinação de um fator de escala otimizado para aplicar em um sinal de excitação ou em um filtro no sentido da invenção, quando essas instruções são executadas pelo processador PROC, e nomeadamente as etapas de determinação (E602) de um filtro de predição linear chamado filtro adicional, de ordem inferior ao filtro de predição linear da primeira banda de frequência, os coeficientes do filtro adicional sendo obtidos a partir dos parâmetros decodificados ou extraídos da primeira banda de frequência, de cálculo (E603) de um fator de escala otimizado em função pelo menos dos coeficientes do filtro adicional.

[00278] Tipicamente, a descrição da figura 6 retoma as etapas de um algoritmo de uma tal programa de informática. O programa de informática pode também ser armazenado em um suporte de memória legível por um leitor do dispositivo ou transferível no espaço de memória desse.

[00279] A memória MEM registra de modo geral, todos os dados necessários para a implementação do processo.

[00280] Em uma modalidade possível de realização, o dispositivo assim descrito pode também compreender as funções de aplicação do fator de escala otimizado no sinal de excitação estendido, de extensão de banda de frequência, de decodificação de banda baixa e outras funções de processamento descritas por exemplo na figura 3 e 4 além das funções de determinação de fator de escala otimizado de acordo com a invenção.

Claims

1. MÉTODO PARA A DETERMINAÇÃO DE UM FATOR DE ESCALA OTIMIZADO, a ser aplicado a um sinal de excitação ou a um filtro em um método para estender uma banda de frequência de um sinal de audiofrequência, sendo o método caracterizado por compreender as etapas de: calcular uma resposta de frequência, R, de um filtro de predição linear de uma banda de frequência, alisar um valor da resposta de frequência R para obter Ralisado usando um método de alisamento selecionado dentre um grupo de métodos de alisamento incluindo ao menos dois métodos de alisamento, em função de um conjunto de parâmetros que compreende uma pluralidade de parâmetros, incluindo um valor de inclinação espectral ou “tilt”, sendo que o método de alisamento selecionado compreende um método de alisamento adaptativo que é adaptativo ao longo do tempo, e aplicar Ralisado ao sinal de excitação, ou ao filtro, para estender a banda de frequência do sinal de audiofrequência; determinar o fator de escala otimizado com base no Ralisado, uma resposta de frequência do filtro de predição linear ao longo de uma segunda banda de frequência mais alta do que a primeira banda de frequência e uma resposta de frequência de um filtro adicional obtido de um polinômio do filtro de predição linear; e aplicar o fator de escala otimizado ao sinal de excitação ou ao filtro para reduzir artefatos durante uma renderização do sinal de audiofrequência.

2. MÉTODO, de acordo com a reivindicação 1, caracterizado pelo alisamento ser mais forte para valores de R menores.

3. MÉTODO, de acordo com a reivindicação 1 ou 2, caracterizado pelo alisamento adaptativo estar sob a forma: Ralisamento= (1-a )Rpré-calculado + a.Rprev, Onde a = 1—Rpré- calculado 2 , Onde Rprev cOrrespOnde aO valOr de RalisadO na sub-trama anterior, Rpré-calculado corresponde ao valor de R conforme calculado durante a etapa de cálculo de uma resposta de frequência, R, de um filtro de predição linear de uma banda de frequência.

4. MÉTODO, de acordo com a reivindicação 1, caracterizado pelo conjunto de métodos de alisamento compreender adicionalmente um alisamento exponencial com um fator que é fixo ao longo do tempo.

5. MÉTODO, de acordo com a reivindicação 4, caracterizado pelo alisamento exponencial ser do tipo: Ralisado = 0,5 Rpré-calculado + 0,5 Rprev, onde Rprev corresponde ao valor de Ralisado na sub-trama anterior, Rpré-calculado corresponde ao valor de R conforme calculado durante a etapa de cálculo de uma resposta de frequência, R, de um filtro de predição linear de uma banda de frequência.

6. MÉTODO, de acordo com a reivindicação 4 ou 5, caracterizado por compreender adicionalmente a etapa de determinar o fator de escala otimizado, a referida etapa de determinação do fator de escala otimizado compreendendo o cálculo de máx(mín(Ralisado, Q),P)/P, onde P é a resposta de frequência do filtro de predição linear ao longo de uma segunda banda de frequências, a segunda banda de frequências sendo mais alta que a primeira banda de frequências, Q é a resposta de frequência de um filtro adicional obtido pelo truncamento do polinômio do filtro de predição linear.

7. MÉTODO, de acordo com a reivindicação 3 ou 5, caracterizado por

onde M=16 é a ordem do filtro de predição linear, θ corresponde à frequência de 6.000 Hz normalizada para uma taxa de amostragem de 12,8 kHz, os coeficientes sendo os coeficientes do polinômio do filtro de predição linear.

8. APARELHO PARA A DETERMINAÇÃO DE UM FATOR DE ESCALA OTIMIZADO, a ser aplicado a um sinal de excitação ou a um filtro em um aparelho para estender uma banda de frequência de um sinal de audiofrequência, sendo o aparelho caracterizado por compreender: um processador para calcular uma resposta de frequência, R, de um filtro de predição linear em relação a uma primeira banda de frequência, um bloco de alisamento configurado para selecionar um método de alisamento para alisar um valor da resposta de frequência R, de modo a obter Ralisado, o método de alisamento sendo selecionado dentre um grupo de ao menos dois métodos de alisamento diferentes com base em um conjunto de uma pluralidade de parâmetros, incluindo um valor de uma inclinação espectral ou “tilt”, sendo que o conjunto de métodos de alisamento compreende um método de que é adaptativo ao longo do tempo; e uma saída que aplica Ralisado como sinal excitação, ou ao filtro, para estender a banda de frequência de um sinal de audiofrequência, sendo que o processador é ainda configurado para: determinar o fator de escala otimizado com base no Ralisado, uma resposta de frequência do filtro de predição linear ao longo de uma segunda banda de frequência mais alta do que a primeira banda de frequência e uma resposta de frequência de um filtro adicional obtido de um filtro de predição linear; e aplicar o fator de escala otimizado excitação ou ao filtro para reduzir artefatos renderização do sinal de audiofrequência.