BR112015018102B1

BR112015018102B1 - Processo de processamento de um sinal, comportando uma sucessão de amostras repartidas em quadros sucessivos e dispositivo de decodificação deste sinal

Info

Publication number: BR112015018102B1
Application number: BR112015018102-3A
Authority: BR
Inventors: Stéphane Ragot; Julien Faure
Original assignee: Orange
Priority date: 2013-01-31
Filing date: 2014-01-30
Publication date: 2022-03-22
Also published as: WO2014118468A1; MX2015009964A; US9613629B2; BR112015018102A2; CA2899438C; FR3001593A1; US20150371647A1; JP6426626B2; RU2015136540A; KR20150113161A; CN105122356A; RU2652464C2; EP2951813A1; CN105122356B; EP2951813B1; CA2899438A1; KR102398818B1; MX350634B; JP2016511432A

Abstract

CORREÇÃO APERFEIÇOADA DE PERDA DE QUADRO NA DECODIFICAÇÃO DE UM SINAL. A invenção refere-se a um processamento de sinal, o sinal comportando uma sucessão de amostras repartidas em quadros sucessivos. O processamento é utilizado durante uma decodificação desse sinal para substituir pelo menos um quadro de sinal perdido na decodificação, e comporta, em particular, as etapas: a) pesquisa (S3) , em um sinal válido disponível na decodificação, de um segmento de sinal, de duração correspondente a um período determinado em função desse sinal válido, b) análise espectral do segmento (S4), para uma determinação de componentes espectrais do segmento, c) síntese (S6) de pelo menos um quadro de substituição do quadro perdido, por construção de um sinal de síntese, a partir de uma parte pelo menos dos componentes espectrais.

Description

[001] A presente invenção refere-se a uma correção de sinal, no- tadamente de um decodificador, em caso de perda de quadro na recepção do sinal por esse decodificador.

[002] O sinal se apresenta sob a forma de uma sucessão de amostras, recortada em quadros sucessivos e entende-se, então, por "quadro" um segmento de sinal composto de uma ou várias amostras (uma realização onde um quadro comporta uma amostra única sendo possível se o sinal se apresenta sob a forma de uma sucessão de amostras, como, por exemplo, nos codecs, conforme a recomendação UIT-T-G.711).

[003] A invenção se situa no domínio do processamento numéri co do sinal, notadamente, mas não exclusivamente no domínio da codificação / decodificação de um sinal áudio. As perdas de quadros intervêm, quando uma comunicação (seja por transmissão em tempo real, seja por armazenamento, visando uma transmissão posterior), utilizando um codificador e um decodificador, é perturbada pelas condições de canal (por causa de problemas rádio, de congestão de rede de acesso, etc.).

[004] Nesse caso, o decodificador utiliza mecanismos de corre ção (ou "ocultação") de perda de quadros para tentar substituir o sinal que falta por um sinal reconstituído, utilizando informações disponíveis no meio do decodificador (por exemplo, o sinal já decodificado ou os parâmetros recebidos em quadros precedentes). Essa técnica permite manter uma boa qualidade de serviço, apesar dos desempenhos de canal degradados.

[005] As técnicas de correção de perda de quadros são mais fre quentemente muito dependentes do tipo de codificação utilizado.

[006] No caso da codificação de um sinal de fala baseado em tecnologias de tipo CELP (para "Code Excited Linear Prediction"), a correção de perda de quadro explora, em particular, o modelo CELP. Por exemplo, em uma codificação, segundo a recomendação UIT-T G.722.2, a solução para substituir um quadro perdido (ou um "pacote") consiste em prolongar a utilização de um ganho de predicção a longo prazo, atenuando-o, assim como a prolongar a utilização de cada parâmetro ISF (para "Imittance Spectral Frequency"), fazendo-os tender para sua médias respectivas. A altura tonal do sinal de fala (ou "pitch", parâmetro designado "LTP lag") é também repetida. Por outro lado, fornecem-se ao decodificador valores aleatórios de parâmetros caracterizando "a inovação" (a excitação na codificação CELP).

[007] Convém anotar já que a aplicação desse tipo de método, para codificações por transformada ou codificações de forma de ondas de tipo "PCM" ou "ADPCM", necessita de uma análise paramétrica de tipo CELP do sinal passado no nível do decodificador, o que introduz uma complexidade suplementar.

[008] Na recomendação UIT-T G.711 correspondente a um codi ficador de forma de ondas, um exemplo informativo de processamento de correção de perda de quadro (dado na parte Apêndice I do texto dessa recomendação) consiste em encontrar um período de pitch no sinal de fala já decodificado e repetir o último período de pitch por re- cobrimento - adição (ou "overlap-add, em inglês) entre o sinal já decodificado e o sinal repetido (reconstruído por ocultação). Esse processamento de "apagar" os artefatos áudio, mas necessita de um prazo suplementar no decodificador (prazo correspondente à duração de abrangência).

[009] A técnica a mais aplicada para corrigir a perda de quadro no caso de uma codificação por transformada consiste em repetir o espectro decodificado no último quadro recebido. Por exemplo, no caso da codificação, segundo a recomendação UIT-T G.722.1, a transformada MLT (para modulated lapped transform), equivalente a uma transformada em cosseno discreta modificada (ou MDCT para modified discrete cosine transform) com uma abrangência de 50 % e janelas de análise / síntese de forma sinusoidal, permite assegurar uma transição (entre o último quadro perdido e o quadro repetido) que é suficientemente lenta para apagar os artefatos ligados à simples repetição do espectro; tipicamente, se mais de um quadro for perdido, o espectro repetido é colocado em zero.

[010] Vantajosamente, esse método de ocultação não necessita de prazo suplementar, já que ele explora a abrangência - adição entre o sinal reconstituído e o sinal passado para realizar uma espécie de "fundido encadeado" (com dobra temporal devido à transformada MLT). Trata-se de uma técnica muito pouco cara em termos de recursos.

[011] Todavia, ela apresenta um defeito ligado à incoerência temporal entre o sinal exatamente antes da perda de quadro e o sinal repetido. Resulta daí uma descontinuidade (ou incoerência) de fase, que pode produzir artefatos áudio importantes, caso a duração de re- cobrimento entre os sinais associados a dois quadros seja reduzida (como é o caso, em particular, quando janelas MDCT ditas "de pequeno retardo" são utilizadas). Ilustrou-se essa situação de duração curta de abrangência na figura 1B no caso de uma transformada MLT de pequeno retardo, em comparação da situação habitual da figura 1A, na qual janelas longas em seno são utilizadas, segundo a recomendação G.722.1 (oferecendo então uma grande duração de abrangência ZRA, com uma modulação muito progressiva). Aparece que uma modulação por uma janela com pequeno retardo produz uma defasagem que é audível devido a uma zona de abrangência curta ZRB, conforme representado na figura 1B.

[012] Nesse caso, mesmo assim uma solução combinando uma pesquisa de pitch (caso da decodificação, conforme a recomendação G.711 App.1) e uma abrangência-adição produzida pela janela de uma transformada MDCT seria utilizada, ela não seria suficiente para suprimir os artefatos áudio ligados notadamente na defasagem entre diferentes componentes frequenciais.

[013] A presente invenção vem melhorar a situação.

[014] Ela propõe para isso um processo de processamento de um sinal que comporta uma sucessão de amostras repartidas em quadros sucessivos, o processo sendo aplicado durante uma decodifica- ção desse sinal para substituir pelo menos um quadro de sinal perdido na decodificação. Em particular, o processo comporta as seguintes etapas: a) pesquisa, em um sinal válido disponível na decodifica- ção, de um segmento de sinal, de duração correspondente a um período determinado em função desse sinal válido; b) análise espectral do segmento, para uma determinação de componentes espectrais do segmento; c) síntese de pelo menos um quadro de substituição do quadro perdido, por construção de um sinal de síntese a partir de uma parte pelo menos de componentes espectrais.

[015] Entende-se no caso por "quadro" um bloco de pelo menos uma amostra. Na maior parte dos codecs, esses quadros são constituídos de várias amostras. Todavia, em codecs notadamente de tipo PCM (para "Pulse Code Modulation"), por exemplo, segundo a recomendação G.711, o sinal é constituído simplesmente de uma sucessão de amostras (um "quadro" no sentido da invenção comporta então apenas uma única amostra). A invenção pode então também se apli- car a esse tipo de codecs.

[016] Por exemplo, o sinal válido pode ser constituído dos últimos quadros válidos recebidos antes da perda de quadro. Eventualmente, pode-se ter recorrido também a um ou alguns quadros válidos seguintes, recebidos após o quadro perdido (embora essa realização acarrete um retardo na decodificação). As amostras do sinal válido que são utilizadas podem ser diretamente aquelas dos quadros, e eventualmente aquelas que correspondem à memória da transformada e que contêm tipicamente uma dobra (ou aliasing) no caso de uma decodifi- cação por transformada com abrangência de tipo MLT ou MDCT.

[017] A invenção fornece então uma solução vantajosa à corre ção de perda de quadro(s), notadamente no caso em que um retardo suplementar no decodificador é proscrito, por exemplo, quando se utiliza um decodificador por transformada com janelas que não permitem ter uma abrangência suficientemente grande entre o sinal de substituição e o sinal oriundo do desdobramento temporal (caso típico das janelas de pequeno retardo para uma MDCT ou uma MLT, conforme representa na figura 1B). A invenção oferece uma vantagem particular para uma abrangência, devido à utilização dos componentes espectrais sobre os últimos quadros válidos recebidos para construir um sinal de síntese, comportando a coloração espectral destes últimos quadros válidos. Todavia, a invenção se aplica naturalmente a qualquer tipo de codificação /decodificação (por transformada, CELP, PCM, ou outras).

[018] Em um modo de realização, o processo comporta uma pesquisa, por correlação no sinal válido, de um período de repetição, a duração do segmento precitada, comportando então pelo menos um período de repetição.

[019] Esse "período de repetição" corresponde, por exemplo, a um período de pitch no caso de um sinal de fala de voz (inverso da frequência fundamental do sinal). Todavia, o sinal pode ser também oriundo de um sinal de música, por exemplo, apresentando uma tonalidade global à qual é associada uma frequência fundamental, assim como um período fundamental que poderia corresponder ao período de repetição precitado.

[020] Pode-se, por exemplo, ter recorrido a uma pesquisa de pe ríodo de repetição ligada à tonalidade do sinal. Por exemplo, pode-se constituir um primeiro buffer (ou "memória tampão", em francês) de algumas últimas amostras validamente recebidas e pesquisar a correlação em um segundo buffer de maior tamanho, as algumas amostras do segundo buffer que correspondem melhor em sua sucessão àqueles do primeiro buffer. O desvio temporal entre essas amostras identificadas do segundo buffer e aqueles do primeiro buffer pode constituir um período de repetição ou um múltiplo desse período (segundo a fineza da pesquisa por correlação). Pode-se anotar que o fato de tomar um múltiplo do período de repetição não degrada a aplicação da invenção, pois, nesse caso, a análise espectral é feita simplesmente em um comprimento que abrange vários períodos ao invés de um único, o que contribui para aumentar a fineza da análise.

[021] Assim, pode-se determinar a duração de sinal na qual se efetua a análise espectral como sendo: - uma duração correspondente a um período de repetição (caso uma tonalidade do sinal é bem identificável).; - uma duração correspondente a vários períodos de repetição (ciclos de pitch, por exemplo), caso a correlação dê um primeiro resultado de correlação superior a um limite predeterminado, conforme explicado em um modo de realização opcional a seguir; - uma duração arbitrária de sinal (por exemplo, algumas dezenas de amostras), caso essa tonalidade não seja identificável (sinal comportando essencialmente ruído).

[022] Em uma realização particular, o período de repetição preci- tada corresponde a uma duração para a qual a correlação ultrapassa um valor limite predeterminada. Assim, nessa realização, identifica-se a duração do sinal, desde que a correlação ultrapasse um valor limite predeterminado para essa duração. A duração assim identificada corresponde a um ou vários períodos associados a uma frequência da tonalidade global precitada. Essa realização permite vantajosamente limitar a complexidade da pesquisa por correlação (por exemplo, fixando-se um limite de correlação a 60 ou 70 %), mesmo se, em realidade, se detectar não um único, mas vários períodos de pitch (por exemplo, entre dois e cinco períodos de pitch). Por um lado, a complexidade da pesquisa por correlação é, então, mais baixa. Por outro lado, a análise espectral em vários períodos é mais fina e os componentes espectrais obtidos são mais finamente analisados.

[023] Com referência à obtenção dos componentes espectrais por análise do segmento (por exemplo, por transformada de Fourier rápida, ou FFT), o processo comporta, além disso, uma determinação das fases respectivas associadas a esses componentes espectrais e a construção do sinal de síntese comporta então as fases dos componentes espectrais. A construção do sinal integra então essas fases, como será visto depois, para uma otimização da conexão do sinal de síntese aos últimos quadros válidos e, na maior parte dos casos naturais, aos quadros válidos seguintes.

[024] Em uma realização particular também, o processo compor ta, além disso, uma determinação de amplitudes respectivas associadas aos componentes espectrais, e a construção do sinal de síntese comporta essas amplitudes dos componentes espectrais (para sua consideração na construção do sinal de síntese).

[025] Em uma realização particular, é possível selecionar compo nentes oriundos da análise para a construção do sinal de síntese. Por exemplo, em uma realização na qual o processo comporta uma determinação de amplitudes respectivas associadas aos componentes espectrais, os componentes espectrais de amplitudes as mais elevadas podem ser aquelas selecionadas para a construção do sinal de síntese. Podem-se selecionar também, em complemento ou como variante, aquelas cuja amplitude forma um pico no espectro das frequências.

[026] No caso em que uma única parte dos componentes espec trais é selecionada, em uma realização particular, acrescenta-se ruído ao sinal de síntese, para compensar uma perda de energia relativa aos componentes espectrais não selecionadas para a construção do sinal de síntese.

[027] Em uma realização, o ruído precitado é obtido por um resí duo ponderado (temporalmente) entre o sinal do segmento e o sinal de síntese. Pode, por exemplo, ser ponderado por janelas de abrangência, conforme no âmbito de uma codificação / decodificação por transformação com abrangência.

[028] A análise espectral do segmento comporta uma análise si nusoidal por transformada de Fourier rápida (FFT), preferencialmente de comprimento 2Ak, na qual k é superior ou igual a log2(P), P sendo o número de amostras no segmento de sinal. Essa realização permite reduzir a complexidade do processamento, conforme detalhado depois. Pode-se anotar que outras transformadas são possíveis, por exemplo, uma transformada de tipo Modulated Complex Lapped Transform (MCLT) como alternativa possível à transformada FFT.

[029] Em particular, podem-se prever, na etapa de análise espec tral: - uma interpolação das amostras do segmento para se obter um segundo segmento comportando um número de amostras 2Aceil(log2(P)), onde ceil(x) é o inteiro superior ou igual a x; - um cálculo da transformada de Fourier do segundo seg- mento; e - após determinação dos componentes espectrais, identifi-cação de frequências associadas aos componentes, e construção do sinal de síntese por reamostragem com modificação dessas frequências em função da reamostragem.

[030] A presente invenção encontra uma aplicação vantajosa, mas de modo nenhum limitativa ao contexto de decodificação por transformada com abrangência. Nesse contexto, pode ser vantajoso que o sinal de síntese seja construído (repetido) em uma duração de pelo menos dois quadros, de maneira a abranger também as partes que comportam uma dobra temporal (aliasing) além de um único quadro.

[031] Em uma realização particular, o sinal de síntese pode ser construído em duas durações de quadro e ainda uma duração suplementar correspondente a um prazo introduzido por um filtro de rea- mostragem (notadamente na realização exposta antes e onde uma reamostragem é prevista).

[032] Pode ser vantajoso gerar um buffer de giga em determina das realizações. No caso em que a correção de perda de quadros é realizada conjuntamente com a gestão de um buffer de giga, a invenção pode então ser aplicada nessas condições, adaptando a duração do sinal síntese.

[033] Em uma realização, o processo comporta, além disso, uma separação em uma faixa de frequências altas e uma faixa de frequências baixas, do sinal oriundo do ou dos quadros válidos, e os componentes espectrais são selecionados na faixa de frequências baixas. Essa realização permite limitar a complexidade do processamento essencialmente à faixa de frequências baixas, as altas frequências fornecendo pouca riqueza espectral ao sinal de síntese e podendo ser repetidas de forma mais simples.

[034] Nessa realização, o quadro de substituição pode ser sinteti zado por adição: - de um primeiro sinal construído a partir de componentes espectrais selecionados na faixa de frequências baixas; e - de um segundo sinal oriundo de uma filtragem na faixa de frequências altas, o segundo sinal sendo obtido por duplicação sucessiva de pelo menos um semiquadro válido e sua versão retornada temporalmente.

[035] A presente invenção visa também um programa informático que comporta instruções para a aplicação do processo (do qual, por exemplo, um organograma geral pode ser o esquema geral da figura 2, e eventualmente organogramas particulares das figuras 5 e/ou 8 em determinados modos de realização).

[036] A presente invenção visa também um dispositivo de decodi- ficação de um sinal que comporta uma sucessão de amostras repartidas em quadros sucessivos, o dispositivo comportando meios para substituir pelo menos um quadro de sinal perdido, comportando: a) meios de pesquisa, em um sinal válido disponível à de- codificação, de um segmento de sinal de duração correspondente a um período determinado em função desse sinal válido; b) meios de análise espectral do segmento, para uma de-terminação de componentes espectrais do segmento; c) meios de síntese de pelo menos um quadro de substituição do quadro perdido, por construção de um sinal de síntese a partir de uma parte pelo menos dos componentes espectrais.

[037] Esse dispositivo pode tomar a forma material, por exemplo, de um processador e eventualmente de uma memória de trabalho, tipicamente em um terminal de comunicação.

[038] Outras vantagens e características da invenção aparecerão com a leitura da descrição detalhada a seguir de exemplos de realiza- ção da invenção e com o exame dos desenhos, nos quais: - a figura 1A ilustra uma abrangência com janelas clássicas no âmbito de uma transformada MLT; - a figura 1B ilustra uma abrangência com janelas de baixo retardo, em comparação da representação da figura 1A; - a figura 2 representa um exemplo de processamento geral no sentido da invenção; - a figura 3 ilustra a determinação de um segmento de sinal correspondente a um período fundamental; - a figura 4 ilustra a determinação de um segmento de sinal correspondente a um período fundamental, com, nesse exemplo de realização, uma defasagem à pesquisa de correlação; - a figura 5 representa um modo de realização de uma análise espectral do segmento de sinal; - a figura 6 ilustra um exemplo de realização para recopiar, nas altas frequências, um quadro válido em substituição de vários quadros perdidos; - a figura 7 ilustra a reconstrução do sinal dos quadros perdidos, com a ponderação pelas janelas de síntese; - a figura 8 ilustra um exemplo de aplicação do processo no sentido da presente invenção, na decodificação de um sinal; - a figura 9 representa esquematicamente um dispositivo que comporta meios de aplicação do processo no sentido da invenção.

[039] Um processamento no sentido da invenção é ilustrado na figura 2. Ele é aplicado junto a um decodificador. O decodificador pode ser de qualquer tipo, o processamento sendo globalmente independente da natureza da codificação / decodificação. No exemplo descrito, o processamento se aplica a um sinal áudio recebido. Ele pode se aplicar, todavia, de forma mais geral a qualquer tipo de sinal analisado por defenestração temporal e transformação, com uma harmoni- zação a assegurar com um ou vários quadros de substituição, quando de uma síntese por abrangência- adição.

[040] No decorrer de uma primeira etapa S1 do processamento da figura 2, N amostras áudio são armazenadas sucessivamente em uma memória tampão ou buffer (por exemplo, de tipo FIFO). O buffer áudio b(n) pode ser assim constituído, por exemplo, de 47 ms de sinal, seja por exemplo de 2,35 = 47/20 quadros áudio de 20 ms cada um, a uma frequência de amostragem Fe determinada, por exemplo Fe = 32 kHz. Essas amostras correspondem a amostras já decodificadas e, portanto, acessíveis no momento do processamento de correção de perda de quadro(s). Se a primeira amostra a sintetizar for a amostra de índice temporal N (de um ou vários quadros consecutivos perdidos), o buffer áudio b(n) corresponde então às N amostras precedentes de índices temporais 0 a N-1. No caso de um codificador por transformada, o buffer áudio corresponde às amostras já decodificadas no quadro passado ( e são, portanto, não modificáveis). Se o acréscimo de um retardo suplementar no decodificador for possível (por exemplo, de D amostras), o buffer poderá conter apenas uma parte somente das amostras disponíveis no decodificador, deixando, por exemplo, as D últimas amostras para a abrangência - adição (da etapa S10 da figura 2).

[041] Na etapa de filtragem S2, o buffer áudio b(n) é, em seguida, separado em duas faixas de frequências, uma faixa de frequências baixas BB e uma faixa de frequências altas BH com uma frequência de separação anotada com Fc a seguir, com, por exemplo, Fe = 4 kHz. Essa filtragem é preferencialmente uma filtragem sem prazo. O tamanho do buffer áudio definido anteriormente corresponde então preferencialmente, com essa frequência Fe, agora em N'= N Fc/Fe.

[042] A etapa S3, aplicada sobre a faixa de frequências baixas, consiste em pesquisar em seguida um ponto de circuito e um segmen- to P correspondente ao período fundamental (ou período de pitch) no meio do buffer b (n) reamostrado com a frequência Fe. Para isso, calcula-se em um exemplo de realização uma correlação norma lizada corr(n) entre: - um segmento alvo do buffer (referência CIB da figura 3), esse segmento sendo de tamanho Ns compreendido entre N'-Ns e N'- 1 (de uma duração, por exemplo de 6 ms); e - um segmento deslizante de tamanho Ns que começa em uma amostra que ocupa uma posição entre a amostra 0 e a amostra Nc (com Nc> N'-Ns; não correspondendo por exemplo a uma duração de 35 ms), com:

[043] Com referência à figura 3, caso o máximo de correlação seja encontrado para a amostra de índice temporal n = me, o ponto de circuito com, um período de pitch, de índice n=pb, corresponde à amostra mc+Ns e o segmento anotado p(n) que segue na figura 3 corresponde a um período de pitch de tamanho P = N'- Ns-mc, definido entre as amostras n=pb e n=N'-1.

[044] O segmento deslizante, de pesquisa, é anterior ao segmen to alvo, conforme representado na figura 3. Em particular, a primeira amostra do segmento alvo corresponde à última amostra do segmento de pesquisa. Caso o máximo de correlação como segmento alvo CIB seja encontrado anteriormente no segmento de pesquisa em um ponto de índice mc, então ele escoa pelo menos um período de pitch (com uma mesma intensidade de sinusoide, por exemplo) entre o ponto de índice temporal mc e a amostra de índice temporal mc+P. Ele escoa do mesmo modo pelo menos um período de pitch entre a amostra de índice mc+Ns (ponto de circuito de índice pb) e a última amostra do buffer N'.

[045] Convém anotar que uma variante dessa realização consiste em uma autocorrelação sobre o buffer, voltando a encontrar um período médio P identificado no buffer. Nesse caso, o segmento servindo para a síntese comporta as P últimas amostras do buffer. Todavia, um cálculo de autocorrelação em um grande segmento pode ser complexo e necessitar de mais recurso informático do que uma simples correlação do tipo descrito antes.

[046] Além disso, uma outra variante dessa realização consiste em não pesquisar simultaneamente o máximo de correlação sobre todo o segmento de pesquisa, mas em pesquisar simplesmente um segmento onde a correlação como segmento alvo é superior a um limite escolhido (por exemplo (70 %). Essa realização não dá precisamente um único período de pitch P (mas possivelmente vários períodos sucessivos), mas, todavia, a complexidade ligada ao processamento de um longo segmento de síntese (de vários períodos de pitch) necessita tanto, até mesmo menos recurso, que a pesquisa de um máximo de correlação sobre todo o segmento de pesquisa.

[047] No que se segue, presume-se que um único período de pitch serve para a síntese do sinal, mas convém anotar, todavia, que o princípio do processamento se aplica também para um segmento que se estende em vários períodos fundamentais. Os resultados se mostram mesmo melhores com vários períodos de pitch, em termos de precisão sobre a transformada FFT, e de riqueza sobre os componentes espectrais obtidos.

[048] No caso em que transientes estariam presentes no sinal áudio contido no buffer (picos de intensidade muito curtos temporalmente, no sinal áudio), é possível adaptar a zona de pesquisa de correlação, por exemplo, defasando a pesquisa de correlação (fazendo-a começar tipicamente 20 ms após o início do buffer áudio conforme ilustrado a título de exemplo na figura 4, ou efetuando a pesquisa de correlação em uma zona temporal, começando após o fim de um transiente).

[049] A etapa seguinte S4 consiste em decompor o segmento p(n) em uma soma de senos. Uma forma clássica para decompor um sinal em uma soma de senos consiste em calcular a transformada de Fourier discreta (ou DFT em inglês) do sinal em uma duração correspondente ao comprimento do sinal. Obtém-se assim a frequência, a fase e a amplitude de cada uma dos componentes sinusoidais que compõem o sinal. Em um modo de realização particular da invenção, por razões de redução de complexidade, essa análise é feita por uma transformada de Fourier rápida FFT, de tamanho 2Ak (com k superior ou igual a log2(P)).

[050] Nesse modo particular, a etapa S4 é decomposta em três operações, com, com referência à figura 5: - a operação S41 na qual as amostras do segmento p(n) são interpoladas, de maneira a se obter um segmento p'(n) composto de P' amostras com

na qual ceil(x) é o inteiro su perior ou igual a x (pode-se, por exemplo, e de maneira não restritiva utilizar uma interpolação linear ou ainda de tipo "spline cubique"); - a operação S42 com o cálculo da transformada FT de

; e - a operação S43, na qual, a partir da transformada FFT, são obtidas diretamente as fases Φ(k) e amplitudes A(k) dos componentes sinusoidais, as frequências normalizadas entre 0 e 1 sendo dadas por:

[051] Na etapa S5 da figura 2, os componentes sinusoidais são selecionados, de maneira a manter apenas unicamente os componen- tes os mais importantes. Em um modo de realização particular, a seleção dos componentes leva a: - selecionar inicialmente as amplitudes A(k) para as quais

- em seguida, dentre as amplitudes dessa primeira seleção, selecionam-se os componentes, por exemplo, por ordem decrescente de amplitude, de maneira que a amplitude acumulada dos picos selecionados, seja de pelo menos x% (por exemplo x = 70 %) da amplitude acumulada do semiespectro.

[052] É também possível, além disso, limitar o número de com ponentes (por exemplo a 20), de maneira a tornar a síntese menos complexa. De forma alternativa, uma pesquisa de número predeterminado dos picos os mais importantes pode ser utilizada.

[053] Naturalmente, o método de seleção dos componentes es pectrais não se limita aos exemplos apresentados acima. Ele é capaz de variantes. Ele pode notadamente se basear em qualquer critério, permitindo identificar componentes espectrais úteis à síntese do sinal (por exemplo, critérios subjetivos ligados à ocultação, critérios ligados à harmonicidade do sinal, ou outros).

[054] A etapa seguinte S6 visa uma síntese sinusoidal. Em um exemplo de realização, ela consiste em gerar um segmento s(n) de comprimento pelo menos igual ao tamanho de um quadrado perdido (T). Em um modo de realização particular, um comprimento igual a 2 quadrados (por exemplo, 40 ms) é gerada, de maneira a poder efetuar uma mixagem sonoro de tipo "fundido encadeado" (como uma transição) entre o sinal sintetizado (por correção de perda de um quadro) e o sinal decodificado ao quadro válido seguinte, quando um quadro é de novo recebido corretamente.

[055] Para antecipar a reamostragem do quadro (comprimento de amostras anotado LF), o número de amostras a sintetizar pode ser aumentado da metade do tamanho do filtro de reamostragem (LF). O sinal de síntese s(n) é calculado como uma soma dos componentes sinusoidais selecionados:

[056] ou k é o índice dos componentes K selecionados da etapa S5.Vários métodos clássicos para realizar essa síntese sinusoidal são possíveis.

[057] A etapa S7 da figura 2 consiste em injetar ruído, de maneira a compensar a perda de energia ligada à omissão de determinados componentes frequenciais na faixa de frequências baixas. Um modo de realização particular consiste em calcular o resíduo r(n) = p(n)-s(n) entre o segmento correspondente ao pitch p(n) e o sinal sintetizado s(n), com :

[058] Esse resíduo de tamanho P é repetido, de maneira que ele atinja um tamanho

[059] O sinal s(n) é em seguida mixado (adicionado com eventu almente uma ponderação) ao sinal r(n).

[060] Naturalmente, o método de geração do ruído (para se obter um ruído de fundo natural) não está limitado ao exemplo acima e admite variantes. Por exemplo, é possível também calcular o resíduo no domínio frequencial (suprimindo os componentes espectrais selecionados do espectro original) e obter um ruído de fundo por transformada inversa.

[061] Paralelamente, a etapa S8 consiste em tratar a faixa das altas frequências simplesmente, repetindo o sinal. Por exemplo, pode tratar-se de repetir um comprimento de quadro T. Em uma realização mais sofisticada, a síntese da faixa BH é obtida, considerando-se as últimas T'amostras antes da perda de quadro (com, por exemplo, T'= N/2) e virando-as temporalmente, depois repetindo-as sem virá-las, e, assim sucessivamente, conforme ilustrado na figura 6. Essa realização permite vantajosamente evitar artefatos audíveis, colocando-se em um mesmo nível as intensidades no início e no fim de quadros.

[062] Em um modo de realização particular, o quadro de tamanho T' pode ser ponderado, de maneira a evitar determinados artefatos, quando os conteúdos são particularmente energéticos na faixa de frequências altas. A ponderação (anotada W na figura 6) pode, por exemplo, tomar a forma de uma semijanela sinusoidal de 1 ms no início e no fim do quadro de tamanho T/2. Os quadros sucessivos podem também se recobrir.

[063] Em uma etapa S9, o sinal é sintetizado reamostrando a fai xa de baixas frequências à sua frequência Fe de origem, e adicionando-o a sinal oriundo da repetição da etapa S8 na faixa das frequências altas.

[064] Na etapa S10, procede-se a um recobrimento-adição que permite assegurar uma continuidade entre o sinal antes da perda de quadro e o sinal sintetizado. Por exemplo, no caso de uma codificação por transformada de baixo prazo, utilizam-se, para a utilização dessa etapa S10, as L amostras situadas entre o início da parte "dobrada" (parte dobrada restante) da transformada MDCT e os três-quartos do tamanho da janela (com, por exemplo, um eixo de dobra temporal das janelas como habitualmente no quadro de uma transformada MDCT). Com referência à figura 7, essas amostras estão já recobertas pela janela de síntese W1 da transformada MDCT. De maneira a poder lhe aplicar uma janela de recobrimento W2, as amostras são divididas pela janela W1 (a qual já é conhecida do decodificador), depois multiplicadas pela janela W2. O sinal S(n) sintetizado pela utilização das etapas S1 a S9 descritas anteriormente se expressa assim:

[065] com, por exemplo, e de maneira não limitativa, funções de abrangência definidas por:

[066] Conforme descrito anteriormente, caso se autorize um pra zo no nível do decodificador, essa duração do prazo pode ser utilizada para fazer um recobrimento com a parte sintetizada, utilizando qualquer ponderação apropriada à abrangência-adição.

[067] Naturalmente, a presente invenção não se limita à forma de realização descrita antes; ela se estende a outras variantes.

[068] Assim, por exemplo, a separação em faixas de frequências altas e baixas na etapa S2 é opcional. Em uma variante de realização, o sinal oriundo do buffer (etapa S1) não é separado em duas subbandas e as etapa S3 a S10 permanecem idênticas àquelas descritas antes. Todavia, o processamento dos componentes espectrais nas baixas frequências somente permite vantajosamente limitar-lhe a complexidade.

[069] A invenção pode ser aplicada em um decodificador con- versacional, no caso de uma perda de quadro. Materialmente, ela pode ser aplicada em um circuito para a decodificação, em um terminal de telefonia tipicamente. Para isso, esse circuito CIR pode comportar ou ser conectado a um processador PROC, conforme ilustrado na figura 9, e pode comportar uma memória de trabalho MEM, programada com instruções de programa informático, de acordo com a invenção para executar o processo antes.

[070] Por exemplo, a invenção pode ser aplicada em um decodi- ficador por transformada em tempo real. Com referência à figura 8, o decodificador envia pesquisas para se obter um quadro áudio em um buffer de quadros (etapa S81). Se o quadro estiver disponível (saída OK do teste), o decodificador decodifica o quadro (S82) para se obter um sinal no domínio transformado, opera uma transformada inversa IMDCT (S83) que permite então obter amostras temporais "dobradas", e procede-se a uma última etapa S84 de janelas (por uma janela de síntese) e de abrangência para serem obtidas amostras temporais isentas de aliasing que serão em seguida enviadas a um conversor numérico analógico para restituição.

[071] Quando um quadro falta (saída KO do teste), o decodifica- dor utiliza então o sinal já decodificado, assim como a parte "dobrada" do quadro precedente (etapa S85), no processo de correção de perda de quadros no sentido da invenção.

Claims

1. Processo de processamento de um sinal, comportando uma sucessão de amostras repartidas em quadros sucessivos, o processo sendo aplicado durante uma decodificação desse sinal para substituir pelo menos um quadro de sinal perdido na decodificação, o processo sendo caracterizado pelo fato de comportar as seguintes etapas: a) pesquisa (S3), em um sinal válido disponível à decodifi- cação, de um segmento de sinal, de duração correspondente a um período determinado em função desse sinal válido; b) análise espectral do segmento (S4), para uma determinação de componentes espectrais do segmento; c) síntese (S6) de pelo menos um quadro de substituição do quadro perdido, por construção de um sinal de síntese a partir de uma parte pelo menos dos componentes espectrais.

2. Processo, de acordo com a reivindicação 1, caracterizado pelo fato de comportar uma pesquisa (S3), por correlação nesse sinal válido, de um período de repetição, a duração do segmento comportando pelo menos uma repetição.

3. Processo, de acordo com a reivindicação 2, caracterizado pelo fato de o período de repetição corresponder a uma duração para a qual a correlação ultrapassa um valor limite predeterminado.

4. Processo, de acordo com qualquer uma das reivindicações precedentes, caracterizado pelo fato de comportar, além disso, uma determinação de fases respectivas associadas aos componentes espectrais, e de a construção do sinal de síntese comportar essas fases dos componentes espectrais.

5. Processo, de acordo com qualquer uma das reivindicações precedentes, caracterizado pelo fato de comportar, além disso, uma determinação de amplitudes respectivas associadas aos compo- nentes espectrais, e de a construção do sinal de síntese comportar essas amplitudes dos componentes espectrais.

6. Processo, de acordo com qualquer uma das reivindicações precedentes, caracterizado pelo fato de comportar, além disso, uma determinação de amplitudes respectivas associadas aos componentes espectrais, e os componentes espectrais de amplitudes elevadas serem selecionados (S5) para a construção do sinal de síntese.

7. Processo, de acordo com qualquer uma das reivindicações precedentes, caracterizado pelo fato de se acrescentar ruído (S7) ao sinal de síntese, para compensar uma perda de energia relativa aos componentes espectrais não selecionados para a construção do sinal de síntese.

8. Processo, de acordo com a reivindicação 7, caracterizado pelo fato de o ruído ser obtido por um resíduo ponderado entre o sinal do segmento e o sinal de síntese.

9. Processo, de acordo com qualquer uma das reivindicações precedentes, caracterizado pelo fato de a análise espectral do segmento comportar uma análise sinusoidal por transformada de Fourier rápida de comprimento 2Ak, onde k é superior ou igual a log2(P), P sendo o número de amostras no segmento de sinal.

10. Processo, de acordo com a reivindicação 9, caracterizado pelo fato de a análise espectral comportar: - uma interpolação (S41) das amostras do segmento para se obter um segundo segmento comportando um número de amostras 2Aceil(log2(P)), onde ceil(x) é o inteiro superior ou igual a x; - um cálculo (S42) da transformada de Fourier do segundo segmento; e - após determinação (S43) dos componentes espectrais, identificação de frequências associadas aos componentes, e construção do sinal de síntese por reamostragem com modificação dessas frequências em função da reamostragem.

11. Processo, de acordo com qualquer uma das reivindicações precedentes, aplicado em um contexto de decodificação por transformada com a abrangência, caracterizado pelo fato de o sinal de síntese ser construído sobre pelo menos duas durações de quadro.

12. Processo, de acordo com qualquer uma das reivindicações 10 e 11, caracterizado pelo fato de o sinal de síntese ser construído em duas durações de quadro e uma duração suplementar correspondente a um prazo introduzido por um filtro de reamostragem.

13. Processo, de acordo com qualquer uma das reivindicações precedentes, caracterizado pelo fato de comportar, além disso, uma separação (S2) em uma faixa de frequências altas (BH) e uma faixa de frequências baixas (BB), de um sinal oriundo desse(s) quadros válidos, e os componentes espectrais serem selecionados na faixa de frequências baixas.

14. Processo, de acordo com a reivindicação 13, caracterizado pelo fato de o quadro de substituição ser sintetizado por adição: - de um primeiro sinal construído a partir de componentes espectrais selecionados na faixa de frequências baixas (BB); e - de um segundo sinal oriundo de uma filtragem na faixa de frequências altas (BH), o segundo sinal sendo obtido por duplicação sucessiva (S8) de pelo menos um semiquadro válido e sua versão retornada temporalmente.

15. Dispositivo de decodificação de um sinal, comportando uma sucessão de amostras repartidas em quadros sucessivos, o dispositivo caracterizado pelo fato de comportar meios (CIR, MEM, PROC) para substituir pelo menos um quadro de sinal perdido, comportando: a) meios de pesquisa, em um sinal válido disponível à de- codificação, de um segmento de sinal, de duração correspondente a um período determinado em função desse sinal válido; b) meios de análise espectral do segmento, para uma de-terminação de componentes espectrais do segmento; c) meios de síntese de pelo menos um quadro de substituição do quadro perdido, por construção de um sinal de síntese, a partir de uma parte pelo menos dos componentes espectrais.