BRPI0718423B1

BRPI0718423B1 - Método para sintetizar um sinal de áudio digital, dispositivo de síntese de sinal de áudio digital, dispositivo para receber um sinal de áudio digital, e memória de um dispositivo de síntese de sinal de áudio digital

Info

Publication number: BRPI0718423B1
Application number: BRPI0718423-9A
Authority: BR
Inventors: David Virette; Balazs Kovesi
Original assignee: France Telecom
Priority date: 2006-10-20
Filing date: 2007-10-17
Publication date: 2020-03-10
Also published as: JP5289319B2; CN101573751A; MX2009004212A; RU2009118918A; WO2008047051A2; CN101573751B; EP2080194A2; WO2008047051A3; KR20090090312A; ES2378972T3; US20100324907A1; US8417520B2; BRPI0718423A2; RU2437170C2; EP2080194B1; ATE536613T1; KR101409305B1; JP2010507120A

Abstract

método para sintetizar um sinal de áudio digital, dispositivo de síntese de sinal de áudio digital, dispositivo para receber um sinal de áudio digital, e memória de um dispositivo de síntese de sinal de áudio digital a presente invenção propõe a síntese de um sinal constituído por blocos consecutivos. ela propõe mais especificamente, na recepção de um tal sinal, de substituir, por síntese, dos blocos perdidos ou errados deste sinal. ela propõe para tal fim uma atenuação do supervocalização durante a geração de uma síntese de sinal. mais especificamente, é gerada uma excitação vocalizada a partir do período de pitch (t) estimada ou transmitida ao bloco precedente, aplicando-se eventualmente uma correção de mais ou menos uma amostra de duração deste período (contada em número de amostras), por constituição de grupos (a, b, c, d) de pelo menos duas amostras e por inversão das posições das amostras nos grupos, aleatoriamente (b, c) ou de modo forçado. quebra-se assim uma superharmonicidade na excitação gerada e, assim, atenua-se o efeito de supervocalização na síntese do sinal gerado.

Description

“MÉTODO PARA SINTETIZAR UM SINAL DE ÁUDIO DIGITAL, DISPOSITIVO DE SÍNTESE DE SINAL DE ÁUDIO DIGITAL, DISPOSITIVO PARA RECEBER UM SINAL DE ÁUDIO DIGITAL, E MEMÓRIA DE UM DISPOSITIVO DE SÍNTESE DE SINAL DE ÁUDIO DIGITAL” A presente invenção refere-se ao tratamento de sinais de áudio digitais, tais como os sinais de fala em telecomunicação, especialmente na decodificação de tais sinais.

Lembremos rapidamente que um sinal de fala pode ser previsto a partir de seu passado recente (de 8 a 12 amostras de 8 kHz, por exemplo) por meio de parâmetros avaliados sobre janelas curtas (10 a 20 ms neste exemplo). Estes parâmetros de previsão a curto prazo, representativos da função de transferência do conduto vocal (para pronunciar as consoantes, por exemplo), são obtidos por métodos de análise LPC (significando “Linear Prediction Coding”). Põe-se em prática também uma correlação a um prazo mais longo para se determinar a periodicidades de sons vocalizados (as vogais, por exemplo) devidas à vibração das cordas vocais. Trata-se, portanto, de se determinar pelo menos a frequência fundamental do sinal vocalizado que varia tipicamente de 60 Hz (voz grave) a 600 Hz (voz aguda) de acordo com os locutores. Determinam-se, então, por uma análise LTP (significando “Long Term Prediction”), os parâmetros LTP de um previsor a longo prazo e especialmente o inverso da frequência fundamental, denominada frequentemente “período de pitch”. Define-se então o número de amostras em um período de pitch pela relação Fe/F0 (ou sua parte integral), em que: - Fe é a cadência de amostragem, e - F0 é a frequência fundamental.

Observe-se, portanto, que os parâmetros de previsão a longo prazo LTP, dentre eles o período de pitch, representam a vibração fundamental do sinal de fala (quando ele é vocalizado), ao passo que os parâmetros de previsão a curto prazo LPC representam o envoltório espectral deste sinal. O conjunto destes parâmetros LPC e LTP, resultando, portanto, de uma codificação de fala, é transmitido por blocos para um decodificador homólogo, por meio de uma ou de muitas redes de telecomunicação para devolver em seguida o sinal de fala inicial.

Dentro do quadro da comunicação de tais sinais por blocos, a perda de um ou de muitos blocos consecutivos pode ocorrer. O termo “bloco” é compreendido como uma sucessão de dados de sinal que pode consistir, por exemplo, em uma estrutura em comunicação radiomóvel ou ainda um pacote, em comunicação sobre IP (significando “Internet Proto-col”), por exemplo, ou outros.

Na comunicação radiomóvel, por exemplo, a maior parte das técnicas de codificação por síntese de previsão e principalmente a codificação do tipo CELP (significando “Code Excited Linear Predictive”) propõem soluções para a recuperação de estruturas deletadas. O decodificador é informado da ocorrência de uma estrutura deletada, pela transmissão de uma informação de deleção, por exemplo, de estrutura proveniente do decodificador canal. A recuperação de estruturas deletadas tem por objetivo a extrapolação dos parâmetros da estrutura deletada a partir de uma ou de diversas estruturas precedentes consideradas como válidas. Determinados parâmetros manipulados ou codificados pelos codificadores de previsão apresentam uma grande correlação entre estruturas. Trata-se tipicamente dos parâmetros de previsão a longo prazo LTP, para os sons vocalizados, por exemplo, e parâmetros de previsão a prazo curto LPC. Devido a esta correlação, é muito mais vantajoso se reutilizar os parâmetros da última estrutura válida para sintetizar a estrutura deletada do que se utilizar parâmetros aleatórios, possivelmente errados.

Na geração de excitação CELP, os parâmetros da estrutura deletada são classica-mente obtidos conforme segue.

Os parâmetros LPC de uma estrutura a ser reconstruída são obtidos a partir dos parâmetros LPC da última estrutura válida, simplesmente por uma nova cópia dos parâmetros ou ainda com a introdução de uma determinada amortização (técnica utilizada, por exemplo, no codificador normalizado G723.1). Em seguida, detecta-se uma vocalização ou uma não vocalização no sinal de fala para se determinar um grau de harmonia do sinal no nível da estrutura deletada. Se o sinal for não vocalizado, pode ser gerado um sinal de excitação de modo aleatório (por distensão de uma palavra de código da excitação passada, por uma ligeira amortização do ganho da excitação passada, por seleção aleatória na excitação passada, ou utilizando-se ainda códigos transmitidos que podem estar totalmente errados). Se o sinal for vocalizado, o período de pitch (denominado também “retardo LTI”) é geralmente aquele calculado para a estrutura precedente, eventualmente com uma ligeira “perna” (aumento do valor do retardo LTP para as estruturas de erro consecutivo, sendo o ganho LTP tomado muito próximo de 1 ou igual a 1). O sinal de excitação é, portanto, limitado à previsão a longo prazo, efetuada a partir de uma excitação passada.

Os meios de dissimulação das estruturas deletadas, durante a decodificação, são geralmente muito ligados à estrutura do decodificador e podem ser comuns a módulos deste decodificador, como, por exemplo, o módulo de síntese do sinal. Estes meios utilizam também sinais intermediários disponíveis no seio do decodificador, como, por exemplo, o sinal de excitação passado e memorizado durante o tratamento das estruturas válidas que precedem as estruturas deletadas.

Determinadas técnicas utilizadas para dissimular os erros produzidos pelos pacotes perdidos durante o transporte de dados codificados de acordo com uma codificação do tipo temporal recorrem frequentemente a técnicas de substituição de formas de ondas. Tais técnicas visam reconstituir o sinal selecionando porções do sinal decodificado antes do período perdido e não recorrem a modelos de síntese. Técnicas de alisamento são também coloca- das em prática para se evitar os artefatos produzidos pela concatenação dos diferentes sinais.

Para os decodificadores que operam nos sinais codificados por codificação por transformada, as técnicas de reconstrução das estruturas deletadas se apóiam geralmente na estrutura de codificação utilizada. Determinadas técnicas visam a regeneração dos coeficientes transformados perdidos a partir dos valores tomados por estes coeficientes antes da deleção.

Ouras técnicas de dissimulação das estruturas deletadas foram desenvolvidas em conjunto com a codificação canal. Elas se servem de informações fornecidas pelo decodifi-cador canal, informações referentes ao grau de confiabilidade dos parâmetros recebidos, por exemplo. Indica-se aqui pelo contrário que o objeto da presente invenção não pressupõe a existência de um codificador canal.

Foi proposto no documento Combescure et al.: “A 16,24.32 kbit/s Wideband Speech Codec Based on ATCELP”, P. Combescure, J. Schnitzler, K. Ficher, R. Kirchher, C. Lamblin, A. LeGuyader, D. Massaloux, C. Quinquis, J. Stegmann, P.l Vary, Proceedings Conference ICASSP (1998), o uso de um método de dissimulação das estruturas deletadas equivalente àquele utilizado nos codificadores CELP para um codificador por transformada. Os inconvenientes deste método eram a introdução de distorções espectrais audíveis (voz “sintética”, ressonâncias parasitas etc.). estes inconvenientes eram devidos principalmente ao uso de filtros de síntese a longo prazo mal controlados (componente harmônico único em sons vocalizados, uso de porções do sinal residual passado em sons não vocalizados). Por outro lado, o controle de energia se efetua neste caso a nível do sinal de excitação e o alvo enérgico deste sinal é mantido constante durante toda a duração da deleção, o que cria igualmente artefatos audíveis e incômodos.

No documento FR-2.813.722 foi proposta uma técnica de dissimulação das estruturas deletadas, que não geram mais distorção a taxas de erro mais elevadas e/ou durante intervalos deletados mais prolongados. Esta técnica visa evitar o excesso de periodicidade para os sons vocalizados e para controlar melhor a geração da excitação não vocalizada. Para tal fim, considera-se o sinal de excitação (se ele é vocalizado) como a soma de dois sinais: - um componente extremamente harmônico limitado na banda de baixas frequências do espectro total, e - um outro componente menos harmônico e limitado às frequências mais elevadas. O componente muito harmônico é obtido por filtragem LTP. O segundo componente é obtido também por uma filtragem LTP que foi tornada não periódica pela modificação aleatória do seu período fundamental. O problema principal das técnicas de dissimulação de erro utilizadas até então nos codificadores CELP reside na geração da excitação vocalizada que, quando diversas estruturas consecutivas tiverem sido perdidas, pode produzir um efeito de supervocalização devido à repetição do mesmo período de pitch em diversas estruturas. A presente invenção vem melhorar a situação.

Ela propõe para tal fim um método de síntese de um sinal de áudio digital representado por blocos consecutivos de amostra, em que na recepção de um tal sinal, para substituir pelo menos um bloco inválido, gera-se um bloco de substituição a partir das amostras de pelo menos um bloco válido que precede o bloco inválido. O método de acordo com a presente invenção compreende as seguintes etapas: a) selecionar um número escolhido de amostras formando uma sucessão em pelo menos um último bloco válido que precede o bloco inválido, b) fragmentar a sucessão de amostras em grupos de amostras, e, em pelo menos uma parcela dos grupos, inverter as amostras, segundo regras predeterminadas, c) re-concatenar os grupos nas amostras de determinado pelo menos foram invertidos na etapa b), para formar uma parcela pelo menos do bloco de substituição, e d) se a parcela obtida na etapa c) não preenche todo o bloco de substituição, copiar a parcela no bloco de substituição e aplicar novamente as etapas a), b), c) à parcela copiada.

Esta inversão de amostras que consiste, portanto em uma manipulação de amostras muito simples e pouco dispendiosa em termos de cálculo e meios de tratamento, tem por finalidade “quebrar” uma super-harmonicidade que poderia estar presente se tivesse sido colocada em prática uma simples cópia do período de pitch.

Assim, dentre as vantagens que oferece a presente invenção, para a sua colocação em prática incorre-se em um custo muito baixo em cálculo. A invenção se aplica com vantagem ao caso em que o sinal de áudio digital é um sinal de fala vocalizado, e mais especificamente, fracamente vocalizado, pois a simples cópia do período de pitch dá resultados medíocres neste caso. Assim, de acordo com uma característica vantajosa, detecta-se um grau de vocalização no sinal de fala e aplica-se as etapas a) a d) se o sinal for pelo menos fracamente vocalizado. A presente invenção se apoia vantajosamente sobre a frequência fundamental do sinal de áudio digital para constituir os grupos na etapa b). Assim com vantagem, na etapa a): a1) detecta-se um tom no sinal de áudio digital, e a2) o número escolhido de amostras selecionadas na etapa a) corresponde ao número de amostra que compreende um período correspondendo ao inverso de uma frequência fundamental do tom detectado. É evidente que no caso de um sinal de fala, a operação a1) pode consistir em de- tectar uma vocalização e a operação a2) visaria, o sinal da fala for vocalizado, selecionar um número de amostras que se estende sobre todo um período de pitch (inverso de uma frequência fundamental de um tom de voz). Mesmo assim, deve-se observar que esta realização pode também visar um sinal diferente de um sinal de fala, principalmente um sinal musical, se uma frequência fundamental própria a um tom global de música pode ser ali detectada.

Em uma modalidade de realização, a fragmentação da etapa b) é efetuada por grupos de duas amostras, e se invertem as posições das amostras de um mesmo grupo entre si.

No entanto, nesta modalidade de realização convém se distinguir o caso em que ao período de pitch (ou mais geralmente o período inverso da frequência fundamental) compreende um número de amostras par ou ímpar. Mais especificamente, se o número de amostras que compreende o período do tom detectado for um número par, é vantajoso se acrescentar ou subtrair um número ímpar de amostras (de preferência um única amostra) às amostras do período para formar a seleção da etapa a).

Convém precisar também o que se compreende como “regras predeterminadas da inversão”. Estas regras que podem ser escolhidas de acordo com as características do sinal recebido, impõem principalmente o número de amostras por grupos na etapa b) e a maneira de inverter as amostras em um grupo. Na modalidade de realização precedente, prevêem-se grupos de duas amostras e uma simples inversão das posições respectivas destas duas amostras. No entanto, outras configurações são possíveis (grupos compreendendo mais de duas amostras e permutação de todas as amostras de tais grupos). Por outro lado, as regras de inversão podem fixar também o número de grupos nos quais é efetuada a inversão. Uma realização especial consiste em tornar aleatórias as ocorrências de inversão de amostras em cada grupo e fixar um limiar de probabilidade para se inverter ou não as amostras de um grupo. Este limiar de probabilidade pode ter um valor fixo, ou ainda um valor variável e depender com vantagem de uma função de correlação que se apoia no período de pitch. Neste caso, a determinação formal do período de pitch, propriamente dita não é necessária. Aliás, em termos mais gerais, o tratamento de acordo com a presente invenção pode ser efetuado também se o sinal válido recebido não é simplesmente vocalizado, não existindo neste caso realmente período de pitch detectável. Neste caso pode ser previsto se fixar um número dado de amostras arbitrário (duzentas amostras, por exemplo) e realizar o tratamento de acordo com a presente invenção neste número de amostras. É também possível se tomar o valor correspondendo ao máximo da função de correlação limitando a busca em um intervalo de valor (entre MAX_PITCH/2 e MAX_PITCH, em que MAX-PITCH é o valor máximo na busca de período de pitch). A presente invenção, propondo assim a atenuação de supervocalização oferece as seguintes vantagens: - a fala sintetizada quando de uma perda de bloco não apresenta praticamente mais um fenômeno de super-harmonicidade ou super-vocalização e - a complexidade necessária para gerar uma excitação vocalizada é muito pequena, como se verá no exemplo de realização descrito em detalhes abaixo.

Aliás, outras vantagens e características da presente invenção se tornarão evidentes com o exame da descrição detalhada, dada a título de exemplo abaixo, e dos desenhos apensos nos quais: - a Figura 1 ilustra o princípio de uma geração de excitação que permite que se atenue o efeito de supervocalização, integrando uma inversão aleatória de amostras, sobre blocos de duas amostras e com uma probabilidade de 50% no exemplo representado, cobrindo todo um período de pitch, - a Figura 2 ilustra o princípio de uma geração de excitação que integra uma inversão de amostras, neste caso, sistemática, sobre blocos de duas amostras no exemplo representado e cobrindo todo um período de pitch, - a Figura 3a ilustra a aplicação da inversão sistemática da Figura 2 sobre um sinal que se estima que tenha um período de pitch que compreende um número ímpar de amostras, - a Figura 3b representa, a título puramente ilustrativo, a aplicação da inversão sistemática da Figura 2 sobre um sinal que se estima que tenha um período de pitch que compreende um número par de amostras, - a Figura 3c ilustra a aplicação da inversão sistemática da Figura 2, tendo aqui uma correção por acréscimo de uma amostra que tem uma duração correspondendo ao período de pitch, para tornar esta duração ímpar em termos de número de amostras que ela compreende, - a Figura 4 ilustra esquematicamente as etapas principais de um método de acordo com a invenção, na decodificação, - a Figura 5 ilustra muito esquematicamente a estrutura de um dispositivo de recepção de um sinal de áudio digital que compreende um dispositivo de síntese para a execução do método de acordo com a presente invenção.

Fazendo-se referência inicialmente à figura 4 para ilustrar o contexto da execução da presente invenção. Quando da recepção de um sinal de entrada Se na decodificação, detecta-se (teste 50) a perda de um ou muitos blocos consecutivos. Se não for constatada nenhuma perda de bloco (seta O na saída do teste 50), não há naturalmente, nenhum problema e o tratamento da Figura 4 termina.

Por outro lado, se for constatada a perda de um ou muitos blocos consecutivos (seta N na saída do teste 50), detecta-se então o grau de vocalização (teste 51) do sinal.

Se o sinal não for vocalizado (seta N na saída do teste 51), substituem-se os blocos perdidos por um ruído branco, audível, denominado “ruído de conforto” 52, por exemplo, e ajusta-se o ganho 61 das amostras de blocos assim reconstruídos. Pode-se realizar, por exemplo, um controle sobre a energia do sinal reconstruído Ss, com a adaptação da lei de evolução e/ou fazer evoluir parâmetros do modelo para um sinal de repouso tal como o ruído de conforto 52.

Em uma variante da presente invenção, consideram-se somente duas classes de sinais, os sinais vocalizados por um lado, e os sinais fracamente vocalizados ou não vocalizados por outro. A vantagem desta variante é que a geração do sinal não vocalizado será idêntica à síntese fracamente vocalizada. Conforme já indicado acima, o “período de pitch” utilizado para os sinais não vocalizados é um valor aleatório, de preferência bastante grande (da ordem de duzentas amostras, por exemplo). Em um bloco não vocalizado, o sinal precedente e não harmônico, aplicando-se o tratamento de acordo com a invenção a um período suficientemente grande, garante-se que o sinal assim gerado continue não harmônico. Será vantajoso se a natureza do sinal for conservada, o que não seria o caso quando se utiliza um sinal aleatoriamente gerado (um ruído branco, por exemplo).

Se o sinal for muito vocalizado (seta O na saída do teste 51), substituem-se os blocos perdidos por cópia do período de pitch T. Determina-se, portanto, o período de pitch T identificado na última parte ainda válida do sinal recebido e (por uma técnica 53 qualquer que pode ser conhecida em si). Recopiam-se, em seguida, as amostras deste período de pitch T nos blocos perdidos (referência 54). Aplica-se, em seguida, um ganho apropriado 61 às amostras assim substituídas (para efetuar, por exemplo, uma atenuação ou “fading”).

No exemplo descrito, se o sinal for medianamente vocalizado (ou, em uma variante menos sofisticada, mas mais geral, se o sinal for simplesmente vocalizado), aplica-se o método de acordo com a presente invenção (seta M na saída do teste 51 sobre o grau de vocalização). Com reivindicação às Figuras 1 e 2, o princípio da invenção consiste em agrupar as amostras dos últimos blocos válidos recebidos em grupos de pelo menos duas amostras. No exemplo das Figuras 1 e 2, agruparam-se efetivamente estas amostras duas a duas. Poder-se-ia, no entanto, se agrupá-las em mais de duas amostras, sendo neste caso ligeiramente adaptadas as regras de inversão de amostras por grupo e de se considerar a paridade no número de amostras do período de pitch T, que serão descritas em detalhes abaixo. Com referência especificamente à Figura 2, os grupos A, B, C, D de duas amostras nos últimos blocos válidos recebidos são recopiados e concatenados com as últimas amostras recebidas. nO entanto, nestes grupos recopiados, denominados A', B', C', D' inverteram-se os valores das duas amostras em cada grupo (ou conservou-se o seu valor e inverteram-se suas posições respectivas). Assim, o grupo A se torna o grupo A', com suas duas amostras invertida em relação ao grupo A (conforme as duas setas do grupo A' na Figura 2). O grupo B se torna o grupo B', com as suas duas amostras invertidas em relação ao grupo B, e assim por diante. A cópia e a concatenação dos grupos A', B', C', D' se efetua com vantagem quando se respeita o período de pitch T. Assim, o grupo A', constituído pelas amostras invertidas do grupo A, é separado do grupo A por uma série de amostras que correspondem à duração do período de pitch T. Do mesmo modo, o grupo B' é separado do grupo B por uma duração correspondente ao período de pitch T e assim por diante.

Na Figura 2, a inversão das amostras por grupo é sistemática. Em uma variante tal como as representada na Figura 1, pode-se tornar aleatória a ocorrência desta inversão. Pode-se mesmo ser previsto se fixar um limiar p de probabilidade para inverter ou não as amostras de um grupo. No exemplo representado na Figura 1, o limiar p é fixado em 50%, de modo que somente dois grupos B', C', sobre quatro, tenham as suas amostras invertidas. Pode ser também previsto se tornar variável o limiar p de probabilidade, especialmente se fazer o mesmo depender de uma função de correlação que se apóia sobre o período de pitch T, conforme se verá mais adiante.

Retomando-se a descrição do modo de realização ilustrado na figura 2, em que se aplica uma inversão sistemática das amostras por grupo, obtém-se, com referência agora à Figura 3a, uma nova sucessão de amostras T', de duração correspondendo ao período de pitch T, mas com a inversão das amostras duas as duas. Representaram-se na figura 3a as últimas amostras dos últimos blocos válidos recebidos no sinal Se e que foram memorizados em um decodificador. Neste caso, como a inversão é sistemática e não aleatória com a estimativa de uma correlação, determinou-se o período de pitch T do sinal vocalizado (por um meio conhecido em si) e recolheram-se as últimas amostras 10, 11, ...., 22 do sinal Se que se estendem pela duração do período de pitch T.; As duas primeiras amostras 10 e 11 são invertidas no sinal a ser reconstruído, denominado Ss. A terceira e a quarta amostras 12 e 13 são também invertida, e assim por diante. Obtém-se então uma sucessão T' de amostras 11, 10, 13, 14,... que se estende sobre uma mesma duração que o período de pitch. Se diversos blocos que se estendem sobre diversos períodos de pitch faltarem na decodificação, continua-se a reconstrução do sinal Ss tomando-se a sucessão T' e recomeçando a inversão das amostras duas as duas da sucessão T', para se obter uma nova sucessão T” e assim por diante.

No caso da Figura 3a, o número de amostras por períodos T, T', T” é igual a um mesmo número ímpar (treze amostras no exemplo representado), o que permite que se obtenha uma mistura progressiva das amostras à medida que se reconstrói o sinal Ss, e dali, uma atenuação eficaz da super-harmonicidade (ou, em outras palavras, da supervocaliza-ção do sinal reconstruído).

Por outro lado, no caso ilustrado na Figura 3b onde o número de amostras por períodos T, T', T” é um número par (doze amostras no exemplo representado) praticando-se duas vezes uma inversão (do período T ao período T', em seguida do período T' ao período T”) das amostras, tomadas duas a duas, do período de pitch T, encontra-se exatamente a mesma sucessão que o período de pitch T na sucessão T”, o que gera então uma super-harmonicidade.

Este problema pode ser superado modificando-se o número de amostras a serem invertidas por grupo (e tomar, por exemplo, um número ímpar de amostras por grupo).

No entanto, ilustrou-se de um outro modo de realização na Figura 3c. Este modo de realização consiste simplesmente, quando o período de pitch compreende um número par de amostras e quando as inversões visam números pares de amostras por grupo, em acrescentar um número ímpar de amostras ao período de pitch do sinal a ser reconstruído. Na Figura 3c, o último período de pitch detectado T compreende doze amostras 31, 32, ..., 42. Acrescenta-se então uma amostra ao período de pitch e obtém-se um período T+1 que compreendes um número ímpar de amostras. Assim, no exemplo ilustrado na figura 3c, a amostras 30 se torna a primeira amostra da memória a partir da qual se aplica a inversão de amostras duas a duas conforme ilustrado na figura 2 (ou na Figura 3). Obtém-se um período T do sinal reconstruído Ss, contendo um número ímpar de amostras, no qual se aplica ainda a inversão de amostras duas a duas para se obter o período T”, que contém ainda um número de amostras ímpar, e assim por diante. Observar-se-á então que a sucessão de amostras 33, 30, 35, 32, 34, ... do período T” é muito diferente, desta vez, da sucessão de amostras 30, 31, 32, 33, ... do período de pitch inicial T.

Com referência novamente à figura 4 colocando-se em prática, no exemplo representado, o modo de realização ilustrado nas Figuras 2, 3a e 3c, quando o sinal Se é medianamente vocalizado (seta M na saída do teste 51) determina-se o período de pitch T nas últimas amostras do sinal Se validamente recebidas (por uma técnica 56 que pode ser conhecida em si). Detecta-se se o número de amostras no período de pitch T é par ou ímpar. Se este número for ímpar (seta N na saída do teste 57), aplica-se diretamente a inversão das amostras duas a duas (etapa 58) conforme descrito acima, com referência à Figura 3a. Se o número de amostras no período de pitch T for par (seta O na saída do teste 57), acrescenta-se uma amostra ao período de pitch T (etapa 59) e aplica-se em seguida a inversão das amostras duas a duas (etapa 58), conforme o tratamento descrito acima com referência à Figura 3c. Em seguida, aplica-se eventualmente um ganho escolhido 61 à sucessão de amostras assim obtida para formar o sinal finalmente reconstruído Ss.

Conforme indicado acima com referência à Figura 4, o período de pitch é inicialmente calculado a partir de uma ou de algumas estruturas precedentes. Em seguida a excitação de harmonicidade reduzida é gerada do modo ilustrado na Figura 2, com inversão sistemática. No entanto, na variante ilustrada na Figura 1, ela pode ser gerada com uma inversão aleatória. Esta inversão irregular das amostras da excitação vocalizada permite se atenuar vantajosamente a super-harmonicidade. Em detalhes descreveremos abaixo esta realização vantajosa.

Habitualmente em uma simples cópia do período de pitch, a excitação vocalizada é calculada de acordo com uma fórmula do tipo: S(n) = g„p.s(n-T) (1) Em que T o período de pitch estimado e gitp é um ganho LTP escolhido Em uma forma de realização da invenção, a excitação vocalizada é calculada por grupo de duas amostras e com a inversão aleatória de acordo com o tratamento abaixo.

Inicialmente gera-se um número aleatório x dentro do intervalo [0; 1], Em seguida em função do valor de x: •Se x < p, s(n) e s(n+1) são calculados a partir da equação (1) •Se x > p, s(n) e s(n+1) são calculados de acordo com as equações (2) e (3) seguintes: s(n) = gitp.s(n-T+1) (2) s(n+1) = gitp.s(n-T) (3) O valor p representa a probabilidade de se inverter as duas amostras s(n) e s(n+1) Pode-se fixar o valor p como sendo p = 50 %, por exemplo.

Em uma variante vantajosa pode-se também escolhe uma probabilidade variável, da forma, por exemplo: p = corr (4) em que a variável corr corresponde ao valor máximo da função de correlação sobre o período de pitch, denominada Cor(T). Para um período de pitch T, a função de correlação Corr(T) é calculada utilizando-se somente 2*Tm amostras no fim do sinal memorizado, e: U) em que mo ... rriLmem-1 são as últimas amostras do sinal decodificado precedentemente e estão ainda disponíveis na memória do decodificador. A partir desta fórmula, compreender-se-á que o comprimento desta memória Lmem (em número de mostras armazenadas) deve ser igual a pelo menos duas vezes o valor máximo da duração do período de pitch (em número de amostras). Para se levar em conta as vozes mais graves (uma frequência fundamental mais baixa da ordem de 50 Hz), o número de amostras a serem armazenadas pode ser da ordem de 300, para uma taxa de amostragem baixa em banda estreita, e de mais de 300 para taxas de amostragem mais elevadas. A função de correlação cor(T), dado pela fórmula (5) atinge um valor máximo quando a variável T corresponde ao período de pitch T0 e este valor máximo dá uma indicação do grau de vocalização. Tipicamente, se este valor máximo estiver muito próximo de 1, então o sinal estará muito vocalizado. Se ele estiver próximo de 0, o sinal não será vocalizado.

Compreender-se-á assim que nesta realização, a determinação prévia do período de pitch não é necessária para se construir os grupos de amostras a serem invertidos. Mais especificamente, a determinação do período de pitch T0 pode ser efetuada em conjunto com a constituição dos grupos de acordo com a invenção, pela aplicação da fórmula (5) acima.

Se o sinal for muito vocalizado, então a probabilidade p será muito grande, e a vocalização será conservada conforme o cálculo de acordo com a fórmula (1). Se, por outro lado, a vocalização do sinal Se não for muito acentuada, a probabilidade p será mais baixa e serão utilizadas com vantagem as equações (2) e (3). É evidente que podem também ser utilizados outros cálculos de correlações. É também possível, por exemplo, se calcular a excitação harmônica em função de classes predefinidas. Para as classes muito vocalizadas, será utilizada, de preferência, a equação (1). Para as classes mediana ou fracamente vocalizadas, serão utilizadas, de preferência, as equações (2) e (3). Para as classes não vocalizadas, nenhuma excitação harmônica é gerada e a excitação pode então ser gerada a partir de um ruído branco. No entanto, na variante descrita precedentemente, as equações (2) e (3) serão também utilizadas com um período de pitch arbitrário suficientemente grande.

De um modo mais geral, a presente invenção não se limita às formas de realização descritas acima a título de exemplo; ela se estende a outras variantes.

Dentro do contexto de realização da invenção descrita em detalhes acima, a geração de excitação em codificação por síntese previsora CELP visa evitar a supervocalização dentro do contexto da dissimulação de erros de transmissões de estruturas. Pode ser previsto, mesmo assim, se utilizar os princípios da invenção para o prolongamento da banda. Pode-se utilizar então a geração de uma excitação em banda ampliada dentro de um sistema de prolongamento de banda (com ou sem transmissão de informações), baseada em um modelo do tipo CELP (ou sub-banda CELP). A excitação da banda de alta frequência pode ser então calculada conforme já descrito acima, o que permite que se limite então a super-harmonicidade desta excitação.

Por outro lado, a colocação em prática da invenção é especialmente adaptada à transmissão de sinais sobre redes por estruturas, ou ainda por pacote, pacotes de “voz sobre IP” (significando “Internet Protocol”), por exemplo, de modo a fornecer uma qualidade aceitável quando da perda de tais pacotes sobre IP, garantindo ao mesmo tempo mesmo assim uma complexidade limitada. É evidente que a inversão das amostras pode ser conduzida em grupos de amos- tras de tamanho superior a duas.

Por outro lado, descreveu-se acima a geração de um bloco de substituição de um bloco inválido a partir das amostras de um bloco válido, que precede o bloco inválido. Em uma variante pode-se apoiar de preferência sobre um bloco válido que se segue ao bloco inválido para se realizar a síntese do bloco inválido (síntese a posteriori). Esta realização pode ser vantajosa principalmente para a síntese de diversos blocos inválidos sucessivos e, especificamente, para a síntese de: Blocos inválidos que se seguem imediatamente a blocos válidos precedentes, a partir destes blocos precedentes, Em seguida blocos inválidos que precedem imediatamente blocos válidos seguintes, a partir destes blocos seguintes. A presente invenção visa também um programa de computador destinado a ser armazenado na memória de um dispositivo de síntese de um sinal de áudio digital. Este programa compreende então instruções para a condução do método de acordo com a presente invenção, quando ele é executado por um processador de um tal dispositivo de síntese. Aliás, a Figura 4 descrita acima pode ilustrar um organograma de um tal programa de computador.

Por outro lado, a presente invenção visa também um dispositivo de síntese de um sinal de áudio digital constituído por uma sucessão de blocos. Este dispositivo poderia compreender, aliás, uma memória que armazenasse o programa de computador citado acima. Com referência à Figura 5, este dispositivo SYN, compreende: - uma entrada E para receber blocos do sinal Se, precedendo pelo menos um bloco atual a ser sintetizado, e - uma saída S para fornecer o sinal sintetizado Ss e compreendendo pelo menos este bloco atual a ser sintetizado. O dispositivo de síntese SYN de acordo com a presente invenção compreende meios tais como uma memória operacional MEM (ou de armazenagem do programa de computador citado acima) e um processador PROC cooperando com esta memória MEM, para a condução do método de acordo com a presente invenção, e para sintetizar assim o bloco atual a partir de pelo menos um dos blocos precedentes do sinal Se. A presente invenção visa também um dispositivo de recepção de um sinal de áudio digital constituído por uma sucessão de blocos, tal como um decodificador de um tal sinal, por exemplo. Com referência ainda à Figura 5, este dispositivo pode compreender com vantagem um detector de blocos inválidos DET, assim como o dispositivo SYN de acordo com a presente invenção para sintetizar blocos inválidos detectados pelo detector DET.

REIVINDICAÇÕES

Claims

1. Método para sintetizar um sinal de áudio digital, representado por blocos consecutivos de amostras, no qual na recepção de um tal sinal, para substituir pelo menos um bloco inválido, gera-se um bloco de substituição a partir das amostras de pelo menos um bloco válido que precede o bloco inválido, CARACTERIZADO pelo fato de que compreende as etapas seguintes: a) selecionar um número escolhido (T) de amostras formando uma sucessão em pelo menos um último bloco válido precedendo o bloco inválido, b) fragmentar a sucessão de amostras em grupos de amostras (A, B, C, D), e, em pelo menos uma parcela dos grupos, inverter as amostras de acordo com regras predeterminadas, c) reconcatenar os grupos (A', B', C', D'), cujas amostras de pelo menos alguns deles foram invertidas na etapa b), para formar uma parcela (T') pelo menos do bloco de substituição, e d) se a dita parcela obtida na etapa c) não preenche todo o bloco de substituição, copiar a dita parcela (T') no bloco de substituição e aplicar novamente as etapas a), b), c) à dita parcela copiada, e em que a fragmentação da etapa b) é realizada por grupos de duas amostras e as posições das amostras de um único grupo (B', C') são invertidas entre si.

2. Método, de acordo com a reivindicação 1, no qual o sinal de áudio digital é um sinal de fala, CARACTERIZADO por detectar um grau de vocalização (51) no sinal de fala e aplicam-se as etapas a) a d) se o sinal for pelo menos fracamente vocalizado.

3. Método, de acordo com qualquer uma das reivindicações 1 ou 2, no qual o sinal de áudio digital é um sinal de fala, CARACTERIZADO por detectar um grau de vocalização (51) no sinal de fala e aplicam-se as etapas a) a d) se o sinal for fracamente vocalizado ou não vocalizado.

4. Método, de acordo com qualquer uma das reivindicações precedentes, CARACTERIZADO pelo fato de que, para se conduzir a etapa a): a1) detectar um tom no sinal de áudio digital (56), e a2) o dito número escolhido de amostras selecionadas na etapa a) corresponder ao número de amostras que são compreendidas em um período (T) correspondendo ao inverso de uma frequência fundamental do tom detectado.

5. Método, de acordo com a reivindicação 4, CARACTERIZADO pelo fato de que, se o número de amostras que compreende o período (T) do tom detectado for um número par, um número ímpar de amostras (30) é acrescentado ou retirado das amostras do dito período (T) para formar a seleção da etapa a).

6. Método, de acordo com qualquer uma das reivindicações precedentes, CARACTERIZADO pelo fato de que as ditas regras predeterminadas impõem que se tornem aleatórias as ocorrências de inversão de amostras em cada grupo e fixam um limiar de probabilidade (p) para inverter ou não as amostras de um grupo.

7. Método, de acordo com as reivindicações 6 e 4, CARACTERIZADO pelo fato de que o limiar de probabilidade (p) é variável e depende de uma função de correlação relacionada com o dito período (T).

8. Memória de um dispositivo de síntese de sinal de áudio digital, CARACTERIZADA pelo fato de que compreende instruções para a implementação do método conforme definido em qualquer uma das reivindicações 1 a 7 quando ele é executado por um processador do dito dispositivo de síntese.

9. Dispositivo de síntese de sinal de áudio digital constituído por uma sucessão de blocos compreendendo: uma entrada para receber blocos do sinal (Se), precedendo pelo menos um bloco atual a ser sintetizado, e uma saída para fornecer o sinal sintetizado (Ss) e compreendendo pelo menos o bloco atual, CARACTERIZADO pelo fato de que compreende meios (MEM, PROC) para a implementação do método conforme definido em qualquer uma das reivindicações 1 a 7, para sintetizar o bloco atual a partir de pelo menos um dos ditos blocos precedentes.

10. Dispositivo para receber um sinal de áudio digital constituído por uma sucessão de blocos, compreendendo um detector de blocos inválidos (DET), CARACTERIZADO pelo fato de que compreende adicionalmente um dispositivo (SYN) conforme definido na reivindicação 9, para sintetizar blocos inválidos.