BRPI0115601B1 - Method for generating comfort noise in voice communication, system, voice decoder and voice encoder - Google Patents

Method for generating comfort noise in voice communication, system, voice decoder and voice encoder Download PDF

Info

Publication number
BRPI0115601B1
BRPI0115601B1 BRPI0115601B1 BR PI0115601 B1 BRPI0115601 B1 BR PI0115601B1 BR PI0115601 B1 BRPI0115601 B1 BR PI0115601B1
Authority
BR
Brazil
Prior art keywords
voice
value
stationary
component
spectral
Prior art date
Application number
Other languages
English (en)
Publication date

Links

Description

“MÉTODO PARA GERAR RUÍDO DE CONFORTO NA COMUNICAÇÃO DE VOZ, SISTEMA, DECODIFICADOR DE VOZ E CODIFICADOR DE VOZ”.
Campo da Invenção A presente invenção relaciona, em geral, a comunicação de voz c, mais especificamente, a geração de ruído de conforto em uma transmissão descontínua.
Descrição da Técnica Anterior Em uma conversa telefônica normal, um usuário fala de cada vez e outros ouvem. Às vezes, nenhum dos usuários fala. Os períodos de silencio resultariam em uma situação onde a atividade de voz média é abaixo de 50%. Nestes períodos de silêncio, apenas o ruído acústico do fundo é provavelmente ouvido. O ruído de fundo não tem geralmcnte qualquer conteúdo informativo c este não c necessário para transmitir o ruído de fundo exato da parte transmissora (TX) para a parte receptora (RX). Na comunicação móvel, o procedimento conhecido como transmissão descontínua (DTX) leva a vantagem deste fato para armazenar a energia no equipamento móvel. Em particular, o mecanismo DTX TX tem uma indicação baixa (Baixa DTX), na qual a transmissão de rádio da estação móvel (EM) para a estação base (EB) é desativada, na maioria das vezes durante as pausas de voz para armazenar a energia na EM e para reduzir todo o nível de interferência na interface aérea. O problema básico ao usar o DTX é que o ruído acústico de fundo presente na voz durante os períodos de voz desaparecería quando a transmissão de rádio fosse desativada, resultando em deseontinuidades do ruído de fundo. Uma vez que a comutação DTX pode ocorrer rapidamente, veri ficou-sc que este efeito pode ser muito prejudicial para o ouvinte, Além disso, se o detector de atividade de voz (DAV), ocasionalmente, classifica o ruído como voz, algumas partes do ruído de fundo são reconstruídas durante a síntese de voz, enquanto outras partes permanecem em silêncio, Nào c apenas o aparecimento c o desaparecimento súbito da perturbação c do desconforto do ruído de fundo, isto também diminui a inteligibilidade da conversação, especifica mente quando o nível de energia do ruído é alto. como aquele que é interno em um veículo que está em movimento. Para reduzir este efeito de perturbação, um ruído sintético similar ao ruído de fundo no lado transmissor é gerado no lado receptor, O ruído sintético é chamado de ruído de conforto (RC) porque este toma a escuta mais confortável.
Para a parte receptora simular o ruído de fondo na parte transmissora, os parâmetros do mído de conforto são estimados na parte transmissora e transmitidos para a parte receptora usando os quadros Descritor de Silêncio (DS). A transmissão ocorre antes de transitar para o estado de Baixa DTX e na EM definida nas taxas após. O controlador DTX TX decide que tipos de parâmetros a computar e se gera um quadro de voz ou um quadro DS. A Figura 1 descreve a operação lógica DTX TX. Esta operação é executada com a ajuda do detector de atividade de voz (DAV), o qual indica se ou não o quadro atual contém voz. A saída do algoritmo DAV é um indicador booleano referenciado como “verdadeiro” se a voz for detectada, e “falso” senão. O DTX TX também contém os módulos do codificador de voz e de geração do mído de conforto. A operação básica do controlador DTX TX é como a seguir. O indicador de voz (Vz) booleano indica se o quadro é um quadro de voz ou um quadro DS. Durante o período de voz, o indicador “Vz” é estabelecido como “verdadeiro” e um quadro de voz é gerado usando o algoritmo de codificação de voz. Se o período de voz tiver sido sustentado por um período de tempo suficientemente longo, antes de o indicador DAV mudar para “falso”, existe um período de bloqueio (ver Figura 2). Este período de tempo é usado para cálculo da média dos parâmetros de mído de fondo. Durante o período de bloqueio, os quadros de voz normais são transmitidos para a parte receptora, embora o sinal codificado contenha apenas o mído de fondo. O valor do indicador Vz permanece “verdadeiro” no período de bloqueio. Após o período de bloqueio, o período do mído de conforto (RC) inicia. Durante o período RC, o indicador Vz é referenciado como “falso” e os quadros DS são gerados.
Durante o período de bloqueio, o espectro, E, e o nível de potência NP, de cada quadro é armazenado. Após o bloqueio, as médias dos parâmetros armazenados, Emédio e NPmédic» são calculados. O comprimento médio é um quadro maior do que o comprimento do período de bloqueio. Conseqüentemente, os primeiros parâmetros do mído de conforto são as médias do período de bloqueio e o primeiro quadro após este.
Durante o período de mído de conforto, os quadros DS são gerados a cada quadro, mas não são todos enviados. O subsistema de rádio TX (SR) controla a programação da transmissão do quadro DS baseado no indicador Vz. Quando o período de voz termina, a transmissão é cortada após o primeiro quadro DS. Após, um quadro DS ser ocasionalmente transmitido de forma a atualizar a estimação do ruído de conforto. A Figura 3 descreve a operação lógica do DTX RX. Se erros têm sido detectados no quadro recebido, o indicador de indicação de quadro ruim (IQR) é estabelecido como “verdadeiro”. Similar ao indicador Vz na parte transmissora, o indicador DS na parte receptora é usado para descrever se o quadro recebido é um quadro DS ou um quadro de voz. O controlador DTX RX é responsável por toda a operação DTX RX. Este classifica se o quadro recebido é um quadro válido ou um quadro inválido (IQR = 0 ou IQR=1, respectivamente e, se o quadro recebido é um quadro DS ou um quadro de voz (DS = 1 ou DS=0, respectivamente. Quando um quadro de voz válido é recebido, o controlador DTX RX passa este diretamente para o decodificador de voz. Quando um quadro errôneo é recebido ou o quadro é perdido durante o período de voz, o decodificador de voz usa os parâmetros relacionados a voz do último quadro de voz bom para a síntese de voz e, ao mesmo tempo, o decodificador inicia gradualmente o sinal de saída mudo.
Quando um quadro de DS válido é recebido, o ruído de conforto é gerado até que um novo quadro DS válido seja recebido. O processo se repete da mesma maneira. Porém, se o quadro recebido é classificado como um quadro DS inválido, o último DS válido é usado. Durante o período de ruído de conforto, o decodificador recebe o ruído do canal de transmissão entre os quadros DS que nunca foram enviados. Para sintetizar os sinais para estes quadros, o ruído de conforto é gerado com os parâmetros interpolados dos dois quadros DS válidos previamente recebido para atualizar o ruído de conforto. O controlador DTX RX ignora os quadros não enviados durante o período RC, porque é presumivelmente devido a uma ruptura de transmissão. O ruído de conforto que usa a informação analisada do ruído de fundo é gerado. O ruído de fundo pode ter características muito diferentes que dependem de sua fonte. Então, não existe nenhum modo geral para achar um grupo de parâmetros que descreveríam as características de todos os tipos de ruído de fundo adequadamente, e também podería ser transmitido apenas algumas vezes por segundo usando um número pequeno de bits. Porque a síntese de voz na comunicação de voz é baseada no sistema de geração de voz humana, os algoritmos de síntese de voz não podem ser usados da mesma maneira para a geração de ruído de conforto. Além disso, ao menos os parâmetros relacionados a voz, os parâmetros nos quadros DS não são transmitidos em todo quadro. É conhecido que o sistema audível humano concentra mais no espectro de amplitude do sinal do que para a resposta de fase. Adequadamente, é suficiente transmitir apenas a informação sobre o espectro comum e a potência do ruído de fiando para gerar o ruído de conforto. Então, o ruído de conforto é gerado usando estes dois parâmetros. Enquanto este tipo de geração de ruído de conforto atualmente introduz muita distorção no domínio de tempo, esta se assemelha ao ruído de fundo no domínio da freqüência. Isto é suficiente para reduzir os efeitos prejudiciais no intervalo de transição entre o período de voz e o período de ruído de conforto. A geração do ruído de conforto que trabalha bem tem um efeito muito calmante e o ruído de conforto não chama atenção a si mesmo. Porque a geração do ruído de conforto diminui a taxa de transmissão enquanto introduz apenas um pequeno erro perceptual, o conceito é bem aceito. Porém, quando as características do ruído de conforto gerado diferem significativamente do verdadeiro ruído de fundo, a transição entre o ruído de conforto e o ruído de fundo verdadeiro é normalmente audível.
Na técnica anterior, o filtro de síntese Preditivo Linear (LP) e os fatores de energia são obtidos interpolando os parâmetros entre os dois últimos quadros DS (ver Figura 4). Esta interpolação é executada com base em quadro-a-quadro. Dentro do quadro, os ganhos do livro-código do ruído de conforto de cada sub-quadro são os mesmos. Os parâmetros do ruído de conforto são interpolados dos parâmetros recebidos na taxa de transmissão dos quadros DS. Os quadros DS são transmitidos a cada quadro kiesimo. O quadro DS transmitido após o quadro niesirno é o quadro (n + k),es,mo. Os parâmetros RC são interpolados a cada quadro, de forma que os parâmetros interpolados mudam destes do quadro DS n'esim0 para estes do quadro DS (n+k),esim0, quando o quadro posterior é recebido. A interpolação é executada como a seguir: onde k é o período de interpolação, E' (n+i) é o vetor de parâmetro espectral do quadro (n+i)lésimo, i=0,.., k-1, E(n) é o vetor de parâmetro espectral da última atualização e E(n-k) é o vetor de parâmetro espectral da segunda última atualização. Igualmente, a potência recebida é interpolada como a seguir: onde k é o período de interpolação, NP'(n+i) é a potência recebida do quadro (n+i)iesimo, i=0,.., k-1, NP(n) é a potência recebida da última atualização e NP (n-k) é a potência recebida da segunda última atualização. Desta maneira, o ruído de conforto está variando lentamente e suavemente, tendendo de um grupo de parâmetros para outro grupo de parâmetros. O diagrama em blocos desta solução da técnica anterior é apresentado na Figura 4. O codec GSM EFR (Taxa Total Aumentada do Sistema Global para Comunicação Móvel) usa esta aproximação ao transmitir os coeficientes de filtro de síntese (LP) no domínio LSF. O ganho do livro-código estabelecido é usado para transmitir a energia do quadro. Estes dois parâmetros são interpolados de acordo com a Eq. 1 e a Eq. 2 com k=24. Uma descrição detalhada da geração GSM EFR RC pode ser encontrada no sistema de Telecomunicações Celular Digital (Fase 2+), Os Aspectos do Ruído de Conforto para os Canais de Tráfego de Voz de Taxa Total Aumentada (ETSIEN 300 728 v8.0.0 (2000-07)).
Altemativamente, os blocos de oscilação de energia e de oscilação espectral são usados para inserir um componente randômico nestes parâmetros, respectivamente. A meta é simular a flutuação no espectro e no nível de energia do ruído de fundo atual. A operação do bloco de oscilação espectral é como a seguir (ver Figura 5): Emédio (!) — Emédio '(i) + rand(-L,L), i=0,.. ,M-1, (3) onde E neste caso é um vetor LSF, L é um valor constante, rand (-L, L) é função randômica que gera os valores -L e L, Emédi0”(i) é o vetor LSF usado para a representação espectral do ruído de conforto, Emédk/(i) é a informação espectral ponderada (domínio LSF) do ruído de fundo e M é a ordem de filtro de síntese (LP). Igualmente, a oscilação de energia pode ser executada como a seguir: NPmédio”(i) = NPmédi0'(i) + rand(-L,L), i=0,..,M-l, (4) Os blocos de oscilação de energia e de oscilação espectral (LP) executam a oscilação com uma magnitude constante nas soluções das técnicas anteriores. Deveria ser observado que os coeficientes de filtro de síntese (LP) também são representados no domínio LSF na descrição deste segundo sistema da técnica anterior. Contudo, qualquer outra representação também pode ser usada (ex. domínio ISP).
Alguns dos sistemas da técnica anterior, tal como IS-641, descartam o bloco de oscilação de energia na geração do ruído de conforto. Uma descrição detalhada da geração do ruído de conforto IS-461 pode ser encontrada no Celular TDMA/PCS - Codec de Voz de Taxa Total Aumentada da Interface de Rádio, Revisão A (TIA/EIAIS-641-A).
As soluções da técnica anterior acima descritas trabalham razoavelmente bem com algum tipo de ruído de fundo, mas pobremente com outros tipos de ruído. Porque o tipo de ruído de fundo estacionário (como o ruído de carro ou vento como o ruído de fundo), a aproximação de não-oscilação executa bem, considerando que a aproximação da oscilação não executa bem. Isto é porque a aproximação da oscilação introduz as flutuações de fase randômica nos vetores do parâmetro espectral para geração do ruído de conforto, embora o ruído de fundo seja realmente estacionário. Para o tipo de ruído de fondo não-estacionário (rua ou ruído de escritório), a aproximação da oscilação executa razoavelmente bem, mas não a aproximação da não-oscilação. Assim, a aproximação da oscilação é mais satisfatória para simular as características não-estacionárias do ruído de fondo, enquanto a aproximação de não-oscilação é mais satisfatória para gerar ruído de conforto estacionário para casos onde o ruído de fondo flutua no tempo. Usando qualquer aproximação para gerar ruído de conforto, a transição entre o ruído de fondo sintetizado e o ruído de fondo verdadeiro, em muitas ocasiões, é audível. É vantajoso e desejável prover um método e um sistema para gerar o ruído de conforto, onde a audibilidade na transição entre o ruído de fondo sintetizado e o ruído de fondo verdadeiro pode ser reduzida ou substancialmente eliminada, mesmo se o ruído de fondo verdadeiro for estacionário ou não-estacionário. A WO 0031719 descreve um método para calcular a informação de variabilidade a ser usada para a modificação dos parâmetros do ruído de conforto. Em particular, o cálculo da informação de variabilidade é executado no decodificador. O cálculo pode ser executado totalmente no decodificador onde, durante o período do ruído de conforto, a informação de variabilidade existe apenas em um quadro de ruído de conforto (todo 24° quadro) e o retardo devido à computação será longo. O cálculo também pode ser dividido entre o codificador e o decodificador, mas uma taxa de bits mais alta é requerida no canal de transmissão para enviar a informação do codificador para o decodificador. É vantajoso prover um método mais simples para modificar o ruído de conforto.
Resumo da Invenção É o primeiro objeto da presente invenção reduzir ou eliminar substancialmente a audibilidade na transição entre o ruído de fundo verdadeiro nos períodos de voz e o ruído de conforto fornecido nos períodos de não-voz. Este objeto pode ser alcançado fornecendo o ruído de conforto baseado nas características do ruído de fundo.
De acordo com o primeiro aspecto da presente invenção um método é criado para gerar o ruído de conforto nos períodos de não-voz na comunicação de voz, onde os sinais indicativos da entrada de voz são providos nos quadros da parte transmissora para a parte receptora para facilitar a comunicação de voz, onde a entrada de voz tem um componente de voz e um componente de não-voz, o componente de não-voz é classificado como estacionário ou não-estacionário. O método compreende os passos de: - determinar se o componente de não-voz é estacionário ou não-estacionário; - prover na parte de transmissão um outro sinal possuindo um primeiro valor indicativo do componente de não-voz sendo estacionário ou um segundo valor indicativo do componente de não-voz sendo não-estacionário; e - prover na parte receptora o ruído de conforto nos períodos de não-voz, responsivo a outro sinal recebido da parte transmissora, da maneira baseada em se o outro sinal tem o primeiro valor ou o segundo valor.
De acordo com a presente invenção, os sinais incluem um vetor de parâmetro espectral e um nível de energia estimado do componente de não-voz da entrada de voz, e o ruído de conforto é gerado baseado no vetor de parâmetro espectral e no nível de energia. Se outro sinal possui o segundo valor, um valor randômico é inserido nos elementos do vetor de parâmetro espectral e no nível de energia para gerar o ruído de conforto.
De acordo com a presente invenção, o passo de determinar é executado baseado nas distâncias espectrais dentre os vetores de parâmetro espectral. Preferivelmente, as distâncias espectrais são somadas em um período médio para prover um valor somado, e onde o componente de não-voz é classificado como estacionário se o valor somado for menor do que o valor predeterminado e, o componente de não-voz é classificado como não-estacionário se o valor somado for maior ou igual ao valor predeterminado. Os vetores do parâmetro espectral podem ser vetores de frequência espectral linear (LSF), os vetores de imitância espectral (ISF) e outros.
De acordo com o segundo aspecto da presente invenção, um sistema para gerar o ruído de conforto na comunicação de voz na rede de comunicação, possui uma parte transmissora para prover os parâmetros relacionados a voz indicativos da entrada de voz, e uma parte receptora para reconstruir a entrada de voz baseada nos parâmetros relacionados a voz, onde a comunicação de voz tem períodos de voz e períodos de não-voz e a entrada de voz possui um componente de voz e um componente de não-voz, o componente de não-voz classificado como estacionário e não-estacionário, e onde o ruído de conforto é provido nos períodos de não-voz. O sistema compreende: - um dispositivo, localizado na parte transmissora, para determinar se o componente de não-voz é estacionário ou não-estacionário para prover um sinal possuindo um primeiro valor indicativo do componente de não-voz sendo estacionário ou um segundo valor indicativo do componente de não-voz sendo não-estacionário; - um dispositivo, localizado na parte receptora, responsivo ao sinal, para inserir um componente randômico no ruído de conforto apenas se o sinal possuir o segundo valor.
De acordo com o terceiro aspecto da presente invenção, um codificador de voz para uso na comunicação de voz possui um codificador para prover os parâmetros de voz indicativos da entrada de voz, e um decodificador, responsivo aos parâmetros de voz fornecidos, para reconstruir a entrada de voz baseada nos parâmetros de voz, onde a comunicação de voz possui períodos de voz e períodos de não-voz e a entrada de voz possui um componente de voz e um componente de não-voz, o componente de não-voz classificado como estacionário ou não-estacionário, e onde: - o codificador compreende um módulo de análise espectral, responsivo á entrada de voz, para prover um vetor de parâmetro espectral e um parâmetro de energia indicativo do componente de não-voz da entrada de voz, e - o decodificador compreende um meio para prover o ruído de conforto nos períodos de não-voz para substituir o componente de não-voz baseado no vetor de parâmetro espectral e no parâmetro de energia. O codificador de voz compreende: - um módulo detector de ruído, localizado no codificador, responsivo ao vetor de parâmetro espectral e no parâmetro de energia, para determinar se o componente de não-voz é estacionário ou não-estacionário e provê um sinal possuindo um primeiro valor indicativo do componente de não-voz sendo estacionário e um segundo valor indicativo do componente de não-voz sendo não-estacionário; e - um módulo oscilador, localizado no decodificador, responsivo ao sinal, para inserir um componente randômico nos elementos do vetor de parâmetro espectral e no parâmetro de energia para modificar o ruído de conforto apenas se o componente de não-voz for não-estacionário. A presente invenção se tomará mais aparente ao ler a descrição em conjunção com as Figuras 1 a 7.
Breve Descrição das Figuras Figura 1 - é um diagrama em blocos apresentando um típico controlador de transmissão descontínua na parte transmissora;
Figura 2 - é um diagrama de temporização apresentando a sincronização entre o detector de atividade de voz e o indicador de voz booleano;
Figura 3 - é um diagrama em blocos apresentando um típico controlador de transmissão descontínua na parte receptora;
Figura 4 - é um diagrama em blocos apresentando o sistema de geração de ruído de conforto da técnica anterior usando a aproximação de não-oscilação;
Figura 5 - é um diagrama em blocos apresentando o sistema de geração de mído de conforto da técnica anterior usando a aproximação de oscilação;
Figura 6 - é um diagrama em blocos apresentando o sistema de geração de ruído de conforto de acordo com a presente invenção;
Figura 7 - é um fluxograma ilustrando o método de gerar o ruído de conforto, de acordo com a presente invenção.
Descrição Detalhada da Invenção O sistema 1 de geração de ruído de conforto, de acordo com a presente invenção, é apresentado na Figura 6. Como apresentado, o sistema 1 compreende um codificador 10 e um decodificador 12. No codificador 10, um módulo 20 de análise espectral é usado para extrair os parâmetros 112 de predição linear (LP) do sinal de voz de entrada 100. Ao mesmo tempo, um módulo 24 de cálculo de energia é usado para calcular o fator de energia 122 do sinal 100 de voz de entrada. O módulo 22 de média espectral calcula os vetores 114 do parâmetro espectral médio dos parâmetros LP 112. Do mesmo modo, um módulo 26 de energia média calcula a energia recebida 124 do fator de energia 122. O cálculo dos parâmetros ponderados é conhecido na técnica, como descrito no Sistema de Telecomunicações Celular Digital (Fase 2+), Nos aspectos do ruído de conforto para os canais de tráfego de voz de taxa máxima aumentada (ETSI EM 300 728 v8.0.0 (2000-07)). Os vetores 114 de parâmetro espectral médio e a potência média recebida 124 são enviados do codificador 10 na parte transmissora para o decodificador 12 na parte receptora, como na técnica anterior.
No codificador 10, de acordo com a presente invenção, um módulo 28 detector determina se o ruído de fundo é estacionário ou não-estacionário dos vetores 114 de parâmetro espectral e da potência recebida 124. A informação indicando se o ruído de fundo é estacionário ou não-estacionário é enviada do codificador 10 para o decodificador 12 na forma de um “indicador-estacionaridade” 130. O indicador 130 pode ser enviado em um dígito binário. Por exemplo, quando o ruído de fundo é classificado como estacionário, o indicador-estacionaridade é estabelecido e ao indicador 130 é determinado o valor 1. Por outro lado, o indicador-estacionaridade é estabelecido NÃO e o indicador 130 é dado um valor 0. Como no decodificador da técnica anterior, como apresentado nas Figuras 4 e 5, um interpolador espectral 30 e um interpolador de energia 36 interpola E’(n+i) e NP’(n+i) em um novo quadro DS dos quadros DS prévios de acordo com a Eq.l e Eq.2, respectivamente. O vetor de parâmetro espectral interpolado, E’médi0, é referenciado pelo número de referência 116. A energia recebida interpolada, NP’médk>, é referenciado pelo número de referência 126. Se o ruído de fundo for classificado pelo módulo detector 28 como não-estacionário, como indicado pelo valor do indicador 130 (=0), o módulo 32 de oscilação espectral simula a flutuação do espectro de ruído de fundo atual ao inserir um componente randômico nos vetores 116 de parâmetro espectral, de acordo com a Eq.3, e um módulo 38 de oscilação de energia insere uma oscilação randômica na energia recebida 126, de acordo com a Eq. 4. O vetor do parâmetro espectral oscilado, E”médk» é referenciado pelo número de referência 118, a energia recebida oscilada NP”médio, é referenciada pelo número de referência 128. Contudo, se o ruído de fundo for classificado como estacionário, o indicador-estacionaridade 130 é estabelecido. O módulo 32 de oscilação espectral e o módulo 38 de oscilação de energia são efetivamente desviados assim que E”médio = E’médio, e NP”médio = NP’médio· Neste caso, o sinal 118 é idêntico ao sinal 116, e o sinal 128 é idêntico ao sinal 126. Em outro caso, o sinal 128 é transportado para o módulo de escala 40. Baseado na energia média NP”médio, o módulo de escala 40 modifica a energia do ruído de conforto assim que o nível de energia do ruído de conforto 150, como fornecido pelo decodificador 12, é aproximadamente igual a energia do ruído de fundo no codificador 10. Como apresentado na Figura 6, o gerador 50 de ruído randômico é usado para gerar o vetor de ruído branco randômico a ser usado como uma excitação. O ruído branco é referenciado pelo número de referência 140 e o ruído branco escalado ou modificado é referenciado pelo número de referência 142. O sinal 118, ou o vetor do parâmetro espectral médio E”médi0, representando o ruído de fundo médio da entrada 100, é fornecido para o módulo 34 de filtro de síntese. Baseado no sinal 118 e na excitação escalada 142, o módulo 34 do filtro de síntese provê o ruído de conforto 150. O ruído de fundo pode ser classificado como estacionário ou não-estacionário baseado nas distâncias espectrais AD, de cada um dos vetores f(i) do parâmetro espectral (LSF ou ISF) para outros vetores do parâmetro espectral f(j), i=0,..., W-l, j=0,...,ldtx-l, i#j dentro do período médio RC (Idtx). O período médio é tipicamente 8. As distâncias espectrais são aproximadas como a seguir: e fj(k) é o parâmetro espectral k,esimo do vetor f(i) de parâmetro espectral no quadro i, e M é a ordem do filtro de síntese (LP).
Se o período médio for 8, então a distância espectral é De = ^7=0 ADi. Se 5 De for pequena, o indicador-estacionaridade é estabelecido (o indicador 130 possui o valor 1), indicando que o ruído de fundo é estacionário. Por outro lado, o indicador-estacionaridade é estabelecido NÃO (o indicador 130 possui o valor 0), indicando que o ruído de fundo é não-estacionário. Preferivelmente, a distância De espectral total é comparada com uma constante, a qual pode ser igual a 67108864 na aritmética de ponto-10 fixo e aproximadamente 5147609 no ponto flutuante. O indicador-estacionaridade é estabelecido ou estabelecido NÃO dependendo de se ou não a DE for menor do que a constante.
Adicionalmente, a troca de potência entre os quadros pode ser levada em consideração. A propósito, a relação de energia entre dois quadros consecutivos E(i)/E(i+1) 15 é calculada. Como é conhecida na técnica, a energia de quadro para cada quadro referenciado com DAV=0 é calculado como a seguir: (7) = log2 E(i) onde s(n) é um sinal de entrada de voz filtrado passa-alta do quadro i atual. Se mais de uma destas relações de energia for suficientemente ampla, o indicador-estacionaridade é restaurado (o valor do indicador 130 toma-se 0), mesmo se este tiver sido 20 estabelecido antes para De sendo pequena. Isto é equivalente para comparar a energia de quadro no domínio logarítmico para cada quadro com a potência logarítmica ponderada. Assim, se a soma do desvio absoluto de eniog(i) do eniog médio for ampla, o indicador-estacionaridade é restaurado mesmo se este tiver sido estabelecido antes para De sendo pequena. Se a soma do desvio absoluto for maior do que 180 na aritmética ponto-fixo (1.406 no ponto flutuante), o indicador-estacionaridade é restaurado.
Ao inseri]· a oscilação nos vetores de parâmetro c-spectral, de acordo com a Eq.3, é preferido que uma quantidade menor de oscilação seja inserida nos componentes espectrais inferiores do que a quantidade de oscilação inserida nos componentes espectrais superiores (elementos LSF ou ISF). Isto modifica a inserção da oscilação espectral da Eq.3 na forma a seguir: E”méüio(i) = E’mécii0ü) rand (-L(i), Lti)), i= Ο,.,,Μ-1 (8) onde Lt i) aumenta pai a os componentes de frequência alta como urna função de i, e M é a ordem do filtro de síntese (LP). Como urn exemplo, ao aplicar o codec de banda larga AMR, o vetor L( i) pode ter os valores a seguir: {128, 140, 152, 164, 176,188,200, 212, 224, 236, 248, 260, 272, 284,296, 0) 327oS (ver Projeto de Parceiros da 3â Geração, os Serviços do Grupo de Especificação Técnica e Aspectos do Sistema, as lunçoes de processamento de voz do Codec de Voz Mandatário, o codec de voz de banda larga AMR, e as lunçoes de Transcodificação (3G TS 26.190 versão 0.02)). Deveria ser observado que aqui o domínio ISF é usado para a representação espectral, e o segundo último elemento do vetor (i-M-2) representa a frequência mais elevada e o primeiro elemento do vetor (i=0). No domínio LSF, o ultimo elemento do vetor (i-M-1) representa a freqüência mais elevada e o primeiro elemento do vetor (i=0 ). A inserção da oscilação para os parâmetros de potência é análoga á oscilação espectral e pode ser calculada de acordo com a Eq.4. No domínio logarítmico, a inserção da oscilação para os parâmetros de potência é como a seguir: (9) A Figura 7 é urn fluxograma ilustrando o método de gerar o ruído de conforto durante os períodos de não-voz, de acordo com a presente invenção. Como apresentado no íluxograma 200, o vetor Ε\η<κΐίο de parâmetro espectral médio, e a potência média recebida NP'médio são calculados no passo 202. No passo 204, a distância De espectral total é calculada. No passo 206, se for determinado que De não é menor que o valor predeterminado, (ex., 67108864 na aritmética de ponto-fixo), então o indicador-estacionaridade é estabelecido NÃO. Adequadamente, a oscilação é inserida no E’médio e no NP’médio no passo 232, resultando no E”médio e no NP”médio· Se De for menor do que o valor predeterminado, então o indicador-estacionaridade é estabelecido. O processo de oscilação no passo 232 é ultrapassado, ou E”médio = E’raédio e NP”médio = NP’médi0. Opcionalmente, o passo 208 é executado para medir a troca de potência entre os quadros. Se a troca de energia for ampla, como determinado no passo 230, então o indicador-estacionaridade é restaurado e o processo é retomado para o passo 232. Baseado no E”médi0 e no NP”médío, o ruído de conforto é gerado no passo 234.
Três diferentes tipos de ruído de fundo têm sido testados usando o método de acordo com a invenção. Com o ruído de carro, 95% dos quadros de ruído de conforto são classificados como estacionários. Com o ruído do escritório, 36,9% dos quadros do ruído de conforto são classificados como estacionários e com o mído de rua, 25,8% dos quadros do ruído de conforto são classificados como estacionários. Isto é um resultado muito bom, uma vez que o ruído de carro é um mído de fundo principalmente estacionário, considerando que o mído do escritório e o da ma são principalmente tipos não-estacionários do mído de fundo.
Deveria ser observado que o cálculo em relação ao indicador-estacionaridade, de acordo com a presente invenção, é executado totalmente no codificador. Como tal, o cálculo do retardo é substancialmente reduzido, quando comparado ao método do decodificador apenas, como descrito na WO 00/31719. Em adição, o método, de acordo com a presente invenção usa apenas um bit para enviar a informação do codificador para o decodificador para a modificação do mído de conforto. Em contraste, uma taxa de bit muito mais alta é requerida no canal de transmissão se o cálculo for dividido entre o codificador e o decodificador, como descrito na WO 00/31719.
Embora a invenção tenha sido descrita com relação á incorporação preferida desta, deve ser entendido pelo técnico que as anteriores e várias outras alterações, omissões e variações na forma e detalhes desta podem ser feitos sem sair do escopo desta invenção.
REIVINDICAÇÕES

Claims (23)

1. Método (200) para gerar ruído de conforto (150) na comunicação de voz tendo períodos de voz e períodos de não-voz, onde os sinais (114, 124) indicativos de uma entrada de voz são providos nos quadros a partir de um lado transmissor para um lado receptor para facilitar a dita comunicação de voz, e a entrada de voz tem um componente de voz e um componente de não-voz; o dito componente de não-voz sendo classificado como estacionário ou não-estacionário, caracterizado pelo fato de que os sinais indicativos (114, 124) incluem um vetor de parâmetro espectral (114) e um nível de energia (124) calculados a partir de um espectro do componente de não-voz, e o ruído de conforto (150) é gerado baseado no vetor de parâmetro espectral (114) e no nível de energia (124), e o dito método compreendendo os passos de: - determinar (204) se o componente de não-voz é estacionário ou não-estacionário, fornecendo (206) no lado transmissor um sinal adicional (130) tendo um primeiro valor indicativo do componente de não-voz sendo estacionário ou um segundo valor indicativo do componente de não-voz sendo não-estacionário; e - prover (202, 232), no lado receptor, o ruído de conforto (150) nos períodos de não-voz, responsivo ao dito sinal adicional recebido a partir do lado transmissor, baseado em se o sinal adicional (130) tem o primeiro valor ou o segundo valor; e sendo que os sinais indicativos (114, 124) são modificados com um componente aleatório antes de gerar o ruído de conforto (150) quando o sinal adicional (130) tem o segundo valor.
2. Método de acordo com a reivindicação 1, caracterizado pelo fato de que o componente de não-voz é um ruído de fundo proveniente do lado transmissor.
3. Método de acordo com a reivindicação 1, caracterizado pelo fato de que se o sinal adicional (130) possuir o segundo valor, um valor aleatório é inserido (32) nos elementos de vetor do parâmetro espectral (114) antes do ruído de conforto (150) ser fornecido.
4. Método de acordo com a reivindicação 1, caracterizado pelo fato de que se o sinal adicional (130) possuir o segundo valor, um primeiro grupo de valores aleatórios é inserido (32) nos elementos do vetor de parâmetro espectral (114), e um segundo valor aleatório é inserido (38) no nível de energia (124) antes do ruído de conforto (150) ser fornecido.
5. Método de acordo com a reivindicação 1, caracterizado pelo fato de que os ditos sinais incluem uma pluralidade de vetores de parâmetros espectrais (114) representando os componentes de não-voz, e sendo que o passo de determinar (204) é executado baseado nas distâncias espectrais (De) dentre os valores de parâmetros espectrais (114).
6. Método de acordo com a reivindicação 5, caracterizado pelo fato de que as distâncias espectrais (De) são somadas sobre um período comum para prover um valor somado, e sendo que o componente de não-voz é classificado como estacionário se o valor somado for menor do que o valor predeterminado e, o componente de não-voz é classificado como não-estacionário se o valor somado for maior ou igual ao valor predeterminado.
7. Método de acordo com a reivindicação 5, caracterizado pelo fato de que os vetores de parâmetros espectrais (114) são os vetores de frequência espectral linear (LSF).
8. Método de acordo com a reivindicação 5, caracterizado pelo fato de que os vetores de parâmetros espectrais (114) são os vetores de frequência espectral de imitância (ISF).
9. Método de acordo com a reivindicação 1, caracterizado pelo fato de que compreende ainda: - o passo (208) de cálculo para calcular mudanças no nível de energia entre os quadros se o sinal adicional tem o primeiro valor, e onde, se as mudanças no nível de energia excederem um valor predeterminado, o sinal adicional é alterado para ter o segundo valor e um vetor de valor aleatório é inserido (232) no vetor de parâmetro espectral (114) antes do ruído de conforto (150) ser fornecido.
10. Método de acordo com a reivindicação 1, caracterizado pelo fato de que compreende ainda: - o passo (208) de cálculo para calcular mudanças no nível de energia entre os quadros se o sinal adicional (130) tem o primeiro valor, e onde, se as mudanças no nível de energia excederem um valor predeterminado, o sinal adicional é alterado para ter o segundo valor e um vetor de valor aleatório é inserido (232) no vetor de parâmetro espectral (114) e no nível de energia (124) antes do ruído de conforto (150) ser fornecido.
11. Método de acordo com a reivindicação 1, caracterizado pelo fato de que o sinal adicional (130) inclui um indicador enviado do lado transmissor para o lado receptor para indicar se o componente de não-voz é estacionário ou não-estacionário, e sendo que o indicador é estabelecido quando o sinal adicional (130) tiver o primeiro valor e o indicador não é estabelecido quando o sinal adicional tiver o segundo valor.
12. Método de acordo com a reivindicação 11, caracterizado pelo fato de que quando o indicador não for estabelecido, um valor aleatório é inserido (232) no vetor de parâmetro espectral (114) antes do ruído de conforto (150) ser fornecido.
13. Método de acordo com a reivindicação 11, caracterizado pelo fato de que compreende os passos de: - calcular (208) as trocas no nível de energia entre os quadros se o sinal adicional tiver o primeiro valor; - determinar (230) se as trocas no nível de energia excedem um valor predeterminado; e - restaurar o indicador se as trocas excederem o valor predeterminado.
14. Método de acordo com a reivindicação 13, caracterizado pelo fato de que quando o indicador não for estabelecido, um valor aleatório é inserido (232) no vetor de parâmetro espectral (114) antes do ruído de conforto (150) ser fornecido.
15. Método de acordo com a reivindicação 3, caracterizado pelo fato de que o valor aleatório é limitado por -L e L é um valor predeterminado.
16. Método de acordo com a reivindicação 15, caracterizado pelo fato de que o valor predeterminado é substancialmente igual a 100 + 0,8i Hz.
17. Método de acordo com a reivindicação 4, caracterizado pelo fato de que o segundo valor aleatório é limitado por -75 e 75.
18. Método de acordo com a reivindicação 3, caracterizado pelo fato de que o valor aleatório é limitado -L e L, em que L é um valor que aumenta com os elementos que representam as frequências mais altas.
19. Método de acordo com a reivindicação 1, caracterizado pelo fato de que o sinal adicional é um indicador binário, o primeiro valor é 1 e o segundo valor é 0.
20. Método de acordo com a reivindicação 1, caracterizado pelo fato de que o sinal adicional é um indicador binário, o primeiro valor é 0 e o segundo valor é 1.
21. Sistema (10, 12) para uso na comunicação de voz tendo um codificador (10) para prover parâmetros de voz (114, 124) indicativos de uma entrada de voz (100), e um decodificador (12), responsivo aos parâmetros de voz (114, 124) fornecidos, para reconstruir a entrada de voz baseada nos parâmetros de voz, sendo que a comunicação de voz tem períodos de voz e períodos de não-voz e a entrada de voz tem um componente de voz e um componente de não-voz, em que o componente de não-voz é classificado como estacionário ou não-estacionário, caracterizado pelo fato de que: - o dito codificador (10) compreende um módulo de análise espectral (20, 24), responsivo à entrada de voz (100), para prover um vetor de parâmetro espectral (114) e um parâmetro de energia (124) indicativos do componente de não-voz da entrada de voz, e - o dito decodificador (12) compreende dispositivos (30, 36) para prover um ruído de conforto (150) nos períodos de não-voz para substituir o componente de não-voz baseado no vetor de parâmetro espectral e no parâmetro de energia, e sendo que o sistema compreende ainda: - um módulo detector de ruído (28), localizado no codificador (10), responsivo ao vetor de parâmetro espectral (114) e ao parâmetro de energia (124), para determinar se o componente de não-voz é estacionário ou não-estacionário e prover um sinal (130) tendo um primeiro valor indicativo do componente de não-voz sendo estacionário e um segundo valor indicativo do componente de não-voz sendo não-estacionário; e - um módulo oscilador (32, 38), localizado no decodificador (12), responsivo ao sinal (130), para inserir um componente aleatório nos elementos do vetor de parâmetro espectral (114) e no parâmetro de energia (124) para modificar o ruído de conforto (150) apenas se o componente de não-voz for não-estacionário.
22. Decodificador de voz (12) para reconstruir o sinal de voz (100) na comunicação de voz, o sinal de voz tendo períodos de voz e períodos de não-voz, em que a informação (114, 124) indicativa de uma entrada de voz é recebida nos quadros a partir do lado transmissor para o lado receptor, para facilitar a dita comunicação de voz, a entrada de voz tendo um componente de voz e um componente de não-voz, em que o componente de não-voz é classificado como estacionário ou não-estacionário, e sendo que a informação adicional que tem um primeiro valor ou um segundo valor é recebida a partir do lado transmissor para o lado receptor para indicar o componente de não-voz sendo estacionário ou o componente de não-voz sendo não-estacionário, caracterizado pelo fato de que compreende: - dispositivos, responsivos à informação (114, 124), para reconstruir o sinal de voz pelo menos parcialmente baseado na informação, - dispositivos (30, 36), responsivos à informação adicional, para prover um ruído de conforto (150) nos períodos de não-voz para substituir o componente de não-voz baseado no vetor de parâmetro espectral e no parâmetro de energia, e - um módulo de oscilação (32, 38) responsivo ao sinal (130), para incluir um componente aleatório nos elementos do vetor de parâmetro espectral (114) e do parâmetro de energia (124) para modificar o ruído de conforto (150) apenas se o componente de não-voz for não-estacionário.
23. Codificador de voz (10) para prover os parâmetros de voz (114, 124) indicativos da entrada de voz (100), caracterizado pelo fato de que compreende: - um módulo de análise espectral (20, 24), responsivo à entrada de voz (100), para prover um vetor de parâmetro espectral (114) e um parâmetro de energia (124) indicativo do componente de não-voz da entrada de voz; - um módulo de média espectral (22) para calcular a média dos vetores (114) do parâmetro espectral dos parâmetros LP (112); - um módulo de energia média (26) que calcula a energia recebida (124) do fator de energia (122); e - um módulo detector (28) para determinar se o componente de não-voz é estacionário ou não-estacionário dos vetores (114) de parâmetro espectral e de potência recebida (124).

Family

ID=

Similar Documents

Publication Publication Date Title
US6662155B2 (en) Method and system for comfort noise generation in speech communication
KR100388388B1 (ko) 재생위상정보를사용하는음성합성방법및장치
JP5925742B2 (ja) 通信システムにおける隠蔽フレームの生成方法
EP1382143B1 (en) Methods for changing the size of a jitter buffer and for time alignment, communications system, receiving end, and transcoder
US9336783B2 (en) Method and apparatus for performing packet loss or frame erasure concealment
JP4698593B2 (ja) 音声復号化装置および音声復号化方法
ES2337137T3 (es) Mejoramiento de audio en dominio codificado.
US7047190B1 (en) Method and apparatus for performing packet loss or frame erasure concealment
BR122017019860B1 (pt) método e dispositivo para a ocultação de apagamento de quadro causado por quadros apagados durante transmissão de um sinal de som codificado
US7908140B2 (en) Method and apparatus for performing packet loss or frame erasure concealment
BRPI0620838A2 (pt) método e dispositivo para uma eficiente ocultação de apagamento de quadro em codecs de voz
KR20090082415A (ko) 피치 주기 보정을 이용한 디지털 오디오 신호의 손실 블록의 합성 방법
JP2018084834A (ja) 低ビットレートで背景ノイズをモデル化するためのコンフォートノイズ付加
PT1328927E (pt) Processo e sistema para estimular artificialmente um sinal de alta-frequência num codec de voz
BRPI0720266A2 (pt) Dispositivo de decodificação de aúdio e método de ajuste de potência
US20100106490A1 (en) Method and Speech Encoder with Length Adjustment of DTX Hangover Period
US6973425B1 (en) Method and apparatus for performing packet loss or Frame Erasure Concealment
BRPI0012537B1 (pt) método de processamento de um protótipo de um frame em um codificador de fala e codificador de fala
BR112016020558B1 (pt) Aparelho e método para geração de um sinal de ocultação de erro utilizando uma estimativa de ruído adaptável
KR20010090438A (ko) 백그라운드 잡음 재생을 이용한 음성 코딩
ES2900058T3 (es) Selección de desfase de tono
BRPI0115601B1 (pt) Method for generating comfort noise in voice communication, system, voice decoder and voice encoder
Ross et al. Voice Codec for Floating Point Processor
Westerlund Media-specific Forward Error Correction in a CELP Speech Codec Applied to IP Networks
Hudson The self-excited vocoder for mobile telephony