BRPI0114706B1 - método de codificação de voz, sistema receptor e transmissor do sinal de voz para codificar e decodificar o sinal de entrada, decodificador, estação móvel e elemento de rede - Google Patents

método de codificação de voz, sistema receptor e transmissor do sinal de voz para codificar e decodificar o sinal de entrada, decodificador, estação móvel e elemento de rede Download PDF

Info

Publication number
BRPI0114706B1
BRPI0114706B1 BRPI0114706A BR0114706A BRPI0114706B1 BR PI0114706 B1 BRPI0114706 B1 BR PI0114706B1 BR PI0114706 A BRPI0114706 A BR PI0114706A BR 0114706 A BR0114706 A BR 0114706A BR PI0114706 B1 BRPI0114706 B1 BR PI0114706B1
Authority
BR
Brazil
Prior art keywords
voice
signal
periods
frequency band
artificial
Prior art date
Application number
BRPI0114706A
Other languages
English (en)
Other versions
BR0114706A (pt
Inventor
Hannu J Mikkola
Jani Rotola-Pukkila
Janne Vainio
Original Assignee
Nokia Corp
Nokia Technologies Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Corp, Nokia Technologies Oy filed Critical Nokia Corp
Publication of BR0114706A publication Critical patent/BR0114706A/pt
Publication of BRPI0114706B1 publication Critical patent/BRPI0114706B1/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

"método de codificação de voz, sistema receptor e transmissor do sinal de voz para codificar e decodificar o sinal de entrada, decodificador, estação móvel e elemento de rede". método e sistema para codificar e decodificar o sinal de entrada, onde o sinal de entrada é dividido em uma banda de freqüência superior e em uma banda de freqüência inferior nos processos de codificação e de decodificação, e onde a decodificação da banda de freqüência superior é executada usando um sinal artificial ao longo com os parâmetros relacionados a voz, obtidos da banda de freqüência inferior. em particular, o sinal artificial é escalonado antes de ser transformado em um sinal de banda larga artificial contendo um ruído colorido na banda de freqüência superior e inferior. adicionalmente, a informação de atividade de voz é usada para definir os períodos de voz e os períodos de não-voz do sinal de entrada. baseados na informação de atividade de voz, diferentes fatores de ponderação são usados para escalar o sinal artificial nos períodos de voz e nos períodos de não-voz.

Description

“MÉTODO DE CODIFICAÇÃO DE VOZ, SISTEMA RECEPTOR E TRANSMISSOR DO SINAL DE VOZ PARA CODIFICAR E DECODIFICAR O SINAL DE ENTRADA, DECODIFICADOR, ESTAÇÃO MÓVEL E ELEMENTO DE REDE”.
Campo da invenção A presente invenção em geral descreve o campo da codificação e da decodificação de voz sintetizada e, mais particularmente, a tal codificação e decodificação de voz de banda larga.
Descrição da Técnica Anterior Hoje, vários métodos de codificação são baseados na codificação preditiva linear (PL), que extrai perceptivamente as características significantes do sinal de voz diretamente da forma de onda do tempo, melhor do que da espectral de freqüência do sinal de voz (que é denominado de vocodificador de canal ou denominado de vocodificador formante). Na codificação PL, a forma de onda de voz é primeiro analisada (análise PL) para determinar o modelo variante no tempo da excitação de trato vocal, que ocasionou o sinal de voz, e também a função de transferência. O decodificador (no terminal de recepção no caso do sinal de voz codificado é telecomunicado) então recria a voz original usando um sintetizador (para executar a síntese PL), que passa a excitação através do sistema parametrizado, o qual modela o trato vocal. Os parâmetros do modelo do trato vocal e a excitação do modelo são ambos periodicamente atualizados para adaptar as trocas correspondentes que ocorreram no alto-falante, uma vez que o alto-falante produziu o sinal de voz. Entre as atualizações, isto é, durante qualquer intervalo da especificação, contudo, a excitação e os parâmetros do sistema são constantes e assegurados, e assim o processo executado pelo modelo é um processo invariante no tempo linear. Todo o sistema de codificação e de decodificação (distribuído) é denominado de codec.
No codec usando codificação PL para gerar voz, o decodificador necessita codificar para prover três entradas: o período de passo se a excitação for vocodificada, o fator de ganho e os coeficientes preditores. (Em alguns codecs, a natureza da excitação, isto é se for vocodificada ou não-vocodificada, é também fornecida, mas não é normalmente necessária no caso do codec Preditivo Linear Excitado por Código Algrébrico (ACELP), por exemplo). A codificação PL é preditiva, onde esta usa os parâmetros de predição baseados nos segmentos de entrada atuais da forma de onda de voz (durante o intervalo de especificação) para os quais os segmentos são aplicados, no processo de estimação direta. A codificação e a decodificação básica PL podem ser usadas para digitalmente comunicar voz com uma taxa de dados relativamente baixa, mas esta produz voz de som sintético porque usa um sistema muito simples de excitação. O codec denominado de Preditivo Linear Excitado por Código (CELP) é um codec de excitação aperfeiçoado. Este é baseado na codificação “residual”. A modelagem do trato vocal é em termos dos filtros digitais, parâmetros que são codificados na voz compactada. Estes filtros são direcionados, isto é, “excitados”, pelo sinal que representa a vibração das cordas vocais originais dos oradores. O resíduo de um sinal de voz de áudio é o sinal de voz de áudio (original) menos o sinal de voz de áudio filtrado digitalmente. O codec CELP codifica o resíduo e usa este como uma base para excitação, no que é conhecido como “excitação de pulso residual”. Contudo, ao invés de codificar as formas de onda residuais com base na amostra-por-amostra, o CELP usa o modelo da forma de onda selecionado do grupo predeterminado de modelos de forma de onda, para representar um bloco de amostras residuais. A palavra código é determinada pelo codificador e fornecida ao decodificador, o qual então usa a palavra código para selecionar uma seqüência residual para representar as amostras residuais originais. A Figura 1 apresenta os elementos do sistema transmissor/codificador e os elementos do sistema receptor/decodificador. Todo o sistema serve como um codec PL, e podería ser um codec do tipo-CELP. O transmissor aceita um sinal s(n) de voz amostrado e fornece este para o analisador que determina os parâmetros PL (filtro inverso e filtro de síntese) para o codec. O sq(n) é o sinal filtrado inverso usado para determinar o residual x(n). O módulo de busca de excitação codifica para a transmissão ambos o residual x(n), como um erro quantificado ou quantizado xq(n), e os parâmetros do sintetizador e os aplica ao canal de comunicação conduzindo ao receptor. No lado receptor (sistema decodificador), o módulo decodificador extrai os parâmetros do sintetizador do sinal transmitido e os provê ao sintetizador. O módulo decodificador também determina o erro quantizado x<j(n) do sinal transmitido. A saída do sintetizador é combinada com o erro quantificado xq(n) para produzir o valor quantificado sq(n) representando o sinal de voz original s(n). O transmissor e o receptor usando o codec do tipo-CELP funciona de uma maneira similar, exceto que o erro xq(n) é transmitido como um índice no livro-código representando várias formas de onda adequadas para a aproximação dos erros (residuais) x(n).
De acordo com o teorema de Nyquist, o sinal de voz com uma taxa de amostragem Fs pode representar uma banda de freqüência de 0 a 0.5 Fs- Nos dias de hoje, a maioria dos codecs de voz (codificadores-decodificadores) usam uma taxa de amostragem de 8kHz. Se a taxa de amostragem for aumentada de 8kHz, a natureza da voz melhora porque as frequências mais altas podem ser representadas. Hoje, a taxa de amostragem do sinal de voz é usualmente de 8kHz, mas as estações dos telefones móveis estão sendo desenvolvidas de forma que usarão uma taxa de amostragem de 16 kHz. De acordo com o teorema de Nyquist, uma taxa de amostragem de 16 kHz pode representar voz na banda de freqüência de 0 - 8 kHz. A voz amostrada é então codificada para comunicação pelo transmissor, e então decodificada pelo receptor. A codificação de voz da voz amostrada usando uma taxa de amostragem de 16 kHz é denominada de codificação de voz de banda larga.
Quando a taxa de amostragem de voz é aumentada, a complexidade da codificação também aumenta. Com alguns algoritmos, à medida que a taxa de amostragem aumenta, a complexidade da codificação pode aumentar exponencialmente. Desse modo, a complexidade da codificação é freqüentemente um fator limitante na determinação do algoritmo para a codificação de voz de banda larga. Isto é especialmente verdade, por exemplo, com as estações de telefones móveis onde os requerimentos do consumo de energia, da potência de processamento disponível, e da memória criticamente afetam a aplicabilidade dos algoritmos.
Algumas vezes na codificação de voz, um procedimento conhecido como dizimação é usado para reduzir a complexidade da codificação. A dizimação reduz a taxa de amostragem original para uma seqüência a uma taxa inferior. Isto é oposto ao procedimento conhecido como interpolação. O processo de dizimação filtra os dados de entrada com o filtro passa-baixa e então re-amostra o sinal regularizado resultante a uma taxa inferior. A interpolação aumenta a taxa de amostragem original para uma seqüência a uma taxa superior. A interpolação insere zeros na seqüência original e então aplica um filtro passa-baixa especial para substituir os valores zero com os valores interpolados. O número de amostras é então aumentado.
Outro codec de voz de banda larga da técnica anterior limita a complexidade ao usar a codificação de sub-banda. Em tal aproximação de codificação de sub-banda, antes de codificar um sinal de banda larga, este é dividido em dois sinais, um sinal de banda inferior e um sinal de banda superior. Ambos os sinais são então codificados, independentemente um do outro. No decodificador, em um processo de sintetização, os dois sinais são re-combinados. Tal aproximação diminui a complexidade da codificação nestas partes do algoritmo de codificação (tal como uma busca ao livro código inovado) onde a complexidade aumenta exponencialmente como uma função da taxa de amostragem. Contudo, nestas partes onde a complexidade aumenta linearmente, tal aproximação não diminui a complexidade. A complexidade da codificação da solução da técnica anterior de codificação da sub-banda acima pode ser também diminuída ao ignorar a análise da banda superior no codificador e ao substituir este com o ruído branco filtrado, ou o ruído pseudo-randômico filtrado, no decodificador, como apresentado na Figura 2. A análise da banda superior pode ser ignorada porque o ouvido humano não é sensível a resposta de fase da banda de fieqüência alta, mas apenas á resposta de amplitude. A outra razão é que apenas os fonemas não vocodificados tal como o ruído contém a energia na banda superior, considerando que o sinal vocodificado, para o qual a fase é importante, não tem energia significante na banda superior. Nesta aproximação, o espectro da banda superior é estimado com o filtro PL que tem sido gerado do filtro PL de banda inferior. Assim, nenhum conhecimento dos conteúdos da banda de freqüência superior é enviado sobre o canal de transmissão, e a geração dos parâmetros de filtragem de síntese PL de banda superior é baseada na banda de freqüência inferior. O ruído branco, um sinal artificial, é usado como uma fonte para a filtragem de banda superior com a energia do ruído sendo estimada das características do sinal de banda inferior. Porque ambos, o codificador e o decodificador conhecem a excitação, e o Preditor de Longo Termo (PLT) e o livro código fixado ganham para a banda inferior, é possível estimar o fator de escala de energia e os parâmetros de filtragem de síntese PL para a banda superior destes parâmetros. Na aproximação da técnica anterior, a energia do ruído branco de banda larga é equalizado para a energia de excitação da banda inferior. Subseqüentemente, a inclinação do sinal de síntese da banda inferior é computada. No cálculo do fator de inclinação, a banda de freqüência mais baixa está em corte e o sinal de ruído branco de banda larga equalizado é multiplicado pelo fator de inclinação. O ruído de banda larga é então filtrado através do filtro PL. Finalmente a banda inferior é cortada do sinal. Como tal, o escalonamento da energia de banda superior é baseado no fator de escala de energia de banda superior estimado do estimador de escala de energia, e a filtragem de síntese PL de banda superior é baseada nos parâmetros de filtragem de síntese PL de banda superior fornecidos pelo estimador de filtragem PL, indiferente de se o sinal de entrada é de voz ou de ruído de fundo. Enquanto esta aproximação é adequada para os sinais de processamento contendo apenas voz, esta não funciona apropriadamente quando os sinais de entrada contêm o ruído de fundo, especialmente durante os períodos de não-voz. O que é necessário é um método de codificação de voz de banda larga dos sinais de entrada contendo o ruído de fundo, onde o método reduz a complexidade comparada à complexidade na codificação de todo o sinal de voz de banda larga, indiferente do algoritmo de codificação particular usado, e ainda oferece substancialmente a mesma fidelidade superior na representação do sinal de voz.
Resumo da Invenção A presente invenção tem a vantagem da informação de atividade de voz para distinguir os períodos de voz e de não-voz do sinal de entrada, assim que a influência do ruído de fundo no sinal de entrada é levada em conta ao estimar o fator de escala de energia e os parâmetros de filtragem de síntese Preditiva Linear (PL) para a banda de freqüência superior do sinal de entrada.
De acordo com o primeiro aspecto da presente invenção descreve um método de codificação de voz para codificar e decodificar o sinal de entrada possuindo períodos de voz ativos e períodos de voz não-ativos, provendo um sinal de voz sintetizada que possui os componentes de freqüência superior e os componentes de freqüência inferior, onde o sinal de entrada é dividido em uma banda de freqüência superior e em uma banda de freqüência inferior nos processos de codificação e de decodificação, e onde os parâmetros relacionados a voz característicos da banda de freqüência inferior são usados para processar o sinal artificial provendo os componentes de freqüência superior, e onde o sinal de entrada inclui um primeiro sinal nos períodos de voz e um segundo sinal nos períodos de não-voz. O método é caracterizado pelo fato de que: - sintetizar e escalonar a filtragem do sinal artificial nos períodos de voz baseado nos parâmetros relacionados a voz indicativos do primeiro sinal,e; - sintetizar e escalonar a filtragem do sinal artificial nos períodos de não-voz baseado nos parâmetros relacionados a voz indicativos do segundo sinal, onde o primeiro sinal inclui o sinal de voz e o segundo sinal inclui o sinal de ruído.
Preferivelmente, o escalonamento e a filtragem de síntese do sinal artificial nos períodos de voz é também baseado no fator de inclinação espectral computado dos componentes da freqüência inferior de voz sintetizada.
Preferivelmente, quando o sinal de entrada inclui o ruído de fundo, o escalonamento e a filtragem de síntese do sinal artificial nos períodos de voz é também baseado no fator de correção característico do ruído de fundo.
Preferivelmente, o escalonamento e a filtragem de síntese do sinal artificial nos períodos de não-voz é também baseado no fator de correção característico do ruído de fundo.
Preferivelmente, a informação de atividade de voz é usada para indicar o primeiro e o segundo períodos de sinal. O segundo aspecto da presente invenção descreve um sistema transmissor e receptor de sinal de voz para codificar e decodificar um sinal de entrada possuindo períodos de voz e períodos de não-voz e provendo voz sintetizada possuindo os componentes de freqüência superior e os componentes de freqüência inferior, onde o sinal de entrada é dividido em uma banda de freqüência superior e em uma banda de freqüência inferior nos processos de codificação e de decodificação, onde os parâmetros relacionados a voz característicos da banda de freqüência inferior são usados para processar um sinal artificial para prover os componentes de freqüência superior de voz sintetizada de um sinal artificial, e onde o sinal de entrada inclui o primeiro sinal nos períodos de voz e o segundo sinal nos períodos de não-voz. O sistema é caracterizado pelo fato de que compreende: - um decodificador para receber o sinal de entrada codificado e para prover os parâmetros relativos a voz; - um estimador de escala de energia, responsivo aos parâmetros relacionados a voz, para prover um fator de escala de energia para escalar o sinal artificial; - um estimador de filtragem preditiva linear, responsivo aos parâmetros relacionados a voz, para síntese da filtragem do sinal artificial; e - um mecanismo para prover a informação em relação aos períodos de voz e de não-voz assim que o fator de escala de energia para os períodos de voz e para os períodos de não-voz for estimado baseado no primeiro e no segundo sinais, respectivamente.
Preferivelmente, o dispositivo que provê a informação é capaz de fornecer o primeiro fator de correção de ponderação para os períodos de voz e um segundo fator diferente de correção de ponderação para os períodos de não-voz assim como permitir que o estimador de escala de energia forneça o fator de escala de energia baseado no primeiro e no segundo fatores de correção de ponderação.
Preferivelmente, a filtragem de síntese do sinal artificial nos períodos de voz e nos períodos de não-voz é baseada no primeiro fator de correção de ponderação e no segundo fator de correção de ponderação, respectivamente.
Preferivelmente, os parâmetros relacionados a voz incluem os coeficientes de codificação preditiva linear representativos do primeiro sinal. O terceiro aspecto da presente invenção descreve um decodificador para sintetizar voz possuindo os componentes de ffeqüência superior e os componentes de ffeqüência inferior dos dados codificados indicativos do sinal de entrada possuindo períodos de voz e períodos de não-voz, onde o sinal de entrada é dividido em uma banda de ffeqüência superior e em uma banda de ffeqüência inferior nos processos de codificação e de decodificação, e a codificação do sinal de entrada é baseada na banda de ffeqüência inferior, e onde os dados codificados que incluem os parâmetros de voz característicos da banda de ffeqüência inferior são usados para processar um sinal artificial provendo os componentes de freqüência superior de voz sintetizada. O decodificador é caracterizado pelo fato de que compreende: - estimador de escala de energia, responsivo aos parâmetros de voz, para prover o primeiro fator de escala de energia para escalar o sinal artificial nos períodos de voz e o segundo fator de escala de energia para escalar o sinal artificial nos períodos de não-voz; e; - estimador de filtragem de síntese, para prover uma pluralidade de parâmetros de filtragem para a filtragem de síntese do sinal artificial.
Preferivelmente, o decodificador também compreende um dispositivo para monitorar os períodos de voz e os períodos de não-voz assim como permitir o estimador de escala de energia para trocar os fatores de escala de energia adequadamente. O quarto aspecto da presente invenção descreve uma estação móvel, a qual é disposta para receber um fluxo de bit codificado contendo os dados de voz indicativos do sinal de entrada, onde o sinal de entrada é dividido em uma banda de freqüência superior e em uma banda de freqüência inferior, e o sinal de entrada inclui o primeiro sinal nos períodos de voz e um segundo sinal nos períodos de não-voz, e os dados de voz incluem os parâmetros relacionados a voz obtidos da banda de freqüência inferior. A estação móvel é caracterizada pelo fato de que compreende: - um primeiro dispositivo para decodificar a banda de freqüência inferior usando os parâmetros relacionados a voz; - um segundo dispositivo para decodificar a banda de freqüência superior do sinal artificial; - um terceiro dispositivo, responsivo aos dados de voz, e para prover a informação de atividade de voz em relação aos períodos de voz e aos períodos de não-voz, e; - um estimador de escala de energia, responsivo à informação do período de voz, para prover o primeiro fator de escala de energia baseado no primeiro sinal e o segundo fator de escala de energia baseado no segundo sinal para escalar o sinal artificial, e; - um estimador de filtragem preditiva, responsivo aos parâmetros relacionados a voz e á informação do período de voz, para prover uma primeira pluralidade de parâmetros de filtragem preditiva linear baseado no primeiro sinal e uma segunda pluralidade de parâmetros de filtragem preditiva linear para filtrar o sinal artificial. O quinto aspecto da presente invenção descreve um elemento de rede de telecomunicação, o qual é disposto para receber um fluxo de bit codificado contendo dados de voz da estação móvel possuindo meios para codificar um sinal de entrada, onde o sinal de entrada é dividido em uma banda de ffeqüência superior e em uma banda de ffeqüência inferior, e o sinal de entrada inclui o primeiro sinal nos períodos de voz e um segundo sinal nos períodos de não-voz, e onde os dados de voz incluem os parâmetros relacionados a voz obtidos da banda de freqüência inferior. O elemento é caracterizado pelo fato de que compreende: - um primeiro dispositivo para decodificar a banda de ffeqüência inferior usando os parâmetros relacionados a voz; - um segundo dispositivo para decodificar a banda de ffeqüência superior de um sinal artificial; - um terceiro dispositivo, responsivo aos dados de voz, para fornecer a informação em relação a voz e aos períodos de não-voz, e para prover a informação do período de voz; - um estimador de escala de energia, responsivo à informação do período de voz, para prover o primeiro fator de escala de energia baseado no primeiro sinal e o segundo fator de escala de energia baseado no segundo sinal para escalar o sinal artificial, e; - um estimador de filtragem preditiva, responsivo aos parâmetros relacionados a voz e a informação do período de voz, provendo uma primeira pluralidade de parâmetros de filtragem preditiva linear baseado no primeiro sinal e uma segunda pluralidade de parâmetros de filtragem preditiva linear para filtrar o sinal artificial. A presente invenção se tomará aparente ao ler a descrição juntamente com as Figuras 3 a 6.
Breve Descrição da Figuras Figura 1 - é uma representação diagramática ilustrando o transmissor e o receptor usando o codificador e o decodificador preditivo linear;
Figura 2 - é uma representação diagramática ilustrando o codificador e o decodificador de voz CELP da técnica anterior, onde o ruído branco é usado como um sinal artificial para a filtragem da banda superior;
Figura 3 - é uma representação diagramática ilustrando o decodificador de banda superior, de acordo com a presente invenção;
Figura 4 - é um fluxograma ilustrando o cálculo de ponderação de acordo com o nível de ruído no sinal de entrada;
Figura 5 - é uma representação diagramática ilustrando a estação móvel, a qual inclui um decodificador, de acordo com a presente invenção;
Figura 6 - é uma representação diagramática ilustrando a rede de telecomunicação usando o decodificador, de acordo com a presente invenção.
Descrição Detalhada da Invenção Como apresentado na Figura 3, um decodificador 10 de banda superior é usado para prover um fator 140 de escala de energia de banda superior e uma pluralidade de parâmetros 142 de filtragem de síntese preditiva linear (PL) de banda superior baseados nos parâmetros 102 de banda inferior gerado do decodificador 2 de banda inferior, similar a aproximação encaminhada pelo decodificador de banda superior da técnica anterior, como apresentado na Figura 2. No codec da técnica anterior, como apresentado na Figura 2, o dispositivo de dizimação é usado para trocar o sinal de entrada de banda larga em um sinal de entrada de voz de banda inferior, e um codificador de banda inferior é usado para analisar o sinal de entrada de voz de banda inferior para prover uma pluralidade de parâmetros de voz codificados. Os parâmetros codificados incluem o sinal de Codificação Preditiva Linear (CPL), a informação sobre o filtro PL e a excitação são transmitidos através do canal de transmissão para a extremidade de recepção, a qual usa um decodificador de voz para reconstruir a voz de entrada. No decodificador, o sinal de voz de banda inferior é sintetizado pelo decodificador de banda inferior. Em particular, o sinal de voz de banda inferior sintetizado inclui a excitação exc(n), como fornecido pelo módulo BI de Análise-por-Síntese (A-p-S) (não apresentado). Subseqüentemente, um interpolador é usado para prover o sinal de voz de banda larga sintetizado, contendo apenas energia na banda inferior para o dispositivo somador. Em relação á reconstrução do sinal de voz na banda de freqüência superior, o decodificador de banda superior inclui o estimador de escala de energia, um estimador de filtragem PL, um módulo de escala, e um módulo de filtragem de síntese PL de banda superior. Como apresentado, o estimador de escala de energia provê um fator de escala de energia de banda superior, ou ganho, para o módulo de escala, e o estimador de filtragem PL provê um vetor de filtro PL, ou um grupo de parâmetros de filtragem de síntese PL de banda superior. Ao usar o fator de escala de energia, o módulo de escala escalona a energia do sinal artificial, como fornecido pelo gerador de ruído branco, para um nível apropriado. O módulo de filtragem de síntese PL de banda superior transforma o ruído branco escalonado apropriadamente em um sinal de banda larga artificial contendo o ruído colorido em ambas às bandas de freqüência, superior e inferior. O filtro passa-alta é então usado para prover o dispositivo somador com um sinal de banda larga artificial contendo o mído colorido apenas na banda superior para produzir a voz sintetizada em toda a largura de banda.
Na presente invenção, como apresentado na Figura 3, o ruído branco, ou o sinal artificial e(n), é também gerado pelo gerador 4 de ruído branco. Contudo, no decodificador da técnica anterior, como apresentado na Figura 2, a banda superior do sinal de ruído de fundo é estimada usando o mesmo algoritmo como para estimar o sinal de voz da banda superior. Porque o espectro do ruído de fundo é usualmente mais plano do que o espectro de voz, a aproximação da técnica anterior produz uma energia muito pequena para a banda superior no ruído de fundo sintetizado. De acordo com a presente invenção, dois grupos de estimadores de escala de energia e dois grupos de estimadores de filtragem PL são usados no decodificador 10 de banda superior. Como apresentado na Figura 3, o estimador 20 de escala de energia e o estimador 22 de filtragem PL são usados para os períodos de voz, e o estimador 30 de escala de energia e o estimador 32 de filtragem PL são usados para os períodos de não-voz, todos baseados nos parâmetros 102 de banda inferior fornecido pelo mesmo decodificador 2 de banda inferior. Em particular, o estimador 20 de escala de energia assume que o sinal é voz e estima a energia de banda superior como tal, e o estimador 22 de filtragem PL é designado para modelar um sinal de voz. Similarmente, o estimador 30 de escala de energia assume que o sinal é de mído de fundo e estima a energia da banda superior sob hipótese, e o estimador 32 de filtragem PL é designado para modelar o sinal do mído de fundo. Adequadamente, o estimador 20 de escala de energia é usado para prover o fator 120 de escala de energia de banda superior para os períodos de voz para o módulo 24 de ajuste de ponderação, e o estimador 30 de escala de energia é usado para prover o fator 130 de escala de energia de banda superior para os períodos de não-voz para o módulo 34 de ajuste de ponderação. O estimador 22 de filtragem PL é usado para prover os parâmetros 122 de filtragem de síntese PL de banda superior para o módulo 26 de ajuste de ponderação para os períodos de voz, e o estimador 32 de filtragem PL é usado para prover os parâmetros 132 de filtragem de síntese PL de banda superior para o módulo 36 de ajuste de ponderação para os períodos de não-voz. Em geral, o estimador 30 de escala de energia e o estimador 32 de filtragem PL assume que o espectro é mais plano e o fator de escala de energia é mais largo, quando comparado a estes assumidos pelo estimador 20 de escala de energia e pelo estimador 30 de filtragem PL. Se o sinal contém ambos voz e ruído de fundo, ambos os grupos de estimadores são usados, mas a estimação final é baseada na média ponderada dos fatores 120 e 130 de escala de energia de banda superior e na média ponderada dos parâmetros 122 e 132 de filtragem de síntese PL de banda superior.
Para alterar a ponderação do algoritmo de estimação do parâmetro de banda superior entre o modo de ruído de fundo e o modo de voz, baseado no fato de que os sinais de voz e de ruído de fundo tem características distinguíveis, o módulo 18 de cálculo de ponderação usa a informação 106 de atividade de voz e o sinal 108 de voz de banda inferior decodificado como sua entrada e usa esta entrada para monitorar o nível do ruído de fundo durante os períodos de não-voz, ao estabelecer o fator de ponderação an para processamento de ruído e o fator de ponderação as para processamento de voz, onde an + as =1. Deveria ser observado que a informação 106 de atividade de voz é fornecida pelo detector de atividade de voz (DAV, não apresentado), o qual é bem conhecido na técnica. A informação 106 de atividade de voz é usada para distinguir qual parte do sinal 108 de voz decodificado é dos períodos de voz e qual parte é dos períodos de não-voz. O ruído de fundo pode ser monitorado durante as pausas de voz, ou nos períodos de não-voz. Deveria ser observado que, no caso da informação 106 de atividade de voz não ser enviada sobre o canal de transmissão para o decodificador é possível analisar o sinal 108 de voz decodificado para distinguir os períodos de não-voz dos períodos de voz. Quando existe um nível significante de ruído de fundo detectado, a ponderação é estressada em direção a geração da banda superior para o ruído de fundo ao aumentar o fator an de correção de ponderação e diminuir o fator as de correção de ponderação, como apresentado na Figura 4. A ponderação pode ser executada, por exemplo, de acordo com a proporção real da energia de voz para a energia de ruído (RSR). Assim, o módulo 18 de cálculo de ponderação provê o fator 116 de correção de ponderação, ou as, para os períodos de voz para os módulos 24, 26 de ajuste de ponderação e um fator 118 de correção de ponderação diferente, ou an, para os períodos de não-voz para os módulos 34, 36 de ajuste de ponderação. A potência do ruído de fundo pode ser encontrada, por exemplo, ao analisar a potência do sinal sintetizado, que está contido no sinal 102 durante os períodos de não-voz. Tipicamente, este nível de potência é totalmente estável e pode ser considerado uma constante. Adequadamente, a RSR é a relação logarítmica da potência do sinal de voz sintetizado para a potência do ruído de fundo. Com os fatores 116 e 118 de correção de ponderação, o módulo 24 de ajuste de ponderação provê o fator 124 de escala de energia da banda superior para os períodos de voz, e o módulo 34 de ajuste de ponderação provê o fator 134 de escala de energia da banda superior para os períodos de não-voz para o módulo 40 somador. O módulo 40 somador provê o fator 140 de escala de energia de banda superior para ambos os períodos de voz e de não-voz. Do mesmo modo, o módulo 26 de ajuste de ponderação provê os parâmetros 126 de filtragem de síntese PL de banda superior para os períodos de voz, e o módulo 36 de ajuste de ponderação provê os parâmetros 136 de filtragem de síntese PL de banda superior para o dispositivo somador 42. Baseado nestes parâmetros, o dispositivo somador 42 provê os parâmetros 142 de filtragem de síntese PL de banda superior pára ambos os períodos de voz e de não-voz. Similar as suas contrapartes no codificador de banda superior da técnica anterior, como apresentado na Figura 2, o módulo 50 de escala escalona apropriadamente a energia do sinal 104 artificial como fornecido pelo gerador 4 de ruído branco, e o módulo 52 de filtragem de síntese PL de banda superior transforma o ruído branco em um sinal 152 de banda larga artificial contendo o ruído colorido em ambas as bandas de frequência superior e inferior. O sinal artificial com energia apropriadamente escalada é denotado pelo número de referência 150.
Um método para implementar a presente invenção é aumentar a energia da banda superior para o ruído de fundo baseado no fator 120 de escala de energia de banda superior do estimador 20 de escala de energia. Assim, o fator 130 de escala de energia de banda superior pode simplesmente ser o fator 120 de escala de energia de banda superior multiplicado pelo fator de correção constante cC0rr· Por exemplo, se o fator de inclinação Cinci usado pelo estimador 20 de escala de energia é de 0.5 e o fator de correção ccorr=2.0, então o fator 140 de energia de banda superior somado, ou aSOma, pode ser calculado de acordo com a equação a seguir: Otsoma — CXs Cincl Ctn Cjncl Cc0rr (1) Se o fator 116 de correção de ponderação, ou as, é estabelecido para ser igual a 1.0 para voz apenas, 0.0 para ruído apenas, 0.8 para voz com nível baixo de ruído de fundo, e 0.5 para voz com nível alto de ruído de fundo, o fator aSOma de energia de banda superior somado é determinado por: otsoma = 1.0 x 0.5 + 0.0 x 0.5 x 2.0 = 0.5 (para voz apenas) otsoma = 0.0 x 0.5 + 1.0 x 0.5 x 2.0 =1.0 (para ruído apenas) otsoma= 0.8 x 0.5 + 0.2 x 0.5 x 2.0 = 0.6 (para voz com ruído de fundo baixo) otsoma - 0.5 x 0.5 + 0.5 x 0.5 x 2.0 = 0.75 (para voz com ruído de fundo alto) A implementação exemplar é ilustrada na Figura 5. Este procedimento simples pode melhorar a qualidade da voz sintetizada ao corrigir a energia da banda superior. O fator de correção cC0n· é usado aqui porque o espectro do ruído de fundo é usualmente mais plano do que do espectro de voz. Nos períodos de voz, o efeito do fator de correção cCOrr não é tão significante quanto nos períodos de não-voz devido ao valor baixo de Cinci. Neste caso, o valor de Cinci é designado para o sinal de voz como na técnica anterior. É possível alterar de forma adaptável o fator de inclinação de acordo com o intervalo angular do ruído de fundo. No sinal de voz, a inclinação é definida como a inclinação geral da energia do domínio da freqüência. Tipicamente, o fator de inclinação é computado do sinal de síntese de banda inferior e é multiplicado pelo sinal artificial de banda larga equalizado. O fator de inclinação é estimado ao calcular o primeiro coeficiente r de auto-correlação, usando a equação a seguir: r={sT(n)s(n-l)}/{sT(n)s(n)} (2) onde s(n) é o sinal de voz sintetizado. Adequadamente, o fator Cinci de inclinação estimado é determinado de Cinci = 1.0 - r, com 0.2 < Cinci ^ 1.0, e o sobrescrito T denota o transpor do vetor. É também possível estimar o fator de escala de excitação CPL exc(n) e o sinal e(n) artificial filtrado como a seguir: ^escalonado = sqrt [{excT(n) exc(n)}/{eT(n) e(n)}] e(n) (3) O fator de escala sqrt [{excT(n) exc(n)}/{eT(n) e(n)}] é denotado pelo número de referência 140, e o ruído branco escalonado eesCaionado é denotado pelo número de referência 150. A excitação CPL, o sinal artificial filtrado e o fator de inclinação podem estar contidos no sinal 102.
Deveria ser observado que a excitação CPL exc(n), nos períodos de voz é diferente dos períodos de não-voz. Devido ao relacionamento entre as características do sinal de banda inferior e do sinal de banda superior, este é diferente nos períodos de voz dos períodos de não-voz, e é desejável aumentar a energia da banda superior ao multiplicar o fator de inclinação Cinci pelo fator de correção cCorr· No exemplo acima mencionado (Figura 4), Ccorr é escolhido como uma constante 2.0. Contudo, o fator de correção cCOrr deveria ser escolhido tal que 0.1< cCOrr Cinci ^ 1.0. Se o sinal de saída 120 do estimador 120 de escala de energia for Ci„ci, então o sinal de saída 130 do estimador de escala de energia 130 é Cinci cC0rr.
Uma implementação do estimador 32 de filtragem PL para ruído é tomar mais plano a banda superior do espectro quando o ruído de fundo não existir. Isto pode ser alcançado ao adicionar o filtro de ponderação WΒί(ζ)=Α(ζ/β i )/Α(ζ/β2) após o filtro PL de banda larga gerado, onde Â(z) é um filtro PL quantizado e 0>βι>β2>1. Por exemplo, Ctsoma-015βι ®·ηβ2 Ccorr? COm: βι = 0.5, β2 = 0.5 (para voz apenas) βι = 0.8, β2 = 0.5 (para ruído apenas) βι = 0.56, β2 = 0.46 (para voz com ruído de fundo baixo) βι = 0.65, β2 = 0.40 (para voz com mído de fundo alto) Deveria ser observado que quando a diferença entre βι e β2 toma-se mais larga, o espectro toma-se mais plano, e o filtro de ponderação cancela o efeito do filtro PL. A Figura 5 apresenta um diagrama em bloco da estação móvel 200 de acordo com uma incorporação exemplar da invenção. A estação móvel compreende partes típicas do dispositivo, tal como o microfone 201, o teclado 207, o visor 206, o fone de ouvido 214, o comutador 208 de transmissão/recepção, a antena 209 e a unidade de controle 205. Em adição, a figura apresenta os blocos 204 e 211 do transmissor e do receptor típicos da estação móvel. O bloco de transmissão 204 compreende um codificador 221 para codificar o sinal de voz. O bloco de transmissão 204 também compreende as operações solicitadas para a codificação de canal, a decifragem e a modulação como também as funções RF, que não tem sido apresentadas na Figura 5 para uma melhor compreensão. O bloco receptor 211 também compreende o bloco decodificador 220 de acordo com a invenção. O bloco decodificador 220 compreende o decodificador 222 de banda superior como o decodificador 10 de banda superior apresentado na Figura 3. O sinal entrante do microfone 201, amplificado no estágio de amplificação 202 e digitalizado no conversor A/D, é encaminhado para o bloco transmissor 204, tipicamente para o dispositivo de codificação de voz compreendido pelo bloco transmissor. O sinal de transmissão processado, modulado e amplificado pelo bloco transmissor é encaminhado através do comutador 208 de transmissão/recepção para a antena 209. O sinal a ser recebido é encaminhado da antena através do comutador 208 de transmissão/recepção para o bloco receptor 211, o qual demodula o sinal recebido e decodifica a decifragem e a codificação de canal. O sinal de voz resultante é encaminhado através do conversor 212 D/A para o amplificador 213 e também para o fone de ouvido 214. A unidade de controle 205 controla a operação da estação móvel 200, lê os comandos de controle determinados pelo usuário do teclado 207 e apresenta as mensagens para o usuário por meio do visor 206. O decodificador 10 da banda superior, de acordo com invenção, pode também ser usado na rede de telecomunicação 300, tal como a rede de telefonia ordinária ou a rede da estação móvel, tal como a rede GSM. A Figura 6 apresenta um exemplo do diagrama em blocos de tal rede de telecomunicação. Por exemplo, a rede de telecomunicação 300 pode compreender as centrais telefônicas ou os sistemas 360 de comutação correspondentes, para os quais os telefones 370 ordinários, as estações base 340, os controladores 350 da estação base e outros dispositivos centrais 355 da rede de telecomunicação são acoplados. As estações móveis 330 podem estabelecer uma conexão á rede de telecomunicação através das estações base 340. O bloco de decodificação 320 inclui um decodificador 322 de banda superior para o decodificador 10 de banda superior apresentado na Figura 3, este pode ser particularmente e vantajosamente colocado na estação base 340, por exemplo. Contudo, o bloco de decodificação 320 pode também ser colocado no controlador da estação base 350 ou em outro dispositivo de comutação ou central 355, por exemplo. Se o sistema da estação móvel usa transcodifícadores em separado, por exemplo, entre as estações base e os controladores da estação base, para transformar o sinal codificado sobre o canal de rádio em um sinal típico de 64 kbit/s transferido no sistema de telecomunicação e vice versa, o bloco de decodificação 320 pode também ser colocado em tal transcodificador. Em geral o bloco de decodificação 320 inclui um decodificador 322 de banda superior, que pode ser colocado em qualquer elemento da rede de telecomunicação 300, que transforma o fluxo de dados codificado em um fluxo de dados não codificado. O bloco de decodificação 320 decodifica e filtra o sinal de voz codificado entrante da estação móvel 330, logo após o sinal de voz pode ser transferido de uma maneira usual como uma transmissão não compactada na rede de telecomunicação 300. A presente invenção é aplicável aos codecs de voz do tipo CELP e também pode ser adaptada a outros tipos de codecs. Em adição, é possível usar no decodificador, como apresentado na Figura 3, apenas um estimador de escala de energia para estimar a energia de banda superior, ou um estimador de filtragem PL para modelar o sinal de voz e de ruído de fundo.
Embora a invenção tenha sido descrita com relação a uma incorporação preferida, será entendido pelo técnico que as anteriores e várias outras alterações, omissões e divergências na forma e nos detalhes desta podem ser feitos sem sair do conceito inventivo e escopo desta invenção.

Claims (30)

1. Método de codificação de voz para codificar e decodificar o sinal de entrada possuindo períodos de voz ativos e períodos de voz não-ativos, provendo um sinal de voz sintetizada que possui os componentes de ffeqüência superior e os componentes de ffeqüência inferior, onde o sinal de entrada é dividido em uma banda de freqüência superior e em uma banda de freqüência inferior nos processos de codificação e de decodificação, e onde os parâmetros relacionados a voz característicos da banda de freqüência inferior são usados para processar o sinal artificial provendo os componentes de ffeqüência superior, e onde o sinal de entrada inclui um primeiro sinal nos períodos de voz e um segundo sinal nos períodos de não-voz, o método é CARACTERIZADO pelo fato de que compreende as etapas de: - escalonar o sinal artificial nos períodos de voz baseado na informação de atividade de voz indicando o primeiro e o segundo sinais.
2. Método de acordo com a reivindicação 1, é CARACTERIZADO pelo fato de que também compreende: - sintetizar a filtragem do sinal artificial nos períodos de voz baseado nos parâmetros relacionados a voz indicativos do primeiro sinal,e; - sintetizar a filtragem do sinal artificial nos períodos de não-voz baseado nos parâmetros relacionados a voz indicativos do segundo sinal.
3. Método de acordo com a reivindicação 1, é CARACTERIZADO pelo fato de que o primeiro sinal inclui o sinal de voz e o segundo sinal inclui o sinal de ruído.
4. Método de acordo com a reivindicação 3, é CARACTERIZADO pelo fato de que o primeiro sinal também inclui o sinal de ruído.
5. Método de acordo com a reivindicação 1, é CARACTERIZADO pelo fato de que os períodos de voz e os períodos de não-voz são definidos pelo dispositivo de detecção de atividade de voz baseado no sinal de entrada.
6. Método de acordo com a reivindicação 1, é CARACTERIZADO pelo fato de que os parâmetros relacionados a voz incluem os coeficientes de codificação preditiva linear derivado do primeiro sinal.
7. Método de acordo com a reivindicação 1, é CARACTERIZADO pelo fato de que o escalonamento do sinal artificial nos períodos de voz é também baseado no fator de inclinação espectral computado dos componentes da ffeqüência inferior de voz sintetizada.
8. Método de acordo com a reivindicação 7, onde o sinal de entrada inclui o ruído de fundo, é também CARACTERIZADO pelo fato de que o escalonamento do sinal artificial nos períodos de voz é também baseado no fator de correção característico do ruído de fundo.
9. Método de acordo com a reivindicação 8, é CARACTERIZADO pelo fato de que o escalonamento do sinal artificial nos períodos de não-voz é também baseado no fator de correção.
10. Sistema transmissor e receptor de sinal de voz para codificar e decodificar um sinal de entrada possuindo períodos de voz e períodos de não-voz e provendo voz sintetizada possuindo os componentes de ffeqüência superior e os componentes de freqüência inferior, onde o sinal de entrada é dividido em uma banda de ffeqüência superior e em uma banda de ffeqüência inferior nos processos de codificação e de decodificação, onde os parâmetros relacionados a voz característicos da banda de ffeqüência inferior são usados para processar um sinal artificial para prover os componentes de freqüência superior de voz sintetizada, o sistema é CARACTERIZADO pelo fato de que compreende: - um decodificador para receber o sinal de entrada codificado provendo os parâmetros relativos a voz; - um estimador de escala de energia, responsivo aos parâmetros relacionados a voz, para prover um fator de escala de energia para escalar o sinal artificial; - um estimador de filtragem preditiva linear, responsivo aos parâmetros relacionados a voz, para síntese da filtragem do sinal artificial; e - dispositivo para prover a informação em relação aos períodos de voz e de não-voz assim que o fator de escala de energia para os períodos de voz e para os períodos de não-voz for estimado baseado na informação indicando os sinais de voz e não-voz, respectivamente.
11. Sistema de acordo com a reivindicação 10, é CARACTERIZADO pelo fato de que o dispositivo que provê a informação monitora os períodos de voz e de não-voz baseados na informação de atividade de voz da voz de entrada.
12. Sistema de acordo com a reivindicação 10, é CARACTERIZADO pelo fato de que o dispositivo que provê a informação é capaz de fornecer o primeiro fator de correção de ponderação para os períodos de voz e um segundo fator diferente de correção de ponderação para os períodos de não-voz assim como permitir que o estimador de escala de energia forneça o fator de escala de energia baseado no primeiro e no segundo fatores de correção de ponderação.
13. Sistema de acordo com a reivindicação 12, é CARACTERIZADO pelo fato de que a filtragem de síntese do sinal artificial nos períodos de voz e nos períodos de não-voz é baseada no primeiro fator de correção de ponderação e no segundo fator de correção de ponderação, respectivamente.
14. Sistema de acordo com a reivindicação 10, é CARACTERIZADO pelo fato de que: - o sinal de entrada inclui um primeiro sinal nos períodos de voz e um segundo sinal nos períodos de não-voz, e; - o primeiro sinal inclui um sinal de voz e o segundo sinal inclui um sinal de ruído.
15. Sistema de acordo com a reivindicação 14, é CARACTERIZADO pelo fato de que o primeiro sinal também inclui um sinal de ruído.
16. Sistema de acordo com a reivindicação 10, é CARACTERIZADO pelo fato de que os parâmetros relacionados a voz incluem os coeficientes de codificação preditiva linear representativos do primeiro sinal.
17. Sistema de acordo com a reivindicação 10, é CARACTERIZADO pelo fato de que o fator de escala de energia para os períodos de voz é estimado do fator de inclinação espectral dos componentes de freqüência inferior de voz sintetizada.
18. Sistema de acordo com a reivindicação 17, é CARACTERIZADO pelo fato de que: - o sinal de entrada inclui o ruído de fundo; - o fator de escala de energia para os períodos de voz é também estimado do fator de correção característico do ruído de fundo.
19. Sistema de acordo com a reivindicação 17, é CARACTERIZADO pelo fato de que o fator de escala de energia para os períodos de não-voz é também estimado do fator de correção.
20. Decodificador para sintetizar voz possuindo os componentes de ffeqüência superior e os componentes de ffeqüência inferior dos dados codificados indicativos do sinal de entrada possuindo períodos de voz e períodos de não-voz, onde o sinal de entrada é dividido em uma banda de freqüência superior e em uma banda de freqüência inferior nos processos de codificação e de decodificação, e a codificação do sinal de entrada é baseado na banda de ffeqüência inferior, e onde os dados codificados que incluem os parâmetros de voz característicos da banda de freqüência inferior são usados para processar um sinal artificial provendo os componentes de ffeqüência superior de voz sintetizada, o decodificador é CARACTERIZADO pelo fato de que compreende: - estimador de escala de energia, responsivo aos parâmetros de voz, para prover o primeiro fator de escala de energia para escalar o sinal artificial nos períodos de voz e o segundo fator de escala de energia para escalar o sinal artificial nos períodos de não-voz; e; - estimador de filtragem de síntese, para prover uma pluralidade de parâmetros de filtragem para a filtragem de síntese do sinal artificial.
21. Decodificador de acordo com a reivindicação 20, é CARACTERIZADO pelo fato de que também compreende um dispositivo para monitorar os períodos de voz e os períodos de não-voz provendo um sinal indicativo dos períodos de voz e dos períodos de não-voz.
22. Decodificador de acordo com a reivindicação 20, é CARACTERIZADO pelo fato de que: - o sinal de entrada inclui um primeiro sinal nos períodos de voz e um segundo sinal nos períodos de não-voz, e; - o primeiro fator de escala de energia é estimado baseado no primeiro sinal e o segundo fator de escala de energia é estimado baseado no segundo sinal.
23. Decodificador de acordo com a reivindicação 22, é CARACTERIZADO pelo fato de que os parâmetros de filtragem para os períodos de voz e para os períodos de não-voz são estimados do primeiro e segundo sinais, respectivamente.
24. Decodificador de acordo com a reivindicação 22, é CARACTERIZADO pelo fato de que o primeiro fator de escala de energia é também estimado baseado no fator de inclinação espectral característico dos componentes de freqüência inferior de voz sintetizada.
25. Decodificador de acordo com a reivindicação 22, é CARACTERIZADO pelo fato de que o primeiro sinal inclui o ruído de fundo, e onde o primeiro fator de escala de energia é também estimado baseado no fator de correção característico do ruído de fundo.
26. Decodificador de acordo com a reivindicação 25, é CARACTERIZADO pelo fato de que o segundo fator de escala de energia é também estimado baseado no fator de correção.
27. Estação móvel, a qual é disposta para receber um fluxo de bit codificado contendo os dados de voz indicativos do sinal de entrada, onde o sinal de entrada é dividido em uma banda de freqüência superior e em uma banda de freqüência inferior, e o sinal de entrada inclui o primeiro sinal nos períodos de voz e um segundo sinal nos períodos de não-voz, e os dados de voz incluem os parâmetros relacionados a voz obtidos da banda de freqüência inferior, a estação móvel é CARACTERIZADA pelo fato de que compreende: - um primeiro dispositivo, responsivo ao fluxo de bit codificado, para decodificar a banda de freqüência inferior usando os parâmetros relacionados a voz; - um segundo dispositivo, responsivo ao fluxo de bit codificado, para decodificar a banda de freqüência superior do sinal artificial; - um terceiro dispositivo, responsivo aos dados de voz, para obter a informação de atividade de voz em relação aos períodos de voz e aos períodos de não-voz, e; - um estimador de escala de energia, responsivo à informação de atividade de voz, para prover o primeiro fator de escala de energia e o segundo fator de escala de energia para escalar o sinal artificial baseado nos períodos de voz e nos períodos de não-voz.
28. Estação móvel de acordo com a reivindicação 27, é CARACTERIZADA pelo fato de que também compreende um estimador de filtragem preditiva, responsivo aos parâmetros relacionados a voz e a informação de atividade de voz, provendo uma primeira pluralidade de parâmetros de filtragem preditiva linear baseado no primeiro sinal e uma segunda pluralidade de parâmetros de filtragem preditiva linear para filtrar o sinal artificial.
29. Elemento de rede de telecomunicação, o qual é disposto para receber um fluxo de bit codificado contendo dados de voz indicativos do sinal de entrada da estação móvel, onde o sinal de entrada é dividido em uma banda de ffeqüência superior e em uma banda de ffeqüência inferior, e o sinal de entrada inclui o primeiro sinal nos períodos de voz e um segundo sinal nos períodos de não-voz, e onde os dados de voz incluem os parâmetros relacionados a voz obtidos da banda de ffeqüência inferior, o elemento é CARACTERIZADO pelo fato de que compreende: - um primeiro dispositivo para decodificar a banda de freqüência inferior usando os parâmetros relacionados a voz; - um segundo dispositivo para decodificar a banda de freqüência superior de um sinal artificial; - um terceiro dispositivo, responsivo aos dados de voz, para fornecer a informação em relação a voz e aos períodos de não-voz; e - um estimador de escala de energia, responsivo à informação do período de voz, para prover o primeiro fator de escala de energia baseado no primeiro sinal e o segundo fator de escala de energia baseado no segundo sinal para escalar o sinal artificial.
30. Elemento de acordo com a reivindicação 29, é CARACTERIZADO pelo fato de que também compreende um estimador de filtragem preditiva, responsivo aos parâmetros relacionados a voz e a informação de atividade de voz, provendo uma primeira pluralidade de parâmetros de filtragem preditiva linear baseado no primeiro sinal e uma segunda pluralidade de parâmetros de filtragem preditiva linear para filtrar o sinal artificial.
BRPI0114706A 2000-10-18 2001-08-31 método de codificação de voz, sistema receptor e transmissor do sinal de voz para codificar e decodificar o sinal de entrada, decodificador, estação móvel e elemento de rede BRPI0114706B1 (pt)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/691,323 US6691085B1 (en) 2000-10-18 2000-10-18 Method and system for estimating artificial high band signal in speech codec using voice activity information
PCT/IB2001/001596 WO2002033696A1 (en) 2000-10-18 2001-08-31 Method and system for estimating artificial high band signal in speech codec

Publications (2)

Publication Number Publication Date
BR0114706A BR0114706A (pt) 2005-01-11
BRPI0114706B1 true BRPI0114706B1 (pt) 2016-03-01

Family

ID=24776068

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0114706A BRPI0114706B1 (pt) 2000-10-18 2001-08-31 método de codificação de voz, sistema receptor e transmissor do sinal de voz para codificar e decodificar o sinal de entrada, decodificador, estação móvel e elemento de rede

Country Status (15)

Country Link
US (1) US6691085B1 (pt)
EP (2) EP1772856A1 (pt)
JP (2) JP4302978B2 (pt)
KR (1) KR100544731B1 (pt)
CN (1) CN1295677C (pt)
AT (1) ATE362634T1 (pt)
AU (1) AU2001284327A1 (pt)
BR (1) BRPI0114706B1 (pt)
CA (1) CA2426001C (pt)
DE (1) DE60128479T2 (pt)
DK (1) DK1328927T3 (pt)
ES (1) ES2287150T3 (pt)
PT (1) PT1328927E (pt)
WO (1) WO2002033696A1 (pt)
ZA (1) ZA200302465B (pt)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7263481B2 (en) * 2003-01-09 2007-08-28 Dilithium Networks Pty Limited Method and apparatus for improved quality voice transcoding
KR100940531B1 (ko) 2003-07-16 2010-02-10 삼성전자주식회사 광대역 음성 신호 압축 및 복원 장치와 그 방법
KR20050027179A (ko) * 2003-09-13 2005-03-18 삼성전자주식회사 오디오 데이터 복원 방법 및 그 장치
WO2006025337A1 (ja) * 2004-08-31 2006-03-09 Matsushita Electric Industrial Co., Ltd. ステレオ信号生成装置およびステレオ信号生成方法
KR100707174B1 (ko) 2004-12-31 2007-04-13 삼성전자주식회사 광대역 음성 부호화 및 복호화 시스템에서 고대역 음성부호화 및 복호화 장치와 그 방법
EP1814106B1 (en) * 2005-01-14 2009-09-16 Panasonic Corporation Audio switching device and audio switching method
US7813931B2 (en) * 2005-04-20 2010-10-12 QNX Software Systems, Co. System for improving speech quality and intelligibility with bandwidth compression/expansion
US8086451B2 (en) * 2005-04-20 2011-12-27 Qnx Software Systems Co. System for improving speech intelligibility through high frequency compression
US8249861B2 (en) * 2005-04-20 2012-08-21 Qnx Software Systems Limited High frequency compression integration
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
KR100653643B1 (ko) * 2006-01-26 2006-12-05 삼성전자주식회사 하모닉과 비하모닉의 비율을 이용한 피치 검출 방법 및피치 검출 장치
JP5173800B2 (ja) * 2006-04-27 2013-04-03 パナソニック株式会社 音声符号化装置、音声復号化装置、およびこれらの方法
JP4967618B2 (ja) * 2006-11-24 2012-07-04 富士通株式会社 復号化装置および復号化方法
EP2945158B1 (en) * 2007-03-05 2019-12-25 Telefonaktiebolaget LM Ericsson (publ) Method and arrangement for smoothing of stationary background noise
CN100524462C (zh) * 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
CN100555414C (zh) * 2007-11-02 2009-10-28 华为技术有限公司 一种dtx判决方法和装置
KR101444099B1 (ko) * 2007-11-13 2014-09-26 삼성전자주식회사 음성 구간 검출 방법 및 장치
KR101235830B1 (ko) 2007-12-06 2013-02-21 한국전자통신연구원 음성코덱의 품질향상장치 및 그 방법
CN103187065B (zh) 2011-12-30 2015-12-16 华为技术有限公司 音频数据的处理方法、装置和系统
JP5443547B2 (ja) * 2012-06-27 2014-03-19 株式会社東芝 信号処理装置
CN107945813B (zh) 2012-08-29 2021-10-26 日本电信电话株式会社 解码方法、解码装置、和计算机可读取的记录介质
CN105976830B (zh) 2013-01-11 2019-09-20 华为技术有限公司 音频信号编码和解码方法、音频信号编码和解码装置
ES2732560T3 (es) * 2013-01-29 2019-11-25 Fraunhofer Ges Forschung Llenado de ruido sin información secundaria para codificadores tipo celp
US10978083B1 (en) * 2019-11-13 2021-04-13 Shure Acquisition Holdings, Inc. Time domain spectral bandwidth replication

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5235669A (en) 1990-06-29 1993-08-10 At&T Laboratories Low-delay code-excited linear-predictive coding of wideband speech at 32 kbits/sec
JP2779886B2 (ja) * 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
JPH08102687A (ja) * 1994-09-29 1996-04-16 Yamaha Corp 音声送受信方式
JP2638522B2 (ja) * 1994-11-01 1997-08-06 日本電気株式会社 音声符号化装置
FI980132A (fi) 1998-01-21 1999-07-22 Nokia Mobile Phones Ltd Adaptoituva jälkisuodatin
US6453289B1 (en) * 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
KR20000047944A (ko) 1998-12-11 2000-07-25 이데이 노부유끼 수신장치 및 방법과 통신장치 및 방법
JP4135242B2 (ja) * 1998-12-18 2008-08-20 ソニー株式会社 受信装置及び方法、通信装置及び方法
JP4135240B2 (ja) * 1998-12-14 2008-08-20 ソニー株式会社 受信装置及び方法、通信装置及び方法
JP2000181494A (ja) * 1998-12-11 2000-06-30 Sony Corp 受信装置及び方法、通信装置及び方法
JP2000181495A (ja) * 1998-12-11 2000-06-30 Sony Corp 受信装置及び方法、通信装置及び方法
JP2000206997A (ja) * 1999-01-13 2000-07-28 Sony Corp 受信装置及び方法、通信装置及び方法

Also Published As

Publication number Publication date
EP1772856A1 (en) 2007-04-11
US6691085B1 (en) 2004-02-10
JP2009069856A (ja) 2009-04-02
CN1295677C (zh) 2007-01-17
DK1328927T3 (da) 2007-07-16
CA2426001A1 (en) 2002-04-25
ATE362634T1 (de) 2007-06-15
WO2002033696A1 (en) 2002-04-25
KR100544731B1 (ko) 2006-01-23
JP2004537739A (ja) 2004-12-16
EP1328927B1 (en) 2007-05-16
WO2002033696B1 (en) 2002-07-25
EP1328927A1 (en) 2003-07-23
ES2287150T3 (es) 2007-12-16
CA2426001C (en) 2006-04-25
BR0114706A (pt) 2005-01-11
AU2001284327A1 (en) 2002-04-29
KR20040005838A (ko) 2004-01-16
ZA200302465B (en) 2004-08-13
DE60128479D1 (de) 2007-06-28
CN1484824A (zh) 2004-03-24
JP4302978B2 (ja) 2009-07-29
PT1328927E (pt) 2007-06-14
DE60128479T2 (de) 2008-02-14

Similar Documents

Publication Publication Date Title
BRPI0114706B1 (pt) método de codificação de voz, sistema receptor e transmissor do sinal de voz para codificar e decodificar o sinal de entrada, decodificador, estação móvel e elemento de rede
EP1328928B1 (en) Apparatus for bandwidth expansion of a speech signal
JP4927257B2 (ja) 可変レートスピーチ符号化
KR100388388B1 (ko) 재생위상정보를사용하는음성합성방법및장치
JP4870313B2 (ja) 可変レート音声符号器におけるフレーム消去補償方法
US20050071153A1 (en) Signal modification method for efficient coding of speech signals
EP1598811B1 (en) Decoding apparatus and method
JP2009541797A (ja) 種々の音声フレーム・レートの混合励振線形予測(melp)ボコーダ間でトランスコーディングするボコーダ及び関連した方法
BRPI0012537B1 (pt) método de processamento de um protótipo de um frame em um codificador de fala e codificador de fala
Gomez et al. Recognition of coded speech transmitted over wireless channels
JP4230550B2 (ja) 音声符号化方法及び装置、並びに音声復号化方法及び装置
JP3896654B2 (ja) 音声信号区間検出方法及び装置
BRPI0114669B1 (pt) A method of encoding a voice, a receiver system and a transmitter of the speech signal to an encoder and decoding the input signal, an encoder, a decoder, a mobile station and a network element

Legal Events

Date Code Title Description
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B25A Requested transfer of rights approved

Owner name: NOKIA TECHNOLOGIES OY (FI)

B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 01/03/2016, OBSERVADAS AS CONDICOES LEGAIS.