BRPI0012537B1

BRPI0012537B1 - método de processamento de um protótipo de um frame em um codificador de fala e codificador de fala

Info

Publication number: BRPI0012537B1
Application number: BRPI0012537A
Authority: BR
Inventors: Sharath Manjunath
Original assignee: Qualcomm Inc
Priority date: 1999-07-19
Filing date: 2000-07-18
Publication date: 2016-06-21
Also published as: BR0012537A; HK1064196A1; HK1047816B; DE60037286T2; DE60037286D1; KR100754580B1; CN1290077C; DE60023913T2; US6678649B2; DE60023913D1; US20020095283A1; EP1204968A1; WO2001006492A1; JP4860859B2; AU6221600A; HK1091583A1; CN1375095A; US6397175B1; EP1617416A2; CN1510660A

Abstract

"método e aparelho para subamostrar informação de espectro de fase". um método e aparelho para subamostrar informação de espectro de fase incluem um codificador de fala para analisar e reconstruir um protótipo de um frame pelo uso de subamostragem inteligente de informação de espectro de fase do protótipo. a fim de analisar o protótipo, o codificador de fala produz parâmetros de fase de um protótipo referência, gera parâmetros de fase de um protótipo atual, e correlaciona os parâmetros de fase do protótipo atual com os parâmetros de fase do protótipo referência em múltiplas bandas de freqüência. a fim de reconstruir o protótipo usando valores de deslocamento de fase linear, o codificador de fala produz parâmetros de fase do protótipo referência, gera um conjunto de valores de deslocamento de fase linear associado ao protótipo, e compõe um vetor de fase a partir dos parâmetros de fase e dos valores de deslocamento de fase linear através de múltiplas bandas de freqüência. a fim de reconstruir o protótipo usando valores de rotação circular, o codificador de fala produz um conjunto de valores de rotação circular associado ao protótipo, gera um conjunto de formas de onda de banda passante em múltiplas bandas de freqüência, as formas de onda de banda passante sendo associadas aos parâmetros de fase do protótipo referência, e modifica as formas de onda de banda passante baseadas nos valores de rotação circular

Description

Relatório Descritivo da Patente de Invenção: MÉTODO DE PROCESSAMENTO DE UM PROTÓTIPO DE UM FRAME EM UM CODIFICADOR DE FALA E CODIFICADOR DE FALA.

HISTÓRICO DA INVENÇÃO I. Campo da Invenção A presente invenção pertence geralmente ao campo de processamento de fala, e mais especificamente a métodos e aparelhos para sub-amostragem de informação de espectro de fase para ser transmitida por um codificador de fala. II. Histórico A transmissão de voz pelas técnicas digitais tem se tornado largamente difundida, particularmente em aplicações telefônicas de longa distância e rádio digital. Isto, por sua vez, tem criado interesse em determinar a menor quantidade de informação que pode ser enviada sobre um canal enquanto se mantém a qualidade percebida da fala reconstruída. Caso a fala seja transmitida simplesmente pela amostragem e aigitaiizaçao, uma taxa de dados na ordem de sessenta e quatro kilobits por segundo (kbps) é exigida para atingir uma qualidade de fala do telefone analógico convencional. Todavia, através do uso de análises de fala, seguida pelas codificação, transmissão, e resintetização apropriadas no receptor, pode ser atingida uma significante redução na taxa de dados.

Os dispositivos para compressão da fala são usados em muitos campos das telecomunicações. Um campo exemplar é o das comunicações sem fio. O campo das comunicações sem fio tem muitas aplicações incluindo, por exemplo, telefones sem fio, paging, wireless local loops, telefonia sem fio tal como sistemas de telefonia celular e PCS, telefonia com protocolo de Internet (IP - Internet Protocol) móvel, e sistemas de comunicação por satélite. Uma aplicação particularmente importante é a telefonia sem fio para assinantes móveis. Várias interfaces aéreas têm sido desenvolvidas para sistemas de comunicação sem fio incluindo, por exemplo, acesso múltiplo por divisão de freqüência (FDMA), acesso múltiplo por divisão de tempo (TDMA), e acesso múltiplo por divisão de código (CDMA) . Em relação a isso, vários padrões domésticos e internacionais têm sido estabelecidos incluindo, por exemplo, o Serviço Telefônico Móvel Avançado (AMPS), o Sistema Global Para Comunicações Móveis (GSM) , e o Padrão Interino 95 (IS-95) . Um sistema exemplar de comunicação telefônica sem fio é um sistema de acesso múltiplo por divisão de código (CDMA) . O padrão IS-95 e seus derivados, IS-95A, ANSI J-STD-008, IS-95B, a terceira geração de padrões propostos IS-95C e IS-2000, etc, (coletivamente referidos na presente como IS-95), são promulgados pela Associação das Indústrias de Telecomunicações (TIA) e outros grupos bem conhecidos de padrões para especificar o uso de uma interface aérea CDMA para sistemas de comunicação de telefonia celular ou PCS. Sistemas exemplares de comunicação sem fio configurados substancialmente de acordo com o uso do padrão IS-95 são descritos nas Patentes U.S. N° 5.103.459 e N° 4.901.307, em nome da requerente da presente invenção e totalmente incorporadas aqui por referência.

Os dispositivos que empregam técnicas para comprimir a fala pela extração de parâmetros que se relacionam a um modelo de geração da fala humana são chamados de codificadores de fala. Um codificador de fala divide o sinal de fala de chegada em blocos de tempo, ou frames (quadros) de análise. Os codificadores de fala compreendem tipicamente um codificador e um decodificador. O codificador analisa o frame de fala de chegada para extrair certos parâmetros relevantes, e então quantiza os parâmetros em representação binária, isto é, para um conjunto de bits ou um pacote de dados binários. Os pacotes de dados são transmitidos sobre o canal de comunicação a um receptor e a um decodificador. O decodificador processa os pacotes de dados, desquantiza-os para produzir os parâmetros, e resintetiza os frames de fala usando os parâmetros desquantizados. A função do codificador de fala é o de comprimir o sinal de fala digitalizado em um sinal de baixa taxa de bit pela remoção de todas as redundâncias naturais inerentes à fala. A compressão digital é alcançada pela representação do frame de fala de entrada com um conjunto de parâmetros e pelo emprego da quantização para representar os parâmetros com um conjunto de bits. Caso o frame de fala de entrada tenha um número de bits N± e o pacote de dados produzido pelo codificador de fala tenha um número de bits N0, o fator de compressão alcançado pelo codificador de fala é Cr = Ν±/Ν0. O desafio é o de reter a alta qualidade de voz da fala decodificada enquanto estiver alcançando o fator de compressão meta. O desempenho de um codificador de fala depende de (1) quão bem for executado o modelo de fala, ou a combinação do processo de análise e síntese descrito acima, e (2) quão bem o processo de quantização de parâmetro for executado na taxa de bit meta de N0 bits por frame. 0 objetivo do modelo de fala é, deste modo, o de capturar a essência do sinal de fala, ou a qualidade de voz meta, com um pequeno conjunto de parâmetros para cada frame.

Talvez o mais importante no planejamento de um codificador de fala seja a busca por um bom conjunto de parâmetros (incluindo vetores) para descrever o sinal de fala. Um bom conjunto de parâmetros requer uma baixa largura de banda de sistema para a reconstrução de um sinal de fala perceptivelmente preciso. A freqüência real de um som (pitch), a potência do sinal, o envoltório espectral (ou formantes (formants)), espectros de amplitude, e espectros de fase são exemplos dos parâmetros de codificação de fala.

Os codificadores de fala podem ser implementados como codificadores no domínio do tempo, os quais tentam capturar a forma de onda da fala no domínio do tempo pelo emprego de processamento de alta resolução no tempo para codificar pequenos segmentos de fala (tipicamente subframes de 5 milisegundos (ms)) de cada vez. Para cada subframe, um representativo de alta precisão a partir de um espaço de livro código é encontrado por meio de vários algoritmos de busca conhecidos na técnica. Alternativamente, codificadores de fala podem ser implementados como codificadores no domínio da freqüência, os quais tentam capturar o espectro de fala de período curto do frame de fala de entrada com um conjunto de parâmetros (análises) e empregar um processo de síntese correspondente para recriar a forma de onda da fala a partir dos parâmetros espectrais. O quantizador de parâmetros preserva os parâmetros representando-os com representações armazenadas de vetores código de acordo com técnicas conhecidas de quantização descritas em A. Gersho & R.M. Gray, Vetor Quantization and Signal Compres sion (1992) .

Um codificador de fala no domínio do tempo bem conhecido é o codificador Preditivo Linear com Excitação por Código (CELP - code excited linear predictive) descrito em L.B. Rabiner & R.W. Schafer, Digital Processing of Speech Signals 396-453 (1978), o qual é totalmente incorporado aqui por referência. Em um codificador CELP, as correlações de curto prazo, ou as redundâncias, no sinal de fala são removidas por uma análise de previsão linear (LP -linear prediction), a qual encontra os coeficientes de um filtro formante de período curto. A aplicação do filtro de previsão de curto prazo ao frame de fala de chegada gera um sinal de resíduo de LP, o qual é, mais adiante, modelado e quantizado com parâmetros do filtro de previsão de longo prazo e um subsequente livro código estocástico. Deste modo, a codificação CELP divide a tarefa de codificar a forma de onda da fala no domínio do tempo em tarefas separadas de codificação dos coeficientes do filtro de curto prazo de LP e codificação do resíduo de LP. A codificação no domínio do tempo pode ser executada a uma taxa fixa (isto é, usando o mesmo número de bits, N0, para cada frame) ou a uma taxa variável (na qual diferentes taxas de bits são usadas para diferentes tipos de conteúdos de frame). Codificadores de taxa variável tentam usar somente a quantidade de bits necessária para codificar os parâmetros de codec (compressão/descompressão) a um nível adequado para obter uma qualidade meta. Um exemplar codificador CELP de taxa variável está descrito na Patente U.S. N° 5.414.796, em nome da requerente da presente invenção e inteiramente incorporado aqui por referência.

Os codificadores no domínio do tempo, tal como o codificador CELP, contam tipicamente com um alto número de bits, N0, por frame para preservar a precisão da forma de onda da fala no domínio do tempo. Tais codificadores transmitem tipicamente excelente qualidade de voz fornecido o número de bits, N0, por frame relativamente grande (por exemplo, 8 kbps ou acima). Todavia, em taxas de bit baixas (4 kbps e abaixo), os codificadores no domínio do tempo não conseguem manter uma alta qualidade e uma performance robusta devido ao número limitado de bits disponíveis. Em taxas de bit baixas, o limitado espaço em livro código reduz a capacidade de casamento da forma de onda de codificadores no domínio do tempo convencionais, os quais são desenvolvidos com tanto sucesso em aplicações comerciais de taxas mais altas. Portanto, apesar das melhorias ao longo do tempo, muitos sistemas de codificação CELP operando a baixas taxas de bits sofrem de distorção perceptivelmente significante tipicamente caracterizadas como ruído.

Existe, atualmente, uma onda de interesse em pesquisas e forte necessidade comercial para desenvolver um codificador de fala de alta qualidade operando a média e baixa taxas de bits (isto é, na faixa de 2,4 a 4 kbps e abaixo). As áreas de aplicação incluem telefonia sem fio, comunicações por satélites, telefonia pela Internet, várias aplicações de multimídia e de fluxo contínuo (streaming) de voz, correio de voz, e outros sistemas de armazenamento de voz. As forças impulsoras são a necessidade por alta capacidade e a demanda por desempenho robusto em situações de perda de pacote. Vários esforços recentes na padronização da codificação de fala são outras forças impulsoras diretas que impulsionam pesquisa e desenvolvimento de algoritmos de codificação de fala em taxa baixa. Um codificador de fala em taxa baixa cria mais canais, ou usuários, por largura de banda de aplicação permissível, e um codificador de fala de taxa baixa acoplado com uma camada adicional de codificação de canal adaptável pode ajustar o estoque (budget) total de bit das especificações do codificador e entregar um desempenho robusto sob condições de erro de canal.

Uma técnica eficaz para codificar fala eficientemente a baixas taxas de bit é a codificação multimodo. Uma técnica exemplar de codificação multimodo está descrita no número de Série do pedido U.S. 09/217.341, intitulada VARIABLE RATE SPEECH CODING, depositada em 21 de Dezembro de 1998, em nome da requerente da presente invenção, e inteiramente incorporada aqui por referência. Os codificadores multimodo convencionais aplicam diferentes modos, ou algoritmos de codificação/decodificação, para diferentes tipos de frames de fala de entrada. Cada modo, ou processo de codificação/decodificação, é personalizado para representar, da melhor forma, um certo tipo de segmento de fala, tais como, por exemplo, fala com voz, fala sem voz (unvoiced speech) , fala de transição (por exemplo, entre fala com voz e sem voz) , e ruído de fundo (sem fala) de maneira mais eficiente. Um mecanismo externo de decisão de modo de malha aberta (open-loop) examina o frame de fala de entrada e toma uma decisão relativa a qual modo aplicar ao frame. A decisão de modo de malha aberta é executada tipicamente pela extração de um número de parâmetros do frame de entrada, avaliando os parâmetros assim como certas características temporais e espectrais, e baseando uma decisão de modo sobre a avaliação.

Sistemas de codificação que operam a taxas na ordem de 2,4 kbps são geralmente paramétricos por natureza. Isto é, tais sistemas de codificação operam pela transmissão de parâmetros descrevendo o período de pitch e os envoltórios espectrais (ou formantes) do sinal de fala em intervalos regulares. Um ilustrativo destes assim chamados codificadores paramétricos é o sistema vocoder LP.

Os vocoders LP modelam um sinal de fala com voz com um único pulso por período de pitch. Esta técnica básica pode ser aumentada para incluir informação de transmissão sobre os envoltórios espectrais, entre outras coisas. Embora os vocoders LP geralmente forneçam razoável desempenho, os mesmos podem introduzir distorção perceptivelmente significante, tipicamente caracterizadas como zumbido.

Em anos recentes, os codificadores que têm emergido são hibridos de ambos codificadores de forma de onda e codificadores paramétricos. Um ilustrativo destes assim chamados codificadores hibridos é o sistema de codificação de fala por interpolação da forma de onda protótipo (PWI - prototype waveform interpolation). O sistema de codificação PWI pode ser também conhecido como um codificador de fala de protótipo de período de pitch (PPP - prototype pitch period) . Um sistema de codificação PWI fornece um método eficiente para codificar fala com voz. O conceito básico do PWI é extrair um ciclo de pitch representativo (o protótipo de forma de onda) em intervalos fixos, para transmitir sua descrição, e para reconstruir o sinal de fala pela interpolação entre as formas de onda protótipo. O método PWI pode operar tanto no sinal de resíduo de LP quanto no sinal de fala. Um exemplar codificador de fala PWI ou PPP, está descrito no número de Série do pedido U.S. 09/217.494, intitulado PERIODIC SPEECH CODING, depositado em 21 de Dezembro de 1998, em nome da requerente da presente invenção, e inteiramente incorporado aqui por referência. Outros codificadores de fala PWI, ou PPP, estão descritos na Patente U.S. N° 5.884.253 e W. Bastiaan Kleijn & Wolfgang Granzow Methods for Waveform Interpolation in Speech Codlng, in 1 Digital Signal Processing 215-230 (1991).

Em muitos codificadores de fala convencionais, os parâmetros de fase de um dado protótipo de pitch são, cada um, individualmente quantizados e transmitidos pelo codificador. Alternativamente, os parâmetros de fase podem ser quantizados vetorialmente com o objetivo de conservar a largura de banda. Todavia, em um codificador de fala de baixa taxa de bit, é vantajoso transmitir o menor número de bits possível para manter a qualidade de voz satisfatória. Por esta razão, em alguns codificadores de fala convencionais, os parâmetros de fase podem não ser transmitidos de qualquer modo pelo codificador, e o decodificador pode ou não usar fases para reconstruir, ou usar algum conjunto de parâmetros de fase fixado e armazenado. Em cada caso, a qualidade de voz resultante pode degradar. Portanto, seria desejável fornecer um codificador de fala de baixa taxa que reduza o número de elementos necessários para transmitir informação de espectro de fase do codificador para o decodificador, através disso transmitindo menos informação de fase. Assim, existe uma necessidade por um codificador de fala que transmita poucos parâmetros de fase por frame.

SUMÁRIO DA INVENÇÃO A presente invenção está direcionada a um codificador de fala que transmita menos parâmetros de fase por frame. De acordo com isto, em um aspecto da invenção, um método de processamento de um protótipo de um frame em um codificador de fala inclui vantajosamente as etapas de produção de uma pluralidade de parâmetros de fase de um protótipo referência (protótipo de referência); geração de uma pluralidade de parâmetros de fase de um protótipo; e correlação dos parâmetros de fase do protótipo com os parâmetros de fase do protótipo referência em uma pluralidade de bandas de freqüência.

Em outro aspecto da invenção, um método de processamento de um protótipo de um frame em um codificador de fala inclui vantajosamente as etapas de produção de uma pluralidade de parâmetros de fase de um protótipo referência; geração de uma pluralidade de valores de deslocamento de fase linear associada ao protótipo; e composição de um vetor de fase dos parâmetros de fase e dos valores de deslocamento de fase linear através de uma pluralidade de bandas de freqüência.

Em outro aspecto da invenção, um método de processamento de um protótipo de um frame em um codificador de fala inclui vantajosamente as etapas de produção de uma pluralidade de valores de rotação circular associados ao protótipo; geração de uma pluralidade de formas de onda de banda passante (passa faixa) em uma pluralidade de bandas de freqüência, a pluralidade de formas de onda de banda passante sendo associada a uma pluralidade de parâmetros de fase de um protótipo referência; e modificação da pluralidade de formas de onda de banda passante baseada na pluralidade de valores de rotação circular.

Em outro aspecto da invenção, um codificador de fala inclui vantajosamente dispositivos para produzir uma pluralidade de parâmetros de fase de um protótipo referência de um frame; dispositivos para gerar uma pluralidade de parâmetros de fase de um protótipo atual de um frame atual; e dispositivos para correlacionar os parâmetros de fase do protótipo atual com os parâmetros de fase do protótipo referência em uma pluralidade de bandas de freqüência.

Em outro aspecto da invenção, um codificador de fala inclui vantajosamente dispositivos para produzir uma pluralidade de parâmetros de fase de um protótipo referência de um frame; dispositivo para gerar uma pluralidade de valores de deslocamento de fase linear associados a um protótipo atual de um frame atual; e dispositivos para compor um vetor de fase a partir dos parâmetros de fase e dos valores de deslocamento de fase linear através de uma pluralidade de bandas de freqüência.

Em outro aspecto da invenção, um codificador de fala inclui vantajosamente dispositivos para produzir uma pluralidade de valores de rotação circular associados a um protótipo atual de um frame atual; dispositivos para gerar uma pluralidade de formas de onda de banda passante em uma pluralidade de bandas de freqüência, a pluralidade de formas de onda de banda passante sendo associada a uma pluralidade de parâmetros de fase de um protótipo referência de um frame; e dispositivos para modificar a pluralidade de formas de onda de banda passante baseadas na pluralidade de valores de rotação circular.

Em outro aspecto da invenção, um codificador de fala inclui vantajosamente um extrator de protótipo configurado para extrair um protótipo atual de um frame atual sendo processado pelo codificador de fala; e um quantizador de protótipo acoplado ao extrator de protótipo e configurado para produzir uma pluralidade de parâmetros de fase de um protótipo referência de um frame, para gerar uma pluralidade de parâmetros de fase do protótipo atual, e para correlacionar os parâmetros de fase do protótipo atual com os parâmetros de fase do protótipo referência em uma pluralidade de bandas de freqüência.

Em outro aspecto da invenção, um codificador de fala inclui vantajosamente um extrator de protótipo configurado para extrair um protótipo atual de um frame atual sendo processado pelo codificador de fala; e um quantizador de protótipo acoplado ao extrator de protótipo e configurado para produzir uma pluralidade de parâmetros de fase de um protótipo referência de um frame, para gerar uma pluralidade de valores de deslocamento de fase linear associados ao protótipo atual, e para compor um vetor de fase a partir dos parâmetros de fase e dos valores de deslocamento de fase linear através de uma pluralidade de bandas de freqüência.

Em outro aspecto da invenção, um codificador de fala inclui vantajosamente um extrator de protótipo configurado para extrair um protótipo atual de um frame atual sendo processado pelo codificador de fala; e um quantizador de protótipo acoplado ao extrator de protótipo e configurado para produzir uma pluralidade de valores de rotação circular associados ao protótipo atual, para gerar uma pluralidade de formas de onda de banda passante em uma pluralidade de bandas de freqüência, a pluralidade de formas de onda de banda passante sendo associada a uma pluralidade de parâmetros de fase de um protótipo referência de um frame, e para modificar a pluralidade de formas de onda de banda passante baseada na pluralidade de valores de rotação circular.

BREVE DESCRIÇÃO DOS DESENHOS A FIG.l é um diagrama de blocos de um sistema de telefonia sem fio. A FIG.2 é um diagrama de blocos de um canal de comunicação terminado em cada extremidade por codificadores de fala. A FIG.3 é um diagrama de blocos de um codificador. A FIG.4 é um diagrama de blocos de um decodificador. A FIG.5 é um fluxograma ilustrando um processo de decisão de codificação de fala. A FIG.6A é um gráfico da amplitude do sinal de fala versus tempo, e a FIG.6B é um gráfico da amplitude de residuo de predição linear (LP) versus tempo. A FIG.7 é um diagrama de blocos de um codificador de fala, de periodo de pitch, protótipo. A FIG.8 é um diagrama de blocos de um quantizador de protótipo que pode ser usado no codificador de fala da FIG.7. A FIG. 9 é um diagrama de blocos de um desquantizador de protótipo que pode ser usado no codificador de fala da FIG.7. A FIG. 10 é um diagrama de blocos de um desquantizador de protótipo que pode ser usado no codificador de fala da FIG.7.

DESCRIÇÃO DETALHADA DAS MODALIDADES PREFERIDAS

As modalidades exemplares descritas abaixo residem em um sistema de comunicação de telefonia sem fio configurado para empregar uma interface aérea CDMA. Apesar disso, ficaria entendido, por aqueles habilitados nesta técnica, que um método e aparelho de subamostragem incorporando características da atual invenção pode residir em quaisquer dos vários sistemas de comunicação empregando uma larga extensão de tecnologias conhecidas àqueles habilitados na técnica.

Como ilustrado na FIG.l, um sistema de telefonia sem fio CDMA geralmente inclui uma pluralidade de unidades móveis de assinante 10, uma pluralidade de estações base 12, controladores de estação base (BSCs - base station controllers) 14, e um centro de comutação móvel (MSC - mobile switching center) 16. O MSC 16 é configurado para fazer a interface com uma rede comutada de telefonia pública (PSTN - public switch telephone network) 18 convencional. 0 MSC 16 também é configurado para fazer a interface com os BSCs 14. Os BSCs 14 são acoplados às estações base 12 via linhas de backhaul (canal de transporte de retorno). As linhas de backhaul podem ser configuradas para suportar quaisquer das várias interfaces conhecidas incluindo, por exemplo, El/Tl, ATM, IP, PPP, Frame Relay, HDSL, ADSL, ou xDSL. Está entendido que possam existir mais de dois BSCs 14 no sistema. Cada estação base 12 inclui vantajosamente pelo menos um setor (não mostrado), cada setor compreendendo uma antena omnidirecional ou uma antena apontada em uma direção particular radialmente distante da estação base 12.

Alternativamente, cada setor pode compreender duas antenas para recepção em diversidade. Cada estação base 12 pode vantajosamente ser designada para suportar uma pluralidade de designações de freqüência. A interseção de um setor e uma designação de freqüência pode ser referida como a um canal CDMA. As estações base 12 podem ser também conhecidas como subsistemas transceptores de estação base (BTSs - base station transceiver subsystems) 12. Alternativamente, estação base" pode ser usado na indústria para se referir coletivamente a um BSC 14 e um ou mais BTSs 12. Os BTSs 12 podem ser também denotados como "cell sites" (estações rádio-base) 12. Alternativamente, setores individuais de um dado BTS 12 podem ser referidos como cell sites. As unidades móveis de assinante 10 são tipicamente telefones celulares ou PCS 10. 0 sistema é configurado vantajosamente para uso de acordo com o padrão IS-95.

Durante uma tipica operação do sistema de telefonia celular, as estações base 12 recebem conjuntos de sinais de link reverso a partir de conjuntos de unidades móveis 10. As unidades móveis 10 estão conduzindo chamadas telefônicas ou outras comunicações. Cada sinal de link reverso, recebido por uma dada estação base 12, é processado dentro da estação base 12. Os dados resultantes são transmitidos aos BSCs 14. Os BSCs 14 fornecem alocação de fonte de chamada e funcionalidade de gerência de mobilidade incluindo a orquestração de soft handoffs entre as estações base 12. Os BSCs 14 também roteam os dados recebidos para o MSC 16, o qual fornece serviços de roteamento adicionais para fazer a interface com a PSTN 18. Similarmente, a PSTN 18 se liga com o MSC 16, e o MSC 16 se liga com os BSCs 14, o qual por sua vez controla as estações base 12 para transmitir conjuntos de sinais de link de emissão para conjuntos de unidades móveis 10.

Na FIG.2 um primeiro codificador 100 recebe amostras de fala digitalizada s(n) e codifica as amostras s(n) para transmissão em um meio de transmissão 102, ou em um canal de comunicação 102, para um primeiro decodificador 104. O decodificador 104 decodifica as amostras de fala codificadas e sintetiza um sinal de fala de saida ssynth (n) . Para transmissão na direção oposta, um segundo codificador 106 codifica amostras de fala digitalizadas s(n), as quais são transmitidas em um canal de comunicação 108. Um segundo decodificador 110 recebe e decodifica as amostras de fala codificadas, gerando um sinal de fala de saida sintetizado SsyntH (u) .

As amostras de fala s (n) representam sinais de fala que têm sido digitalizados e quantizados de acordo com quaisquer de vários métodos conhecidos na técnica incluindo, por exemplo, modulação por código de pulso (PCM) , lei μ, ou lei A, comprimida. Como conhecido na técnica, as amostras de fala s(n) são organizadas em frames de dados de entrada onde cada frame compreende um número predeterminado de amostras de fala s (n) digitalizadas. Em uma modalidade exemplar, uma taxa de amostragem de 8 kHz é empregada, com cada frame de 20 mseg compreendendo 160 amostras. Nas modalidades descritas abaixo, a taxa de transmissão de dados pode vantajosamente ser variada sobre um base frame a frame a partir de 13,2 kbps (taxa inteira) a 6,2 kbps (meia taxa) a 2,6 kbps (um quarto de taxa) a 1 kbps (um oitavo de taxa). A variação da taxa de transmissão de dados é vantajosa visto que as taxas de bit mais baixas podem ser seletivamente empregadas para frames contendo relativamente menos informação de fala. Como entendido por aqueles habilitados nesta técnica, outras taxas de amostragem, tamanhos de frame e taxas de transmissão de dados podem ser usadas. O primeiro codificador 100 e o segundo decodificador 110 juntos compreendem um primeiro codificador de fala, ou codec de fala. O codificador de fala poderia ser usado em qualquer dispositivo de comunicação para transmissão de sinais de fala, incluindo, por exemplo, as unidades de assinante, os BTSs, ou os BSCs descritos acima com referência à FIG.l. Similarmente, o segundo codificador 106 e o primeiro decodificador 104 juntos compreendem um segundo codificador de fala. Fica entendido por aqueles habilitados nesta técnica que codificadores de fala podem ser implementados com um processador de sinal digital (DSP - digital signal processor), um circuito integrado de aplicação especifica (ASIC), uma porta lógica discreta, firmware, ou qualquer módulo de software programável convencional e um microprocessador. O módulo de software poderia residir na memória RAM, na memória flash, nos registros, ou em qualquer outra forma de meio de armazenamento registrável (writable) conhecido na técnica. Alternativamente, quaisquer processador, controlador, ou máquinas de estado convencionais, poderíam ser substituídos pelo microprocessador. ASICs exemplares definidos especificamente para codificação de fala estão descritos na Patente U.S. N° 5.727.123, em nome da requerente da presente invenção e inteiramente incorporado aqui por referência, e número de Série do Pedido U.S. 08/197.417, intitulado VOCODER ASIC, depositado em 16 de Fevereiro de 1994, em nome da requerente da presente invenção e inteiramente incorporado aqui por referência.

Na FIG.3 um codificador 200 que pode ser usado em um codificador de fala inclui um módulo de decisão de modo 202, um módulo de avaliação de pitch 204, um módulo de análise de LP 206, um filtro de análise de LP 208, um módulo de quantização de LP 210, e um módulo de quantização de residuo 212. Os frames de fala de entrada s (n) são fornecidos ao módulo de decisão de modo 202, ao módulo de avaliação de pitch 204, ao módulo de análise de LP 206, e ao filtro de análise de LP 208. O módulo de decisão de modo 2 02 produz um índice de modo IM e um modo M baseado na periodicidade, a energia, a relação sinal/ruído (SNR -signal-to-noise rate), ou na taxa de cruzamento zero, entre outras características, de cada frame de fala de entrada s (n) . Vários métodos de classificação de frames de fala de acordo com a periodicidade estão descritos na Patente ü.S. N° 5.911.128, em nome da requerente da presente invenção e inteiramente incorporados aqui por referência. Tais métodos estão também incorporados na Telecommunication Industry Association ínterim Standard TIA/EIA IS-127 e TIA/EIA IS-733. Um exemplar esquema de modo de decisão também está descrito no anteriormente mencionado número de Série do Pedido U.S. 09/217.341. O módulo de avaliação de pitch 204 produz um índice de pitch IP e um valor de atraso P0 baseado em cada frame de fala de entrada s (n) . 0 módulo de análise de LP 206 executa a análise previsiva linear em cada frame de fala de entrada s (n) para gerar um parâmetro de LP, a. O parâmetro de LP, a, é fornecido ao módulo de quantização de LP 210. O módulo de quantização de LP 210 também recebe o módulo M, desse modo, executando o processo de quantização eia uma maneira modo-dependente. O módulo de quantização de LP 210 produz um índice de LP, ILp/ e um parâmetro de LP quantizado, a. O filtro de análise de LP 208 recebe o parâmetro de LP quantizado, â, além do frame de fala de entrada s (n) . O filtro de análise de LP 208 gera um sinal de resíduo de LP R[n], o qual representa o erro entre os frames de fala de entrada s (n) e a fala reconstruída baseado nos parâmetros de predição linear quantizados, â. O resíduo de LP R[n], o modo M, e o parâmetro de LP quantizado, â, são fornecidos ao módulo de quantização de resíduo 212. Baseado nestes valores, o módulo de quantização de resíduo 212 produz um índice de resíduo IR e um sinal de resíduo quantizado i?[«].

Na FIG.4 um decodificador 300 que pode ser usado em um codificador de fala inclui um módulo de decodificação de parâmetro de LP 302, um módulo de decodif icação de resíduo 304, um módulo de decodificação de modo 306, e um filtro de síntese de LP 308. O módulo de decodif icação de modo 306 recebe e decodifica um índice de modo IM, gerando a partir disso um modo Μ. O módulo de decodificação de parâmetro de LP 302 recebe o modo M e um índice de LP, ILP.

O módulo de decodificação de parâmetro de LP 302 decodifica os valores recebidos para produzir um parâmetro de LP quantizado, â. O módulo de decodificação de resíduo 304 recebe um índice de resíduo IR, um índice de pitch IP, e um índice de modo IM. O módulo de decodif icação de resíduo 304 decodifica os valores recebidos para gerar um sinal de resíduo quantizado £[«]. O sinal de resíduo quantizado e o parâmetro de LP quantizado â, são fornecidos ao filtro de síntese de LP 308, o qual sintetiza a partir disso um sinal de fala de saída decodificado /S[«]. A operação e implementação dos vários módulos do codificador 200 da FIG.3 e do decodif icador 300 da FIG.4 são conhecidos na técnica e descritos na anteriormente mencionada Patente U.S. N° 5.414.796, e L.B.Rabiner & R.W.Schafer, Digital Processing of Speech Signals 396-453 (1978) .

Como ilustrado no fluxograma da FIG.5, um codificador de fala de acordo com uma modalidade segue um conjunto de etapas no processamento de amostras de fala para transmissão. Na etapa 400 o codificador de fala recebe amostras digitais de um sinal de fala em frames sucessivos. Ao receber um dado frame, o codificador de fala procede à etapa 402. Na etapa 402 o codificador de fala detecta a energia do frame. A energia é um medida da atividade da fala do frame. A detecção da fala é executada pela soma do quadrado das amplitudes das amostras de fala digitalizadas e pela comparação da energia resultante a um valor limite. Em uma modalidade o valor limite se adapta baseado no nivel de mudança de ruído de fundo. Um exemplar detector de atividade de fala com limite variável está descrito na anteriormente mencionada Patente U.S. N° 5.414.796. Alguns sons de fala sem voz podem ser amostras de energia extremamente baixa que podem ser equivocadamente codificadas como ruído de fundo. Afim de evitar a ocorrência disto, a inclinação espectral de amostras de baixa energia pode ser usada para distinguir a fala sem voz do ruído de fundo, como descrito na anteriormente mencionada Patente U.S. N° 5.414.796.

Após detectar a energia do frame, o codificador de fala procede à etapa 404. Na etapa 404 o codificador de fala determina se a energia detectada do frame é suficiente para classificar o frame como contendo informação de fala. Caso a energia detectada do frame caia abaixo de um nível limite predefinido, o codificador de fala procede à etapa 406. Na etapa 40 6 o codificador de fala codifica o frame como ruído de fundo (isto é, sem fala, ou silêncio). Em uma modalidade o frame de ruído de fundo é codificado em 1/8 de taxa, ou 1 kbps. Caso, na etapa 404, a energia detectada do frame encontre ou exceda o nível limite predefinido, o frame é classificado como fala e o codificador de fala procede à etapa 408.

Na etapa 408 o codificador de fala determina se o frame é de fala sem voz, isto é, o codificador de fala examina a periodicidade do frame. Vários métodos conhecidos de determinação de periodicidade incluem, por exemplo, o uso de cruzamentos de zero e o uso de funções de auto-correlação normalizadas (NACFs - normalized autocorrelation functions) . Em particular, o uso de cruzamentos de zero e de NACFs para detectar periodicidade está descrito na anteriormente mencionada Patente U.S. N° 5.911.128 e no número de Série do Pedido U.S. 09/217.341. Adicionalmente, os métodos acima usados para distinguir fala com voz de fala sem voz estão incorporados na Telecommunication Industry Association ínterim Standards TIA/EIA IS-127 e TIA/EIA IS-733. Caso o frame seja determinado para ser de fala sem voz na etapa 408, o codificador de fala procede à etapa 410. Na etapa 410 o codificador de fala codifica o frame como fala sem voz. Em uma modalidade, frames de fala sem voz são codificados a um quarto de taxa, ou 2,6 kbps. Caso na etapa 408 o frame não seja determinado para ser de fala sem voz, o codificador de fala procede à etapa 412.

Na etapa 412 o codificador de fala determina se o frame é de fala de transição, usando métodos de detecção de periodicidade que são conhecidos na técnica, como descritos na, por exemplo, anteriormente mencionada Patente U.S. N° 5.911.128. Caso o frame seja determinado para ser de fala de transição, o codificador de fala procede à etapa 414. Na etapa 414 o frame é codificado como fala de transição (isto é, transição da fala sem voz para a fala com voz) . Em uma modalidade, o frame de fala de transição é codificado de acordo com um método de codificação interpolada por multipulso descrito no número de Série do Pedido U.S. 09/307.294, intitulado MULTIPULSE INTERPOLATIVE CODING OF TRANSI ΤΙ ΟΝ SPEECH FRAMES, depositado no dia 7 de Maio de 1999, em nome da requerente da presente invenção e inteiramente incorporado aqui por referência. Em outra modalidade, o frame de fala de transição é codificado na taxa integral, ou 13,2 kbps.

Caso na etapa 412 o codificador de fala determine que o frame não seja de fala de transição, o codificador de fala procede à etapa 416. Na etapa 416 o codificador de fala codifica o frame como de fala com voz. Em uma modalidade, frames de fala com voz podem ser codificados a meia taxa, ou 6,2 kbps. É possível também codificar frames de fala com voz a taxa integral, ou 13,2 kbps (ou em taxa inteira, 8 kbps, em um codificador CELP de 8k) . Aqueles habilitados nesta técnica apreciariam, todavia, que a codificação de frames com voz a meia taxa permite ao codificador salvar importante largura de banda pela exploração da essência firme dos frames com voz. Ainda, indiferentemente da taxa usada para codificar a fala com voz, a fala com voz é vantajosamente codificada usando informação a partir dos frames passados, e dai é citada para ser codificada previsivelmente.

Aqueles de habilidade compreenderíam que tanto o sinal de fala quanto o resíduo de LP correspondente podem ser codificados pelo seguimento das etapas mostradas na FIG.5. As características da forma de onda: da fala, com ruído, sem voz, de transição, e com voz podem ser vistas como uma função do tempo no gráfico da FIG.6A. As características da forma de onda do resíduo: de LP, de ruído, sem voz, de transição, e com voz podem ser vistas como uma função do tempo no gráfico da FIG.6B.

Em uma modalidade, um codificador de fala do período de pitch protótipo (PPP) 500 inclui um filtro inverso 502, um extrator de protótipo 504, um quantizador de protótipo 506, um desquantizador de protótipo 508, um módulo de interpolação/síntese 510, e um módulo de síntese de LPC 512, como ilustrado na FIG.7. O codificador de fala 500 pode ser implementado vantajosamente como parte de um DSP, e pode residir em, por exemplo, uma unidade de assinante ou uma estação base num sistema de telefonia celular ou PCS, ou em uma unidade de assinante ou num gateway em um sistema de satélite.

No codificador de fala 500, um sinal de fala digitalizado s (n), onde n é o número do frame, é fornecido ao filtro inverso de LP 502. Em uma modalidade especifica, o comprimento do frame é de vinte mseg. A função de transferência do filtro inverso A(z) é computada de acordo com a seguinte equação: A(z) = 1 -a^'1 -a.^z2-... -apZ‘p r onde os coeficientes ai são portas (taps) de filtro tendo valores predefinidos escolhidos de acordo com métodos conhecidos, como descrito na anteriormente mencionada Patente U.S. N° 5.414.796 e no número de Série do Pedido U.S. 09/217.494, ambos previamente e inteiramente incorporados aqui, por referência. O número p indica o número de amostras anteriores que o filtro inverso de LP 502 usa para propósitos de previsão. Em uma modalidade especifica, p é fixado em dez. O filtro inverso 502 fornece um sinal de resíduo de LP r(n) ao extrator de protótipo 504. O extrator de protótipo 504 extrai um protótipo do frame atual. O protótipo é uma porção do frame atual que será linearmente interpolado pelo módulo de interpolação/síntese 510 com protótipos dos frames anteriores que foram similarmente posicionados dentro do frame com o objetivo de reconstruir o sinal de resíduo de LP no decodificador. O extrator de protótipo 504 fornece o protótipo ao quantizador de protótipo 506, o qual quantiza o protótipo de acordo com uma técnica descrita abaixo com referência a FIG.8. Os valores quantizados, os quais podem ser obtidos a partir de uma tabela de consulta (não mostrada), são reunidos em um pacote, o qual inclui parâmetros de atraso e de outro livro código, para transmissão sobre o canal. O pacote é fornecido a um transmissor (não mostrado) e transmitido sobre o canal a um receptor (também não mostrado). O filtro inverso de LP 502, o extrator de protótipo 504, e o quantizador de protótipo 506 são mencionados por terem executados a análise PPP no frame atual. O receptor recebe o pacote e fornece o pacote ao desquantizador de protótipo 508. O desquantizador de protótipo 508 desquantiza o pacote de acordo com uma técnica descrita abaixo com referência à FIG.9. O desquantizador de protótipo 508 fornece um protótipo desquantizado para o módulo de interpolação/síntese 510. O módulo de interpolação/sintese 510 interpola o protótipo com protótipos dos frames anteriores que foram similarmente posicionados dentro do frame com o objetivo de reconstruir o sinal de resíduo de LP para o frame atual. A interpolação e síntese de frame são vantajosamente efetuadas de acordo com conhecidos métodos descritos na Patente U.S. N° 5.884.253 e no anteriormente mencionado número de Série do Pedido U.S. 09/217.494. O módulo de interpolação/síntese 510 fornece o sinal de resíduo de LP r[«] reconstruído ao módulo de síntese de LPC 512. O módulo de síntese de LPC 512 também recebe valores em pares de espectro de linha (LSP - line spectral pair) do pacote transmitido, os quais são usados para executar filtragem de LPC sobre o sinal de resíduo de LP reconstruído r[w] para criar o sinal de fala reconstruído i[w] para o frame atual. Em uma modalidade alternativa, a síntese de LPC do sinal de fala s[n] pode ser executada para o protótipo antes de se fazer a interpolação/síntese do frame atual. O desquantizador de protótipo 508, o módulo de interpolação/síntese 510, e o módulo de síntese de LPC 512 são citados como tendo terem executados a síntese PPP do frame atual.

Em uma modalidade, um quantizador de protótipo 600 executa quantização de fases de protótipo usando subamostragem inteligente para transmissão eficiente, como mostrado na FIG.8. O quantizador de protótipo 600 inclui primeiro e segundo módulos de computação de coeficientes da série discreta de Fourier {DFS - série de Fourier distreta) 602, 604, primeiro e segundo módulos de decomposição 606, 608, um módulo de identificação de banda 610, um quantizador de vetor de amplitude 612, um módulo de correlação 614 e um quantizador 616.

No quantizador de protótipo 600, um protótipo referência é fornecido para o primeiro módulo de computação de coeficientes da DFS 602. O primeiro módulo de computação de coeficientes da DFS 602 computa os coeficientes da DFS para o protótipo referência, como descrito abaixo, e fornece os coeficientes da DFS para o protótipo referência ao primeiro módulo de decomposição 606. O primeiro módulo de decomposição 606 decompõe os coeficientes da DFS para o protótipo referência em vetores de amplitude e fase, como descrito abaixo. O primeiro módulo de decomposição 606 fornece os vetores de amplitude e fase para o módulo de correlação 614. O protótipo atual é fornecido para o segundo módulo de computação de coeficientes da DFS 6 02 . O segundo módulo de computação de coeficientes da DFS 606 computa os coeficientes da DFS para o protótipo atual, como descrito abaixo, e fornece os coeficientes da DFS para o protótipo atual para o segundo módulo de decomposição 608 . O segundo módulo de decomposição 608 decompõe os coeficientes da DFS para o protótipo atual em vetores de amplitude e de fase, como descrito abaixo. O segundo módulo de decomposição 608 fornece os vetores de amplitude e de fase para o módulo de correlação 614. O segundo módulo de decomposição 608 também fornece os vetores de amplitude e de fase para o protótipo atual para o módulo de identificação de banda 610. 0 módulo de identificação de banda 610 identifica bandas de freqüência para correlação, como descrito abaixo, e fornece índices de identificação de banda para o módulo de correlação 614. O segundo módulo de decomposição 608 também fornece o vetor de amplitude para o protótipo atual para o quantizador de vetor de amplitude 612. O quantizador de vetor de amplitude 612 quantiza o vetor de amplitude para o protótipo atual, como descrito abaixo, e gera parâmetros de quantização de amplitude para transmissão. Em uma modalidade particular, o quantizador de vetor de amplitude 612 fornece valores de amplitude quantizados ao módulo de identificação de banda 610 (esta conexão não é mostrada no desenho para fins de clareza) e/ou para o módulo de correlação 614. O módulo de correlação 614 correlaciona em todas as bandas de freqüência para determinar o melhor deslocamento de fase linear para todas as bandas, como descrito abaixo. Em uma modalidade alternativa, a correlação cruzada é executada no domínio do tempo sobre o sinal de banda passante para determinar a melhor rotação circular para todas as bandas, também como descrito abaixo. O módulo de correlação 614 fornece valores de deslocamento de fase linear para o quantizador 616. Em uma modalidade alternativa, o módulo de correlação 614 fornece valores de rotação circular para o quantizador 616. O quantizador 616 quantiza os valores recebidos, como descrito abaixo, gerando parâmetros de quantização de fase para transmissão.

Em uma modalidade, um desquantizador de protótipo 700 executa a reconstrução do espectro de fase do protótipo usando deslocamentos lineares sobre bandas de freqüência constituintes de uma DFS, como mostrado na FIG.9. O desquantizador de protótipo 700 inclui um módulo de computação de coeficientes da DFS 702, um módulo de computação da DFS inversa 704, um módulo de decomposição 706, um módulo de combinação 7 08, um módulo de identificação de banda 710, um desquantizador de vetor de amplitude 712, um módulo de composição 714, e um desquantizador de fase 716.

No desquantizador de protótipo 700, um protótipo referência é fornecido ao módulo de computação de coeficientes da DFS 702. O módulo de computação de coeficientes da DFS 702 computa os coeficientes da DFS para o protótipo referência, como descrito abaixo, e fornece os coeficientes da DFS para o protótipo referência para o módulo de decomposição 706. O módulo de decomposição 706 decompõe os coeficientes da DFS para o protótipo referência em vetores de amplitude e de fase, como descrito abaixo. O módulo de decomposição 706 fornece fases de referência (isto é, o vetor de fase do protótipo referência) ao módulo de composição 714.

Os parâmetros de quantização de fase são recebidos pelo desquantizador de fase 716. O desquantizador de fase 716 desquantiza os parâmetros de quantização de fase recebidos, como descrito abaixo, gerando valores de deslocamento de fase linear. O desquantizador de fase 716 fornece os valores de deslocamento de fase linear para o módulo de composição 714.

Os parâmetros de quantização de vetor de amplitude são recebidos pelo desquantizador de vetor de amplitude 712. O desquantizador de vetor de amplitude 712 desquantiza os parâmetros de quantização de amplitude recebidos, como descrito abaixo, gerando valores de amplitude desquantizados. O desquantizador de vetor de amplitude 712 fornece os valores de amplitude desquantizados para o módulo de combinação 708. O desquantizador de vetor de amplitude 712 também fornece os valores de amplitude desquantizados ao módulo de identificação de banda 710. O módulo de identificação de banda 710 identifica as bandas de freqüência para combinação, como descrito abaixo, e fornece índices de identificação de banda para o módulo de composição 714. O módulo de composição 714 compõe um vetor de fase modificada a partir das fases de referência e dos valores de deslocamento de fase linear, como descrito abaixo. O módulo de composição 714 fornece valores de vetor de fase modificados ao módulo de combinação 708. O módulo de combinação 708 combina os valores de amplitude desquantizados e os valores de fase, como descrito abaixo, gerando um vetor de coeficientes da DFS reconstruído e modificado. O módulo de combinação 708 fornece os vetores de amplitude e de fase combinados ao módulo de computação da DFS inversa 704. O módulo de computação da DFS inversa 7 04 computa a inversa da DFS do vetor reconstruído de coeficiente da DFS modificado e, como descrito abaixo, gerando o protótipo atual reconstruído.

Em uma modalidade, um desquantizador de protótipo 800 executa a reconstrução do espectro de fase do protótipo usando rotações circulares executadas no domínio do tempo sobre as formas de onda de banda passante constituintes da forma de onda do protótipo no codificador, como mostrado na FIG.9. O desquantizador de protótipo 800 inclui um módulo de computação de coeficientes da DFS 802, um somador de forma de onda de banda passante 8 04, um módulo de decomposição 806, um módulo de criação de sinal de banda passante/DFS inversa 808, um módulo de identificação de banda 810, um desquantizador de vetor de amplitude 812, um módulo de composição 814, e um desquantizador de fase 816.

No desquantizador de protótipo 800, um protótipo referência é fornecido para ao módulo de computação de coeficientes da DFS 802. O módulo de computação de coeficientes da DFS 802 computa os coeficientes da DFS para o protótipo referência, como descrito abaixo, e fornece os coeficientes da DFS para o protótipo referência para o módulo de decomposição 806. O módulo de decomposição 806 decompõe os coeficientes da DFS para o protótipo referência nos vetores de amplitude e de fase, como descrito abaixo. O módulo de decomposição 806 fornece fases de referência (isto é, o vetor de fase do protótipo referência) para o módulo de composição 814.

Os parâmetros de quantização de fase são recebidos pelo desquantizador de fase 816. O desquantizador de fase 816 desquantiza os parâmetros de quantização de fase recebidos, como descrito abaixo, gerando valores de rotação circular. O quantizador de fase 816 fornece os valores de rotação circular ao módulo de composição 814.

Os parâmetros de quantização de vetor de amplitude são recebidos pelo desquantizador de vetor de amplitude 812. O desquantizador de vetor de amplitude 812 desquantiza os parâmetros de quantização de amplitude recebidos, como descrito abaixo, gerando valores de amplitude desquantizados. O desquantizador de vetor de amplitude 812 fornece os valores de amplitude desquantizados para o módulo de criação de sinal de banda passante/DFS inversa 808. O desquantizador de vetor de amplitude 812 também fornece os valores de amplitude desquantizados ao módulo de identificação de banda 810. O módulo de identificação de banda 810 identifica bandas de freqüência para combinação, como descrito abaixo, e fornece indices de identificação de banda ao módulo de criação de sinal de banda passante/DFS inversa 808. O módulo de criação de sinal de banda passante/DFS inversa 808 combina os valores de amplitude desquantizados e o valor de fase de referência para cada uma das bandas, e computa um sinal de banda passante da combinação, usando a DFS inversa para cada uma das bandas, como descrito abaixo. O módulo de criação de sinal de banda passante/DFS inversa 808 fornece os sinais de banda passante ao módulo de composição 814. O módulo de composição 814 rotaciona em circulo cada um dos sinais de banda passante usando os valores de rotação circular desquantizados, como descrito abaixo, gerando sinais de banda passante modificados e rotacionados. O módulo de composição 814 fornece os sinais de banda passante modificados e rotacionados ao somador de forma de onda de banda passante 804. O somador de forma de onda de banda passante 804 adiciona todos os sinais de banda passante para gerar o protótipo reconstruído. O quantizador de protótipo 600 da FIG.8 e o desquantizador de protótipo 700 da FIG.9 servem em operação normal para codificar e decodificar, respectivamente, espectro de fase das formas de onda de período de pitch do protótipo. No transmissor/codificador (FIG.8), o espectro de fase, <J>ck, do protótipo, sc(n), do frame atual é computado usando a representação DFS, Sn(n) = ^Cl e}nk^w°^ , onde k são os coeficientes complexos da DFS do protótipo atual e <x>l é a freqüência fundamental normalizada de sc(n) . O espectro de fase, φζ, é o ângulo dos coeficientes complexos constituindo o DFS. O espectro de fase, φ[, do protótipo referência é computado em modo similar para fornecer Crk e φ[ . Alternativamente, o espectro de fase, ΦΙ , do protótipo referência era armazenado após o frame ter processado o protótipo referência, e é simplesmente recuperado a partir do armazenamento. Em uma modalidade particular, o protótipo referência é um protótipo do frame anterior. A DFS complexa para ambos os protótipos de ambos frames, de referência e o atual, pode ser representada como o produto do espectro de amplitude e do espectro de fase, como mostrado na seguinte equação: Cck = A°k βιΦκ . Deveria ser notado que ambos espectros, de amplitude e de fase, são vetores visto que a DFS complexa também é um vetor. Cada elemento do vetor da DFS é um harmônico da freqüência igual à reciproca da duração de tempo do protótipo correspondente. Para um sinal de freqüência máxima de Fm Hz (amostrado a uma taxa de pelo menos 2Fm Hz) e uma freqüência harmônica de Fo Hz, existem M harmônicos. O número de harmônicos, M, é igual a Fm/Fo. Portanto, o vetor de espectro de fase e o vetor de espectro de amplitude, de cada protótipo, consistem de M elementos. O vetor da DFS do protótipo atual é particionado em B bandas e o sinal de tempo correspondente a cada uma das B bandas é um sinal de banda passante. O número de bandas, B, é obrigado a ser menor que o número de harmônicos, Μ. A soma de todos os B sinais de tempo de banda passante produziría o protótipo atual original. De maneira similar, o vetor da DFS para o protótipo referência também é particionado nas mesmas B bandas.

Para cada uma das B bandas, uma correlação cruzada é executada entre o sinal de banda passante correspondente ao protótipo referência e o sinal de banda passante correspondente ao protótipo atual. A correlação cruzada pode ser executada nos vetores da DFS no domínio da f reqüênci a, γθ> = (c^) e]{Kbi) e‘ J ((¾ )), onde W é o conjunto de números harmônicos na in banda b±, e θι é um possível deslocamento de fase linear para a in banda b±. A correlação cruzada pode também ser executada nos correspondentes sinais de banda passante no domínio do tempo (por exemplo, com o desquantizador 800 da FIG. 10) de acordo com a seguinte equação: onde L é o comprimento em amostras do protótipo atual, cor0, e a>c0 são as freqüências fundamentais normalizadas do protótipo referência e do protótipo atual, respectivamente, e r± é a rotação circular em amostras. Os sinais de banda passante no domínio do tempo ski (w) e («) correspondentes à banda b± são dados respectivamente pelas seguintes expressões: Em uma modalidade, o vetor de amplitude quantizada, Ak , é usado para obter Cck , como mostrado na seguinte equação: Cl - Ack βιΦί . A correlação cruzada é executada sobre todos os possíveis deslocamentos de fase lineares do vetor da DFS da banda passante do protótipo referência. Alternativamente, a correlação cruzada pode ser executada sobre um subconjunto de todos os possíveis deslocamentos de fase lineares do vetor da DFS da banda passante do protótipo referência. Em uma modalidade alternativa, uma aproximação no domínio do tempo é empregada, e a correlação cruzada é executada sobre todas as possíveis rotações circulares dos sinais de tempo de banda passante do protótipo referência. Em uma modalidade, a correlação cruzada é executada sobre um subconjunto de todas as possíveis rotações circulares do sinal de tempo da banda passante do protótipo referência. O processo de correlação cruzada gera B deslocamentos de fase lineares (ou B rotações circulares, na modalidade em que a correlação cruzada é executada no domínio do tempo sobre o sinal de tempo da banda passante) que corresponde a valores máximos da correlação cruzada para cada uma das B bandas. Os B deslocamentos de fase lineares (ou, na modalidade alternativa, as B rotações circulares) são então quantizados e transmitidos como representantes do espectro de fase em lugar dos M elementos de vetor de espectro de fase original. O vetor de espectro de amplitude é separadamente quantizado e transmitido. Desse modo, os vetores da DFS de banda passante (ou os sinais de tempo de banda passante) do protótipo referência servem vantajosamente como livros código para codificar os correspondentes vetores da DFS (ou os sinais de banda passante) do protótipo do frame atual. De acordo com isto, menos elementos são necessitados para quantizar e transmitir a informação de fase, desse modo efetuando uma subamostragem resultante de informação de fase e criando uma transmissão mais eficiente. Isto é particularmente benéfico na codificação de fala em baixa taxa de bit, onde devido à carência de bits suficientes, a informação de fase é muito mal quantizada devido a grande quantidade de elementos de fase ou a informação de fase não é transmitida de maneira nenhuma, cada uma das quais resultando em baixa qualidade. A modalidade descrita acima permite que os codificadores de baixa taxa de bit mantenham boa qualidade de voz visto que existem poucos elementos a quantizar.

No receptor/decodificador (FIG.9) (e também na cópia de codificador do decodificador, como seria entendido por aqueles habilitados nesta técnica), os B valores de deslocamento de fase linear são aplicados à cópia do decodificador do vetor de B bandas particionadas da DFS do protótipo referência para gerar um vetor de fase da DFS

protótipo modificado: + k k · O vetor da DFS modificado é então obtido como o produto do vetor de espectro de amplitude decodificado e recebido e do vetor de fase da DFS protótipo modificado. O protótipo reconstruído é então construído usando-se uma operação de DFS inversa sobre o vetor da DFS modificado. Na modalidade alternativa, em que uma aproximação no domínio do tempo é empregada, o vetor de espectro de amplitude para cada uma das B bandas e o vetor de fase do protótipo referência para as mesmas B bandas são combinados, e uma operação de DFS inversa é executada sobre a combinação para gerar B sinais de tempo de banda passante. Os B sinais de tempo de banda passante são então rotacionados em círculo usando os B valores de rotação circular. Todos os B sinais de tempo de banda passante são adicionados para gerar o protótipo reconstruído.

Desse modo, um novo método e aparelho para subamostrar informação de espectro de fase têm sido descrito. Aqueles habilitados nesta técnica entenderíam que os vários blocos lógicos ilustrativos e etapas de algoritmos descritas em conexão com as modalidades reveladas aqui podem ser implementados ou executados com um processador de sinal digital (DSP - digital signal processor), com um circuito integrado de aplicação específica (ASIC), com porta lógica ou transistor discreto, componentes discretos de hardware tais como, por exemplo, registradores e FIFO, um processador executando um conjunto de instruções de firmware, ou qualquer módulo de software programável convencional e um processador. O processador pode ser vantajosamente um microprocessador, mas nesta alternativa, o processador pode ser qualquer processador, controlador, microcontrolador, ou máquina de instrução, convencionais. O módulo de software podería residir na memória RAM, na memória flash, nos registros, ou em qualquer outra forma de meio de armazenamento registrável conhecidos na técnica. Aqueles habilitados iriam compreender também que os dados, as instruções, os comandos, as informações, os sinais, os bits, os símbolos, e os chips que podem ser referenciados por toda descrição acima são representados vantajosamente por tensões, correntes, ondas eletromagnéticas, campos ou partículas magnéticas, campos ou partículas ópticas, ou qualquer combinação disso.

As modalidades preferidas da presente invenção têm sido, deste modo, mostradas e descritas. Ficaria aparente para uma pessoa comum habilitada nesta técnica, todavia, que numerosas alterações podem ser feitas às modalidades reveladas aqui sem desviar do espírito ou do escopo da invenção. Portanto, a presente invenção não está limitada exceto de acordo com as seguintes reivindicações.

REIVINDICAÇÕE S

Claims

1. Método de processamento de um protótipo de um frame em um codificador de fala, o método compreendendo as etapas de: produzir {602, 606) uma pluralidade de parâmetros de fase de um protótipo de referência; e gerar {604, 608) uma pluralidade de parâmetros de fase do protótipo; o método caracter i zado pelo fato de que compreende adicionalmente: correlacionar (614) os parâmetros de fase do protótipo com os parâmetros de fase do protótipo de referência em uma pluralidade de bandas de frequência, em que a etapa de correlacionar gera uma pluralidade de valores de rotação circular ideais para o protótipo.

2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a etapa de produzir (602, 606) compreende as etapas de computar (602) coeficientes da série de Fourier discreta para o protótipo de referência e decompor Í606) os coeficientes da série de Fourier discreta em vetores de amplitude e vetores de fase para o protótipo de referência, e em que a etapa de gerar (604, 608) compreende as etapas de computar (604) coeficientes da série de Fourier discreta para o protótipo e decompor (608) os coeficientes da série de Fourier discreta em vetores de amplitude e vetores de fase para o protótipo.

3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que compreende adicionalmente a etapa de identificar (610) as bandas de frequência nas quais a etapa de correlacionar (614) será efetuada.

4. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o frame é um frame de fala.

5. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o frame é um frame de resíduo de previsão linear.

6. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a etapa de correlacionar (614) gera uma pluralidade de valores de deslocamento de fase linear ideais para o protótipo.

7. Método, de acordo com a reivindicação 6, caracterizado pelo fato de que compreende adicionalmente as etapas de quantizar (616) os valores de deslocamento de fase linear e quantizar (612) uma pluralidade de parâmetros de amplitude para o protótipo.

8. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que compreende adicionalmente as etapas de quantizar (616) os valores de rotação circular e quantizar (612) uma pluralidade de parâmetros de amplitude para o protótipo.

9. Método de processamento de um protótipo de um frame em um codificador de fala, o método compreendendo as etapas de: produzir (702, 706) uma pluralidade de parâmetros de fase de um protótipo de referência; e gerar uma pluralidade de valores de deslocamento de fase linear associada ao protótipo; o método caracterizado pelo fato de que compreende adicionalmente: compor (714) um vetor de fase a partir dos parâmetros de fase e dos valores de deslocamento de fase linear através de uma pluralidade de bandas de freqüência.

10. Método, de acordo com a reivindicação 9, caracterizado pelo fato de que a etapa de produzir (702, 706) compreende as etapas de computar (702) coeficientes da série de Fourier discreta para o protótipo de referência e decompor (706) os coeficientes da série de Fourier discreta em vetores de amplitude e vetores de fase para o protótipo de referência.

11. Método, de acordo com a reivindicação 9, caracterizado pelo fato de que compreende adicionalmente a etapa de identificar (710) as bandas de freqüência nas quais executar a etapa de compor (714) .

12. Método, de acordo com a reivindicação 9, caracterizado pelo fato de que o frame é um frame de fala.

13. Método, de acordo com a reivindicação 9, caracterizado pelo fato de que o frame é um frame de resíduo de previsão linear.

14. Método, de acordo com a reivindicação 9, caracterizado pelo fato de que a etapa de gerar (716) compreende dequantizar uma pluralidade de parâmetros de fase quantizados associada ao protótipo para gerar a pluralidade de valores de deslocamento de fase linear.

15. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que compreende adicionalmente a etapa de dequantizar (712) uma pluralidade de parâmetros de quantização de amplitude associada ao protótipo para produzir uma pluralidade de parâmetros de amplitude dequantizados, em que a etapa de identificar (710) compreende identificar bandas com base na pluralidade de parâmetros de amplitude dequantizados.

16. Método, de acordo com a reivindicação 9, caracterizado pelo fato de que compreende adicionalmente as etapas de combinar (708) o vetor de fase composto com uma pluralidade de parâmetros de amplitude associada ao protótipo para produzir um vetor combinado, e computar (704) uma série de Fourier discreta inversa do vetor combinado para produzir uma versão reconstruída do protótipo.

17. Método de processamento de um protótipo de um frame em um codificador de fala, o método compreendendo as etapas de: produzir (816) uma pluralidade de valores de rotação circular associada ao protótipo; e gerar (802, 806, 808) uma pluralidade de formas de onda de passa faixa em uma pluralidade de bandas de freqüência, a pluralidade de formas de onda de passa faixa sendo associada a uma pluralidade de parâmetros de fase de um protótipo de referência; o método caracterizado pelo fato de que compreende adicionalmente: modificar (814) a pluralidade de formas de onda de passa faixa com base na pluralidade de valores de rotação circular.

18. Método, de acordo com a reivindicação 17, caracterizado pelo fato de que compreende adicionalmente a etapa de identificar (810) as bandas de freqüência nas quais a etapa de gerar (802, 806, 808) será executada.

19. Método, de acordo com a reivindicação 17, caracterizado pelo fato de que o frame é um frame de fala.

20. Método, de acordo com a reivindicação 17, caracterizado pelo fato de que o frame é um frame de resíduo de previsão linear.

21. Método, de acordo com a reivindicação 17, caracterizado pelo fato de que a etapa de produzir (816) compreende dequantizar (802, 806, 808) uma pluralidade de parâmetros de fase quantizados associada ao protótipo para gerar a pluralidade de valores de rotação circular.

22. Método, de acordo com a reivindicação 18, caracterizado pelo fato de que compreende adicionalmente a etapa de dequantizar (812) uma pluralidade de parâmetros de quantização de amplitude associada ao protótipo para produzir uma pluralidade de parâmetros de amplitude dequantizados, em que a etapa de identificar (810) compreende identificar bandas com base na pluralidade de parâmetros de amplitude dequantizados.

23. Método, de acordo com a reivindicação 22, caracterizado pelo fato de que a etapa de gerar compreende as etapas de computar (802) coeficientes da série de Fourier discreta para o protótipo de referência, decompor (806) os coeficientes da série de Fourier discreta em um vetor de amplitude e um vetor de fase para o protótipo de referência, combinar o vetor de fase com a pluralidade de parâmetros de amplitude dequantizados, e calcular (808) a série de Fourier discreta inversa do vetor de fase para gerar a pluralidade de formas de onda de passa faixa.

24. Método, de acordo com a reivindicação 17, caracterizado pelo fato de que compreende adicionalmente a etapa de somar (804) a pluralidade de formas de onda de passa faixa modificada para produzir uma versão reconstruída do protótipo.

25. Codificador de fala, compreendendo: dispositivo (602, 606) para produzir uma pluralidade de parâmetros de fase de um protótipo de referência de um frame; e dispositivo (604, 608) para gerar uma pluralidade de parâmetros de fase de um protótipo atual de um frame atual; o codificador de fala caracterizado pelo fato de que compreende: dispositivo (614) para correlacionar os parâmetros de fase do protótipo atual com os parâmetros de fase do protótipo de referência em uma pluralidade de bandas de freqüência, em que o dispositivo para correlacionar gera uma pluralidade de valores de rotação circular ideais para o protótipo atual.

26. Codificador de fala, de acordo com a reivindicação 25, caracterizado pelo fato de que o dispositivo (602, 606) para produzir compreende dispositivo (602) para computar coeficientes da série de Fourier discreta para o protótipo de referência e dispositivo (606) para decompor os coeficientes da série de Fourier discreta em vetores de amplitude e vetores de fase para o protótipo de referência, e em que o dispositivo (604, 608) para gerar compreende dispositivo (604) para computar coeficientes da série de Fourier discreta para o protótipo atual e dispositivo (608) para decompor os coeficientes da série de Fourier discreta em vetores de amplitude e vetores de fase para o protótipo atual.

27. Codificador de fala, de acordo com a reivindicação 25, caracterizado pelo fato de que compreende adicionalmente dispositivo (610) para identificar a pluralidade de bandas de freqüência.

28. Codificador de fala, de acordo com a reivindicação 25, caracterizado pelo fato de que o frame atual é um frame de fala.

29. Codificador de fala, de acordo com a reivindicação 25, caracterizado pelo fato de que o frame atual é um frame de resíduo de previsão linear.

30. Codificador de fala, de acordo com a reivindicação 25, caracterizado pelo fato de que o dispositivo (614) para correlacionar gera uma pluralidade de valores de deslocamento de fase linear ideais para o protótipo atual.

31. Codificador de fala, de acordo com a reivindicação 30, caracterizado pelo fato de que compreende adicionalmente dispositivo (616) para quantizar os valores de deslocamento de fase linear e dispositivo (612) para quantizar uma pluralidade de parâmetros de amplitude para o protótipo atual.

32 . Codificador de fala, de acordo com a reivindicação 25, caracterizado pelo fato de que compreende adicionalmente dispositivo (616) para quantizar os valores de rotação circular e dispositivo (612) para quantizar uma pluralidade de parâmetros de amplitude para o protótipo atual.

33. Codificador de fala, de acordo com a reivindicação 25, caracterizado pelo fato de que o codificador de fala reside em uma unidade de assinante (10) de um sistema de comunicação sem fio.

34. Codificador de fala, compreendendo: dispositivo (702, 706) para produzir uma pluralidade de parâmetros de fase de um protótipo de referência de um frame; e dispositivo (716) para gerar uma pluralidade de valores de deslocamento de fase linear associada a um protótipo atual de um frame atual; o codificador de fala caracterizado pelo fato de que compreende adicionalmente: dispositivo (714) para compor um vetor de fase a partir dos parâmetros de fase e dos valores de deslocamento de fase linear através de uma pluralidade de bandas de freqüência.

35. Codificador de fala, de acordo com a reivindicação 34, caracterizado pelo fato de que o dispositivo (702, 706) para produzir compreende dispositivo (702) para computar coeficientes da série de Fourier discreta para o protótipo de referência e dispositivo (706) para decompor os coeficientes da série de Fourier discreta em vetores de amplitude e vetores de fase para o protótipo de referência.

36. Codificador de fala, de acordo com a reivindicação 34, caracterizado pelo fato de que compreende adicionalmente dispositivo (710) para identificar a pluralidade de bandas de freqüência.

37 . Codificador de fala, de acordo com a reivindicação 34, caracterizado pelo fato de que o frame atual é um frame de fala.

38. Codificador de fala, de acordo com a reivindicação 34, caracterizado pelo fato de que o frame atual é um frame de resíduo de previsão linear.

39. Codificador de fala, de acordo com a reivindicação 34, caracterizado pelo fato de que o dispositivo (716) para gerar compreende dispositivo para dequantizar uma pluralidade de parâmetros de fase quantizados associada ao protótipo atual para gerar a pluralidade de valores de deslocamento de fase linear.

40. Codificador de fala, de acordo com a reivindicação 36, caracterizado pelo fato de que compreende adicionalmente dispositivo (712) para dequantizar uma pluralidade de parâmetros de quantização de amplitude associada ao protótipo atual para produzir uma pluralidade de parâmetros de amplitude dequantizados, em que o dispositivo (710) para identificar compreende dispositivo para identificar a pluralidade de bandas com base na pluralidade de parâmetros de amplitude dequantizados.

41. Codificador de fala, de acordo com a reivindicação 34, caracterizado pelo fato de que compreende adicionalmente dispositivo (708) para combinar o vetor de fase composto com uma pluralidade de parâmetros de amplitude associada ao protótipo atual para produzir um vetor combinado, e dispositivo (704) para computar uma série de Fourier discreta inversa do vetor combinado para produzir uma versão reconstruída do protótipo atual.

42 . Codificador de fala, de acordo com a reivindicação 34, caracterizado pelo fato de que o codificador de fala reside em uma unidade de assinante (10) de um sistema de comunicação sem fio.

43. Codificador de fala, compreendendo: dispositivo (816) para produzir uma pluralidade de valores de rotação circular associada ao protótipo atual de um frame atual; e dispositivo (802, 806, 808) para gerar uma pluralidade de formas de onda de passa faixa em uma pluralidade de bandas de freqüência, a pluralidade de formas de onda de passa faixa sendo associada a uma pluralidade de parâmetros de fase de um protótipo de referência de um frame; o codificador de fala caracterizado pelo fato de que compreende adicionalmente: dispositivos (814) para modificar a pluralidade de formas de onda de passa faixa com base na pluralidade de valores de rotação circular.

44. Codificador de fala, de acordo com a reivindicação 43, caracterizado pelo fato de que compreende adicionalmente dispositivo (810) para identificar a pluralidade de bandas de freqüência.

45. Codificador de fala, de acordo com a reivindicação 43, caracterizado pelo fato de que o frame atual é um frame de fala.

46. Codificador de fala, de acordo com a reivindicação 43, caracterizado pelo fato de que o frame atual é um frame de resíduo de previsão linear.

47. Codificador de fala, de acordo com a reivindicação 43, caracterizado pelo fato de que o dispositivo (816) para produzir compreende dispositivo para dequantizar uma pluralidade de parâmetros de fase quantizados associada ao protótipo atual para gerar a pluralidade de valores de rotação circular.

48. Codificador de fala, de acordo com a reivindicação 44, caracterizado pelo fato de que compreende adicionalmente dispositivo (812) para dequantizar uma pluralidade de parâmetros de quantização de amplitude associada ao protótipo atual para produzir uma pluralidade de parâmetros de amplitude dequantizados, em que o dispositivo para identificar compreende dispositivo (810) para identificar bandas com base na pluralidade de parâmetros de amplitude dequantizados.

49. Codificador de fala, de acordo com a reivindicação 48, caracterizado pelo fato de que o dispositivo (802, 806, 808) para gerar compreende dispositivo (802) para computar coeficientes da série de Fourier discreta para o protótipo de referência, dispositivo (806) para decompor os coeficientes da série de Fourier discreta em um vetor de amplitude e um vetor de fase para o protótipo de referência, dispositivo para combinar o vetor de fase com a pluralidade de parâmetros de amplitude dequantizados, e dispositivo (808) para calcular a série de Fourier discreta inversa do vetor de fase para gerar a pluralidade de formas de onda de passa faixa.

50. Codificador de fala, de acordo com a reivindicação 43, caracterizado pelo fato de que compreende adicionalmente dispositivo (804) para somar a pluralidade de formas de onda de passa faixa modificada para produzir uma versão reconstruída do protótipo atual.

51. Codificador de fala, de acordo com a reivindicação 43, caracterizado pelo fato de que o codificador de fala reside em uma unidade de assinante (10) de um sistema de comunicação sem fio.