BRPI0206835B1 - método e equipamento para interoperabilidade entre sistemas de transmissão de voz durante inatividade da fala - Google Patents

método e equipamento para interoperabilidade entre sistemas de transmissão de voz durante inatividade da fala Download PDF

Info

Publication number
BRPI0206835B1
BRPI0206835B1 BRPI0206835A BR0206835A BRPI0206835B1 BR PI0206835 B1 BRPI0206835 B1 BR PI0206835B1 BR PI0206835 A BRPI0206835 A BR PI0206835A BR 0206835 A BR0206835 A BR 0206835A BR PI0206835 B1 BRPI0206835 B1 BR PI0206835B1
Authority
BR
Brazil
Prior art keywords
continuous
average
value
group
spectral
Prior art date
Application number
BRPI0206835A
Other languages
English (en)
Other versions
BR0206835A (pt
Inventor
Andrew P Dejaco
Arasanipalai K Ananthapadmanabham
Khaled H El-Maleh
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of BR0206835A publication Critical patent/BR0206835A/pt
Publication of BRPI0206835B1 publication Critical patent/BRPI0206835B1/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Telephonic Communication Services (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Facsimiles In General (AREA)
  • Information Transfer Systems (AREA)
  • Telephone Function (AREA)

Abstract

"método e equipamento para interoperabilidade entre sistemas de transmissão de voz durante inatividade da fala". as modalidades descritas propiciam um método e um equipamento para interoperabilidade entre sistemas de comunicações ctx e dtx durante transmissões de silêncio ou ruido de fundo. frames de ruído codificados em um oitavo de taxa contínuos são transformados em frames sid descontínuos para transmissão a sistemas dtx (403 a 410) . frames sid descontínuos são transformados para frames de ruído codificados em um oitavo de taxa contínuos para decodificação por um sistema ctx (602 a 606). as aplicações de interoperabilidade ctx para dtx compreendem a interoperabilidade cdma e gsm (sistemas de transmissão de voz de banda estreita), a interoperabilidade de vocodificadores cdma da próxima geração (o vocoder de modo selecionável) com o novo vocodificador itu-t de 4 kbps operando no modo dtx para aplicações de voz sobre ip, futuros sistemas de transmissão de voz que possuam um codificador / decodificador de fala em comum, porém operam em modos ctx ou dtx diferentes durante a não atividade de fala e interoperabilidade de sistemas de transmissão de voz de banda larga cdma com outros sistemas de transmissão de voz de banda larga com vocodificadores em comum de banda larga porém com diferentes modos de operação (dtx ou ctx) durante a não atividade de voz.

Description

Relatório Descritivo da Patente de Invenção: MÉTODO E EQUIPAMENTO PARA INTEROPERABILIDADE ENTRE SISTEMAS DE TRANSMISSÃO DE VOZ DURANTE INATIVIDADE DA FALA.
FUNDAMENTOS
Campo As modalidades reveladas estão relacionadas a comunicações sem fio. Mais particularmente, as modalidades reveladas estão relacionadas a um método e um equipamento novos e aperfeiçoados para interoperabilidade entre sistemas de transmissão de voz não similares durante inatividade de fala.
Histórico A transmissão de voz por técnicas digitais se disseminou amplamente, em particular em aplicações de telefonia de rádio de longa distância e digital. Isto, por sua vez, criou interesse em determinar a menor quantidade de informações que pode ser enviada através de um canal, mantendo porém a qualidade percebida da fala reconstruída. Caso a fala seja transmitida por simples amostragem e digitalização, é necessária uma taxa de dados da ordem de sessenta e quatro quilobits por segundo (kbps) para a obtenção da qualidade de fala do telefone analógico convencional. No entanto, através do uso de análise de fala, seguida pela codificação, transmissão e re-síntese no receptor, pode ser obtida uma redução significativa da taxa de dados. A interoperabilidade de tais esquemas de codificação para vários tipos de fala é necessária para as comunicações entre diferentes sistemas de transmissão. Os sinais de fala ativa e fala não ativa constituem tipos fundamentais dos sinais gerados. A fala ativa representa a vocalização, enquanto a inatividade de fala, ou fala não ativa, compreende tipicamente o silêncio e o ruído de fundo.
Os dispositivos que empregam técnicas para comprimir a fala pela extração de parâmetros que estão relacionados a um modelo de geração de fala humana são denominados codificadores de fala. Um codificador de fala divide o sinal de fala de entrada em blocos de tempo, ou frames de análise. A seguir, os termos "frame" e "pacote" serão usados de forma intercambiável. Os codificadores de fala compreendem tipicamente um encodificador (encoder) e um decodificador, ou um CODEC. O encodificador analisa o frame de fala de entrada para extrair certos parâmetros de ganho e espectrais relevantes e a seguir quantiza os parâmetros em uma representação binária, isto é, em um conjunto de bits ou um pacote de dados binários. Os pacotes de dados são transmitidos através do canal de comunicação para um receptor e um decodificador. 0 decodificador processa os pacotes de dados, os dequantiza para produzir os parâmetros e a seguir resintetiza os frames de fala usando os parâmetros dequantizados. A função do codificador de fala é a de comprimir o sinal de fala digitalizado para um sinal de baixa taxa de bits pela remoção de todas as redundâncias naturais inerentes à fala. A compressão digital é obtida pela representação do frame de fala de entrada por um conjunto de parâmetros e emprego de quantificação para representar os parâmetros com um conjunto de bits. Caso o frame de fala de entrada possua um certo número de bits Ni e o pacote de dados produzido pelo codificador de fala possui um número de bits No, o fator de compressão obtido pelo codificador de fala é Cr = Ni/N0. 0 desafio consiste em reter elevada qualidade de voz na fala decodificada, obtendo concomitantemente o fator de compressão meta. 0 desempenho de um codificador de fala depende de (1) quão bem o modelo de fala, ou a combinação dos processos de análise e síntese acima descritos, se comportam e (2) quão bem o processo de quantização de parâmetros é efetuado na taxa de bits meta de No bits por frame. A meta do modelo de fala é portanto capturar a essência do sinal de fala, ou a qualidade de voz meta, com um pequeno conjunto de parâmetros para cada frame.
Os codificadores de fala podem ser implementados na forma de codificadores no domínio do tempo, que tentam captar a forma de onda de fala no domínio do tempo pelo uso de processamento de elevada resolução temporal para encodificar (encode) pequenos segmentos de fala (tipicamente subframes de 5 milissegundos (ms)) de cada vez. Para cada subframe, é encontrado um representante de alta precisão a partir de um espaço de livro código (codebook) por meio de vários algoritmos de pesquisa conhecidos na técnica. Alternativamente, os codificadores de fala podem ser implementados na forma de codificadores no domínio da freqüência, que tentam capturar o espectro de fala de curto prazo do frame de fala de entrada com um conjunto de parâmetros (análise) e empregam um correspondente processo de síntese para recriar a forma de onda de fala a partir dos parâmetros espectrais. 0 quantizador de parâmetros preserva os parâmetros através de sua representação por representações armazenadas de vetores código de acordo com técnicas de quantização conhecidas descritas por A. Gersho e R. M. Gray, em "Vector Quantization and Signal Compression" (1992) . Diferentes tipos de fala dentro de um dado sistema de transmissão podem ser codificados usando-se diferentes implementações de codificadores de fala; e diferentes sistemas de transmissão podem implementar a codificação de determinados tipos de fala de modo diferente.
Para a codificação a taxas de bits mais baixas, foram desenvolvidos vários métodos de codificação de fala no domínio espectral ou de freqüências, nos quais o sinal de fala é analisado como uma evolução variável no tempo de espectros. Ver, por exemplo, R. J. McAulay & T. F.
Quatieri, Sinusoidal Coding, em "Speech Coding and Synthesis", cap. 4 (W. B. Kleijn & K. K. Paliwal, eds. , 1995). Nos codificadores espectrais, o objetivo é o de modelar, ou predizer, o espectro de fala de curto prazo de cada frame de entrada de fala com um conjunto de parâmetros espectrais, em lugar de imitar com precisão a forma de onda de fala variável com o tempo. Os parâmetros espectrais são a seguir encodificados e um frame de saida de fala é criado com os parâmetros decodificados. A fala sintetizada resultante não coincide com a forma de onda de fala de entrada original, porém oferece uma qualidade percebida similar. Os exemplos de codificadores no domínio da freqüência, que são bem conhecidos pelos técnicos na área, incluem codificadores de excitação de múltiplas bandas (MBEs - multiband excitation coders), codificadores de transformada senoidal (STCs - sinusoidal transform coders) e codificadores harmônicos (HCs - harmonic coders). Tais codificadores no domínio da freqüência oferecem um modelo paramétrico de alta qualidade, possuindo um conjunto compacto de parâmetros que podem ser quantizados acuradamente com o baixo número de bits disponível em baixas taxas de bits.
Nos sistemas de comunicação de voz sem fio em que são desejadas taxas de bits mais baixas, também é tipicamente desejável reduzir o nível da potência transmitida de forma a reduzir a interferência co-canal e para prolongar a vida útil da bateria das unidades portáteis. A redução da taxa de dados total transmitida também serve para reduzir o nível de potência dos dados transmitidos. Uma típica conversação telefônica contém aproximadamente 40 porcento de rajadas (bursts) de fala e 60 porcento de silêncio e ruído acústico de fundo. O ruído de fundo porta menos informações de percepção que a fala. Devido ao fato de que é desejável transmitir silêncio e ruído de fundo na taxa de bits mais baixa possível, o uso da taxa de codificação de fala ativa durante períodos de inatividade de fala é ineficiente.
Uma estratégia comum para explorar a baixa atividade de voz na fala de conversação consiste do uso de uma unidade de detecção de atividade de voz (VAD) que discrimina sinais de voz e não-voz de modo a transmitir silêncio ou ruído de fundo em taxas de dados reduzidas. No entanto, os esquemas de codificação usados por diferentes tipos de sistemas de transmissão, tais como sistemas de transmissão contínua (CTX) e sistemas de transmissão descontínua (DTX) não são compatíveis durante as transmissões de silêncio ou ruído de fundo. Em um sistema CTX, os frames de dados são transmitidos continuamente, mesmo durante os períodos de inatividade de fala. Quando a fala não está presente em um sistema DTX, a transmissão é descontinuada para reduzir a potência de transmissão total. A transmissão descontínua para os sistemas do tipo Sistema Global para Telecomunicações Móveis (GSM) foi padronizada nas propostas do European Telecommunications Standards Institute para a International Telecoramunication Union (ITU) intituladas "Digital Cellular Telecommunication System (Phase 2+) ; Discontinuous Transmission (DTX) for Enhanced Full Rate (EFR) Speech Traffic Channels" e "Digital Cellular Telecommunication System (Phase 2+); Discontinuous Transmission (DTX) for Adaptive Multi-Rate (AMR) Speech Traffic Channels".
Os sistemas CTX requerem um modo contínuo de transmissão para sincronização do sistema e monitoramento da qualidade do canal. Dessa forma, quando a fala está ausente, é usado um modo de codificação de taxa mais baixa para encodificar continuamente o ruído de fundo. Os sistemas baseados em acesso múltiplo por divisão de código (CDMA) usam tal estratégia para a transmissão a taxa variável de chamadas de voz. Em um sistema CDMA, frames de um oitavo de taxa são transmitidos durante períodos de não atividade. São usados 800 bits por segundo (bps) , ou 16 bits em cada tempo de frame de 20 milissegundos (ms), para transmissão da fala não ativa. Um sistema CTX, tal como o CDMA, transmite informações de ruido durante a inatividade de voz para conforto do usuário, bem como para sincronização e medições de qualidade do canal. Na ponta de recepção de um sistema de comunicações CTX, o ruído de fundo do ambiente está continuamente presente durante os períodos de não atividade de fala.
Nos sistemas DTX, não é necessário transmitir bits a cada frame de 20 ms durante a não atividade. Os sistemas GSM, CDMA de banda larga, e de voz sobre IP, bem como certos sistemas por satélite, são sistemas DTX. Em tais sistemas DTX, o transmissor é desligado durante os períodos de não atividade de fala. No entanto, na ponta de recepção dos sistemas DTX, não é recebido nenhum sinal continuo durante os períodos de não atividade de fala, o que leva o ruído de fundo estar presente durante a fala ativa, porém desaparecer durante os períodos de silêncio. A alternância entre a presença e a ausência de ruído de fundo é perturbadora e objetada pelos ouvintes. Para preencher os intervalos entre as rajadas de fala, um ruído sintético, conhecido como "ruído de conforto" é gerado na ponta de recepção usando-se informações do ruído transmitido. Uma atualização periódica das estatísticas de ruido é transmitida, usando-se o que é conhecido como frames Descritores de Inserção de Silêncio (SID - silence insertion descriptor). O ruído de conforto para os sistemas GSM foi padronizado pelas propostas do European Telecommunications Standards Institute para a International Telecommunication Union (ITU) intituladas "Digital Cellular Telecommunication System (Phase 2+); Comfort Noise Aspects for Enhanced Full Rate (EFR) Speech Traffic Channels" e "Digital Cellular Telecommunication System (Phase 2+); Comfort Noise Aspects for Adaptive Multi-Rate (AMR) Speech Traffic Channels". 0 ruído de conforto melhora especialmente a qualidade de escuta no receptor quando o transmissor está localizado em ambientes ruidosos, tais como uma rua, um shopping center, ou em um veículo, etc.
Os sistemas DTX compensam a ausência do ruído transmitido continuamente ao gerar o ruído de conforto sintético durante os períodos de fala inativa no receptor usando um modelo de síntese de ruído. Para gerar o ruído de conforto sintético nos sistemas DTX, um frame SID portando informações de ruído é transmitido periodicamente. Um frame de ruído representativo DTX periódico, ou frame SID, é tipicamente transmitido uma vez a cada 20 frames quando a VAD indica silêncio.
Um modelo comum para sistemas CTX e DTX para a geração de ruído de conforto em um decodificador usa um filtro de conformação espectral. Uma excitação aleatória (branca) é multiplicada por ganhos e conformada por um filtro de conformação espectral usando-se parâmetros recebidos de ganho e espectrais para produção de ruído de conforto sintético. Os ganhos de excitação e informações espectrais representando a conformação espectral são parâmetros transmitidos. Nos sistemas CTX, os parâmetros de ganho e espectrais são encodifiçados em um oitavo de taxa e transmitidos a cada frame. Nos sistemas DTX, os frames SID contendo valores médios / quantizados de ganho e espectrais são transmitidos a cada período. Tais diferenças nos esquemas de codificação e transmissão para o ruído de conforto causam incompatibilidades entre sistemas de transmissão CTX e DTX durante os períodos de fala não ativa. Dessa forma, existe uma demanda por interoperabilidade entre sistemas de comunicação de voz CTX e DTX que transmitem informações de não-voz.
As modalidades aqui descritas atendem à demanda acima mencionada por facilitar a interoperabilidade entre sistemas de comunicação de voz que transmitem informações de não-voz entre sistemas de comunicação CTX e DTX. Assim sendo, em um aspecto da invenção, um método para prover interoperabilidade entre um sistema de comunicações de transmissão continua e um sistema de comunicações de transmissão descontínua durante as transmissões de fala não ativa inclui transformar (translating) frames contínuos de fala não ativa produzidos pelo sistema de transmissão contínua para frames periódicos Descritores de Inserção de Silêncio decodificáveis pelo sistema de transmissão descontínua e transformar frames periódicos Descritores de Inserção de Silêncio produzidos pelo sistema de transmissão descontínua para frames contínuos de fala não ativa decodificáveis pelo sistema de transmissão contínua. Em outro aspecto, um equipamento de interface contínua/ descontínua para prover interoperabilidade entre um sistema de comunicações de transmissão contínua e um sistema de comunicações de transmissão descontínua durante transmissões de fala não ativa inclui uma Unidade de Conversão Contínua/Descontínua para transformar frames contínuos de fala não ativa produzidos pelo sistema de transmissão contínua para frames periódicos Descritores de Inserção de Silêncio decodificáveis pelo sistema de transmissão descontínua e uma Unidade de Conversão Descontínua/Contínua para transformar frames periódicos Descritores de Inserção de Silêncio produzidos pelo sistema de transmissão descontínua para frames contínuos de fala não ativa decodificáveis pelo sistema de transmissão contínua.
BREVE DESCRIÇÃO DOS DESENHOS A Figura 1 é um diagrama de blocos de um canal de comunicação terminado por codificadores de fala em cada extremidade; A Figura 2 é um diagrama de blocos de um sistema de comunicação sem fio incorporando os encodificadores ilustrados na Figura 1, que suporta a interoperabilidade CTX/DTX de transmissões de fala de não-voz; A Figura 3 é um diagrama de blocos de um gerador de ruido sintético para gerar ruído de conforto em um receptor usando informações de ruído transmitido; A Figura 4 é um diagrama de blocos de uma unidade de conversão CTX/DTX. A Figura 5 é um fluxograma ilustrando as etapas de conversão da conversão CTX/DTX; A Figura 6 é um diagrama de blocos de uma unidade de conversão DTX/CTX; e A Figura 7 é um fluxograma ilustrando as etapas de conversão da conversão DTX/CTX.
DESCRIÇÃO DETALHADA
As modalidades descritas provêem um método e um equipamento para interoperabilidade entre sistemas de comunicações CTX e DTX durante transmissões de silêncio ou ruído de fundo. Os frames de ruído contínuos de um oitavo de taxa são transformados em frames SID descontínuos para transmissão a sistemas DTX. Os frames SID descontínuos são transformados para frames de ruído encodifiçados de um oitavo de taxa contínuos para decodificação por um sistema CTX. As aplicações de interoperabilidade CTX para DTX incluem interoperabilidade CDMA e GSM (sistemas de transmissão de voz em banda estreita), interoperabilidade do vocoder CDMA de próxima geração (o vocoder de modo selecionável) com o novo vocoder ITÜ-T de 4 kbps operando no modo DTX para aplicações de voz sobre IP, sistemas de transmissão de voz futuros que possuem um encodificador / decodificador de fala comum porém que operam em modos CTX ou DTX diferentes durante a fala não ativa e a interoperabilidade do sistema de transmissão de voz CDMA banda larga com outros sistemas de transmissão de voz em banda larga com vocoders de banda larga comuns porém com modos de operação diferentes (DTX ou CTX) durante a não atividade de voz.
As modalidades descritas propiciam portanto um método e um equipamento para uma interface entre o vocoder de um sistema de transmissão de voz continuo e o vocoder de um sistema de transmissão de voz descontínuo. 0 fluxo de bits de informações de um sistema CTX é mapeado para um fluxo de bits DTX que pode ser transportado em um canal DTX e a seguir decodificado por um decodificador na extremidade de recepção do sistema DTX. De forma similar, a interface transforma o fluxo de bits proveniente de um canal DTX para um canal CTX.
Na Figura 1, um primeiro encodificador 10 recebe amostras de fala digitalizadas s(n) e encodifica as amostras s(n) para transmissão através de um meio de transmissão 12, ou canal de comunicação 12, para um primeiro decodificador 14. O decodificador 14 decodifica as amostras de fala encodifiçadas e sintetiza um sinal de fala de saída sSiNtetizado (n) - Para transmissão na direção oposta, um segundo encodificador 16 encodifica amostras de fala digitalizadas s(n), que são transmitidas através de um canal de comunicação 18. Um segundo decodificador 20 recebe e decodifica as amostras de fala encodifiçadas, gerando um sinal de fala de saída sintetizado sSINTETIZAD0 (n) · As amostras de fala, s(n), representam sinais de fala que foram digitalizados e quantizados de acordo com quaisquer dentre vários métodos conhecidos na técnica, incluindo, por exemplo, modulação por código de pulso (PCM), lei μ ou lei A comprimida. Como é do conhecimento da técnica, as amostras de fala, s(n), são organizadas em frames de dados de entrada, em que cada frame compreende um número predeterminado de amostras de fala digitalizadas s(n). Em uma modalidade exemplar, é empregada uma taxa de amostragem de 8 kHz, com cada frame de 20 ms compreendendo 160 amostras. Nas modalidades descritas a seguir, a taxa de transmissão de dados pode ser variada em uma base de frame a frame, da taxa total, à meia taxa, à um quarto de taxa, à um oitavo de taxa. Alternativamente, podem ser usadas outras taxas de dados. Tal como são aqui utilizados, os termos "taxa total" ou "taxa elevada", se referem de um modo geral a taxas de dados que são maiores ou iguais a 8 kbps, enquanto que os termos "meia taxa" ou "taxa baixa" referem-se de um modo geral a taxas de dados que são menores ou iguais a 4 kbps. A variação da taxa de transmissão de dados é benéfica pois taxas de bits mais baixas podem ser empregadas seletivamente para frames contendo relativamente menos informações de fala. Como será notado pelos técnicos na área, outras taxas de amostragem, tamanhos de frames e taxas de transmissão de dados podem ser usadas. 0 primeiro encodificador 10 e o segundo decodificador 20 constituem, em conjunto, um primeiro codificador de fala ou CODEC de fala. De forma similar, o segundo encodificador 16 e o primeiro decodificador 14 constituem, em conjunto, um segundo codificador de fala. Será notado pelos técnicos na área que os codificadores de fala podem ser implementados com de um processador de sinais digitais (DSP) , um circuito integrado de aplicação especifica (ASIC), lógica de porta discreta, firmware, ou qualquer módulo de software programável convencional e um microprocessador. O módulo de software podería residir em uma memória RAM, memória flash, registradores, ou qualquer outra forma de meio de armazenamento que possa ser gravado conhecido pela técnica. Alternativamente, qualquer processador, controlador, ou máquina de estado convencionais poderiam substituir o microprocessador. Os ASICs exemplares, projetados especificamente para codificação de fala, estão descritos na Patente U.S. No. 5.926.786, intitulada "APPLICATION SPECIFIC INTEGRATED CIRCUIT (ASIC) FOR PERFORMING RAPID SPEECH COMPRESSION IN A MOBILE TELEPHONE SYSTEM", em nome da Requerente da presente invenção e aqui incorporada em sua totalidade pela presente referência; e na Patente U.S. No. 5.784.532, também intitulada "APPLICATION SPECIFIC INTEGRATED CIRCUIT (ASIC) FOR PERFORMING RAPID SPEECH COMPRESSION IN A MOBILE TELEPHONE SYSTEM", em nome da Requerente da presente invenção e aqui incorporada em sua totalidade pela presente referência. A Figura 2 ilustra uma modalidade exemplar de um sistema de transmissão de voz CTX sem fio 200 compreendendo uma unidade de assinante 202, uma estação base 208 e um centro de comutação móvel (MSC) 214, capaz de interfacear para um sistema DTX durante as transmissões de silêncio ou ruido de fundo. Uma unidade de assinante 202 pode consistir de um telefone celular para assinantes móveis, um telefone sem fio, um dispositivo de paging, um dispositivo de loop local sem fio, um organizador pessoal digital (PDA), um dispositivo de telefonia por Internet, um componente de um sistema de comunicação por satélites, ou qualquer dispositivo de terminal de usuário de um sistema de comunicações. A modalidade exemplar da Figura 2 ilustra uma interface CTX/DTX 216 entre o vocoder 218 do sistema de transmissão de voz continua 200 e o vocoder de um sistema de transmissão de voz descontínua (não é mostrado). Os vocoders de ambos os sistemas compreendem um encodificador 10 e um decodificador 20, tal como descrito na Figura 1. A Figura 2 ilustra uma modalidade exemplar de uma interface CTX/DTX implementada na estação base 208 do sistema de transmissão de voz sem fio 200. Em uma modalidade alternativa, a interface CTX/DTX 216 pode estar localizada em uma unidade de gateway (não é mostrada) para outros sistemas de transmissão de voz operando no modo DTX. No entanto, deve ficar claro que os componentes da interface CTX/DTX, ou sua funcionalidade, podem estar fisicamente localizados alternativamente por todos os sistemas, sem constituir um afastamento do escopo das modalidades descritas. A interface CTX/DTX 216 exemplar compreende uma Unidade de Conversão CTX/DTX 210 para transformar os pacotes de um oitavo de taxa emitidos a partir do encodificador 10 da unidade de assinante 202 para pacotes SID compatíveis com DTX, e uma Unidade de Conversão DTX/CTX 212 para transformar os pacotes SID recebidos a partir de um sistema DTX para pacotes de um oitavo de taxa decodificáveis pelo decodificador 20 da unidade de assinante 202. As unidades de conversão exemplares 210, 212, estão equipadas com unidades encodificadoras / decodificadoras do sistema de interface de voz. A Unidade de Conversão CTX/DTX está descritivamente detalhada na Figura 4. A Unidade de Conversão DTX/CTX está descritivamente detalhada na Figura 6. O decodificador 20 da unidade de assinante exemplar 202 é equipada com um gerador de ruído sintético (não é mostrado) para a geração de ruído de conforto a partir dos pacotes de um oitavo de taxa emitidos pela Unidade de Conversão DTX/CTX 212. O gerador de ruído sintético está descritivamente detalhado na Figura 3. A Figura 3 ilustra uma modalidade exemplar de um gerador de ruído sintético usado pelos decodificadores 10 e 20 ilustrados nas Figuras 1 e 2, para geração de ruído de conforto em um receptor com informações de ruído transmitido. Um esquema comum para gerar ruído de fundo em sistemas de voz CTX e DTX é o de usar um modelo de síntese de filtro - excitação simples. Os bits de taxa baixa limitados disponíveis para cada frame são alocados para transmissão de parâmetros espectrais e valores de ganho de energia que caracterizam o ruído de fundo. Nos sistemas DTX é usada a interpolação dos parâmetros de ruído transmitido para gerar ruído de conforto.
Um sinal de excitação aleatório 306 é multiplicado pelo ganho recebido no multiplicador 302, produzindo um sinal intermediário x(n), que representa uma excitação aleatória escalonada. A excitação aleatória escalonada x(n) é conformada pelo filtro de conformação espectral 304 usando parâmetros espectrais recebidos, para produzir um sinal de ruído de fundo sintetizado 308, y(n). A implementação do filtro de conformação espectral 304 será prontamente compreendida pelos técnicos na área. A Figura 4 ilustra uma modalidade exemplar da Unidade de Conversão CTX/DTX 210 da interface CTX/DTX 216 ilustrada na Figura 2. O ruído de fundo é transmitido quando a VAD de um sistema transmissor emite 0, indicando não atividade de voz. Quando o ruído de fundo é transmitido entre dois sistemas CTX, um encodificador de taxa variável produz pacotes de dados de um oitavo de taxa contínuos, contendo informações de ganho e espectrais, e um decodificador CTX do mesmo sistema recebe os pacotes de um oitavo de taxa e os decodifica para produzir ruído de conforto. Quando o silêncio ou ruído de fundo é transmitido de um sistema CTX para um sistema DTX, a interoperabilidade deve ser provida por conversão dos pacotes de um oitavo de taxa contínuos produzidos pelo sistema CTX para frames SID periódicos decodificáveis pelo sistema DTX. Uma modalidade exemplar em que a interoperabilidade deve ser provida entre um sistema CTX e um DTX, ocorre durante a comunicação entre dois vocoders: um novo vocoder proposto para o CDMA, o vocoder de modo selecionável (SVM) e um novo vocoder proposto de 4 kbps da International Telecommunication Union (ITU) usando o modo DTX de operação. O vocoder SMV usa três taxas de codificação para voz ativa (8500, 4000 e 2000 bps) e 800 bps para codificação de silêncio e ruido de fundo. Tanto o vocoder SMV como o vocoder ITÜ-T possuem uma interoperabilidade de fluxo de bits de codificação de fala ativa de 4000 bps. Para a interoperabilidade durante a atividade de fala, o vocoder SMV usa somente a taxa de codificação de 4000 bps. No entanto, os vocoders não são interoperáveis durante a não atividade de fala pois o vocoder ITU descontínua a transmissão durante a ausência de fala e gera periodicamente frames SID contendo parâmetros espectrais de ruido de fundo e energia que só podem ser decodificados em um receptor DTX. Em um ciclo de N frames de ruido, um pacote SID é transmitido pelo vocoder ITU-T para atualizar as estatísticas de ruído. O parâmetro, N, é determinado pelo ciclo de frame SID do sistema DTX de recepção. A interoperabilidade durante a transmissão de fala inativa proveniente de um sistema CTX para um sistema DTX é provida pela Unidade de Conversão CTX/DTX 400 ilustrada na Figura 4. Os Frames de ruído encodificados em um oitavo de taxa são alimentados ao decodificador de um oitavo de taxa 402 a partir do encodificador (não é mostrado) de um sistema CTX (também não é mostrado). Em uma modalidade, o decodif icador de um oitavo de taxa 402 pode ser um decodificador de taxa variável totalmente funcional. Em outra modalidade, o decodif icador de um oitavo de taxa 402 pode ser um decodificador parcial, capaz meramente de extrair as informações espectrais e de ganho a partir de um pacote de um oitavo de taxa. Um decodificador parcial necessita apenas decodificar os parâmetros espectrais e parâmetros de ganho de cada frame necessários para fazer a média. Não é necessário para um decodificador parcial seja capaz de reconstruir todo o sinal. O decodif icador de um oitavo de taxa 402 extrai as informações espectrais e de ganho a partir de N pacotes de um oitavo de taxa, que são armazenados no buffer de frames 404. O parâmetro, N, é determinado pelo ciclo de frame SID do sistema DTX receptor (não é mostrado). A unidade de cálculo de média DTX 406 faz a média das informações espectrais e de ganho de N frames de um oitavo de taxa para entrada ao encodificador SID 408. O encodificador SID 408 quantiza as informações médias de ganho e espectrais e produz um frame SID que pode ser decodificado por um receptor DTX. O frame SID é alimentado ao programador DTX 410, que transmite o pacote no momento apropriado no ciclo de frame SID do receptor DTX. A interoperabilidade durante a transmissão de fala inativa a partir de um sistema CTX para um sistema DTX é estabelecida desta forma. A Figura 5 é um fluxograma ilustrando as etapas da conversão CTX/DTX de ruido de acordo com uma modalidade exemplar. Um encodificador CTX produzindo pacotes de um oitavo de taxa para conversão poderia ser informado por uma estação base de que o destino dos pacotes é um sistema DTX. Em uma modalidade, o MSC (Figura 2, 214) retém informações sobre o sistema de destino da conexão. O registro do MSC do sistema identifica o destino da conexão e habilita, na estação base (Figura 2, 214), a conversão dos pacotes de um oitavo de taxa para frames SID periódicos que são programados apropriadamente para transmissão periódica compatível com o ciclo de frame SID do sistema DTX de destino. A conversão CTX/DTX produz pacotes SID que podem ser transportados para um sistema DTX. Durante a não atividade de fala, o encodificador do sistema CTX transmite pacotes de um oitavo de taxa para o decodificador 402 da Unidade de Conversão CTX/DTX 210.
Começando na etapa 502, N frames de um oitavo de taxa contínuos são decodificados para produzir os parâmetros espectrais e de ganho de energia para os pacotes recebidos. Os parâmetros espectrais e de ganho de energia dos N frames de um oitavo de taxa consecutivos são acumulados (buffered) e o fluxo de controle passa à etapa 504 .
Na etapa 504, um parâmetro espectral médio e um parâmetro de ganho de energia médio representando o ruido nos N frames são computados usando técnicas de cálculo de média bem conhecidas. 0 fluxo de controle prossegue para a etapa 506.
Na etapa 506, os parâmetros médios espectrais e de ganho de energia são quantizados e é produzido um frame SID a partir dos parâmetros espectrais e de ganho de energia quantizados. O fluxo de controle passa à etapa 508.
Na etapa 508, o frame SID é transmitido por um programador DTX.
As etapas 502 a 508 são repetidas para cada N frames de um oitavo de taxa de silêncio ou ruído de fundo. Os técnicos na área notarão que a ordem das etapas ilustradas na Figura 5 não é limitante. O método pode ser prontamente modificado pela omissão ou reordenação das etapas ilustradas sem constituir um afastamento do escopo das modalidades descritas.
A Figura 6 ilustra uma modalidade exemplar da Unidade de Conversão DTX/CTX 212 da interface CTX/DTX 216 ilustrada na Figura 2. Quando o ruído de fundo é transmitido entre dois sistemas DTX, um encodificador DTX produz pacotes de dados SID periódicos contendo informações médias de ganho e espectrais e um decodificador DTX do mesmo sistema que recebe periodicamente os pacotes SID e os decodifica para produzir o ruído de conforto. Quando o ruído de fundo é transmitido a partir de um sistema DTX para um sistema CTX, a interoperabilidade deve ser provida pela conversão dos frames SID periódicos produzidos pelo sistema DTX para pacotes de um oitavo de taxa contínuos decodificáveis pelo sistema CTX. A interoperabilidade durante a transmissão da fala inativa de um sistema DTX para um sistema CTX é provida pela Unidade de Conversão DTX/CTX exemplar 600 ilustrada na Figura 6.
Os frames de ruido SID encodifiçados são alimentados ao decodificador DTX 602 a partir do encodificador de um sistema DTX (não é mostrado). O decodificador DTX 602 dequantiza o pacote SID para produzir informações espectrais e de energia para o frame de ruido SID. Em uma modalidade, o decodificador DTX 602 pode ser um decodificador DTX completamente funcional. Em outra modalidade, o decodificador DTX 602 pode ser um decodificador parcial, capaz meramente de extrair o vetor espectral médio e o ganho médio a partir de um pacote SID. Um decodificador DTX parcial necessita apenas decodificar o vetor espectral médio e o ganho médio a partir do pacote SID. Não é necessário que um decodificador DTX parcial seja capaz de reconstruir todo um sinal. Os valores médios de ganho e espectrais são alimentados ao gerador de vetores espectrais médios e ganhos médios 604. O gerador de vetores espectrais médios e ganhos médios 604 gera N valores espectrais e N valores de ganho a partir do único valor espectral médio e do único valor de ganho médio extraídos a partir do pacote SID recebido. Usando-se técnicas de interpolação, técnicas de extrapolação, repetição e substituição, são calculados os valores de parâmetros espectrais e valores de ganho de energia para os N frames de ruído não transmitidos. O uso de técnicas de interpolação, técnicas de extrapolação, repetição e substituição para gerar a pluralidade de valores espectrais e valores de ganho cria um ruido sintetizado mais representativo do ruído de fundo original do que o ruído sintetizado que é criado com esquemas estacionários de vetores. Caso o pacote SID transmitido represente silêncio real, os vetores espectrais são estacionários, porém com ruído de veículos, ruído de shoppings, etc., os vetores estacionários passam a ser insuficientes. Os N valores espectrais e de ganho gerados são alimentados ao encodificador CTX de um oitavo de taxa 606, que produz N pacotes de um oitavo de taxa. O encodificador CTX emite N frames de ruido de um oitavo de taxa para cada ciclo de frames SID. A Figura 7 é um fluxograma ilustrando as etapas da conversão DTX/CTX de acordo com uma modalidade exemplar. A conversão DTX/CTX produz N pacotes de ruido de um oitavo de taxa para cada pacote SID recebido. Durante a não atividade de fala, o encodificador do sistema DTX transmite frames SID periódicos para o decodif icador SID 602 da Unidade de Conversão DTX/CTX 212.
Começando na etapa 702, é recebido um frame SID periódico. O fluxo de controle passa à etapa 704.
Na etapa 7 04, os valores de ganho médios e os valores espectrais médios são extraídos do pacote SID recebido. O fluxo de controle prossegue para a etapa 706.
Na etapa 706, N valores espectrais e N valores de ganho são gerados a partir do único valor espectral médio e do único valor de ganho médio extraídos a partir do pacote SID recebido (e em uma modalidade, a partir do pacote SID imediatamente anterior) usando-se qualquer permutação das técnicas de interpolação, técnicas de extrapolação, repetição e substituição. Uma modalidade de uma fórmula de interpolação usada para gerar N valores espectrais e N valores de ganho em um ciclo de N frames de ruído é: em que p(n+i) é o parâmetro do frame n+i (para i = 0, 1, ..., N-l), p(n) é o parâmetro do primeiro frame no ciclo atual e p(n-N) é o parâmetro para o primeiro frame no penúltimo ciclo. O fluxo de controle passa à etapa 708.
Na etapa 708, N pacotes de ruído de um oitavo de taxa são produzidos usando-se os N valores espectrais e os N valores de ganho gerados. As etapas 702 a 708 são repetidas para cada frame SID recebido.
Os técnicos na área notarão que a ordem das etapas ilustradas na Figura 7 não é limitante. O método pode ser prontamente modificado pela omissão ou reordenação das etapas ilustradas sem constituir um afastamento do escopo das modalidades descritas.
Dessa forma, foram descritos um método e um equipamento novos e aperfeiçoados para interoperabilidade entre sistemas de transmissão de voz durante não atividade de fala. Os técnicos na área notarão que as informações e sinais podem ser representados usando-se quaisquer dentre uma diversidade de diferentes tecnologias e técnicas. Como exemplo, os dados, instruções, comandos, informações, sinais, bits, símbolos e chips que possam ter sido mencionados por toda a descrição acima podem ser representados por tensões, fluxos, ondas eletromagnéticas, campos ou partículas magnéticas, campos ou partículas ópticas, ou quaisquer combinações de tais.
Os técnicos na área notarão também que os vários exemplos de blocos lógicos, módulos, circuitos e etapas de algoritmos descritos em conexão com as modalidades aqui descritas podem ser implementados na forma de hardware eletrônico, software de computador, ou combinações de tais. Para ilustrar claramente tal intercambialidade de hardware e software, vários exemplos de componentes, blocos, módulos, circuitos e etapas foram acima descritos de um modo geral em termos de sua funcionalidade. Se tal funcionalidade é implementada na forma de um hardware ou software depende da aplicação e restrições de projeto específicas impostas ao sistema como um todo. Os técnicos na área podem implementar a funcionalidade descrita de diversas formas para cada aplicação específica, porém tais decisões de implementação não devem ser interpretadas como um afastamento do escopo da presente invenção.
Os vários exemplos de blocos lógicos, módulos e circuitos aqui descritos em conexão com as modalidades aqui apresentadas podem ser implementados ou efetivados por meio de um processador de uso geral, um processador de sinais digitais (DSP), um circuito integrado de aplicação específica (ASIC), uma rede de portas lógicas programáveis (FPGA) ou outros dispositivos lógicos programáveis, portas discretas ou lógica de transistores, componentes de hardware individuais, ou quaisquer combinações de tais projetadas para efetuar as funções aqui descritas. Um processador de uso geral pode ser um microprocessador, porém como alternativa o processador pode ser qualquer processador, controlador, microcontrolador, ou máquina de estados convencionais. Um processador também pode ser implementado na forma de uma combinação de dispositivos de computação, por exemplo, uma combinação de um DSP e um microprocessador, uma pluralidade de microprocessadores, um ou mais microprocessadores em conjunto com um núcleo DSP, ou qualquer outra configuração similar.
As etapas de um método ou algoritmo descritos em conexão com as modalidades aqui apresentadas podem ser efetivadas diretamente em hardware, em um módulo de software executado por um processador, ou em uma combinação de ambos. Um módulo de software pode residir em uma memória RAM, memória flash, memória ROM, memória EPROM, memória EEPROM, registradores, disco rígido, um disco removível, um CD-ROM, ou qualquer outra forma de meio de armazenamento conhecido pelos técnicos na área. Um meio de armazenamento exemplar é acoplado ao processador de tal forma que o processador possa ler informações provenientes do, e gravar informações no, meio de armazenamento. Como alternativa, o meio de armazenamento pode estar integrado ao processador. O processador e o meio de armazenamento podem residir em um ASIC. 0 ASIC pode residir em uma unidade de assinante. Como alternativa, o processador e o meio de armazenamento podem residir na forma de componentes discretos em um terminal de usuário. A descrição acima das modalidades preferidas é provida para permitir que os técnicos na área efetivem ou façam uso da presente invenção. As diferentes modificações dessas modalidades ficarão prontamente claras para os técnicos na área e os princípios genéricos aqui definidos podem ser aplicados a outras modalidades sem o afastamento do espírito ou escopo da invenção. Dessa forma, a presente invenção não deve ser limitada às modalidades aqui apresentadas, devendo receber o escopo mais amplo, consistente com os princípios e características de novidade aqui descritos.
REIVINDICAÇÕES

Claims (29)

1. Método para prover interoperabilidade entre um sistema de comunicações de transmissão continua e um sistema de comunicações de transmissão descontínua durante transmissões de fala não ativa, CARACTERIZADO pelo fato de que compreende as etapas de: transformar frames contínuos de fala não ativa, produzidos pelo sistema de transmissão contínua, em frames periódicos Descritores de Inserção de Silêncio decodificáveis pelo sistema de transmissão descontínua; e transformar frames periódicos Descritores de Inserção de Silêncio, produzidos pelo sistema de transmissão descontínua, em frames contínuos de fala não ativa decodificáveis pelo sistema de transmissão contínua; em que transformar frames contínuos de fala não ativa, compreende: decodificar um grupo de frames contínuos de fala não ativa para produzir um grupo de parâmetros espectrais e parâmetros de ganho; calcular média do grupo de parâmetros espectrais para produzir um valor espectral médio; calcular média do grupo de parâmetros de ganho para produzir um valor de ganho médio; quantizar o valor espectral médio; quantizar o valor de ganho médio; gerar um frame Descritor de Inserção de Silêncio a partir do valor de ganho médio quantizado e do valor espectral médio quantizado; e transmitir o frame Descritor de Inserção de Silêncio em um momento apropriado durante um ciclo de frame Descritor de Inserção de Silêncio de um sistema receptor de transmissão descontínua; em que transformar frames periódicos Descritores de Inserção de Silêncio, compreende: receber um frame Descritor de Inserção de Silêncio; decodificar o frame Descritor de Inserção de Silêncio para produzir um valor de ganho médio quantizado e um valor espectral médio quantizado, e dequantizar o valor de ganho médio quantizado e o valor espectral médio quantizado para produzir um valor de ganho médio e um valor espectral médio; gerar um grupo de valores espectrais e um grupo de valores de ganho a partir do valor de ganho médio e do valor espectral médio; e encodificar um grupo de frames contínuos de fala não ativa a partir do grupo de valores espectrais e do grupo de valores de ganho.
2. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que o sistema de transmissão contínua é um sistema CDMA.
3. Método, de acordo com a reivindicação 2, CARACTERIZADO pelo fato de que o sistema CDMA compreende um Vocoder de Modo Selecionável.
4. Método, de acordo com a reivindicação 1, CARACTERI ZADO pelo fato de que o sistema de transmissão descontínua é um sistema GSM.
5. Método, de acordo com a reivindicação 1, CARACTERI ZADO pelo fato de que o sistema de transmissão descontínua é um sistema de transmissão de voz em banda estreita.
6. Método, de acordo com a reivindicação 1, CARACTERI ZADO pelo fato de que o sistema de transmissão descontínua compreende um vocoder de 4 quilobits por segundo operando em modo descontínuo para aplicações de protocolo de voz sobre Internet (VoIP).
7. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que a interoperabilidade é provida entre pelo menos um sistema de transmissão de voz operando em modo contínuo e pelo menos um sistema de transmissão de voz operando em modos descontínuos.
8. Método, de acordo com a reivindicação 1, CARACTERI ZADO pelo fato de que a interoperabilidade é provida entre um primeiro sistema de transmissão de voz em banda larga CDMA e um segundo sistema de transmissão de voz em banda larga possuindo vocoders de banda larga comuns, operando em diferentes modos de transmissão.
9. Método, de acordo com a reivindicação 1, CARACTERI ZADO pelo fato de que os frames contínuos de fala não ativa são codificados em um oitavo de taxa.
10. Equipamento de Interface Contínua/Descontínua (216) para prover interoperabilidade entre um sistema de comunicações de transmissão contínua e um sistema de comunicações de transmissão descontínua durante transmissões de fala não ativa, CARACTERI ZADO pelo fato de que compreende: uma Unidade de Conversão Contínua/Descontínua (210, 400) para transformar frames contínuos de fala não ativa, produzidos pelo sistema de transmissão contínua, em frames periódicos Descritores de Inserção de Silêncio decodificáveis pelo sistema de transmissão descontínua; e uma Unidade de Conversão Descontínua/Contínua (212, 600) para transformar frames periódicos Descritores de Inserção de Silêncio, produzidos pelo sistema de transmissão descontínua, em frames contínuos de fala não ativa decodificáveis pelo sistema de transmissão contínua; em que a Unidade de Conversão Contínua/Descontínua (210, 400), compreende: um decodificador (402) para decodificar parâmetros espectrais e de ganho dos frames de fala não ativa; uma unidade de cálculo de médias (406) para calcular médias de um grupo dos frames de fala não ativa para produzir um valor de ganho médio e um valor espectral médio; um Encodificador Descritor de Inserção de Silêncio (408) para quantizar o valor de ganho médio e o valor espectral médio e produzir um frame Descritor de Inserção de Silêncio usando o valor de ganho médio e o valor espectral médio; e um programador de transmissão descontínua (410) para transmitir o frame Descritor de Inserção de Silêncio em um momento apropriado durante um ciclo de frame Descritor de Inserção de Silêncio de um sistema receptor de transmissão descontínua; em que a Unidade de Conversão Descontinua/Contínua (212, 600), compreende: um decodificador (602) para decodificar um frame Descritor de Inserção de Silêncio para produzir um valor de ganho médio quantizado e um valor espectral médio quantizado, e dequantizar o valor de ganho médio quantizado e o valor espectral médio quantizado para produzir um valor de ganho médio e um valor espectral médio; um gerador de valores espectrais e de ganho médios (604) para gerar um grupo de valores espectrais e um grupo de valores de ganho a partir do valor de ganho médio e do valor espectral médio; e um encodificador (608) para produzir um grupo de frames contínuos de fala não ativa a partir do grupo de valores espectrais e do grupo de valores de ganho.
11. Unidade de Conversão Contínua/Descontínua (210, 400), CARACTERI ΖΑΡΑ pelo fato de que transforma frames contínuos de fala não ativa, produzidos por um sistema de transmissão contínua, em frames periódicos Descritores de Inserção de Silêncio decodificáveis por um sistema de transmissão descontínua, e de que compreende: um decodificador (402) para decodificar parâmetros espectrais e de ganho dos frames de fala não ativa; uma unidade de cálculo de médias (406) para calcular médias de um grupo dos frames de fala não ativa para produzir um valor de ganho médio e um valor espectral médio; um Encodificador Descritor de Inserção de Silêncio (408) para quantizar o valor de ganho médio e o valor espectral médio e produzir um frame Descritor de Inserção de Silêncio usando o valor de ganho médio e o valor espectral médio; e um programador de transmissão descontínua (410) para transmitir o frame Descritor de Inserção de Silêncio em um momento apropriado durante um ciclo de frame Descritor de Inserção de Silêncio de um sistema receptor de transmissão descontínua.
12. Unidade de Conversão Contínua/Descontínua, de acordo com a reivindicação 11, CARACTERI ΖΑΡΑ pelo fato de que os frames contínuos de fala não ativa são codificados em um oitavo de taxa.
13. Unidade de Conversão Contínua/Descontínua, de acordo com a reivindicação 11, CARACTERI ΖΑΡΑ pelo fato de que compreende adicionalmente um buffer de memória (404) para armazenar os parâmetros espectrais e de ganho.
14. Unidade de Conversão Contínua/Descontínua, de acordo com a reivindicação 11, CARACTERIΖΑΡΑ pelo fato de que o decodif icador (402) é um decodif icador de taxa variável.
15. Unidade de Conversão Contínua/Descontínua, de acordo com a reivindicação 11, CARACTERI ΖΑΡΑ pelo fato de que o decodificador (402) é um decodificador parcial de um oitavo de taxa capaz de extrair parâmetros de ganho e espectrais a partir de um frame encodificado de um oitavo de taxa.
16. Método para transformar frames contínuos de fala não ativa, produzidos por um sistema de transmissão contínua, em frames periódicos Descritores de Inserção de Silêncio decodificáveis por um sistema de transmissão descontínua, CARACTERIZADO pelo fato de que compreende as etapas de: decodificar um grupo de frames contínuos de fala não ativa para produzir um grupo de parâmetros espectrais e parâmetros de ganho; calcular média do grupo de parâmetros espectrais para produzir um valor espectral médio; calcular média do grupo de parâmetros de ganho para produzir um valor de ganho médio; quantizar o valor espectral médio; quantizar o valor de ganho médio; gerar um frame Descritor de Inserção de Silêncio a partir do valor de ganho médio quantizado e do valor espectral médio quantizado; e transmitir o frame Descritor de Inserção de Silêncio em um momento apropriado durante um ciclo de frame Descritor de Inserção de Silêncio de um sistema receptor de transmissão descontínua.
17. Método, de acordo com a reivindicação 16, CARACTERIZADO pelo fato de que os frames contínuos de fala não ativa são codificados em um oitavo de taxa.
18. Unidade de Conversão Descontínua/Contínua (212, 600), CARACTERI ΖΑΡΑ pelo fato de que transforma frames periódicos Descritores de Inserção de Silêncio, produzidos por um sistema de transmissão descontínua, em frames contínuos de fala não ativa decodificáveis por um sistema de transmissão contínua, e de que compreende: um decodificador (602) para decodificar um frame Descritor de Inserção de Silêncio para produzir um valor de ganho médio quantizado e um valor espectral médio quantizado, e dequantizar o valor de ganho médio quantizado e o valor espectral médio quantizado para produzir um valor de ganho médio e um valor espectral médio; um gerador de valores espectrais e de ganho médios (604) para gerar um grupo de valores espectrais e um grupo de valores de ganho a partir do valor de ganho médio e do valor espectral médio; e um encodificador (608) para produzir um grupo de frames contínuos de fala não ativa a partir do grupo de valores espectrais e do grupo de valores de ganho.
19. Unidade de Conversão Descontínua/Contínua, de acordo com a reivindicação 18, CARACTERI ΖΑΡΑ pelo fato de que o encodificador (608) produz frames contínuos de um oitavo de taxa.
20. Unidade de Conversão Descontínua/Contínua, de acordo com a reivindicação 18, CARACTERI ΖΑΡΑ pelo fato de que o gerador de valores espectrais e de ganho médios (604) compreende adicionalmente um interpolador.
21. Unidade de Conversão Descontínua/Contínua, de acordo com a reivindicação 18, CARACTERIΖΑΡΑ pelo fato de que o gerador de valores espectrais e de ganho médios (604) compreende adicionalmente um extrapolador.
22. Método para transformar frames periódicos Descritores de Inserção de Silêncio, produzidos por um sistema de transmissão descontínua, em frames contínuos de fala não ativa decodificáveis por um sistema de transmissão contínua, CARACTERI ZADO pelo fato de que compreende as etapas de: receber um frame Descritor de Inserção de Silêncio; decodificar o frame Descritor de Inserção de Silêncio para produzir um valor de ganho médio quantizado e um valor espectral médio quantizado, e dequantizar o valor de ganho médio quantizado e o valor espectral médio quantizado para produzir um valor de ganho médio e um valor espectral médio; gerar um grupo de valores espectrais e um grupo de valores de ganho a partir do valor de ganho médio e do valor espectral médio; e encodificar um grupo de frames contínuos de fala não ativa a partir do grupo de valores espectrais e do grupo de valores de ganho.
23. Método, de acordo com a reivindicação 22, CARACTERI ZADO pelo fato de que uma técnica de interpolação é usada para gerar o grupo de valores espectrais e o grupo de valores de ganho.
24. Método, de acordo com a reivindicação 23, CARACTERI ZADO pelo fato de que a técnica de interpolação emprega a fórmula p(n + i) = (l - H N)p(n - N)+17 N * p(n), em que p(n+i) é o parâmetro do frame n+i (para i = 0, 1, ..., N-l) , em que p(n) é o parâmetro do primeiro frame em um ciclo atual, em que p(n-N) é o parâmetro para o primeiro frame no penúltimo ciclo e em que N é determinado por um ciclo de frame Descritor de Inserção de Silêncio de um sistema receptor de transmissão descontínua.
25. Método, de acordo com a reivindicação 22, CARACTERIZADO pelo fato de que uma técnica de extrapolação é usada para gerar o grupo de valores espectrais e o grupo de valores de ganho.
26. Método, de acordo com a reivindicação 22, CARACTERI ZADO pelo fato de que uma técnica de repetição é usada para gerar o grupo de valores espectrais e o grupo de valores de ganho.
27. Método, de acordo com a reivindicação 22, CARACTERI ZADO pelo fato de que uma técnica de substituição é usada para gerar o grupo de valores espectrais e o grupo de valores de ganho.
28. Método, de acordo com a reivindicação 22, CARACTERIZADO pelo fato de que o frame Descritor de Inserção de Silêncio imediatamente anterior é usado para gerar o grupo de valores espectrais e o grupo de valores de ganho.
29. Método, de acordo com a reivindicação 22, CARACTERI ZADO pelo fato de que os frames contínuos de fala não ativa são codificados em um oitavo de taxa.
BRPI0206835A 2001-01-31 2002-01-30 método e equipamento para interoperabilidade entre sistemas de transmissão de voz durante inatividade da fala BRPI0206835B1 (pt)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/774,440 US6631139B2 (en) 2001-01-31 2001-01-31 Method and apparatus for interoperability between voice transmission systems during speech inactivity
PCT/US2002/003013 WO2002065458A2 (en) 2001-01-31 2002-01-30 Method and apparatus for interoperability between voice transmission systems during speech inactivity

Publications (2)

Publication Number Publication Date
BR0206835A BR0206835A (pt) 2004-08-24
BRPI0206835B1 true BRPI0206835B1 (pt) 2016-12-06

Family

ID=25101236

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0206835A BRPI0206835B1 (pt) 2001-01-31 2002-01-30 método e equipamento para interoperabilidade entre sistemas de transmissão de voz durante inatividade da fala

Country Status (13)

Country Link
US (2) US6631139B2 (pt)
EP (2) EP1895513A1 (pt)
JP (1) JP4071631B2 (pt)
KR (1) KR100923891B1 (pt)
CN (1) CN1239894C (pt)
AT (1) ATE428166T1 (pt)
AU (1) AU2002235512A1 (pt)
BR (1) BRPI0206835B1 (pt)
DE (1) DE60231859D1 (pt)
ES (1) ES2322129T3 (pt)
HK (1) HK1064492A1 (pt)
TW (1) TW580691B (pt)
WO (1) WO2002065458A2 (pt)

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7012901B2 (en) * 2001-02-28 2006-03-14 Cisco Systems, Inc. Devices, software and methods for generating aggregate comfort noise in teleconferencing over VoIP networks
US7031916B2 (en) * 2001-06-01 2006-04-18 Texas Instruments Incorporated Method for converging a G.729 Annex B compliant voice activity detection circuit
US20020198708A1 (en) * 2001-06-21 2002-12-26 Zak Robert A. Vocoder for a mobile terminal using discontinuous transmission
JP4518714B2 (ja) * 2001-08-31 2010-08-04 富士通株式会社 音声符号変換方法
CA2392640A1 (en) * 2002-07-05 2004-01-05 Voiceage Corporation A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems
US7529220B2 (en) * 2002-07-31 2009-05-05 Interdigital Technology Corporation Wireless receiver
US7542897B2 (en) * 2002-08-23 2009-06-02 Qualcomm Incorporated Condensed voice buffering, transmission and playback
WO2004034379A2 (en) * 2002-10-11 2004-04-22 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
EP1808852A1 (en) * 2002-10-11 2007-07-18 Nokia Corporation Method of interoperation between adaptive multi-rate wideband (AMR-WB) and multi-mode variable bit-rate wideband (VMR-WB) codecs
US7406096B2 (en) * 2002-12-06 2008-07-29 Qualcomm Incorporated Tandem-free intersystem voice communication
WO2004075582A1 (en) 2003-02-21 2004-09-02 Nortel Networks Limited Data communication apparatus and method for establishing a codec-bypass connection
KR100546758B1 (ko) * 2003-06-30 2006-01-26 한국전자통신연구원 음성의 상호부호화시 전송률 결정 장치 및 방법
EP1730649A2 (en) * 2004-03-05 2006-12-13 Vanu, Inc. Controlling jitter effects
WO2005089055A2 (en) 2004-03-19 2005-09-29 Nortel Networks Limited Communicating processing capabilites along a communications path
US8027265B2 (en) 2004-03-19 2011-09-27 Genband Us Llc Providing a capability list of a predefined format in a communications network
EP1757033A4 (en) * 2004-06-09 2009-04-22 Vanu Inc BANDWIDTH REDUCTION OF A LAND CONNECTION
EP1768106B8 (en) * 2004-07-23 2017-07-19 III Holdings 12, LLC Audio encoding device and audio encoding method
US7911945B2 (en) * 2004-08-12 2011-03-22 Nokia Corporation Apparatus and method for efficiently supporting VoIP in a wireless communication system
CN100369444C (zh) * 2004-09-30 2008-02-13 北京信威通信技术股份有限公司 一种在scdma系统中非连续式传输全速率语音的方法
US20060095590A1 (en) * 2004-11-04 2006-05-04 Nokia Corporation Exchange of encoded data packets
US8102872B2 (en) * 2005-02-01 2012-01-24 Qualcomm Incorporated Method for discontinuous transmission and accurate reproduction of background noise information
US20070064681A1 (en) * 2005-09-22 2007-03-22 Motorola, Inc. Method and system for monitoring a data channel for discontinuous transmission activity
CN100442933C (zh) * 2005-11-30 2008-12-10 华为技术有限公司 配置上行不连续发送dtx参数的方法
KR100790110B1 (ko) * 2006-03-18 2008-01-02 삼성전자주식회사 모폴로지 기반의 음성 신호 코덱 방법 및 장치
CN101090359B (zh) * 2006-06-13 2010-12-08 中兴通讯股份有限公司 基于不连续发送预测的流控方法
KR20080003537A (ko) * 2006-07-03 2008-01-08 엘지전자 주식회사 이동 단말기의 통화 중 노이즈 제거 방법 및 이를 위한이동 단말기
US8135047B2 (en) * 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
US20080058004A1 (en) * 2006-08-29 2008-03-06 Motorola, Inc. System and method for reassigning an uplink time slot from a circuit-switched gprs mobile device to a different packet-switched gprs mobile device
CA2663904C (en) * 2006-10-10 2014-05-27 Qualcomm Incorporated Method and apparatus for encoding and decoding audio signals
US8209187B2 (en) * 2006-12-05 2012-06-26 Nokia Corporation Speech coding arrangement for communication networks
WO2008082605A1 (en) * 2006-12-28 2008-07-10 Genband Inc. Methods, systems, and computer program products for silence insertion descriptor (sid) conversion
US20080171537A1 (en) * 2007-01-16 2008-07-17 Hung-Che Chiu Method of providing voice stock information via mobile apparatus
CN101246688B (zh) * 2007-02-14 2011-01-12 华为技术有限公司 一种对背景噪声信号进行编解码的方法、系统和装置
US8195454B2 (en) 2007-02-26 2012-06-05 Dolby Laboratories Licensing Corporation Speech enhancement in entertainment audio
CN101355738B (zh) * 2007-07-25 2011-07-13 中兴通讯股份有限公司 一种Abis接口不连续传输模式的语音传输装置及方法
US20090043577A1 (en) * 2007-08-10 2009-02-12 Ditech Networks, Inc. Signal presence detection using bi-directional communication data
CN101394225B (zh) * 2007-09-17 2013-06-05 华为技术有限公司 一种话音传输的方法和装置
CN101394660B (zh) * 2007-09-17 2012-09-05 华为技术有限公司 一种确定下行发送模式的方法和装置
CN100555414C (zh) * 2007-11-02 2009-10-28 华为技术有限公司 一种dtx判决方法和装置
DE102008009720A1 (de) * 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Dekodierung von Hintergrundrauschinformationen
CN101335000B (zh) * 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置
CN101783142B (zh) * 2009-01-21 2012-08-15 北京工业大学 转码方法、装置和通信设备
US8352252B2 (en) * 2009-06-04 2013-01-08 Qualcomm Incorporated Systems and methods for preventing the loss of information within a speech frame
US8908541B2 (en) 2009-08-04 2014-12-09 Genband Us Llc Methods, systems, and computer readable media for intelligent optimization of digital signal processor (DSP) resource utilization in a media gateway
US8589153B2 (en) * 2011-06-28 2013-11-19 Microsoft Corporation Adaptive conference comfort noise
US8982741B2 (en) * 2012-05-11 2015-03-17 Intel Corporation Method, system and apparatus of time-division-duplex (TDD) uplink-downlink (UL-DL) configuration management
WO2014075208A1 (zh) * 2012-11-13 2014-05-22 华为技术有限公司 语音类问题检测方法及应用语音通信网络系统的网元设备
EP3550562B1 (en) * 2013-02-22 2020-10-28 Telefonaktiebolaget LM Ericsson (publ) Methods and apparatuses for dtx hangover in audio coding
CN110072021B (zh) * 2014-02-28 2022-01-07 杜比实验室特许公司 一种在音频电话会议混合系统中的方法、装置和计算机可读介质
CN104978970B (zh) 2014-04-08 2019-02-12 华为技术有限公司 一种噪声信号的处理和生成方法、编解码器和编解码系统
CN105101109B (zh) * 2014-05-15 2019-12-03 哈尔滨海能达科技有限公司 警用数字集群系统的不连续发送的实现方法、终端和系统
CN110097892B (zh) * 2014-06-03 2022-05-10 华为技术有限公司 一种语音频信号的处理方法和装置
JP2016038513A (ja) 2014-08-08 2016-03-22 富士通株式会社 音声切替装置、音声切替方法及び音声切替用コンピュータプログラム
US20160323425A1 (en) * 2015-04-29 2016-11-03 Qualcomm Incorporated Enhanced voice services (evs) in 3gpp2 network
EP3185646B1 (en) * 2015-12-22 2018-11-07 Intel IP Corporation Method for sharing a wireless transmission medium in a terminal device and wireless communication device and wireless communication circuit related thereto
WO2018164165A1 (ja) * 2017-03-10 2018-09-13 株式会社Bonx 通信システム、通信システムに用いられるapiサーバ、ヘッドセット、及び携帯通信端末

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5784532A (en) 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
FR2739995B1 (fr) * 1995-10-13 1997-12-12 Massaloux Dominique Procede et dispositif de creation d'un bruit de confort dans un systeme de transmission numerique de parole
US5828662A (en) * 1996-06-19 1998-10-27 Northern Telecom Limited Medium access control scheme for data transmission on code division multiple access (CDMA) wireless systems
US6269331B1 (en) * 1996-11-14 2001-07-31 Nokia Mobile Phones Limited Transmission of comfort noise parameters during discontinuous transmission
US5868662A (en) * 1997-06-16 1999-02-09 Advanced Urological Developments Method for improving observation conditions in urethra and a cystoscope for carrying out the method
US6347081B1 (en) * 1997-08-25 2002-02-12 Telefonaktiebolaget L M Ericsson (Publ) Method for power reduced transmission of speech inactivity
US6108560A (en) * 1997-09-26 2000-08-22 Nortel Networks Corporation Wireless communications system
US6182035B1 (en) * 1998-03-26 2001-01-30 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for detecting voice activity
DE69940649D1 (de) * 1998-11-24 2009-05-07 Ericsson Telefon Ab L M Effiziente Inband-Signalisierung für diskontinuierliche Übertragung und Konfigurationsänderungen in Kommunikationssystemen mit adaptiver Mehrfachrate
US6389067B1 (en) * 1999-06-10 2002-05-14 Qualcomm, Inc. Method and apparatus for using frame energy metrics to improve rate determination

Also Published As

Publication number Publication date
US20040133419A1 (en) 2004-07-08
EP1356459B1 (en) 2009-04-08
ES2322129T3 (es) 2009-06-17
KR100923891B1 (ko) 2009-10-28
ATE428166T1 (de) 2009-04-15
US7061934B2 (en) 2006-06-13
WO2002065458A3 (en) 2002-11-14
DE60231859D1 (de) 2009-05-20
EP1895513A1 (en) 2008-03-05
TW580691B (en) 2004-03-21
CN1239894C (zh) 2006-02-01
WO2002065458A2 (en) 2002-08-22
CN1514998A (zh) 2004-07-21
US20020101844A1 (en) 2002-08-01
KR20030076646A (ko) 2003-09-26
BR0206835A (pt) 2004-08-24
HK1064492A1 (en) 2005-01-28
JP4071631B2 (ja) 2008-04-02
US6631139B2 (en) 2003-10-07
EP1356459A2 (en) 2003-10-29
AU2002235512A1 (en) 2002-08-28
JP2004527160A (ja) 2004-09-02

Similar Documents

Publication Publication Date Title
BRPI0206835B1 (pt) método e equipamento para interoperabilidade entre sistemas de transmissão de voz durante inatividade da fala
KR100805983B1 (ko) 가변율 음성 코더에서 프레임 소거를 보상하는 방법
JP5543405B2 (ja) フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ
RU2331933C2 (ru) Способы и устройства управляемого источником широкополосного кодирования речи с переменной скоростью в битах
CA2658560C (en) Systems and methods for modifying a window with a frame associated with an audio signal
JP5149217B2 (ja) 望ましくないパケット生成を減少する方法および装置
US8090573B2 (en) Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision
JP4782332B2 (ja) 音声符号器における目標ビットレートを維持する方法および装置
US6940967B2 (en) Multirate speech codecs
KR20030036709A (ko) 무선 통신 시스템에서 비대칭 스피치 코더를 사용하여비대칭 링크를 생성하는 방법 및 시스템
JP4860859B2 (ja) 位相スペクトル情報をサブサンプリングする方法および装置
JP2005503574A5 (pt)
US7684978B2 (en) Apparatus and method for transcoding between CELP type codecs having different bandwidths
US7233896B2 (en) Regular-pulse excitation speech coder
KR101164834B1 (ko) 제 1 비트 레이트와 연관된 제 1 패킷을 제 2 비트 레이트와 연관된 제 2 패킷으로 디밍하는 시스템 및 방법
US20050102136A1 (en) Speech codecs
Choudhary et al. Study and performance of amr codecs for gsm

Legal Events

Date Code Title Description
B15K Others concerning applications: alteration of classification

Free format text: A CLASSIFICACAO ANTERIOR ERA: G10L 19/14

Ipc: G10L 19/16 (2013.01), G10L 19/012 (2013.01)

B15K Others concerning applications: alteration of classification

Free format text: AS CLASSIFICACOES ANTERIORES ERAM: G10L 19/012 , G10L 19/16

Ipc: G10L 19/16 (2013.01), G10L 19/012 (2013.01)

B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 06/12/2016, OBSERVADAS AS CONDICOES LEGAIS.