BRPI0015070B1 - método para codificar frames de fala, e, codificador de fala para reduzir sensibilidade às condições de erro de frame - Google Patents

método para codificar frames de fala, e, codificador de fala para reduzir sensibilidade às condições de erro de frame Download PDF

Info

Publication number
BRPI0015070B1
BRPI0015070B1 BRPI0015070A BR0015070A BRPI0015070B1 BR PI0015070 B1 BRPI0015070 B1 BR PI0015070B1 BR PI0015070 A BRPI0015070 A BR PI0015070A BR 0015070 A BR0015070 A BR 0015070A BR PI0015070 B1 BRPI0015070 B1 BR PI0015070B1
Authority
BR
Brazil
Prior art keywords
speech
frame
predictive
frames
predictive coding
Prior art date
Application number
BRPI0015070A
Other languages
English (en)
Other versions
BR0015070A (pt
Inventor
Andrew P Dejaco
Arasanipalai K Ananthapadmanabhan
Eddie Lun Tik Choy
Sharath Manjunath
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of BR0015070A publication Critical patent/BR0015070A/pt
Publication of BRPI0015070B1 publication Critical patent/BRPI0015070B1/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Analogue/Digital Conversion (AREA)

Abstract

"um codificador de fala preditivo usando padrões de seleção de esquema de codificação para reduzir a sensibilidade a erros de frames. um método e um equipamento para usar padrões de seleção de esquema de codificação em um codificador de fala preditivo para reduzir a sensibilidade às condições de erros de frames inclui um codificador de fala configurado para selecionar dentre vários modos de codificação preditiva. após um número predefinido de frames de fala terem sido preditivamente codificados, o codificador de fala codifica um frame com um modo de codificação não preditiva ou um modo de codificação levemente preditiva. o número predefinido de frames pode ser determinado em avanço a partir do ponto de vista subjetivo de um ouvinte. o número predefinido de frames pode ser variado periodicamente. uma taxa média de bits de codificação pode ser mantida para o codificador de fala assegurando-se que uma taxa média de bits de codificação seja mantida para cada padrão, ou grupo, sucessivos de frames de fala preditivamente codificados, incluindo pelo menos um frame de fala codificado não preditivamente ou codificado de forma levemente preditiva.

Description

"MÉTODO PARA CODIFICAR FRAMES DE FALA, E, CODIFICADOR DE FALA PARA REDUZIR SENSIBILIDADE ÀS CONDIÇÕES DE ERRO DE FRAME".
Campo da Invenção [0001] A presente invenção refere-se, de um modo geral, à área de processamento de fala e mais especificamente a métodos e equipamentos para reduzir a sensibilidade a condições de erros de frames (quadros) em codificadores de fala preditivos.
Fundamento [0002] A transmissão de voz por técnicas digitais está amplamente disseminada, particularmente em aplicações de radiotelefonia à longa distância e digital. Isto, por sua vez, criou interesse pela determinação da quantidade mínima de informações que podem ser enviadas através de um canal, mantendo-se, porém, a qualidade percebida da fala reconstruída. Caso a fala seja transmitida por simples amostragem e digitalização, é necessária uma taxa de dados da ordem de sessenta e quatro quilobits por segundo (kbps) para a obtenção de uma qualidade de fala de uma telefonia analógica convencional. No entanto, através do uso da análise de fala, seguida pela codificação, transmissão e ressintetização apropriadas no receptor, pode ser conseguida uma redução significativa na taxa de dados.
[0003] Os dispositivos que empregam técnicas para comprimir a fala pela extração de parâmetros que se relacionam a um modelo de geração de voz humana são denominados codificadores de fala. Um codificador de fala divide o sinal de fala recebido em blocos de tempo ou frames de análise. Os codificadores de fala compreendem tipicamente um codificador e um decodificador. O codificador analisa o frame de fala recebido para extrair certos parâmetros relevantes e a seguir quantiza (quantizes) os parâmetros em uma representação binária, isto é, em um conjunto de bits ou um pacote de dados binários. Os pacotes de dados são transmitidos através do canal de comunicação para um receptor e um decodificador. 0 decodificador processa os pacotes de dados, "não-quantiza-os" para produzir os parâmetros e ressintetiza os frames de fala usando os parâmetros não-quantizados (unquantized).
[0004] A função do codificador de fala é a de comprimir o sinal de fala digitalizado para um sinal de baixa taxa de bits pela remoção de todas as redundâncias inerentes à fala. A compressão digital é conseguida pela representação do frame de fala inserido por um conjunto de parâmetros e empregando-se quantização para representar os parâmetros com um conjunto de bits. Caso o frame de fala inserido possua um número de bits Ni e o pacote de dados produzido pelo codificador de fala possua um número de bits N0, o fator de compressão conseguido pelo codificador de fala é Cr - Ni/N0. 0 desafio é o de reter a alta qualidade de voz da fala decodificada, mantendo o fator de compressão meta. 0 desempenho de um codificador de fala depende de: (1) quão bem o modelo de fala, ou a combinação dos processos de análise e síntese acima descritos, funciona e (2) quão bem o processo de quantização de parâmetro é efetuado na taxa de bits meta de Nc bits por frame. A meta do modelo de fala é portanto captar a essência do sinal de fala, ou a qualidade de voz meta, com um pequeno conjunto de parâmetros para cada frame.
[0005] Talvez o mais importante no projeto de um codificador de fala é a busca por um bom conjunto de parâmetros (incluindo vetores) para descrever o sinal de fala. Um bom conjunto de parâmetros requer uma baixa amplitude de banda do sistema para a reconstrução de um sinal de fala perceptivelmente acurado. 0 pitch (tom ou tonalidade da fala), a potência do sinal, o envelope ou faixa espectral (ou "formants"), a amplitude e os espectros de fases constituem exemplos dos parâmetros de codificação de fala.
[0006] Os codificadores de fala podem ser implementados na forma de codificadores no domínio de tempo, que tentam captar a forma de onda da fala no domínio temporal empregando processamento de alta resolução temporal para codificar pequenos segmentos de fala (tipicamente subframes de 5 milissegundos (ms)) de cada vez. Para cada subframe é encontrado um representante de alta precisão a partir de um espaço de livro de código (codebook) por meio de vários algoritmos de pesquisa conhecidos pelos versados na técnica. Alternativamente, codificadores de voz podem ser implementados na forma de codificadores no domínio de freqüências, que tentam captar o espectro de fala a curto prazo do frame de fala inserido com um conjunto de parâmetros (análise) e empregam um processo de síntese correspondente para recriar a forma de onda de fala a partir dos parâmetros espectrais. O quantizador de parâmetros preserva os parâmetros pela sua representação por meio de representações armazenadas de vetores de código de acordo com técnicas de quantização conhecidas descritas por A. Gersho & R. M. Gray em Vector Quantization and Signal Compression (1992).
[0007] Um codificador no domínio de tempo bem conhecido é o codificador preditivo linear excitado por código (CELP - Code Excited Linear Predictive) descrito por L. B. Rabiner & R. W. Schafer em Digital Processing of Speech Signals, 396 a 453 (1978) , o qual é completamente incorporado aqui pela presente referência. Em um codificador CELP, as correlações a curto prazo, ou redundâncias, no sinal de fala são removidas por uma análise de previsão linear (LP), que encontra os coeficientes de um filtro formant de curto prazo. A aplicação do filtro de previsão de curto prazo ao frame de fala recebido gera um sinal de resíduo LP, que é adicionalmente modelado e quantizado com parâmetros de filtro de previsão de longo prazo e um subseqüente livro código estocástico. Dessa forma, a codificação CELP divide a tarefa de codificar a forma de onda de fala no domínio de tempo em tarefas separadas de codificar os coeficientes de filtro LP de curto prazo e codificar o resíduo LP. A codificação no domínio de tempo pode ser efetuada a uma taxa fixa (isto é, usando o mesmo número de bits, N0, para cada frame) ou em uma taxa variável (em que diferentes taxas de bits são usadas para diferentes tipos de conteúdos de frame). Os codificadores de taxa variável tentam usar somente a quantidade de bits necessária para codificar os parâmetros CODEC em um nível adequado para a obtenção de uma qualidade meta. Um exemplo de codificador CELP de taxa variável está descrito na Patente U.S. N° 5 414 796, em nome da Requerente da presente invenção e aqui incorporada por referência.
[0008] Os codificadores no domínio de tempo, tais como o codificador CELP, dependem tipicamente em um alto número de bits, N0, por frame para preservar a acuracidade da forma de onda de fala no domínio de tempo. Tais codificadores possibilitam tipicamente excelente qualidade de voz, contanto que o número de bits por frame, N0, seja relativamente grande (por exemplo, 8 kbps ou mais) . No entanto, em baixas taxas de bits (4 kbps e menos), os codificadores no domínio de tempo deixam de reter um desempenho de alta qualidade e robusto devido ao número limitado de bits disponíveis. Em baixas taxas de bits, o espaço limitado de livro código corta a capacidade de adequação à forma de onda dos codificadores no domínio de tempo convencionais, os quais são empregados com tanto sucesso em aplicações comerciais de taxas mais elevadas. Portanto, apesar dos aperfeiçoamentos ao longo do tempo, muitos sistemas de codificação CELP operando em taxas de bits baixas padecem de distorção perceptivelmente significativa, tipicamente caracterizada como ruído.
[0009] Existe atualmente um crescimento do interesse na pesquisa e uma forte demanda comercial pelo desenvolvimento de um codificador de fala de alta qualidade operando em taxas de bits médias a baixas (isto é, na faixa de 2,4 a 4 kbps ou menos). As áreas de aplicação incluem telefonia sem fio, comunicações por satélites, telefonia pela Internet, várias aplicações multimídia e de transporte de voz, correio de voz e outros sistemas de armazenamento de voz. As forças motrizes incluem a necessidade de alta capacidade e a demanda por um desempenho robusto face a situações de perda de pacotes. Vários esforços de padronização da codificação de fala constituem outra força motriz direta propelindo a pesquisa e desenvolvimento de algoritmos de codificação de fala de taxa baixa. Um codificador de fala de taxa baixa cria mais canais, ou usuários, por amplitude de banda de aplicação permissível e um codificador de fala de taxa baixa acoplado a uma camada adicional de codificação de canal adequada pode se adequar ao orçamento de bits geral de especificações de codificador e propiciar um desempenho robusto sob condições de erro de canal. Um exemplo de um codificador de fala de taxa baixa consiste no codificador de fala de período de pitch protótipo (PPP), descrito no Pedido de Patente U.S. N° de Série 09/217 341, intitulado "VARIABLE RATE SPEECH CODING", depositado em 21 de dezembro de 1998, em nome da Requerente da presente invenção e aqui incorporado por referência.
[00010] Nos codificadores de fala preditivos convencionais, tais como o codificador CELP, o codificador PPP e o codificador de interpolação de forma de onda (WI), o esquema de codificação se apóia fortemente sobre emissões anteriores. Portanto, caso um erro de frame ou um apagamento de frame seja recebido no decodificador, o decodificador deve criar sua melhor substituição para o frame em questão. 0 decodificador utiliza tipicamente uma repetição de frame inteligente da emissão anterior. Devido ao fato de que o decodificador deve criar sua própria substituição, o decodificador e o codificador perdem a sincronização mútua. Portanto, quando o novo frame chega no decodificador, caso tal frame seja codificado preditivamente, o decodificador faz referência a emissões prévias diferentes daquela usada pelo codificador. Isto causa uma redução na qualidade de voz ou do desempenho do codificador de fala. Quanto mais o codificador de fala se baseia em técnicas de codificação preditivas (isto é, quanto mais frames o codificador codifica preditivamente), maior a redução do desempenho. Dessa forma, existe uma demanda por um método para reduzir a sensibilidade a condições de erros de frames em um codificador de fala preditivo.
Resumo da Invenção [00011] A presente invenção está direcionada a um método para reduzir a sensibilidade a condições de erros de frames em um codificador de fala preditivo. Assim sendo, em um aspecto da invenção é provido um codificador de fala. O codificador de fala inclui, vantajosamente, pelo menos um modo de codificação preditiva; pelo menos um modo de codificação não-preditiva; e um processador acoplado ao pelo menos um modo de codificação preditiva e ao pelo menos um modo de codificação não-preditiva, o processador estando configurado para levar sucessivos frames de fala a serem codificados por modos de codificação selecionados de acordo com um padrão dos frames de fala codificados, o padrão incluindo pelo menos um frame de fala codificado com o modo de codificação não-preditiva.
[00012] Em outro aspecto da invenção é provido um método para codificação de frames de fala. 0 método inclui vantajosamente as etapas de codificar um número predefinido de frames de fala sucessivos com um modo de codificação preditiva; codificar pelo menos um frame de fala com um modo de codificação não-preditiva após efetuar a etapa de codificar um número predefinido de frames de fala sucessivos com um modo de codificação preditiva; e repetir as duas etapas de codificação de modo a gerar uma pluralidade de frames de fala codificados de acordo com um padrão.
[00013] Em outro aspecto da invenção é provido um codificador de fala. O codificador de fala inclui vantajosamente dispositivos para codificar um número predefinido de frames de fala sucessivos com um modo de codificação preditiva; dispositivos para codificar pelo menos um frame de fala com um modo de codificação não-preditiva após o número predefinido de frames de fala sucessivos ter sido codificado com o modo de codificação preditiva; e dispositivos para gerar uma pluralidade de frames de fala codificados de acordo com um padrão, o padrão incluindo pelo menos um frame de fala codificado com um modo de codificação não-preditiva.
[00014] Em outro aspecto da invenção é provido um método para codificação de frames de fala. 0 método inclui vantajosamente a etapa de codificar uma pluralidade de frames de fala em um padrão, o padrão incluindo pelo menos um frame de fala codificado de forma preditiva e pelo menos um frame de fala codificado de forma não-preditiva.
[00015] Em outro aspecto da invenção é provido um método para codificação de frames de fala. 0 método inclui vantajosamente a etapa de codificar uma pluralidade de frames de fala em um padrão, o padrão incluindo pelo menos um frame de fala codificado de forma pesadamente preditiva e pelo menos um frame de fala codificado de forma levemente preditiva.
Breve Descrição dos Desenhos [00016] A Figura 1 é um diagrama de blocos de um canal de comunicação terminado em cada extremidade por codificadores de fala.
[00017] A Figura 2 é um diagrama de blocos de um codificador que pode ser usado nos codificadores de fala da Figura 1.
[00018] A Figura 3 é um diagrama de blocos de um decodificador que pode ser usado nos codificadores de fala da Figura 1.
[00019] A Figura 4 é um fluxograma ilustrando um processo de decisão de codificação de fala.
[00020] A Figura 5A é um gráfico de amplitude de sinal de fala versus o tempo e a Figura 5B é um gráfico da amplitude do residuo de previsão linear (LP) versus o tempo.
[00021] A Figura 6 é um diagrama de blocos de um codificador configurado para empregar um padrão de seleção de modo de codificação.
[00022] A Figura 7 é um fluxograma ilustrando as etapas de método efetuadas por um codificador de fala tal como o codificador de fala da Figura 8 para empregar um padrão de seleção de modo de codificação.
Descrição Detalhada das Modalidades Preferidas [00023] Na Figura 1 um primeiro codificador 100 recebe amostras s (n) de fala digitalizadas e codifica as amostras s (n) para transmissão através de um meio de transmissão 102, ou canal de comunicação 102, para um primeiro decodificador 104. 0 meio de transmissão 102 pode ser, por exemplo, uma linha de comunicação baseada em terra, um link entre uma estação base e um satélite, um canal de comunicação sem fio entre um telefone celular ou PCS e uma estação base, ou um canal de comunicação sem fio entre um telefone celular ou PCS e um satélite. As amostras de fala s (n) são vantajosamente codificadas na forma de vários índices de livro código e ruído quantizado, tal como descrito a seguir. 0 decodificador 104 decodifica as amostras de fala codificadas e sintetiza um sinal de fala emitido SsiNT(n). 0 processo de decodif icação envolve vantajosamente o uso dos índices de livro código transmitidos para procura de vários livros código para determinar valores apropriados para uso na sintetização do sinal de fala emitido SSiNT(n), tal como descrito a seguir. Para transmissão na direção oposta, um segundo codificador 106 codifica amostras de fala digitalizadas s(n), que são transmitidas através de um canal de comunicação 108. Um segundo decodificador 110 recebe e decodifica as amostras de fala codificadas, gerando um sinal de fala emitido sintetizado SSiNT(n).
[00024] As amostras de fala s (n) representam sinais de fala que foram digitalizados e quantizados de acordo com vários métodos conhecidos pelos versados na técnica, incluindo, por exemplo, modulação de código de pulsos (PCM), Lei-μ ou Lei-A comprimida e expandida (companded). Como é do conhecimento dos versados na técnica, as amostras de fala s(n) são organizadas em frames de dados de entrada, em que cada frame compreende um número predeterminado de amostras de fala digitalizadas s (n) . Os frames podem ser adicionalmente subdivididos em subframes. Em uma modalidade exemplar, cada frame compreende quatro subframes. Em uma modalidade exemplar, é usada uma taxa de amostragem de oito kHz, com cada frame de vinte ms contendo 160 amostras. Nas modalidades descritas a seguir, a taxa de transmissão de dados pode ser vantajosamente variada em uma base de frame a frame. Como exemplo, a taxa de transmissão de dados pode ser variada entre a taxa total, meia-taxa, um quarto de taxa, ou um oitavo de taxa. A variação da taxa de transmissão de dados é vantajosa, pois, as taxas de bits mais baixas podem ser seletivamente empregadas para frames contendo quantidade relativamente menor de informações. Como é do conhecimento dos versados na técnica, podem ser usadas várias taxas de amostragem, tamanhos de frames e taxas de transmissão de dados.
[00025] 0 primeiro codificador 100 e o segundo decodificador 110 em conjunto constituem um primeiro codificador de fala, ou CODEC de fala. O codificador de fala poderia ser usado em qualquer dispositivo de comunicação para a transmissão de sinais de fala, incluindo, por exemplo, os telefones celulares ou PCS, estações base e/ou controladores de estação base. De forma similar, o segundo codificador 106 e o primeiro decodificador 104 em conjunto constituem um segundo codificador de fala. É sabido pelos versados na técnica que os codificadores de fala podem ser implementados por meio de um processador de sinal digital (DSP), um circuito integrado de aplicação especifica (ASIC), uma lógica de porta individual, por firmware, ou qualquer módulo de software programável convencional e um microprocessador. O módulo de software poderia residir em uma memória RAM, memória flash, registradores, ou qualquer outra forma de meio de armazenamento que possa ser gravado conhecido pelos versados na técnica. Alternativamente, qualquer processador, controlador, ou máquina de estado convencionais poderíam substituir o microprocessador. Os exemplos de ASICs projetados especificamente para codificação de fala estão descritos na Patente U.S. N° 5 727 123, em nome da Requerente da presente invenção e aqui incorporados em sua totalidade por referência, e na patente U.S. N° 5 784 532, em nome da Requerente da presente invenção e aqui incorporados em sua totalidade por referência.
[00026] Na Figura 2 um codificador 200 que pode ser usado em um codificador de voz inclui um módulo de decisão de modo 202, um módulo de estimativa de pitch 204, um módulo de análise de LP 206, um filtro de análise de LP 208, um módulo de quantização LP 210 e um módulo de quantização de resíduo 212. Frames de fala de entrada s (n) são providos ao módulo de decisão de modo 202, ao módulo de estimativa de pitch 204, ao módulo de análise de LP 206 e ao filtro de análise de LP 208. 0 módulo de decisão de modo 202 produz um índice de modo IM e um modo M com base na periodicidade, energia, relação sinal/ruído (SNR), ou taxa de cruzamento de zero, entre outras características, de cada frame de fala de entrada s (n) . Vários métodos de classificação de frames de fala de acordo com a periodicidade estão descritos na Patente U.S. N° 5 911 128, em nome da Requerente da presente invenção e aqui incorporada por referência. Tais métodos estão também incorporados aos padrões provisórios da "Telecommunications Industry Association TIA/EIA IS-127 e TIA/EIA IS-733". Um esquema de decisão de modo exemplar está também descrito no Pedido de Patente U.S. N° de Série 09/217 341 acima mencionado.
[00027] O módulo de estimativa de pitch 204 produz um índice de pitch IP e um valor de atraso (lag) Po com base em cada frame de fala de entrada s(n). O módulo de análise de LP 206 efetua a análise linear preditiva sobre cada frame de fala de entrada s(n) para gerar um parâmetro LP a. O parâmetro LP a é provido ao módulo de quantização LP 210. O módulo de quantização LP 210 também recebe o modo M, desse modo efetuando o processo de quantização de uma maneira dependente do modo. O módulo de quantização LP 210 produz um índice LP ILP e um parâmetro LP quantizado â. O filtro de análise de LP 208 recebe o parâmetro LP â quantizado em adição ao frame de fala de entrada s(n). O filtro de análise de LP 208 gera um sinal de resíduo LP R[n], que representa o erro entre os frames de fala de entrada s(n) e a fala reconstruída com base nos parâmetros lineares previstos quantizados â. O resíduo LP R[n], o modo Meo parâmetro LP quantizado â são providos ao módulo de quantização de resíduo 212. Com base em tais valores, o módulo de quantização de resíduo 212 produz um índice de resíduo IR e um sinal de resíduo quantizado ní.
[00028] Na Figura 3, um decodificador 300 que pode ser usado em um codificador de fala inclui um módulo de decodif icação de parâmetro LP 302, um módulo de decodificação de residuo 304, um módulo de decodificação de modo 306 e um filtro de síntese LP 308. O módulo de decodificação de modo 306 recebe e decodifica um índice de modo IM, gerando a partir do mesmo um modo Μ. O módulo de decodificação de parâmetro 302 recebe o modo M e um índice LP I Lp. O módulo de decodif icação de parâmetro LP 302 decodifica os valores recebidos para produzir um parâmetro LP quantizado ® . 0 módulo de decodificação de resíduo 304 recebe um índice de resíduo IR, um índice de pitch I? e o índice de modo IM. O módulo de decodificação de resíduo 304 decodifica os valores recebidos para gerar um sinal de resíduo quantizado 0 sinal de resíduo quantizado ^nl e o parâmetro LP quantizado a são providos ao filtro de síntese LP 308 que sintetiza um sinal de fala de saída decodificada a partir do mesmo.
[00029] Várias técnicas de operação e implementação para os módulos do codificador 200 da Figura 2 e o decodificador 300 da Figura 3 estão descritos na Patente U. $. No 5 414 796 e no Pedido de Patente U. S. N° de Série 09/217 341, acima mencionados.
[00030] Como ilustrado no fluxograma da Figura 4, um codificador de fala de acordo com uma modalidade segue um conjunto de etapas no processamento de amostras de fala para transmissão. Na etapa 400, o codificador de fala recebe amostras digitais de um sinal de fala em frames sucessivos. Ao receber um dado frame, o codificador de fala passa à etapa 402. Na etapa 402 o codificador de fala detecta a energia do frame. A energia constitui uma medida da atividade de fala do frame. A detecção de fala é efetuada pela soma dos quadrados das amplitudes das amostras de fala digitalizadas e comparação da energia resultante com um valor limite. Em uma modalidade o valor limite se adapta com base no nível mutável de ruído de fundo. Um exemplo de detetor de atividade de voz de limite variável está descrito na Patente U.S. No 5 414 796 acima mencionada. Alguns sons de fala sem voz podem ser amostras de energia extremamente baixa que podem ser enganosamente codificadas como ruído de fundo. Para impedir que isto ocorra, o tilt espectral de amostras de baixa energia pode ser usado para diferenciar a fala sem voz do ruído de fundo, tal como descrito na Patente U.S. No 5 414 796 acima mencionada.
[00031] Após detectar a energia do frame, o codificador de fala passa à etapa 404. Na etapa 404 o codificador de fala determina se a energia do frame detectado é suficiente para classificar o frame como contendo informações de fala. Caso a energia de frame detectada caia abaixo de um nível limite predefinido, o codificador de fala passa à etapa 406. Na etapa 406 o codificador de fala codifica o frame como ruído de fundo (isto é, sem fala, ou silêncio) . Em uma modalidade o frame de ruído de fundo é codificado a um oitavo de taxa. Caso, na etapa 404, a energia de frame detectada atenda ou supere o nível limite predeterminado, o frame é classificado como fala, e o codificador de fala passa à etapa 408.
[00032] Na etapa 408 o codificador de fala determina se o frame é de fala sem voz, isto é, o codificador de fala examina a periodicidade do frame. Vários métodos conhecidos de determinação da periodicidade incluem, por exemplo, o uso de cruzamentos de zero e o uso de funções de autocorrelação normalizada (NACFs). Em particular, o uso de cruzamentos de zero e NACFs para detectar a periodicidade está descrito na Patente U.S. N° 5 911 128 e no Pedido de Patente U.S. N° de Série 09/217 341, acima mencionados. Além disso, os métodos acima usados para diferenciar a fala com voz da fala sem voz estão incorporados nos "Telecommunications Industry Association ínterim Standards TIA/EIA IS-127 e TIA/EIA IS-733". Caso seja determinado que o frame é de fala sem voz na etapa 408, o codificador de fala passa à etapa 410. Na etapa 410 o codificador de fala codifica o frame como fala sem voz. Em uma modalidade os frames de fala sem voz são codificados em taxa de um quarto. Caso, na etapa 408, não seja determinado que o frame é de fala sem voz, o codificador de voz passa à etapa 412.
[00033] Na etapa 412, o codificador de fala determina se o frame é de fala de transição, usando métodos de detecção de periodicidade que são conhecidos pelos versados na técnica, tal como descrito, por exemplo, na Patente U.S. N° 5 911 128 acima mencionada. Caso seja determinado que o frame é de fala de transição, o codificador de fala passa à etapa 414. Na etapa 414 o frame é codificado como fala de transição (isto é, transição de fala sem voz para fala com voz). Em uma modalidade, o frame de fala de transição é codificado de acordo com um método de codificação interpolativo de múltiplos pulsos descrito na Patente U.S. No 6 2 60 017, em nome da Requerente da presente invenção e aqui incorporada por referência. Em outra modalidade o frame de fala de transição é codificado na taxa total.
[00034] Caso, na etapa 412, o codificador de voz determine que o frame não é de fala de transição, o codificador de fala passa à etapa 416. Na etapa 416, o codificador de fala codifica o frame como sendo fala com voz. Em uma modalidade, os frames de fala com voz podem ser codificados em meia-taxa. É também possível codificar frames de fala com voz na taxa total. No entanto, os versados na técnica notarão que a codificação de frames de voz em meia-taxa permite que o codificador economize valiosa amplitude de banda por explorar a natureza de estado estacionário (steady-state) dos frames com voz. Ademais, independentemente da taxa usada para codificar a fala com voz, a fala com voz é vantajosamente codificada usando-se informações de frames anteriores, sendo portanto descrita como preditivamente codificada.
[00035] Os versados na técnica notarão que o sinal de fala ou o correspondente resíduo LP pode ser codificado seguindo-se as etapas mostradas na Figura 4. As características de forma de onda do ruído, da fala sem voz, de transição e com voz podem ser vistas como uma função do tempo no gráfico da Figura 5A. As características de forma de onda do resíduo LP do ruído, da fala sem voz, de transição e com voz podem ser vistas como uma função do tempo no gráfico da Figura 5B.
[00036] Em uma modalidade, um codificador de fala 500 que codifica de forma preditiva uma proporção de frames, é configurado para reduzir a sensibilidade a condições de erros de frames pelo uso de padrões de seleção de esquema de codificação determinísticas, tal como mostrado na Figura 6. 0 codificador de fala 500 inclui um módulo de cálculo de parâmetro inicial 502, um módulo de classificação 504, um processador de controle 506, uma pluralidade, N, de modos de codificação preditiva 508, 510 (para maior simplicidade são mostrados somente dois modos de codificação preditiva, os modos de codificação preditiva restantes sendo simbolizados por uma linha pontilhada) e pelo menos um modo de codificação não-preditiva 512. O módulo de cálculo de parâmetro inicial 502 está acoplado ao módulo de classificação 504. O módulo de classificação 504 está acoplado ao processador de controle 506 e aos vários modos de codificação 508, 510, 512.
[00037] As amostras de fala digitalizadas s (n) são recebidas pelo codificador de fala 500 e inseridas ao módulo de cálculo de parâmetro inicial 502. O módulo de cálculo de parâmetro inicial 502 deriva vários parâmetros iniciais a partir das amostras s(n), incluindo, por exemplo, coeficientes preditivos lineares (coeficientes LPC), coeficientes de par espectral de linha (LSP), funções de autocorrelação normalizadas (NACFs), parâmetros de atraso de malha aberta, energias de banda, taxas de cruzamento de zero e um sinal residual formant. 0 cálculo e uso dos vários parâmetros iniciais são conhecidos pelos versados na técnica e estão descritos na Patente U.S. N° 5 414 796 e no Pedido de Patente U.S. No de Série 09/217 341, acima mencionados.
[00038] Os parâmetros iniciais são providos ao módulo de classificação 504. Com base nos valores de parâmetro iniciais, o módulo de classificação 504 classifica o frame de voz de acordo com as etapas de classificação acima descritas com referência à Figura 4. As classificações de frame são providas ao processador de controle 506 e os frames de fala são providos aos vários modos de codificação 508, 510, 512.
[00039] O processador de controle 506 é vantajosamente configurado para se comutar dinamicamente entre múltiplos códigos de codificação 508, 510, 512, de frame a frame, dependendo de qual modo for mais apropriado, dadas as propriedades da fala para o frame corrente. Um modo de codificação 508, 510, 512, especifico é escolhido para cada frame para se obter a taxa de bits mais baixa disponível mantendo-se porém reprodução aceitável do sinal no decodificador (não é mostrado) . A taxa de bits do codificador de fala 500, portanto, muda ao longo do tempo à medida que mudam as propriedades do sinal de fala s(n), um processo que é designado como codificação de fala de taxa variável.
[00040] Em uma modalidade, o processador de controle 506 direciona a aplicação de um modo de codificação preditiva específico 508, 510, com base na classificação do frame de fala corrente. Um dos modos preditivos 508, 510, é um modo de codificação CELP, que está descrito na Patente U.S. N° 5 414 796 acima mencionada. Outro dos modos de codificação preditiva 508, 510, é um modo de codificação PPP, que está descrito no Pedido de Patente U.S. N° de Série 0/217 341 acima mencionado. Mais outro modo de codificação preditiva 508, 510, pode ser um modo de codificação WI.
[00041] Em uma modalidade o modo de codificação não-preditiva 512 é um esquema de codificação levemente preditiva, ou de baixa memória. Os modos de codificação preditiva 508, 510, podem vantajosamente ser esquemas de codificação pesadamente preditivos. Em uma modalidade alternativa, o modo de codificação não-preditiva 512 é um esquema de codificação totalmente não-preditiva, ou sem memória. 0 modo de codificação totalmente não-preditiva 512 pode ser, por exemplo, uma codificação PCM das amostras de fala s (n), uma codificação de Lei-μ comprimida e expandida (companded) das amostras de fala s(n), ou uma codificação de Lei-A das amostras de fala s(n).
[00042] Apesar de um modo de codificação não-preditiva 512 ser apresentado na modalidade descrita com referência à Figura 6, ficará claro para os versados na técnica que mais de um módulo de codificação não-preditiva podería ser empregado. Caso mais de um módulo de codificação não-preditiva seja usado, o tipo de módulo de codificação não-preditiva poderia variar. Além disso, em modalidades alternativas em que é usado mais de um módulo de codificação não-preditiva, parte ou todos os módulos de codificação não-preditiva são módulos de codificação levemente preditiva; enquanto que em outras modalidades, parte ou todos os módulos de codificação não-preditiva são módulos de codificação totalmente não-preditivas.
[00043] Em uma modalidade o modo de codificação não-preditiva 512 é vantajosamente inserido pelo processador de controle 506 com durações deterministicas. O processador de controle 506 cria um padrão possuindo um comprimento, F, de frames. Em uma modalidade, o comprimento F está baseado na duração tolerável mais longa de efeitos de erros de frames. A duração mais longa tolerável pode ser vantajosamente determinada antecipadamente em função do ponto de vista subjetivo de um ouvinte. Em outra modalidade a duração F é variada periodicamente pelo processador de controle 506. Em outras modalidades o comprimento F é variado de forma aleatória ou pseudo-aleatória pelo processador de controle 506. Um padrão exemplar recorrente é PPPN, em que P representa um modo de codificação preditiva 508, 510 e N denota o modo de codificação não-preditiva ou levemente preditiva 512. Em uma modalidade alternativa, é inserida uma pluralidade de modos de codificação não-preditiva. Um padrão exemplar é PPNPPN. Em modalidades nas quais o comprimento do padrão, F, é variado, o padrão PPPN podería ser seguido pelo padrão PPN, que poderia ser seguido pelo padrão PPPNPN, etc.
[00044] Em uma modalidade, um codificador de fala, tal como o codificador de fala 500 da Figura 6 efetua as etapas de algoritmo ilustradas no fluxograma da Figura 7 para inserir de forma inteligente um esquema de codificação de baixa memória ou sem memória em intervalos determinísticos. Na etapa 600 o processador de controle (não é mostrado) ajusta uma variável de contagem, i, como igual a zero. O processador de controle a seguir passa à etapa 602. Na etapa 602 o processador de controle seleciona um modo de codificação preditiva para o frame de fala corrente com base na classificação do conteúdo de fala do frame corrente. O processador de controle a seguir passa à etapa 604. Na etapa 604 o processador de controle codifica o frame corrente com o modo de codificação preditiva selecionado. 0 processador de controle a seguir passa à etapa 606. Na etapa 606 o processador de controle incrementa a variável de contagem, i. O processador de controle a seguir passa à etapa 608.
[00045] Na etapa 608 o processador de controle determina se a variável de contagem, i, é maior que um valor limite predefinido, T. O valor limite predefinido, T, pode estar baseado na duração tolerável mais longa de efeitos de erros de frames, tal como determinado antecipadamente em função do ponto de vista subjetivo de um ouvinte. Em uma modalidade especifica, o valor limite predefinido, T, permanece fixo por um número predefinido de interações através do fluxograma e a seguir é alterado para um valor predefinido diferente pelo processador de controle. Caso a variável de contagem, i, não seja maior que o valor limite predefinido, T, o processador de controle retorna à etapa 602 para selecionar um modo de codificação preditiva para o próximo frame de fala. Caso, por outro lado, a variável de contagem, i, seja maior que o valor limite predefinido, T, o processador de controle passa à etapa 610. Na etapa 610 o processador de controle codifica o próximo frame de fala com um modo de codificação não-preditiva ou levemente preditiva. O processador de controle a seguir retorna à etapa 600, ajustando novamente a variável de contagem, i, como igual a zero.
[00046] Os versados na técnica notarão que o fluxograma da Figura 7 pode ser modificado para incorporar diferentes padrões recorrentes de frames de fala codificados preditivamente e codificados não-preditivamente ou de forma levemente preditiva. Como exemplo, a variável de contagem, i, pode ser variada com cada interação através do fluxograma, ou após um número predefinido de interações através do fluxograma, ou pseudo-aleatoriamente, ou aleatoriamente. Ou, por exemplo, os próximos dois frames poderiam ser codificados com um modo de codificação não-preditiva ou um modo de codificação levemente preditiva na etapa 610; ou, por exemplo, qualquer número predefinido de frames, ou número de frames aleatoriamente selecionados, ou número de frames selecionados pseudo-aleatoriamente, ou um número de frames que varia de uma maneira predefinida com cada interação através do fluxograma poderia ser codificado com um modo de codificação não-preditiva ou um modo de codificação levemente preditiva na etapa 610.
[00047] Em uma modalidade, o codificador de fala 500 da Figura 6 é um codificador de fala de taxa variável 500 e uma taxa de bits média do codificador de fala 500 é vantajosamente mantida. Em uma modalidade especifica, cada modo de codificação preditiva 508, 510, usado no padrão é codificado a uma taxa diferente dos outros e o modo de codificação não-preditiva 512 é codificado a uma taxa diferente daquela usada para qualquer dos modos de codificação preditiva 508, 510. Em outra modalidade especifica, os modos de codificação preditiva 508, 510, são codificados em taxas de bits relativamente baixas e o modo de codificação não-preditiva 512 é codificado em uma taxa de bits relativamente alta. Portanto, um esquema de codificação de alta qualidade, de baixa memória ou sem memória é inserido uma vez a cada F frames e esquemas de codificação de qualidade média à alta, altamente preditiva, de baixa taxa de bits, são usados entre os sucessivos frames de alta taxa de bits, propiciando uma taxa de codificação média reduzida. Apesar de ser vantajosa em qualquer codificador de fala preditivo, tal técnica é especialmente útil em codificadores de baixa taxa de bits, em que uma boa qualidade voz só pode ser conseguida pelo uso de esquemas de codificação pesadamente preditivas. Tais codificadores de fala de baixa taxa de bits, devido à sua natureza preditiva estão mais sujeitos a corrupções causadas por erros de frames. Pela inserção periódica do modo de codificação não preditivo de alta taxa de bits 512, mantendo, porém, os modos de codificação preditiva 508, 510, em várias taxas de bits baixas, são conseguidas tanto a boa qualidade de voz desejada e a taxa de codificação média baixa.
[00048] Em uma modalidade, a taxa de codificação média é vantajosamente mantida constante ou quase constante em uma taxa média predefinida, R, pela codificação de todos os frames em um segmento de fala em padrões repetidos, deterministicos, de tal forma que a taxa média seja igual a R. Um padrão exemplar é PPN, com P representando um frame codificado de forma preditiva e N representando um frame codificado não-preditivamente ou de forma levemente preditiva. Em tal padrão o primeiro frame é codificado preditivamente a uma taxa de R/2, o segundo frame é codificado preditivamente a uma taxa de R/2 e o terceiro frame é codificado não-preditivamente ou de forma levemente preditiva a uma taxa de 2R. O padrão a seguir se repete e assim por diante. A taxa de codificação média é portanto de R.
[00049] Outro padrão exemplar é PPPN. Em tal padrão o primeiro frame é codificado preditivamente a uma taxa de R/2, o segundo frame é preditivamente codificado a uma taxa de R, o terceiro frame é preditivamente codificado a uma taxa de R/2 e o quarto frame é codificado não-preditivamente ou de uma forma levemente preditiva a uma taxa de 2R. 0 padrão a seguir se repete e assim por diante. A taxa de codificação média é, portanto, de R.
[00050] Outro padrão exemplar é PPNPPN. Em tal padrão o primeiro frame é codificado a uma taxa de R/2, o segundo frame é codificado a uma taxa de R/2, o terceiro frame é codificado a uma taxa de 2R, o quarto frame é codificado a uma taxa de R/3, o quinto frame é codificado a uma taxa de R/3 e o sexto frame é codificado a uma taxa de 7R/3. 0 padrão a seguir se repete e assim por diante. A taxa de codificação média é, portanto, de R.
[00051] Outro padrão exemplar é PPPNPN. Em tal padrão o primeiro frame é codificado a uma taxa de R/3, o segundo frame é codificado a uma taxa de R/3, o terceiro frame é codificado a uma taxa de R/3, o quarto frame é codificado a uma taxa de 3R, o quinto frame é codificado a uma taxa de R/2 e o sexto frame é codificado a uma taxa de 3R/2. 0 padrão a seguir se repete, e assim por diante. A taxa de codificação média é, portanto, de R.
[00052] Outro padrão exemplar é PPNNPPN. Em tal padrão o primeiro frame é codificado a uma taxa de R/3, o segundo frame é codificado a uma taxa de R/3, o terceiro frame é codificado a uma taxa de 2R, o quarto frame é codificado a uma taxa de 2R, o quinto frame é codificado a uma taxa de R/2 e o sexto frame é codificado a uma taxa de R/2 e o sétimo frame é codificado a uma taxa de 4R/3. 0 padrão a seguir se repete, e assim por diante. A taxa de codificação média é, portanto, de R.
[00053] Os versados na técnica notarão que qualquer rotação circular de quaisquer dos padrões acima descritos podería também ser utilizada. Os versados na técnica notarão também que os padrões acima descritos e outros poderíam ser emendados em qualquer ordem, seja aleatoriamente ou pseudo-aleatoriamente escolhidas, ou de natureza periódica. Os versados na técnica notarão também que qualquer conjunto de taxas de codificação pode ser usado, contanto que as taxas de codificação fiquem em média na taxa de codificação média desejada, R, durante a duração do padrão (F frames).
[00054] Forçar o frame codificado a uma taxa elevada a ser codificado de forma não-preditiva ou levemente preditiva causa os efeitos de erros de frames a durarem somente tanto quanto o padrão, mantendo uma taxa de codificação média desejada de R para o segmento de fala. Na realidade, o processador de controle pode ser configurado para girar o padrão de forma inteligente para obter uma taxa média marginalmente mais baixa caso o segmento de fala não inclua um múltiplo exato de F frames, o comprimento do padrão. Caso a taxa de codificação média eficaz desejada, R, para o segmento de fala fosse obtida pela codificação de todos os frames no segmento a uma taxa fixa de R e a taxa R fosse uma taxa relativamente baixa para fazer uso da previsão, o codificador de fala seria extremamente vulnerável aos efeitos duradouros do erro de frame.
[00055] Os versados na técnica notarão que apesar das modalidades acima descritas residirem em um codificador de fala de taxa variável, um esquema baseado em padrões, tais como aqueles acima descritos, podería também ser empregado com vantagem em um codificador de fala preditivo de taxa fixa. Caso o codificador de fala preditivo de taxa fixa seja um codificador de fala de baixa taxa de bits, as condições de erro de frame iriam afetar adversamente o codificador de fala. Um frame codificado não-preditivamente ou de forma levemente preditiva poderia ser de qualidade inferior a frames codificados preditivamente codificados na mesma taxa baixa. De qualquer forma, a introdução de um frame codificado não-preditivamente ou de forma levemente preditiva a cada F frames iria eliminar os efeitos de erros de frames a cada F frames.
[00056] Dessa forma, foram descritos um método e um equipamento novos para o uso de padrões de seleção de esquema de codificação em um codificador de fala preditivo para reduzir a sensibilidade a condições de erros de frames. Os versados na técnica notarão que os vários blocos lógicos e etapas de algoritmos ilustrativos descritos em conexão às modalidades aqui descritas podem ser implementados na forma de hardware eletrônico, software de computador, ou combinações de tais. Os vários componentes, blocos e etapas ilustrativos foram descritos de um modo geral em termos de sua funcionalidade. Caso a funcionalidade seja implementada na forma de hardware ou software, depende da aplicação especifica e restrições de projeto impostas sobre o sistema como um todo. Os versados na técnica notarão a intercambialidade de hardware e software em tais circunstâncias e como melhor implementar a funcionalidade descrita para cada aplicação especifica. Como exemplos, os vários blocos lógicos e etapas de algoritmo ilustrativos descritos em conexão às modalidades aqui descritas podem ser implementados ou efetuados por um processador de sinal digital (DSP), um circuito integrado especifico para aplicação (ASIC), uma lógica de porta individual ou transistor, componentes de hardware individuais tais como, por exemplo, registradores e FIFO, um processador executando um conjunto de instruções de firmware, ou qualquer módulo de software programável convencional e um processador. O processador pode vantajosamente ser um microprocessador, porém como alternativa, o processador pode ser qualquer processador, controlador, microcontrolador ou máquina de estado convencionais. 0 módulo de software poderia residir em uma memória RAM, memória flash, registradores, ou qualquer outra forma de meio de armazenamento que possa ser gravado conhecido pelos versados na técnica. Os versados na técnica notarão também que os dados, instruções, comandos, informações, sinais, bits, símbolos e chips que possam ter sido mencionados em toda a descrição acima são vantajosamente representados por meio de voltagens, correntes, ondas eletromagnéticas, campos ou partículas magnéticas, campos ou partículas ópticas, ou quaisquer combinações de tais.
[00057] Foram, portanto, apresentadas e descritas modalidades preferidas da presente invenção. No entanto, ficará claro para os versados na técnica que várias alterações podem ser efetuadas nas modalidades aqui descritas sem constituir um afastamento do espírito ou escopo da invenção. Portanto, a presente invenção não deve ser limitada exceto de acordo com as reivindicações que se seguem.
REIVINDICAÇÕES

Claims (20)

1. Método para codificar frames de fala, em um codificador de fala preditivo (500) de forma a reduzir a sensibilidade às condições de erro de frame, o método é CARACTERIZADO pelo fato de que compreende: codificar um número predefinido de frames de fala sucessivos com um modo de codificação preditiva (604); codificar pelo menos um frame de fala com um modo de codificação menos preditiva (610) após efetuar a etapa de codificar um número predefinido de frames de fala sucessivos com um modo de codificação preditiva (604), o modo de codificação menos preditiva sendo menos preditiva que o modo de codificação preditiva; e repetir as duas etapas de codificação de modo a gerar uma pluralidade de frames de fala codificados de acordo com um padrão; em que cada frame é codificado independentemente de cada outro frame pelo codificador de fala preditivo (500).
2. Método, de acordo com a reivindicação 1, CARACTERI ZADO pelo fato de que o padrão recorre periodicamente.
3. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que o padrão é aleatório.
4. Método, de acordo com a reivindicação 1, CARACTERI ZADO pelo fato de que o modo de codificação menos preditiva é um modo preditivo.
5. Método, de acordo com a reivindicação 1, CARACTERI ZADO pelo fato de que o modo de codificação menos preditiva é um modo de codificação totalmente não-preditiva.
6. Método, de acordo com a reivindicação 2, CARACTERIZADO pelo fato de que compreende adicionalmente selecionar o padrão dos frames de fala codificados para manter uma taxa de codificação média.
7. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que o número predefinido de frames de fala sucessivos é determinado antecipadamente em função do ponto de vista subjetivo de um ouvinte.
8. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que compreende adicionalmente mudar o número predefinido de frames de fala sucessivos antes da etapa de repetir as duas etapas de codificação.
9. Método, de acordo com a reivindicação 8, CARACTERIZADO pelo fato de que mudar o número predefinido de frames de fala sucessivos compreende mudar o número predefinido de frames de fala sucessivos de uma maneira periódica.
10. Método, de acordo com a reivindicação 8, CARACTERI ZADO pelo fato de que mudar o número predefinido de frames de fala sucessivos compreende mudar o número predefinido de frames de fala sucessivos de uma maneira aleatória.
11. Codificador de fala (500) para reduzir a sensibilidade às condições de erro de frame, o codificador de fala é CARACTERIZADO pelo fato de que compreende: um codificador para codificar um número predefinido de frames de fala sucessivos com um modo de codificação preditiva (508, 510) ; um codificador para codificar pelo menos um frame de fala com um modo de codificação menos preditiva (512) após o número predefinido de frames de fala sucessivos ter sido codificado com o modo de codificação preditiva, o modo de codificação menos preditiva sendo menos preditiva que o modo de codificação preditiva; e um processador para gerar uma pluralidade de frames de fala codificados de acordo com um padrão de frames de fala codificados com um modo de codificação preditiva e frames de fala codificados com um modo de codificação menos preditiva (512); em que cada frame é codificado independentemente de cada outro frame pelo codificador de fala preditivo (500) .
12. Codificador de fala (500), de acordo com a reivindicação 11, CARACTERIZADO pelo fato de que o padrão recorre periodicamente.
13. Codificador de fala (500), de acordo com a reivindicação 11, CARACTERIZADO pelo fato de que o padrão é aleatório.
14. Codificador de fala (500), de acordo com a reivindicação 11, CARACTERIZADO pelo fato de que o modo de codificação menos preditiva é um modo preditivo.
15. Codificador de fala (500), de acordo com a reivindicação 11, CARACTERI ZADO pelo fato de que o modo de codificação menos preditiva é um modo de codificação totalmente não-preditiva.
16. Codificador de fala (500), de acordo com a reivindicação 11, CARACTERI ZADO pelo fato de que o processador adicionalmente seleciona o padrão de frames de fala codificados para manter uma taxa de codificação média.
17. Codificador de fala (500), de acordo com a reivindicação 11, CARACTERI ZADO pelo fato de que o número predefinido de frames de fala sucessivos é determinado antecipadamente em função do ponto de vista subjetivo de um ouvinte.
18. Codificador de fala (500), de acordo com a reivindicação 11, CARACTERI ZADO pelo fato de que o processador para gerar a pluralidade de frames de fala modifica também o número predefinido de frames de fala sucessivos.
19. Codificador de fala (500), de acordo com a reivindicação 18, CARACTERIZADO pelo fato de que o processador adicionalmente muda o número predefinido de frames de fala sucessivos de uma maneira periódica.
20. Codificador de fala, de acordo com a reivindicação 18, CARACTERI ZADO pelo fato de que o processador adicionalmente muda o número predefinido de frames de fala sucessivos de uma maneira aleatória.
BRPI0015070A 1999-10-28 2000-10-26 método para codificar frames de fala, e, codificador de fala para reduzir sensibilidade às condições de erro de frame BRPI0015070B1 (pt)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/429,754 US6438518B1 (en) 1999-10-28 1999-10-28 Method and apparatus for using coding scheme selection patterns in a predictive speech coder to reduce sensitivity to frame error conditions
PCT/US2000/029710 WO2001031639A1 (en) 1999-10-28 2000-10-26 A predictive speech coder using coding scheme selection patterns to reduce sensitivity to frame errors

Publications (2)

Publication Number Publication Date
BR0015070A BR0015070A (pt) 2002-12-24
BRPI0015070B1 true BRPI0015070B1 (pt) 2016-10-11

Family

ID=23704610

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0015070A BRPI0015070B1 (pt) 1999-10-28 2000-10-26 método para codificar frames de fala, e, codificador de fala para reduzir sensibilidade às condições de erro de frame

Country Status (13)

Country Link
US (1) US6438518B1 (pt)
EP (1) EP1224663B1 (pt)
JP (2) JP4805506B2 (pt)
KR (2) KR100827896B1 (pt)
CN (1) CN1212607C (pt)
AT (1) ATE346357T1 (pt)
AU (1) AU1576001A (pt)
BR (1) BRPI0015070B1 (pt)
DE (1) DE60032006T2 (pt)
ES (1) ES2274812T3 (pt)
HK (1) HK1051735A1 (pt)
TW (1) TW530296B (pt)
WO (1) WO2001031639A1 (pt)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002247137A (ja) * 2000-04-25 2002-08-30 Canon Inc 通信装置及び通信方法
JP4221537B2 (ja) * 2000-06-02 2009-02-12 日本電気株式会社 音声検出方法及び装置とその記録媒体
US7487083B1 (en) * 2000-07-13 2009-02-03 Alcatel-Lucent Usa Inc. Method and apparatus for discriminating speech from voice-band data in a communication network
WO2002097796A1 (en) * 2001-05-28 2002-12-05 Intel Corporation Providing shorter uniform frame lengths in dynamic time warping for voice conversion
US7433815B2 (en) * 2003-09-10 2008-10-07 Dilithium Networks Pty Ltd. Method and apparatus for voice transcoding between variable rate coders
US7542899B2 (en) * 2003-09-30 2009-06-02 Alcatel-Lucent Usa Inc. Method and apparatus for adjusting the level of a speech signal in its encoded format
US8111663B2 (en) * 2004-07-20 2012-02-07 Qualcomm Incorporated Methods and systems for variable rate broadcast with soft handoff
SE0402649D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods of creating orthogonal signals
US20070005347A1 (en) * 2005-06-30 2007-01-04 Kotzin Michael D Method and apparatus for data frame construction
US8090573B2 (en) * 2006-01-20 2012-01-03 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision
US8032369B2 (en) * 2006-01-20 2011-10-04 Qualcomm Incorporated Arbitrary average data rates for variable rate coders
US8346544B2 (en) * 2006-01-20 2013-01-01 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision
WO2008045846A1 (en) * 2006-10-10 2008-04-17 Qualcomm Incorporated Method and apparatus for encoding and decoding audio signals
US8171380B2 (en) 2006-10-10 2012-05-01 Marvell World Trade Ltd. Adaptive systems and methods for storing and retrieving data to and from memory cells
US7813922B2 (en) 2007-01-30 2010-10-12 Nokia Corporation Audio quantization
WO2009150290A1 (en) * 2008-06-13 2009-12-17 Nokia Corporation Method and apparatus for error concealment of encoded audio data
US20130268265A1 (en) * 2010-07-01 2013-10-10 Gyuhyeok Jeong Method and device for processing audio signal
US8990094B2 (en) 2010-09-13 2015-03-24 Qualcomm Incorporated Coding and decoding a transient frame
US9263054B2 (en) 2013-02-21 2016-02-16 Qualcomm Incorporated Systems and methods for controlling an average encoding rate for speech signal encoding
TWI557727B (zh) * 2013-04-05 2016-11-11 杜比國際公司 音訊處理系統、多媒體處理系統、處理音訊位元流的方法以及電腦程式產品
JP2017009663A (ja) * 2015-06-17 2017-01-12 ソニー株式会社 録音装置、録音システム、および、録音方法

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS637042A (ja) * 1986-06-27 1988-01-12 Fujitsu Ltd 符号化伝送装置
JPS6444499A (en) * 1987-08-12 1989-02-16 Fujitsu Ltd Forecast encoding system for voice
JPH01293028A (ja) * 1988-05-20 1989-11-27 Fujitsu Ltd 音声符号化モード切り替え方式
US5568483A (en) * 1990-06-25 1996-10-22 Qualcomm Incorporated Method and apparatus for the formatting of data for transmission
EP0588932B1 (en) 1991-06-11 2001-11-14 QUALCOMM Incorporated Variable rate vocoder
GB9205932D0 (en) * 1992-03-18 1992-04-29 Philips Electronics Uk Ltd Method and apparatus for editing an audio signal
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
JP3198637B2 (ja) * 1992-07-23 2001-08-13 ソニー株式会社 画像信号符号化装置及び画像信号符号化方法
US5659659A (en) * 1993-07-26 1997-08-19 Alaris, Inc. Speech compressor using trellis encoding and linear prediction
JPH07131793A (ja) * 1993-11-01 1995-05-19 Toshiba Corp 映像信号高能率符号化装置
US5784532A (en) 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
US5602961A (en) * 1994-05-31 1997-02-11 Alaris, Inc. Method and apparatus for speech compression using multi-mode code excited linear predictive coding
JPH0816200A (ja) * 1994-06-30 1996-01-19 Olympus Optical Co Ltd 音声記録装置
JPH0818543A (ja) * 1994-07-01 1996-01-19 Nippon Telegr & Teleph Corp <Ntt> 可変ビットレート符号化復号化方法、その符号化器及び復号化器
TW271524B (pt) * 1994-08-05 1996-03-01 Qualcomm Inc
JPH0869298A (ja) * 1994-08-29 1996-03-12 Olympus Optical Co Ltd 再生装置
JPH0884329A (ja) * 1994-09-13 1996-03-26 Canon Inc 画像通信端末装置
US5774846A (en) 1994-12-19 1998-06-30 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus
JPH08263099A (ja) * 1995-03-23 1996-10-11 Toshiba Corp 符号化装置
US6021325A (en) * 1997-03-10 2000-02-01 Ericsson Inc. Mobile telephone having continuous recording capability
US6064954A (en) * 1997-04-03 2000-05-16 International Business Machines Corp. Digital audio signal coding
JPH1169355A (ja) * 1997-08-20 1999-03-09 Sharp Corp 画像伝送装置
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
JP3529599B2 (ja) * 1997-09-02 2004-05-24 株式会社東芝 符号化装置における編集可能点挿入方法および符号化装置
US6058359A (en) * 1998-03-04 2000-05-02 Telefonaktiebolaget L M Ericsson Speech coding including soft adaptability feature
JPH11220711A (ja) * 1998-02-03 1999-08-10 Fujitsu Ltd 多地点会議システム及び会議端末装置
JP3539615B2 (ja) * 1998-03-09 2004-07-07 ソニー株式会社 符号化装置、編集装置及び符号化多重化装置並びにそれらの方法
JP2002530706A (ja) * 1998-11-13 2002-09-17 クゥアルコム・インコーポレイテッド 閉ループ可変速度マルチモード予測スピーチコーダ
US6324503B1 (en) * 1999-07-19 2001-11-27 Qualcomm Incorporated Method and apparatus for providing feedback from decoder to encoder to improve performance in a predictive speech coder under frame erasure conditions
EP1259957B1 (en) * 2000-02-29 2006-09-27 QUALCOMM Incorporated Closed-loop multimode mixed-domain speech coder

Also Published As

Publication number Publication date
ES2274812T3 (es) 2007-06-01
DE60032006T2 (de) 2007-06-21
JP4805506B2 (ja) 2011-11-02
EP1224663A1 (en) 2002-07-24
US6438518B1 (en) 2002-08-20
TW530296B (en) 2003-05-01
HK1051735A1 (en) 2003-08-15
CN1212607C (zh) 2005-07-27
KR20070112894A (ko) 2007-11-27
JP5543405B2 (ja) 2014-07-09
JP2011237809A (ja) 2011-11-24
ATE346357T1 (de) 2006-12-15
KR20020040910A (ko) 2002-05-30
EP1224663B1 (en) 2006-11-22
CN1402869A (zh) 2003-03-12
KR100804888B1 (ko) 2008-02-20
KR100827896B1 (ko) 2008-05-07
DE60032006D1 (de) 2007-01-04
WO2001031639A1 (en) 2001-05-03
JP2003515178A (ja) 2003-04-22
BR0015070A (pt) 2002-12-24
AU1576001A (en) 2001-05-08

Similar Documents

Publication Publication Date Title
JP5543405B2 (ja) フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ
EP1340223B1 (en) Method and apparatus for robust speech classification
EP1141947B1 (en) Variable rate speech coding
US6584438B1 (en) Frame erasure compensation method in a variable rate speech coder
EP1214705B1 (en) Method and apparatus for maintaining a target bit rate in a speech coder
KR20020081374A (ko) 폐루프 멀티모드 혼합영역 선형예측 (mdlp) 음성 코더
KR20030041169A (ko) 무성 음성의 코딩 방법 및 장치
EP1181687B1 (en) Multipulse interpolative coding of transition speech frames
US7085712B2 (en) Method and apparatus for subsampling phase spectrum information
BRPI0012540B1 (pt) codificador de fala, e método para quantização vetorial de um vetor de informações de linhas espectrais de um quadro
Lindblom A sinusoidal voice over packet coder tailored for the frame-erasure channel
EP1397655A1 (en) Method and device for coding speech in analysis-by-synthesis speech coders

Legal Events

Date Code Title Description
B15K Others concerning applications: alteration of classification

Free format text: A CLASSIFICACAO ANTERIOR ERA: G10L 19/14

Ipc: G10L 19/18 (2013.01), G10L 19/06 (2013.01), G10L 1

B07A Application suspended after technical examination (opinion) [chapter 7.1 patent gazette]
B09B Patent application refused [chapter 9.2 patent gazette]

Free format text: INDEFIRO O PEDIDO DE ACORDO COM O ART .8O COMBINADO COM ART. 13 DA LPI

B12B Appeal against refusal [chapter 12.2 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 11/10/2016, OBSERVADAS AS CONDICOES LEGAIS.