BRPI0012542B1 - Método para quantizar informações espectrais em um codificador de fala, bem como, codificador de fala - Google Patents

Método para quantizar informações espectrais em um codificador de fala, bem como, codificador de fala Download PDF

Info

Publication number
BRPI0012542B1
BRPI0012542B1 BRPI0012542-3A BR0012542A BRPI0012542B1 BR PI0012542 B1 BRPI0012542 B1 BR PI0012542B1 BR 0012542 A BR0012542 A BR 0012542A BR PI0012542 B1 BRPI0012542 B1 BR PI0012542B1
Authority
BR
Brazil
Prior art keywords
vector
speech
spectral information
frame
speech encoder
Prior art date
Application number
BRPI0012542-3A
Other languages
English (en)
Other versions
BR0012542A (pt
Inventor
Eddie Lun Tik Choy
Sharath Manjunath
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of BR0012542A publication Critical patent/BR0012542A/pt
Publication of BRPI0012542B1 publication Critical patent/BRPI0012542B1/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Interface Circuits In Exchanges (AREA)
  • Spectrometry And Color Measurement (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)

Description

"MÉTODO PARA QUANTIZAR INFORMAÇÕES ESPECTRAIS EM UM CODIFICADOR DE FALA, BEM COMO, CODIFICADOR DE FALA".
Campo da Invenção A presente invenção pertence geralmente ao campo de processamento de fala, e mais especificamente à quantização de parâmetro nos codificadores de fala.
Descrição da Técnica Anterior A transmissão de voz por técnicas digitais tem se tornado ampla, particularmente em aplicações de telefone de longa distância e de rádio digital. Esta, por sua vez, tem criado interesse em determinar a quantidade mínima de informação que pode ser enviada sobre um canal enquanto mantém a qualidade percebida da fala reconstruída. Se a fala for transmitida por simples amostragem e digitalização, uma taxa de dados da ordem de sessenta e quatro kilobits por segundo (kbps) é exigida para alcançar uma qualidade de fala de telefone analógico convencional.
Todavia, através do uso de análise de fala, seguido pela codificação apropriada, transmissão, e resíntese no receptor, uma redução significativa na taxa de dados pode ser alcançada.
Dispositivos para comprimir fala são utilizados em muitos campos de telecomunicações. Um campo exemplar é o das comunicações sem fio. O campo de comunicações sem fio possui muitas aplicações incluindo, por exemplo, telefones sem fio convencionais, pagers, circuitos locais sem fio, telefonia sem fio, tal como sistemas de telefone celular e PCS, telefonia de Protocolo Internet (IP) móvel, e sistemas de comunicação de satélites. Uma aplicação particularmente importante é a da telefonia sem fio para assinantes móveis. Várias interfaces aéreas têm sido desenvolvidas para sistemas de comunicação sem fio incluindo, por exemplo, acesso múltiplo por divisão de freqüência (FDMA), acesso múltiplo por divisão de tempo (TDMA), e acesso múltiplo por divisão de código (CDMA). Em relação a isso, vários padrões domésticos e internacionais têm sido estabelecidos incluindo, por exemplo, o Serviço de Telefonia Móvel Avançado (AMPS), o Sistema Global para Comunicações Móveis (GSM), e o Padrão Interino 95 (IS-95). Um sistema exemplar de comunicação de telefonia sem fio é um sistema de acesso múltiplo por divisão de código (CDMA). O Padrão IS-95 e seus derivados, IS-95A, ANSI J-STD-008, IS-95B, os padrões propostos de terceira geração IS-95C e IS-2000, etc (coletivamente referidas aqui como IS-95), estão promulgadas pela Telecommunication Industry Association (TIA) e por outras organizações regulamentadoras conceituadas para especificar o uso de uma interface aérea CDMA para sistemas de comunicação de telefonia celulares ou PCS. Sistemas exemplares de comunicação sem fio configurados substancialmente de acordo com o uso do padrão IS-95 estão descritos nas Patentes Norte Americanas N2 5,103,459 e 4,901,307, as quais estão em nome da Requerente da presente invenção e aqui totalmente incorporadas por referência.
Dispositivos que empregam técnicas para comprimir a fala pela extração de parâmetros que se relacionam a um modelo de geração de fala humana são chamados codificadores de fala. Um codificador de fala divide o sinal de fala entrante em blocos de tempo, ou quadros de análise. Os codificadores de fala tipicamente compreendem um codificador e um decodificador. 0 codificador analisa o quadro de fala entrante para extrair certos parâmetros relevantes, e então quantiza os parâmetros em representação binária, isto é, para um conjunto de bits ou um pacote de dados binários. Os pacotes de dados são transmitidos através do canal de comunicação para um receptor e um decodificador. O decodificador processa os pacotes de dados, dequantiza-os para produzir os parâmetros, e resintetiza os quadros de fala usando os parâmetros dequantizados. A função do codificador de fala é comprimir o sinal de fala digitalizado em um sinal de baixa taxa de bits pela remoção de todas as redundâncias naturais inerentes à fala. A compressão digital é alcançada pela representação do quadro de fala de entrada com um conjunto de parâmetros e pelo emprego de quantização para representar os parâmetros com um conjunto de bits. Se o quadro de fala de entrada possui um número de bits Ni e o pacote de dados produzido pelo codificador de fala possui um número de bits N0, o fator de compressão alcançado pelo codificador de fala é Cr = Ni/N0. 0 desafio é reter alta qualidade de voz da fala decodificada ao mesmo tempo em que está alcançando o fator de compressão alvo. A performance de um codificador de fala depende de (1) quão bem o modelo de fala, ou a combinação do processo de análise e síntese descrito acima, executa, e (2) quão bem o processo de quantização de parâmetro é executado na taxa de bit alvo de N0 bits por quadro. A meta do modelo de fala é, deste modo, capturar a essência do sinal de fala, ou da qualidade de voz alvo, com um pequeno conjunto de parâmetros para cada quadro.
Talvez o mais importante no projeto de um codificador de fala é a procura por um bom conjunto de parâmetros (incluindo vetores) para descrever o sinal de fala. Um bom conjunto de parâmetros requer uma baixa largura de banda de sistema para a reconstrução de um sinal de fala perceptivelmente preciso. 0 pitch (altura de um som), a potência de sinal, o envelope espectral (ou formantes), os espectros de amplitude, e os espectros de fase são exemplos dos parâmetros de codificação de fala.
Os codificadores de fala podem ser implementados como codificadores no domínio do tempo, os quais tentam capturar a forma de onda de fala no domínio do tempo ao empregar processamento de alta resolução de tempo para codificar pequenos segmentos de fala (tipicamente subquadros de 5 milisegundos (ms)) por vez. Para cada subquadro, uma alta precisão representativa a partir de um espaço de livro-código é encontrado por meio de vários algoritmos de busca conhecidos na técnica.
Alternativamente, os codificadores de fala podem ser implementados como codificadores no domínio da freqüência, os quais tentam capturar o espectro de fala de curto prazo do quadro de fala de entrada com um conjunto de parâmetros (análise) e empregar um processo de síntese correspondente para recriar a forma de onda de fala a partir dos parâmetros espectrais. O quantizador de parâmetros preserva os parâmetros pela representação destes com representações armazenadas de vetores de código de acordo com técnicas conhecidas de quantização descritas em A. Gersho & R.M.
Gray, "Vector Quantization and Signal Compression" (1992).
Um codificador de fala conceituado no domínio do tempo é o codificador Preditivo Linear Excitado por Código (CELP) descrito em L.B. Rabiner & R.W. Schafer, "Digital Processing of Speech Signals" 396-453 (1978), o qual é totalmente incorporado aqui por referência. Em um codificador CELP, as correlações de curto prazo, ou redundâncias, no sinal de fala são removidas por uma análise de predição linear (LP), a qual encontra os coeficientes de um filtro formante de curto prazo. A aplicação do filtro de predição de curto prazo ao quadro de fala entrante gera um sinal residual LP, o qual é ainda modelado e quantizado com parâmetros de filtro de predição de longo prazo e um subseqüente livro-código estocãstico.
Deste modo, a codificação CELP divide a tarefa de codificar a forma de onda de fala no domínio do tempo em tarefas separadas de codificar os coeficientes de filtro de curto prazo LP e codificar o resíduo LP. A codificação no domínio do tempo pode ser executada a uma taxa fixada (isto é, usar o mesmo número de bits, N0, para cada quadro) ou a uma taxa variável (na qual diferentes taxas de bit são usadas para diferentes tipos de conteúdos de quadro). Os codificadores de taxa variável tentam usar somente a quantidade de bits necessária para codificar os parâmetros de codec a um nível adequado para obter uma qualidade alvo. Um codificador CELP exemplar de taxa variável é descrito na Patente Norte Americana N- 5,414,796, a qual está em nome da Requerente da presente invenção e aqui totalmente incorporada por referência.
Os codificadores no domínio do tempo, tal como o codificador CELP, contam tipicamente com um alto número de bits, N0, por quadro para preservar a precisão da forma de onda de fala no domínio do tempo. Tais codificadores transmitem tipicamente excelente qualidade de voz de acordo com o número de bits, N0, por quadro relativamente grande (por exemplo, 8 kbps ou acima). Todavia, a baixas taxas de bit (4 kbps e abaixo), os codificadores no domínio do tempo falham ao reter alta qualidade e performance robusta devido ao número limitado de bits disponíveis. A baixas taxas de bit, o espaço limitado do livro-código corta a capacidade de igualdade de forma de onda de codificadores convencionais no domínio do tempo, os quais são empregados com muito sucesso em aplicações comerciais de maior taxa.
Portanto, a despeito de melhorias ao longo do tempo, muitos sistemas de codificação CELP que operam a baixas taxas de bit sofrem de distorção perceptivelmente significante tipicamente caracterizada como ruído.
Existe atualmente um surto de interesse em pesquisa e forte necessidade comercial para desenvolver um codificador de fala de alta qualidade operando em médias para baixas taxas de bit (isto é, na extensão de 2,4 a 4 kbps e abaixo). As áreas de aplicação incluem telefonia sem fio, comunicações por satélites, telefonia Internet, várias aplicações de multimídia e streaming-voz, correio de voz, e outros sistemas de armazenamento de voz. As forças impulsoras são a necessidade por alta capacidade e a demanda por performance robusta em situações de perda de pacote. Vários esforços recentes de padronização de codificação de fala são outra força impulsora direta que estimula pesquisa e desenvolvimento de algoritmos de codificação de fala a baixa taxa. Um codificador de fala a baixa taxa cria mais canais, ou usuários, por largura de banda de aplicação permissível, e um codificador de fala a baixa taxa acoplado com uma camada adicional de codificação de canal adequada pode enquadrar a previsão total de bits de especificações de codificador e entregar uma performance robusta sob condições de erro de canal.
Uma técnica eficaz para codificar fala eficientemente a baixas taxas de bit é a codificação multimodo. Uma técnica de codificação multimodo exemplar é descrita no Pedido de Patente Norte Americano N- de Série 09/217,341, intitulado "VARIABLE RATE SPEECH CODING", depositada em 21 de Dezembro de 1998, em nome da Requerente da presente invenção e aqui totalmente incorporada por referência. Codificadores multimodo convencionais aplicam modos diferentes, ou algoritmos de codificação- decodificação, para diferentes tipos de quadros de fala de entrada. Cada modo, ou processo de codificação- decodificação, é personalizado para representar, da melhor maneira, um certo tipo de segmento de fala, tal como, por exemplo, fala com voz, fala sem voz, fala de transição (por exemplo, entre fala com voz e sem voz), e ruído de fundo (nenhuma fala) de maneira mais eficiente. Um mecanismo externo de decisão de modo de circuito-aberto examina o quadro de fala de entrada e toma uma decisão quanto ao modo a ser aplicado no quadro. A decisão de modo de circuito- aberto é tipicamente executada pela extração de um número de parâmetros a partir do quadro de entrada, avaliação dos parâmetros como certas características temporais e espectrais, e embasamento de uma decisão de modo sobre a avaliação.
Sistemas de codificação que operam a taxas da ordem de 2,4 kbps são geralmente paramétricos na essência.
Isto é, tais sistemas de codificação operam pela transmissão de parâmetros que descrevem o período de pitch e o envelope espectral (ou formantes) do sinal de fala em intervalos regulares. Ilustrativo destes, assim chamados, codificadores paramétricos é o sistema vocoder LP.
Os vocodificadores LP modelam um sinal de fala com voz com um único pulso por período de pitch. Esta técnica básica pode ser aumentada para incluir informação de transmissão sobre o envelope espectral, entre outras coisas. Embora os vocodificadores LP forneçam geralmente razoável performance, eles podem introduzir distorção perceptivelmente significante, tipicamente caracterizada como zumbido.
Em anos recentes, têm surgido codificadores que são híbridos de codificadores de forma de onda e codificadores paramétricos. Ilustrativo destes, assim chamados, codificadores híbridos é o sistema de codificação de fala por interpolação de protótipo de forma de onda (PWI). O sistema de codificação PWI pode ser também conhecido como um codificador de fala de período de protótipo de pitch (PPP). Um sistema de codificação PWI
provê um método eficiente para codificar fala com voz. O conceito básico de PWI é extrair um ciclo de pitch representativo (o protótipo de forma de onda) em intervalos fixados, para transmitir sua descrição, e para reconstruir o sinal de fala pela interpolação entre os protótipos de formas de onda. O método PWI pode operar tanto sobre o sinal residual LP quanto no sinal de fala. Um codificador de fala exemplar PWI ou PPP, é descrito no Pedido de Patente Norte Americano U.S. N9 de Série 09/217,494, intitulado "PERIODIC SPEECH CODING", depositado em 21 de Dezembro de 1998, em nome da Requerente da presente invenção e aqui totalmente incorporada por referência.
Outros codificadores de fala PWI ou PPP são descritos na Patente Norte Americana N- 5,884,253 e W. Bastiaan Kleijn &
Wolfgang Granzow "Methods for Waveform Interpolation in Speech Coding, in 1 Digital Signal Processing" 215-230 ( 1991) . É conhecido que a informação espectral embutida na fala é de grande importância perceptiva, particularmente em fala com voz. Muitos codificadores de fala avançados, tais como o codificador de interpolação de protótipo de forma de onda (PWI) ou o codificador de período de protótipo de pitch (PPP), o codificador de excitação de multibanda (BEM), e o codificador de transformada senoidal (STC), usam a magnitude espectral como um parâmetro de codificação explícito. Todavia, uma codificação eficiente de tal informação espectral tem sido uma tarefa desafiante.
Isso se deve principalmente por que o vetor espectral, comumente representado por um conjunto de amplitudes harmônicas, tem uma dimensão proporcional ao período de pitch estimado. Enquanto o pitch varia de quadro para quadro, a dimensão do vetor de amplitude varia também.
Portando, um método VQ que manipula vetores de entrada de dimensão variável é exigido para codificar um vetor espectral. Todavia, um método VQ de dimensão variável eficaz (com menos consumo de bits e memória) ainda não existe.
Como é conhecido para aqueles versados na técnica, a resolução de freqüência de ouvidos humanos é uma função não-linear de freqüência (por exemplo, escala de melodia e escala de latido) e ouvidos humanos são menos sensitivos a detalhes espectrais em freqüências mais altas do que em freqüências mais baixas. É desejável que tal conhecimento à respeito da percepção humana seja totalmente explorado ao projetar um quantizador de amplitude eficaz.
Nos codificadores de fala de baixa taxa de bit convencionais, os parâmetros de amplitude e de fase podem ser individualmente quantizados e transmitidos para cada protótipo de cada quadro. Como uma alternativa, os parâmetros podem ser diretamente quantizados por vetor com o objetivo de reduzir o número de bits necessário para representar os parâmetros. Todavia, é desejável reduzir ainda mais o número de bits necessário para quantizar os parâmetros de quadro. Seria vantajoso, portanto, prover um esquema de quantização eficaz para representar perceptivelmente os espectros de amplitude de um sinal de fala ou de um sinal residual de predição linear. Deste modo, existe uma necessidade por um codificador de fala que quantize com eficácia espectros de amplitude com um fluxo de bits de baixa taxa para aumentar a capacidade de canal.
Resumo da Invenção A presente invenção é direcionada a um codificador de fala que quantiza com eficácia espectros de amplitude com um fluxo de bits de baixa taxa para aumentar a capacidade de canal. De acordo com isso, em um aspecto da invenção, um método para quantizar informação espectral em um codificador de fala inclui vantajosamente os passos de extrair um vetor de informação espectral a partir de um quadro, o vetor possuindo um valor de energia de vetor; normalizar o valor de energia de vetor para gerar uma pluralidade de fatores de ganho; quantizar por vetor diferentemente a pluralidade de fatores de ganho; subamostrar não-uniformemente a pluralidade de fatores de ganho normalizados para gerar um vetor de dimensão fixada possuindo uma pluralidade de elementos associados com uma respectiva pluralidade de bandas de freqüência não- uniformes; dividir o vetor de dimensão fixada em uma pluralidade de subvetores; e quantizar diferentemente a pluralidade de subvetores.
Em outro aspecto da invenção, um codificador de fala inclui vantajosamente meios para extrair um vetor de informação espectral a partir de um quadro, o vetor possuindo um valor de energia de vetor; meios para normalizar o valor de energia de vetor para gerar uma pluralidade de fatores de ganho; meios para diferentemente quantizar por vetor a pluralidade de fatores de ganho; meios para subamostrar não-uniformemente a pluralidade de fatores de ganho normalizados para gerar um vetor de dimensão fixada possuindo uma pluralidade de elementos associados com uma respectiva pluralidade de bandas de freqüência não-uniformes; meios para dividir o vetor de dimensão fixada em uma pluralidade de subvetores; e meios para diferentemente quantizar a pluralidade de subvetores.
Em outro aspecto da invenção, um codificador de fala inclui vantajosamente um módulo de extração configurado para extrair um vetor de informação espectral de um quadro, o vetor possuindo um valor de energia de vetor; um módulo de normalização acoplado ao módulo de extração e configurado para normalizar o valor de energia de vetor para gerar uma pluralidade de fatores de ganho; um módulo de quantização de vetor diferencial acoplado ao módulo de normalização e configurado para diferencialmente quantizar vetorialmente a pluralidade de fatores de ganho; um subamostrador acoplado ao módulo de normalização e configurado para subamostrar a pluralidade de fatores de ganho normalizados para gerar um vetor de dimensão fixada possuindo uma pluralidade de elementos associados com uma respectiva pluralidade de bandas de freqüência não- uniformes; um mecanismo de divisão para dividir o vetor de dimensão fixada em um subvetor de banda alta e um subvetor de banda baixa; e um módulo de quantização diferencial acoplado ao mecanismo de divisão e configurado para diferencialmente quantizar o subvetor de banda alta e o subvetor de banda baixa.
Breve Descrição das Figuras Figura 1 - é um diagrama em blocos de um sistema de telefone sem fio.
Figura 2 - é um diagrama em blocos de um canal de comunicação terminado em cada ponta por codificadores de f ala.
Figura 3 - é um diagrama em blocos de um codificador.
Figura 4 - é um diagrama em blocos de um decodificador.
Figura 5 - é um fluxograma ilustrando um processo de decisão de codificação de fala.
Figura 6A - é um gráfico da amplitude de sinal de fala versus tempo, e a Figura 6B é um gráfico da amplitude residual de predição linear (LP) versus tempo.
Figura 7 - é um diagrama em blocos de um codificador de fala possuindo espectro de amplitude como um parâmetro de codificação.
Figura 8 - é um diagrama em blocos de um módulo de quantização de amplitude que pode ser usado no codificador de fala da Figura 7.
Figura 9 - é um diagrama em blocos de um módulo de dequantização de amplitude que pode ser usado no codificador de fala da Figura 7.
Figura 10 - ilustra uma partição de banda não- uniforme que pode ser executada por um subamostrador espectral no módulo de quantização de amplitude da Figura 8, ou por um interpolador espectral no interpolador de amplitude da Figura 9.
Figura 11A - é um gráfico do espectro de amplitude de sinal residual versus freqüência, onde o eixo da freqüência é * particionado de acordo com o particionamento da Figura 9, a Figura 11B é um gráfico do espectro de energia normalizada da Figura 11A, e a Figura 11C é um gráfico do espectro subamostrado não-uniformemente e interpolado linearmente da Figura 11B.
Descrição Detalhada das Modalidades Preferidas As modalidades exemplares descritas a seguir são inerentes a um sistema de comunicação de telefonia sem fio configurado para empregar uma interface aérea CDMA.
Todavia, seria entendido por aquele versado na técnica que um método e equipamento de subamostragem incorporando características da presente invenção pode residir em qualquer dos vários sistemas de comunicação que empregam uma grande extensão de tecnologias conhecidas para aqueles versados na técnica.
Como mostrado na Figura 1, um sistema de telefone sem fio CDMA geralmente inclui uma pluralidade de unidades móveis de assinante 10, uma pluralidade de estações base 12, controladores de estação base (BSCs) 14, e um centro de comutação móvel (MSC) 16. 0 MSC 16 é configurado para interface com uma rede de telefonia comutada pública convencional (PSTN) 18. O MSC 16 também é configurado para interface com as BSCs 14. As BSCs 14 são acopladas às estações base 12 via linhas de canal de transporte de retorno (backhaul). As linhas de canal de transporte de retorno podem ser configuradas para dar suporte a qualquer das várias interfaces conhecidas incluindo, por exemplo, El/Tl, ATM, IP, PPP, Frame Relay, HDSL, ADSL ou xDSL. É entendido que podem existir mais do que duas BSCs 14 no sistema. Cada estação base 12 inclui vantajosamente pelo menos um setor (não mostrado), cada setor compreendendo uma antena omnidirecional ou uma antena apontada em uma particular direção radialmente para longe a partir da estação base 12. Alternativamente, cada setor pode compreender duas antenas para diversidade de recepção. Cada estação base 12 pode ser vantajosamente projetada para suportar uma pluralidade de designações de freqüência. A interseção de um setor e uma designação de freqüência pode ser referida como um canal CDMA. As estações base 12 podem ser também conhecidas como subsistemas transceptores de estação base (BTSs) 12. Alternativamente, "estação base" pode ser usado na indústria para se referir coletivamente a uma BSC 14 e um ou mais BTSs 12. Os BTSs 12 podem ser também chamados de "estações rádio base" 12.
Alternativamente, setores individuais de um dado BTS 12 podem ser referidos como estações rádio base. As unidades de assinante móveis 10 são tipicamente telefones celulares ou PCS 10. O sistema é configurado vantajosamente para uso de acordo com o padrão IS-95.
Durante operação típica do sistema de telefonia celular, as estações base 12 recebem conjuntos de sinais de enlace reverso a partir de conjuntos de unidades móveis 10.
As unidades móveis 10 estão conduzindo chamadas telefônicas ou outras comunicações. Cada sinal de enlace reverso recebido por uma dada estação base 12 é processado dentro desta estação base 12. Os dados resultantes são transmitidos para os BSCs 14. Os BSCs 14 proveem alocação de recurso de chamada e funcionalidade de gerenciamento de mobilidade incluindo a administração dos repasses suaves (soft handoffs) entre as estações base 12. Os BSCs 14 também roteiem os dados recebidos para o MSC 16, o qual fornece serviços de roteamento adicional para interface com a PSTN 18. Do mesmo modo, a PSTN 18 faz interface com o MSC 16, e o MSC 16 faz interface com os BSCs 14, os quais, por sua vez, controlam as estações base 12 para transmitir conjuntos de sinais de enlace direto para conjuntos de unidades móveis 10.
Na Figura 2, um primeiro codificador 100 recebe amostras de fala digitalizada s(n) e codifica as amostras s(n) para transmissão em um meio de transmissão 102, ou em um canal de comunicação 102, para um primeiro decodificador 104. O decodificador 104 decodifica as amostras de fala codificadas e sintetiza um sinal de fala de saída s s ynth (n) · Para transmissão na direção oposta, um segundo codificador 106 codifica amostras s(n) de fala digitalizadas, as quais são transmitidas em um canal de comunicação 108. Um segundo decodificador 110 recebe e decodifica as amostras de fala codificadas, gerando um sinal de fala de saída sintetizado SsYNTH(Π ) .
As amostras de fala s(n) representam sinais de fala que foram digitalizados e quantizados de acordo com qualquer dos vários métodos conhecidos na técnica incluindo, por exemplo, modulação por código de pulso (PCM), as Leis μ ou A comprimidas/expandidas. Como conhecido na técnica, as amostras de fala s(n) são organizadas em quadros de dados de entrada onde cada quadro compreende um predeterminado número de amostras s(n) de fala digitalizadas. Em uma modalidade exemplar, uma taxa de amostragem de 8 kHz é empregada, com cada quadro de 2 0ms compreendendo 160 amostras. Nas modalidades descritas abaixo, a taxa de transmissão de dados pode ser variada vantajosamente com base em quadro a quadro a partir de 13,2 kbps (taxa cheia) até 6,2 kbps (meia taxa) até 2,6 kbps (um quarto de taxa) até 1 kbps (um oitavo de taxa). Variar a taxa de transmissão de dados é vantajoso porque baixas taxa de bit podem ser empregadas seletivamente para quadros contendo relativamente pouca informação de fala. Como entendido por aquele versado na técnica, outras taxas de amostragem, tamanhos de quadro, e taxas de transmissão de dados podem ser usados. O primeiro codificador 100 e o segundo decodificador 110 juntos compreendem um primeiro codificador de fala, ou codec de fala. O codificador de fala podería ser usado em qualquer dispositivo de comunicação para transmitir sinais de fala, incluindo, por exemplo, as unidades do assinante, os BTSs, ou os BSCs descritos acima com referência a Figura 1. Do mesmo modo, o segundo codificador 106 e o primeiro decodificador 104 juntos compreendem um segundo codificador de fala. É entendido por aquele versado na técnica que codificadores de fala podem ser implementados com um processador de sinal digital (DSP), com um circuito integrado de aplicação específica (ASIC), com lógica de porta discreta, firmware, ou qualquer módulo de software programável convencional e um microprocessador. 0 módulo de software poderia residir na memória RAM, memória rápida, registradores, ou em qualquer outra forma de mídia de armazenamento registrável conhecida na técnica. Alternativamente, qualquer processador convencional, controlador ou máquina de estado convencionais poderíam ser substituídos pelo microprocessador. ASICs exemplares projetados especificamente para codificação de fala, são descritos na Patente Norte Americana N- 5,727,123, em nome da Requerente da presente invenção e aqui totalmente incorporadas por referência, e no Pedido de patente Norte Americano N2 de Série 08/197,417, intitulado "VOCODER ASIC", depositada em 16 de Fevereiro de 1994, em nome da Requerente da presente invenção e aqui totalmente incorporadas por referência.
Na Figura 3, um codificador 200 que pode ser usado em um codificador de fala inclui um módulo de decisão de modo 202, um módulo de avaliação de pitch 204, um módulo de análise LP 206, um filtro de análise LP 208, um módulo de quantização LP 210, um módulo de quantização residual 212. Quadros de fala de entrada s(n) são fornecidos para o módulo de decisão de modo 202 , para o módulo de estimação de pitch 204, para o módulo de análise LP 206, e para o filtro de análise LP 208. 0 módulo de decisão de modo 202 produz um índice de modo IM e um modo M baseado na periodicidade, na energia, na razão sinal-ruído (SNR), ou na taxa de cruzamento zero, entre outras características, de cada quadro de fala de entrada s(n). Vários métodos de classificação quadros de fala de acordo com a periodicidade são descritos na Patente Norte Americana N2 5,911,128, a qual está em nome da Requerente da presente invenção e aqui totalmente incorporadas por referência. Tais métodos são também incorporados nos padrões "Telecommunication Industry Association Industry ínterim Standards TIA/EIA IS-127 e TIA/EIA IS-733". Um esquema de decisão de modo exemplar é também descrito no anteriormente mencionado Pedido de Patente Norte Americano N2 de Série 09/217,341. O módulo de estimação de pitch 204 produz um índice de pitch IP e um valor de atraso Po baseado em cada quadro de fala de entrada s(n). O módulo de análise LP 206 executa a análise preditiva linear em cada quadro de fala de entrada s(n) para gerar um parâmetro LP a. O parâmetro LP a é fornecido para o módulo de quantização LP 210. O módulo de quantização LP 210 também recebe o modo M, desse modo, executando o processo de quantização em uma maneira de modo dependente. O módulo de quantização LP 210 produz um índice LP ILP e um parâmetro LP quantizado â. O filtro de análise LP 208 recebe o parâmetro LP quantizado â além do quadro de fala de entrada s(n). O filtro de análise LP 208 gera um sinal residual LP R[n], o qual representa o erro entre os quadros de fala de entrada s(n) e a fala reconstruída baseado nos parâmetros LP quantizado â. O resíduo LP R[n], o modo M, e o parâmetro LP quantizado â são fornecidos ao módulo de quantização residual 212.
Baseado nestes valores, o módulo de quantização residual 212 produz um índice residual IR e um sinal residual quantizado ^[«] · Na Figura 4, um decodificador 300 que pode ser usado em um codificador de fala inclui um módulo de decodificação de parâmetro LP 302, um módulo de decodificação residual 304, um módulo de decodificação de modo 306, e um filtro de síntese LP 308. O módulo de decodificação de modo 306 recebe e decodifica um índice de modo IM, gerando a partir daí um modo Μ. O módulo de decodif icação de parâmetro LP 302 recebe o modo M e um índice LP ILP. 0 módulo de decodificação de parâmetro LP 302 decodifica os valores recebidos para produzir um parâmetro LP quantizado â. O módulo de decodificação residual 304 recebe um índice residual IR, um índice de pitch IP, e um índice de modo IM. 0 módulo de decodificação residual 304 decodifica os valores recebidos para gerar um sinal residual quantizado /?[«] · O sinal residual quantizado /?[«] e o parâmetro LP quantizado â são fornecidos ao filtro de síntese LP 308, o qual sintetiza um sinal de fala de saída decodificado í[«] a partir destes. A operação e implementação dos vários módulos do codificador 200 da Figura 3 e do decodif icador 300 da Figura 4 são conhecidas na técnica e descritos na anteriormente mencionada Patente Norte Americana U.S. N2 5,414,796 e L.B. Rabiner & R.W. Schafer, "Digital Processing of Speech Signals" 396-453 (1978).
Como ilustrado no fluxograma da Figura 5, um codificador de fala de acordo com uma modalidade segue um conjunto de passos ao processar amostras de fala para transmissão. No passo 400, o codificador de fala recebe amostras digitais de um sinal de fala em sucessivos quadros. Ao receber um dado quadro, o codificador de fala prossegue para o passo 402. No passo 402, o codificador de fala detecta a energia do quadro. A energia é uma medida da atividade de fala do quadro. A detecção de fala é executada pela soma dos quadrados das amplitudes das amostras de fala digitalizadas e comparação da energia resultante com um valor limiar. Em uma modalidade, o valor limiar se adapta baseado no nível de mudança do ruído de fundo. Um detector de atividade de fala exemplar de limiar variável é descrito na anteriormente mencionada Patente Norte Americana N2 5,414,796. Alguns sons de fala sem voz podem ser amostras de energia extremamente baixas que podem ser equivocadamente codificadas como ruído de fundo. Para evitar que isso ocorra, a inclinação espectral de amostras de baixa energia pode ser usada para distinguir a fala sem voz do ruído de fundo, como descrito na anteriormente mencionada Patente Norte Americana N2 5,414,796.
Após detectar a energia do quadro, o codificador de fala prossegue para o passo 404. No passo 404, o codificador de fala determina se a energia de quadro detectada é suficiente para classificar o quadro como contendo informação de fala. Se a energia de quadro detectada cai abaixo de um nível de limiar predefinido, o codificador de fala prossegue para o passo 406. No passo 406, o codificador de fala codifica o quadro como ruído de fundo (isto é, nenhuma fala ou silêncio). Em uma modalidade, o quadro de ruído de fundo é codificado à taxa de 1/8, ou 1 kbps. Se no passo 404, a energia de quadro detectada atingir ou exceder o nível de limiar predefinido, o quadro é classificado como fala e o codificador de fala prossegue para o passo 408.
No passo 408, o codificador de fala determina se o quadro é fala sem voz, isto é, o codificador de fala examina a periodicidade do quadro. Vários métodos conhecidos de determinação de periodicidade incluem, por exemplo, o uso de cruzamentos zero e o uso de funções de autocorrelação normalizada (NACFs). Em particular, o uso de cruzamentos zero e NACFs para detectar periodicidade é descrito na anteriormente mencionada Patente Norte Americana N2 5,911,128 e no Pedido de Patente Norte Americano N2 de Série 09/217,341. Além disso, os métodos usados acima para distinguir fala com voz da fala sem voz são incorporados nos padrões de Telecommunication Industry Association ínterim Standards TIA/EIA IS-127 e TIA/EIA IS- 733. Se o quadro for determinado para ser fala sem voz no passo 408, o codificador de fala prossegue para o passo 410. No passo 410, o codificador de fala codifica o quadro como fala sem voz. Em uma modalidade, quadros de fala sem voz são codificados a um quarto de taxa, ou 2,6 kbps. Se no passo 408, o quadro não for determinado para ser fala sem voz, o codificador de fala prossegue para o passo 412.
No passo 412, o codificador de fala determina se o quadro é fala de transição, usando métodos de detecção de periodicidade que são conhecidos na técnica, como descritos, por exemplo, na anteriormente mencionada Patente Norte Americana N2 5,911,128. Se o quadro for determinado para ser fala de transição, o codificador de fala prossegue para o passo 414. No passo 414, o quadro é codificado como fala de transição (isto é, transição da fala sem voz para a fala com voz). Em uma modalidade, o quadro de fala de transição é codificado de acordo com um método de codificação interpolativa de multipulso descrito no Pedido de Patente Norte Americano N2 de Série 09/307,294, intitulado "MULTIPULSE INTERPOLATIVE CODING OF TRANSITION SPEECH FRAMES", depositado em 7 de Maio de 1999, em nome da Requerente da presente invenção e aqui totalmente incorporadas por referência. Em outra modalidade, o quadro de fala de transição é codificado à taxa total, ou 13,2 kbps.
Se no passo 412, o codificador de fala determina que o quadro não é fala de transição, o codificador de fala prossegue para o passo 416. No passo 416, o codificador de fala codifica o quadro como fala com voz. Em uma modalidade, quadros de fala com voz podem ser codificados a meia taxa, ou 6,2 kbps. É também possível codificar quadros de fala com voz à taxa total, ou 13,2 kbps (ou taxa total, 8 kbps, em um codificador CELP de 8k). Aquele habilitado na técnica iria reconhecer, todavia, que codificar quadros com voz à meia taxa permite ao codificador salvar valiosa largura de banda pela exploração da essência estado constante dos quadros com voz. Ainda, independente da taxa usada para codificar a fala com voz, a fala com voz é codificada vantajosamente usando informação a partir dos quadros anteriores, e é portanto citada para ser codificada preditivamente.
Aquele habilitado na técnica iria reconhecer que ou o sinal de fala ou o correspondente residual LP pode ser codificado pelos seguintes passos mostrados na Figura 5. As características de forma de onda de ruído, de fala sem voz, de fala de transição e fala com voz podem ser vistas como uma função do tempo no gráfico da Figura 6A. As características de forma de onda de resíduo LP de ruído, do resíduo LP sem voz, do resíduo LP de transição, e do resíduo LP com voz podem ser vistas como uma função do tempo no gráfico da Figura 6B.
Em uma modalidade, um codificador de fala inclui uma seção de transmissão, ou sessão de codificador e uma seção de recepção, ou de decodificador, como ilustrado na Figura 7. A seção de codificador inclui um módulo de separação com voz/sem voz 1101, um quantizador de envelope de pitch/espectro 1102, um módulo de quantização sem voz 1103, e um módulo de extração de amplitude e fase 1104, um módulo de quantização de amplitude 1105, e um módulo de quantização de fase 1106. A seção de decodificador inclui um módulo de dequantização de amplitude 1107, um módulo de dequantização de fase 1108, um módulo de dequantização e síntese sem voz 1109, um módulo de síntese de segmento com voz 1110, um módulo de síntese de fala/residual 1111, e um dequantizador de envelope de pitch/espectro 1112. O codificador de fala pode ser implementado vantajosamente como parte de um DSP, e pode residir em, por exemplo, uma unidade de assinante ou estação base em um sistema de telefonia PCS ou celular, ou em uma unidade de assinante ou gateway em um sistema de satélite.
No codificador de fala da Figura 7, um sinal de fala ou um sinal residual LP é fornecido para a entrada do módulo de separação com voz/sem voz 1101, o qual é vantajosamente um classificador com voz/sem voz convencional. Tal classificador é vantajoso já que a percepção humana de fala com voz e sem voz difere substancialmente. Em particular, muitas das informações embutidas na fala sem voz são perceptivelmente irrelevantes aos ouvidos humanos. Como uma resultante, o espectro de amplitude dos segmentos com voz e sem voz deveríam ser quantizados separadamente para atingir máxima eficiência de codificação. Deveria ser notado que enquanto as modalidades descritas na presente são direcionadas para quantização do espectro de amplitude com voz, as características da presente invenção podem ser também aplicadas para quantizar fala sem voz. O quantizador de envelope de pitch/espectro 1102 computa a informação de envelope de pitch e espectral de acordo com técnicas convencionais, tais como as técnicas descritas com referência aos elementos 204, 206, e 210 da Figura 3, e transmite a informação ao decodificador. A parte sem voz é codificada e decodificada de maneira convencional no módulo de quantização sem voz 1103 e no módulo de dequantização sem voz 1109, respectivamente. Por outro lado, a parte com voz é primeiramente enviada ao módulo de extração de amplitude e fase 1104 para extração de amplitude e de fase. Tal procedimento de extração pode ser realizado em um número de modos convencionais conhecidos àquele habilitado na técnica. Por exemplo, um método particular de extração de amplitude e de fase e amplitude é a interpolação de protótipo de forma de onda, como descrito na Patente Norte Americana N° 5,884,253.
Neste método particular, a amplitude e a fase em cada quadro são extraídas a partir de uma forma de onda de protótipo possuindo um comprimento de um período de pitch.
Outros métodos tais quais aqueles usados no codificador de excitação de multibanda (MBE) e no codificador de fala harmônica podem ser também implementados pelo módulo de extração de amplitude e fase 1104. O módulo de análise de segmento com voz 1110 executa vantajosamente as operações inversas do módulo de extração de amplitude e fase 1104. O módulo de quantização de fase 1106 e o módulo de dequantização de fase 1108 podem ser implementados vantajosamente nos modos convencionais. A seguinte descrição com referência às Figuras 8 até Figura 10 serve para descrever em maiores detalhes, o módulo de quantização de amplitude 1105 e o módulo de dequantização de amplitude 1107.
Normalização de Energia Como mostrado na Figura 8, um módulo de quantização de amplitude de acordo com uma modalidade inclui o normalizador de energia de banda 1301, um quantizador diferencial de potência 1302, um subamostrador espectral não-uniforme 1303, um quantizador diferencial de amplitude de banda baixa 1304, um quantizador diferencial de amplitude de banda alta 1305, um dequantizador diferencial de amplitude de banda baixa 1306, um dequantizador diferencial de amplitude de banda alta 1307, um dequantizador diferencial de potência 1308, e um módulo de clonagem harmônica 1309 (mostrado duas vezes com o objetivo de maior clareza no desenho). Quatro elementos de atraso unitário estão também incluídos no módulo de quantização de amplitude. Como mostrado na Figura 9, um módulo de dequantização de amplitude de acordo com uma modalidade inclui um dequantizador diferencial de amplitude de banda baixa 1401, um dequantizador diferencial de amplitude de banda alta 1402, um integrador espectral 1403, um interpolador espectral não-uniforme 1404, um desnormalizador de energia de banda 1405, um dequantizador diferencial de potência 1406, e um módulo de clonagem harmônica 1407 (mostrado duas vezes com o objetivo de maior clareza no desenho). Quatro elementos de atraso unitário estão também incluídos no módulo de dequantização de amplitude. O primeiro passo no processo de quantização de amplitude é determinar os fatores de normalização de ganho operados no normaiizador de energia de banda 1301.
Tipicamente, a forma dos espectros de amplitude pode ser codificada mais eficientemente no quantizador diferencial de amplitude de banda baixa 1304 e no quantizador diferencial de amplitude de banda alta 1305 se os espectros de amplitude estiverem primeiramente normalizados. No normaiizador de energia de banda 1301, a normalização de energia é executada separadamente na banda baixa e na banda alta. A relação entre um espectro não-normalizado (indicado com {Ak} ) e um espectro normalizado (indicado com {Ãk} ) é expressa em termos de dois fatores de ganho, α e β.
Especificamente, onde Ãk = aAk V k e Κχ Ãk = pAk Vk e K2 Ki representa um conjunto de números harmônicos correspondentes à banda baixa, e K2 representa um conjunto de números harmônicos correspondentes à banda alta. A delimitação separando a banda baixa e banda alta é escolhida vantajosamente para estar em 1104Hz na modalidade ilustrativa. (Como descrito a seguir, este ponto de freqüência particular verdadeiramente corresponde ao canto direito da banda n- 11, como mostrado na Figura 10). O gráfico da Figura 11B mostra um exemplo do espectro de amplitude normalizado. 0 espectro de amplitude original é mostrado no gráfico da Figura 11A.
Subamostragem Espectral Não-uniforme 0 espectro normalizado {Ãk} gerado pelo normalizador de energia de banda 1301 é fornecido para o subamostrador espectral não-uniforme 1303, cuja operação é baseada em um conjunto de bandas não-uniformes predeterminadas, como ilustrado na Figura 10. Existem, vantajosamente, vinte e duas bandas não-uniformes (também conhecidas como intervalos de freqüência) no alcance total de freqüências, e as bordas dos intervalos correspondem a pontos fixos na escala de freqüência (Hz). Nota-se que o tamanho das primeiras oito bandas é fixado vantajosamente nas proximidades de noventa e cinco Hz, ao passo que os tamanhos das bandas remanescentes aumentam de forma logarítmica com freqüência. Entende-se que o número de bandas e os tamanhos de banda não necessitam ser restritos às modalidades aqui descritas e podem ser alteradas sem desviar dos princípios fundamentais da presente invenção. O processo de subamostragem trabalha como a seguir. Cada harmônico Ãk é primeiramente associado com um intervalo de freqüência. Então, uma magnitude média dos harmônicos em cada intervalo é computado. O espectro resultante se torna um vetor de vinte e dois valores espectrais, denotado B(i), i = 1, 2, ..., 22. Observa-se que alguns intervalos podem estar vazios, particularmente para pequenos valores de atraso. 0 número de harmônicos em um espectro depende da freqüência fundamental. O menor valor permissível de pitch, em sistemas de codificação de fala típicos, é fixado vantajosamente para vinte (assumindo uma freqüência de amostragem de oito kHz), o qual corresponde a somente onze harmônicos. Portanto, intervalos vazios são inevitáveis.
Para facilitar o projeto e pesquisa do livro- código na presença de intervalos vazios, um parâmetro chamado peso de intervalo, W(i), i = 1, 2, 22, é designado para rastrear os intervalos vazios. 0 parâmetro W(i) é fixado vantajosamente em zero para intervalos vazios e em uma unidade para intervalos ocupados. Esta informação de peso de intervalo pode ser usada em rotinas VQ convencionais a fim de descartar intervalos vazios durante a pesquisa e preparo do livro-código. Observa-se que {W(i)> é uma função somente da freqüência fundamental. Portanto, nenhuma informação de peso de intervalo precisa ser transmitida ao decodificador. O subamostrador não-uniforme 1303 serve para dois importantes propósitos. Primeiramente, o vetor de amplitude de dimensão variável é mapeado em um vetor de dimensão fixada com os correspondentes pesos de intervalo. Deste modo, técnicas de VQ convencionais podem ser aplicadas para quantizar o vetor subamostrado. Segundo, a aproximação de intervalo não-uniforme explora o fato de que o ouvido humano possui uma resolução de freqüência que é uma função não-linear da escala de freqüência (similar à escala de latido). Muitas das informações perceptivelmente irrelevantes são descartadas durante o processo de subamostragem para aumentar a eficiência de codificação.
Quantização de Fatores de Ganho Como é bem conhecido na técnica, o logaritmo da potência de sinal é perceptivelmente mais relevante que a própria potência de sinal. Deste modo, a quantização dos dois fatores de ganho, α e β, é executada no domínio logarítmico de um modo diferente. Por causa dos erros de canal, é vantajoso injetar uma pequena quantidade de dispersão no quantizador diferencial. Deste modo, α e β podem ser quantizados e dequantizados pelo quantizador diferencial de potência 1302 e pelo dequantizador diferencial de potência 1308, respectivamente, de acordo com a seguinte expressão: l°g(«v)lpg(Â) = P lQg(<Vj) log(/L )]+e[log(«w)-plog(âw.l)log(βΝ) -plog(βΝ_,) onde N - 1 e N indicam os tempos de dois fatores de ganho extraídos sucessivamente, e Q(.) representa a operação de quantização diferencial. 0 parâmetro p funciona como um fator de dispersão para evitar propagação de erro de canal indefinida. Em sistemas de codificação de fala típicos, o valor p varia entre 0,6 e 0,99. A equação mostrada acima exemplifica um processo de auto-regresso (AR). Do mesmo modo, um esquema de movimento médio (MA) pode ser também aplicado para reduzir a sensibilidade a erros de canal.
Diferente do processo AR, a propagação de erro é limitada pela estrutura de decodificador não-recursiva em um esquema MA.
Um livro-código de tamanho sessenta e quatro ou 128 é suficiente para quantizar α e β com excelente qualidade. O índice de livro-código Ip0wer resultante é transmitido ao decodificador. Com referência também à Figura 9, o dequantizador diferencial de potência 1406 no decodificador é vantajosamente idêntico ao dequantizador diferencial de potência 1308 no codificador, e o desnormalizador de energia de banda 1405 no decodificador executa vantajosamente a operação reversa do normalizador de energia de banda 1301 no codificador.
Quantização de Forma Espectral Após a subamostragem espectral ser executada pelo subamostrador espectral não-uniforme 1301, {B(i)> é dividido em dois conjuntos antes de ser quantizado. A banda baixa {B(i=l,2,...,11)} é fornecida para o quantizador diferencial de amplitude de banda baixa 1304. A banda alta {B(i=12,...,22)} é fornecida para o quantizador diferencial de amplitude de banda alta 1305. A banda alta e a banda baixa são cada qual quantizadas em um modo diferencial. 0 vetor diferencial é computado de acordo com a seguinte equação: ΔΒν = Bn ~ Av-j onde Bn_} representa a versão quantizada do vetor anterior.
Quando existe uma discrepância entre os dois vetores de peso correspondentes (isto é, WN Φ WN_i, causado por uma discrepância de atraso entre os espectros anterior e o atual), o ABn resultante pode conter valores errados que reduziriam a performance do quantizador. Por exemplo, se o atraso anterior Lprev for quarenta e três e o atraso atual Lcurr for quarenta e quatro, os correspondentes vetores de peso computados de acordo com o esquema de alocação mostrados na Figura 10 deverão ser: W„-i = {0,0,1,0,1,0,1,1,0,1,...} Wn = {0,1,0,1,0,1,0,1,0,1,...} Neste caso, valores errôneos deverão ocorrer em i = 2,4,6 em ABn (i), onde a seguinte expressão booleana é verdadeira: W„(i) = 1 n WN_i(i) = 0 Observa-se que o outro tipo de má comparação, WN(i) = 0 n WN_i(i) = 1, ocorrendo em i = 3,5,7 neste exemplo, não afetaria a performance do quantizador. Por estes conjuntos de intervalos terem pesos zero de qualquer modo (isto é, WN(i) = 0), estes conjuntos de intervalos seriam automaticamente ignorados nos procedimentos de busca ponderada convencionais.
Em uma modalidade, uma técnica referenciada como clonagem harmônica é usada para manusear vetores de peso nao combinado. A técnica de clonagem harmônica modifica para > de tal m°do que todos os conjuntos de intervalos vazios em são temporariamente enchidos pelos harmônicos, antes de computar ABN . Os harmônicos são clonados a partir dos vizinhos posicionados a direita se Lprev < Lcurr. Os harmônicos são clonados a partir dos vizinhos posicionados a esquerda se Lprev > Lcurr. 0 processo de clonagem harmônica é ilustrado pelo exemplo seguinte.
Suponha-se que |Av-i) tenha valores de espectro W, X, Y, Z, ... para os primeiros quatro intervalos não vazios. Usando o mesmo exemplo acima (Lprev = 43 e Lcurr = 44), pode ser computado pela clonagem a partir dos vizinhos posicionados a direita (porque Lprev < Lcurr) : clone a partir da direita Bn_x = {0, 0, W, 0, X, 0, Y, 0, z,...} B\-X = íw' w' x> x, Y> Y, z, Z,...} onde 0 significa um intervalo vazio.
Se o vetor BN for Bn = {0, A, 0, B, 0, C, 0, D, 0,...} Então, ΔΒν = {0, A-W, 0, B-X, 0, C-Y, 0, D-Z, 0,...} A clonagem harmônica é implementada tanto no codificador quanto no decodificador, especificamente nos módulos de clonagem harmônica 1309 e 1407. Em modo semelhante ao do caso do quantizador de ganho 1302, um fator de dispersão p pode ser aplicado à quantizaçao espectral para evitar propagação de erro indefinida na presença de erros de canal. Por exemplo, ΔΒν pode ser obtida por: Também, para obter melhor performance, o quantizador diferencial de amplitude de banda baixa 1304 e o quantizador diferencial de amplitude de banda alta 1305 podem empregar ponderação espectral na computação do critério de erro em um modo semelhante ao usado convencionalmente para quantizar o sinal residual em um codificador CELP.
Os índices Iampi e IamP2 são os índices de livro- código de banda baixa e de banda alta que são transmitidos ao decodificador. Em uma modalidade particular, ambos os quantizadores diferenciais de amplitude 1304 e 1305, requerem um total de aproximadamente doze bits (600 bps) para alcançar qualidade de taxa de saída.
No decodificador, o interpolador espectral não- uniforme 1404 interpola os vinte e dois valores de espectro para as suas dimensões originais (o número de elementos no vetor muda para vinte e dois na subamostragem, e retorna ao número original na interpolação). Sem aumentar significativamente a complexidade computacional, tal interpolação pode ser executada por técnicas de interpolação linear convencionais. Os gráficos das Figuras 11A-C exemplificam um espectro interpolado. Observa-se que o dequantizador diferencial de amplitude de banda baixa 1401 e o dequantizador diferencial de amplitude de banda alta 1402 no decodificador são vantajosamente idênticos aos seus respectivos correspondentes no codificador, o dequantizador diferencial de amplitude de banda baixa 1306 e o dequantizador diferencial de amplitude de banda alta 1307 .
As modalidades descritas acima desenvolvem uma técnica de quantização de amplitude nova que aproveita totalmente a resolução de freqüência não-linear do ouvido humano, e ao mesmo tempo alivia o uso da dimensão variável VQ. Uma técnica de codificação incorporando características da presente invenção foi aplicada com sucesso a um sistema de codificação de fala PWI, exigindo tão pouco quanto dezoito bits/quadro (900 bps) para representar o espectro de amplitude de uma forma de onda de protótipo para atingir a saída com qualidade de taxa (com espectros de fase não- quantizados) . Como aquele habilitado na técnica iria prontamente reconhecer, uma técnica de quantização incorporando características da presente invenção podería ser aplicado a qualquer forma de informação espectral, e não precisa estar restrita a informação de espectro de amplitude. Como aquele habilitado na técnica iria reconhecer ainda, os princípios da presente invenção não estão restritos a sistemas de codificação de fala PWI, mas são também aplicáveis a muitos outros algoritmos de codificação de fala possuindo espectro de amplitude como um parâmetro de codificação explícito, tal como, por exemplo, MBE e STC.
Enquanto um número de modalidades específicas têm sido mostradas e descritas aqui, compreende-se que estas modalidades são meramente ilustrativas das muitas formações específicas possíveis que podem ser idealizadas na aplicação dos princípios da presente invenção. Numerosas e variadas outras formações podem ser idealizadas de acordo com estes princípios por aquele habilitado na técnica sem desviar do conceito inventivo e do escopo da invenção. Por exemplo, uma leve modificação das extremidades de banda (ou do tamanho dos intervalos) na representação de banda não- uniforme mostrada na Figura 10 pode não causar uma diferença significante na qualidade de fala resultante.
Também, a freqüência de partição que separa o espectro de banda baixa e alta no quantizador diferencial de amplitude de banda baixa e no quantizador diferencial de amplitude de banda alta mostrados na Figura 8 (a qual, em uma modalidade, é fixa em 1104 Hz) pode ser alterada, sem muito impacto, na qualidade perceptível resultante. Além disso, embora as modalidades descritas acima tenham sido direcionadas a um método para uso na codificação de amplitudes em sinais de fala ou de residuais, é óbvio, para aquele habilitado na técnica, que as técnicas da presente invenção podem também ser aplicadas à codificação de sinais de áudio.
Deste modo, um novo esquema de quantização de amplitude para codificadores de fala de baixa taxa de bits foi descrito. Aquele habilitado na técnica iria compreender que os vários blocos lógicos ilustrativos e passos de algoritmos descritos em conexão com as modalidades reveladas aqui podem ser implementados ou executados com um processador de sinal digital (DSP), com um circuito integrado de aplicação específica (ASIC), com porta discreta ou lógica de transistor, componentes discretos de hardware tais como, por exemplo, registros e FIFO, um processador executando um conjunto de instruções de firmware, ou qualquer módulo de software programável convencional e um processador. O processador pode ser vantajosamente um microprocessador, mas na alternativa, o processador pode ser qualquer processador, controlador, microcontrolador, ou máquina de estado convencionais. O módulo de software podería residir na memória RAM, na memória rápida, nos registradores, ou em qualquer outra forma de mídia de armazenamento registrável conhecida na técnica. Aquele habilitado na técnica iria reconhecer ainda que os dados, as instruções, os comandos, as informações, os sinais, os bits, os símbolos e os chips, que podem ser referenciados através da descrição acima, são representados vantajosamente por tensões, correntes, ondas eletromagnéticas, campos ou partículas magnéticos, campos ou partículas ópticas, ou qualquer combinação destes.
As modalidades preferidas da presente invenção foram, deste modo, mostradas e descritas. Deveria estar claro por aquele versado na técnica, todavia, que numerosas alterações podem ser feitas às modalidades aqui reveladas sem desviar do conceito inventivo e do escopo da invenção.
Portanto, a presente invenção não deverá ser limitada exceto de acordo com as reivindicações apensas.

Claims (28)

1. Método para quantizar informações espectrais em um codificador de fala, CARACTERIZADO pelo fato de que compreende as etapas de: extrair um vetor de informação espectral de dimensão variável a partir de um quadro, o vetor possuindo um valor de energia de vetor; normalizar (1301) o vetor de informação espectral para gerar um vetor normalizado de informação espectral, a normalização (1301) compreendendo: normalizar separadamente o vetor de informação espectral na primeira e segunda sub-bandas para determinar um componente da informação espectral para cada uma das sub-bandas; determinar um fator de ganho para cada uma das sub-bandas; e multiplicar cada um dos componentes da informação espectral pelos seus respectivos fatores de ganho; quantizar (1302) diferencialmente por vetor os fatores de ganho; subamostrar (1303) não-uniformemente o vetor normalizado de informação espectral para gerar um vetor de dimensão fixada possuindo uma pluralidade de elementos associados com uma respectiva pluralidade de bandas de freqüência não-uniformes; dividir o vetor de dimensão fixada em um subvetor para cada uma das sub-bandas; quantizar (1304, 1305) diferencialmente a pluralidade de subvetores; e em que a etapa de subamostrar não-uniformemente compreende as etapas de associar uma pluralidade de harmônicos com a pluralidade de bandas de freqüência não- uniformes, e computar uma magnitude média dos harmônicos em cada banda de freqüência, e em que os elementos do vetor de dimensão fixada são os valores de magnitude harmônica médios determinados para cada banda de freqüência.
2. Método, de acordo com a reivindicação 1 CARACTERIZADO pelo fato de que compreende também a etapa de formar um vetor de peso de banda de freqüência para rastrear localizações de elementos correspondentes às bandas de freqüência vazias.
3. Método, de acordo com a reivindicação 1, CARACTERI ZADO pelo fato de que a etapa de extrair compreende extrair um vetor de informação espectral de amplitude.
4. Método, de acordo com a reivindicação 1, CARACTERI ZADO pelo fato de que o quadro é um quadro de fala.
5. Método, de acordo com a reivindicação 1, CARACTERI ZADO pelo fato de que o quadro é um quadro residual de predição linear.
6. Método, de acordo com a reivindicação 1, CARACTERI ZADO pelo fato de que a etapa de normalizar compreende normalizar o valor de energia de vetor usando duas das sub-bandas para gerar dois fatores de ganho.
7. Método, de acordo com a reivindicação 1, CARACTERI ZADO pelo fato de que a etapa de quantizar diferencialmente por vetor (1302) é executada no domínio logaritmico.
8. Método, de acordo com a reivindicação 1, CARACTERI ZADO pelo fato de que a etapa de quantizar diferencialmente por vetor (1302) compreende também a etapa de minimizar dispersão durante a quantização para evitar propagação de erros de canal indefinida.
9. Método, de acordo com a reivindicação 1, CARACTERI ZADO pelo fato de que a pluralidade de bandas de freqüência não-uniformes compreende vinte e duas bandas de freqüência não-uniformes.
10. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que a etapa de quantizar diferencialmente (1304, 1305) compreende realizar clonagem harmônica (1309) nos vetores de peso não combinado, em que os harmônicos são clonados a partir dos vizinhos posicionados a direita se Lprev. < Lcurr ou os harmônicos são clonados a partir dos vizinhos posicionados a esquerda se Lprev. ^ ^ουΓΓ ·
11. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que a etapa de quantizar diferencialmente (1304, 1305) também compreende a etapa de minimizar dispersão durante a quantização para evitar propagação de erros de canal indefinida.
12. Método, de acordo com a reivindicação 1, CARACTERI ZADO pelo fato de que a etapa de quantizar diferencialmente (1304, 1305) também compreende a etapa de computar critérios de erro com uma técnica de ponderação espectral.
13. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que também compreende as etapas de decodificar os fatores de ganho para gerar fatores de ganho decodificados, decodificar valores quantizados resultantes a partir da etapa de quantizar diferencialmente para gerar informações espectrais normalizadas decodificadas, interpolar (1404) as informações espectrais normalizadas decodificadas, e desnormalizar (1405) as informações espectrais interpoladas, decodificadas, normalizadas com os fatores de ganho decodificados.
14. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que o codificador de fala reside em uma unidade de assinante (10) de um sistema de comunicação sem fio.
15. Codificador de fala, CARACTERIZADO pelo fato de que compreende: dispositivo para extrair um vetor de informação espectral de dimensão variável a partir de um quadro, o vetor possuindo um valor de energia de vetor; dispositivo (1301) para normalizar o vetor de informação espectral para gerar um vetor normalizado de informação espectral, o dispositivo para normalizar compreendendo: dispositivo para normalizar separadamente o vetor de informação espectral na primeira e segunda sub- bandas para determinar um componente da informação espectral para cada uma das sub-bandas; dispositivo para determinar um fator de ganho para cada uma das sub-bandas; e dispositivo para multiplicar cada um dos componentes da informação espectral pelos seus respectivos fatores de ganho; dispositivo para quantizar (1302) diferencialmente por vetor os fatores de ganho; dispositivo para subamostrar (1303) não- uniformemente o vetor normalizado de informação espectral para gerar um vetor de dimensão fixada possuindo uma pluralidade de elementos associados com uma respectiva pluralidade de bandas de freqüência não-uniformes; dispositivo para dividir o vetor de dimensão fixada em um subvetor para cada uma das sub-bandas; dispositivo para quantizar (1304, 1305) diferencialmente a pluralidade de subvetores; e em que o dispositivo para subamostrar não- unif ormemente compreende dispositivo para associar uma pluralidade de harmônicos com a pluralidade de bandas de freqüência não-uniformes, e dispositivo para computar uma magnitude média dos harmônicos em cada banda de freqüência, e onde os elementos do vetor de dimensão fixada são os valores de magnitude harmônica médios determinados para cada banda de freqüência.
16. Codificador de fala, de acordo com a reivindicação 15, CARACTERIZADO pelo fato de que também compreende dispositivo para formar um vetor de peso de banda de freqüência para rastrear localizações de elementos correspondentes às bandas de freqüência vazias.
17. Codificador de fala, de acordo com a reivindicação 15, CARACTERI ZADO pelo fato de que o dispositivo para extrair compreende dispositivo para extrair um vetor de informação espectral de amplitude.
18. Codificador de fala, de acordo com a reivindicação 15, CARACTERIZADO pelo fato de que o quadro é um quadro de fala.
19. Codificador de fala, de acordo com a reivindicação 15, CARACTERIZADO pelo fato de que o quadro é um quadro residual de predição linear.
20. Codificador de fala, de acordo com a reivindicação 15, CARACTERI ZADO pelo fato de que o dispositivo para normalizar compreende dispositivo para normalizar o valor de energia de vetor usando duas das sub- bandas para gerar dois fatores de ganho.
21. Codificador de fala, de acordo com a reivindicação 15, CARACTERI ZADO pelo fato de que o dispositivo para quantizar diferencialmente por vetor (1302) compreende dispositivo para quantizar diferencialmente por vetor no domínio logarítmico.
22. Codificador de fala, de acordo com a reivindicação 15, CARACTERI ZADO pelo fato de que o dispositivo para quantizar diferencialmente por vetor (1302) também compreende dispositivo para minimizar dispersão durante a quantização para evitar propagação de erros de canal indefinida.
23. Codificador de fala, de acordo com a reivindicação 15, CARACTERIZADO pelo fato de que a pluralidade de bandas de freqüência não-uniformes compreende vinte e duas bandas de freqüência não-uniformes.
24. Codificador de fala, de acordo com a reivindicação 15, CARACTERI ZADO pelo fato de que o dispositivo para quantizar diferencialmente (1304, 1305) compreende dispositivo (1309) para executar clonagem harmônica nos vetores de peso não combinado, em que os harmônicos são clonados a partir dos vizinhos posicionados a direita se Lprev < LCUrr ou os harmônicos são clonados a partir dos vizinhos posicionados a esquerda se Lprev > LCUrr·
25. Codificador de fala, de acordo com a reivindicação 15, CARACTERI ZADO pelo fato de que o dispositivo para quantizar diferencialmente (1304, 1305) também compreende dispositivo para minimizar dispersão durante a quantização para evitar propagação de erros de canal indefinida.
26. Codificador de fala, de acordo com a reivindicação 15, CARACTERI ZADO pelo fato de que o dispositivo para quantizar diferencialmente (1304, 1305) também compreende dispositivo para computar critérios de erro com uma técnica de ponderação espectral.
27. Codificador de fala, de acordo com a reivindicação 15, CARACTERI ZADO pelo fato de que também compreende dispositivo para decodificar os fatores de ganho para gerar fatores de ganho decodificados, e para decodificar valores quantizados gerados pelo dispositivo para quantizar diferencialmente para gerar informações espectrais normalizadas decodificadas, dispositivo para interpolar (1404) as informações espectrais normalizadas decodificadas, e dispositivo para desnormalizar (1405) as informações espectrais interpoladas, decodificadas, normalizadas com os fatores de ganho decodificados.
28. Codificador de fala, de acordo com a reivindicação 15, CARACTERIZADO pelo fato de que o codificador de fala reside em uma unidade assinante (10) de um sistema de comunicação sem fio.
BRPI0012542-3A 1999-07-19 2000-07-18 Método para quantizar informações espectrais em um codificador de fala, bem como, codificador de fala BRPI0012542B1 (pt)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/356,756 US6324505B1 (en) 1999-07-19 1999-07-19 Amplitude quantization scheme for low-bit-rate speech coders
PCT/US2000/019602 WO2001006493A1 (en) 1999-07-19 2000-07-18 Spectral magnitude quantization for a speech coder

Publications (2)

Publication Number Publication Date
BR0012542A BR0012542A (pt) 2002-11-26
BRPI0012542B1 true BRPI0012542B1 (pt) 2015-07-07

Family

ID=23402824

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0012542-3A BRPI0012542B1 (pt) 1999-07-19 2000-07-18 Método para quantizar informações espectrais em um codificador de fala, bem como, codificador de fala

Country Status (13)

Country Link
US (1) US6324505B1 (pt)
EP (1) EP1204969B1 (pt)
JP (1) JP4659314B2 (pt)
KR (2) KR100898323B1 (pt)
CN (1) CN1158647C (pt)
AT (1) ATE324653T1 (pt)
AU (1) AU6353600A (pt)
BR (1) BRPI0012542B1 (pt)
CY (1) CY1106119T1 (pt)
DE (1) DE60027573T2 (pt)
ES (1) ES2265958T3 (pt)
HK (1) HK1047817A1 (pt)
WO (1) WO2001006493A1 (pt)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6418408B1 (en) * 1999-04-05 2002-07-09 Hughes Electronics Corporation Frequency domain interpolative speech codec system
KR100434538B1 (ko) * 1999-11-17 2004-06-05 삼성전자주식회사 음성의 천이 구간 검출 장치, 그 방법 및 천이 구간의음성 합성 방법
US7260523B2 (en) * 1999-12-21 2007-08-21 Texas Instruments Incorporated Sub-band speech coding system
GB0005515D0 (en) * 2000-03-08 2000-04-26 Univ Glasgow Improved vector quantization of images
AU2001253752A1 (en) * 2000-04-24 2001-11-07 Qualcomm Incorporated Method and apparatus for predictively quantizing voiced speech
US6937979B2 (en) * 2000-09-15 2005-08-30 Mindspeed Technologies, Inc. Coding based on spectral content of a speech signal
US6947888B1 (en) * 2000-10-17 2005-09-20 Qualcomm Incorporated Method and apparatus for high performance low bit-rate coding of unvoiced speech
US7606703B2 (en) * 2000-11-15 2009-10-20 Texas Instruments Incorporated Layered celp system and method with varying perceptual filter or short-term postfilter strengths
US6996523B1 (en) * 2001-02-13 2006-02-07 Hughes Electronics Corporation Prototype waveform magnitude quantization for a frequency domain interpolative speech codec system
US6931373B1 (en) * 2001-02-13 2005-08-16 Hughes Electronics Corporation Prototype waveform phase modeling for a frequency domain interpolative speech codec system
US7013269B1 (en) * 2001-02-13 2006-03-14 Hughes Electronics Corporation Voicing measure for a speech CODEC system
WO2002097796A1 (en) * 2001-05-28 2002-12-05 Intel Corporation Providing shorter uniform frame lengths in dynamic time warping for voice conversion
KR100841096B1 (ko) * 2002-10-14 2008-06-25 리얼네트웍스아시아퍼시픽 주식회사 음성 코덱에 대한 디지털 오디오 신호의 전처리 방법
US7272557B2 (en) * 2003-05-01 2007-09-18 Microsoft Corporation Method and apparatus for quantizing model parameters
BRPI0510400A (pt) * 2004-05-19 2007-10-23 Matsushita Electric Ind Co Ltd dispositivo de codificação, dispositivo de decodificação e método dos mesmos
EP1814438B8 (en) * 2004-11-08 2009-04-01 Koninklijke Philips Electronics N.V. Safe identification and association of wireless sensors
KR100851970B1 (ko) * 2005-07-15 2008-08-12 삼성전자주식회사 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치
CN101317218B (zh) * 2005-12-02 2013-01-02 高通股份有限公司 用于频域波形对准的系统、方法和设备
KR101244310B1 (ko) * 2006-06-21 2013-03-18 삼성전자주식회사 광대역 부호화 및 복호화 방법 및 장치
US9454974B2 (en) * 2006-07-31 2016-09-27 Qualcomm Incorporated Systems, methods, and apparatus for gain factor limiting
JP5096474B2 (ja) * 2006-10-10 2012-12-12 クゥアルコム・インコーポレイテッド オーディオ信号を符号化及び復号化する方法及び装置
CN101483495B (zh) * 2008-03-20 2012-02-15 华为技术有限公司 一种背景噪声生成方法以及噪声处理装置
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US8768690B2 (en) * 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
CN101630509B (zh) * 2008-07-14 2012-04-18 华为技术有限公司 一种编解码方法、装置及系统
KR101301245B1 (ko) * 2008-12-22 2013-09-10 한국전자통신연구원 스펙트럼 계수의 서브대역 할당 방법 및 장치
DE112010003461B4 (de) * 2009-08-28 2019-09-05 International Business Machines Corporation Vorrichtung zur Extraktion von Sprachmerkmalen, Verfahren zur Extraktion von Sprachmerkmalen und Programm zur Extraktion von Sprachmerkmalen
CN102598123B (zh) * 2009-10-23 2015-07-22 松下电器(美国)知识产权公司 编码装置、解码装置及其方法
US8990094B2 (en) * 2010-09-13 2015-03-24 Qualcomm Incorporated Coding and decoding a transient frame
US9443529B2 (en) 2013-03-12 2016-09-13 Aawtend, Inc. Integrated sensor-array processor
US10049685B2 (en) 2013-03-12 2018-08-14 Aaware, Inc. Integrated sensor-array processor
US10204638B2 (en) 2013-03-12 2019-02-12 Aaware, Inc. Integrated sensor-array processor
KR20150032390A (ko) * 2013-09-16 2015-03-26 삼성전자주식회사 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법
CN105684315B (zh) * 2013-11-07 2020-03-24 瑞典爱立信有限公司 用于编码的矢量分段的方法和设备
US9628266B2 (en) * 2014-02-26 2017-04-18 Raytheon Bbn Technologies Corp. System and method for encoding encrypted data for further processing
JP6724932B2 (ja) * 2018-01-11 2020-07-15 ヤマハ株式会社 音声合成方法、音声合成システムおよびプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0815261B2 (ja) * 1991-06-06 1996-02-14 松下電器産業株式会社 適応変換ベクトル量子化符号化法
DE69232202T2 (de) * 1991-06-11 2002-07-25 Qualcomm Inc Vocoder mit veraendlicher bitrate
JP3237178B2 (ja) * 1992-03-18 2001-12-10 ソニー株式会社 符号化方法及び復号化方法
US5884253A (en) 1992-04-09 1999-03-16 Lucent Technologies, Inc. Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter
US5581653A (en) 1993-08-31 1996-12-03 Dolby Laboratories Licensing Corporation Low bit-rate high-resolution spectral envelope coding for audio encoder and decoder
US5517595A (en) 1994-02-08 1996-05-14 At&T Corp. Decomposition in noise and periodic signal waveforms in waveform interpolation
TW295747B (pt) * 1994-06-13 1997-01-11 Sony Co Ltd
JP3353266B2 (ja) * 1996-02-22 2002-12-03 日本電信電話株式会社 音響信号変換符号化方法

Also Published As

Publication number Publication date
KR100898324B1 (ko) 2009-05-20
EP1204969A1 (en) 2002-05-15
JP2003505724A (ja) 2003-02-12
DE60027573D1 (de) 2006-06-01
CY1106119T1 (el) 2011-06-08
US6324505B1 (en) 2001-11-27
CN1375096A (zh) 2002-10-16
ATE324653T1 (de) 2006-05-15
KR20070087222A (ko) 2007-08-27
BR0012542A (pt) 2002-11-26
DE60027573T2 (de) 2007-04-26
KR20020013965A (ko) 2002-02-21
KR100898323B1 (ko) 2009-05-20
HK1047817A1 (en) 2003-03-07
ES2265958T3 (es) 2007-03-01
JP4659314B2 (ja) 2011-03-30
AU6353600A (en) 2001-02-05
WO2001006493A1 (en) 2001-01-25
EP1204969B1 (en) 2006-04-26
CN1158647C (zh) 2004-07-21

Similar Documents

Publication Publication Date Title
BRPI0012542B1 (pt) Método para quantizar informações espectrais em um codificador de fala, bem como, codificador de fala
KR100804461B1 (ko) 보이스화된 음성을 예측적으로 양자화하는 방법 및 장치
JP4782332B2 (ja) 音声符号器における目標ビットレートを維持する方法および装置
JP4861271B2 (ja) 位相スペクトル情報をサブサンプリングする方法および装置
JP2004501391A (ja) 可変レート音声符号器におけるフレーム消去補償方法
KR100752797B1 (ko) 음성 코더에서 선 스펙트럼 정보 양자화법을 인터리빙하는 방법 및 장치
ES2276690T3 (es) Particion de espectro de frecuencia de una forma de onda prototipo.

Legal Events

Date Code Title Description
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 07/07/2015, OBSERVADAS AS CONDICOES LEGAIS.