BRPI0715978A2

BRPI0715978A2 - quadros de alinhamento temporal de vocoder de banda larga

Info

Publication number: BRPI0715978A2
Application number: BRPI0715978-1A
Authority: BR
Inventors: Rohit Kapoor; Diaz Serafin Spindola
Original assignee: Qualcomm Inc
Priority date: 2006-08-22
Filing date: 2007-08-06
Publication date: 2013-08-06
Also published as: RU2009110202A; TW200822062A; CN101506877B; CA2659197C; TWI340377B; JP2010501896A; WO2008024615A2; KR101058761B1; RU2414010C2; CN101506877A; US8239190B2; CA2659197A1; US20080052065A1; KR20090053917A; EP2059925A2; WO2008024615A3; JP5006398B2

Abstract

"QUADROS DE ALINHAMENTO TEMPORAL DE VOCODER DE BANDA LARGA". Um método de comunicar fala compreendendo alinhamento temporal de um sinal de fala de banda baixa residual para uma versão expandida ou comprimida do sinal de fala de banda baixa residual, alinhamento temporal de um sinal de fala de banda alta para uma versão expandida ou comprimida do sinal de fala de banda alta, e fundindo os sinais de fala de banda baixa e banda alta com alinhamento temporal para fornecer um sinal de fala com alinhamento temporal inteiro.Na banda baixa, o sinal de fala de banda baixa residual é sintetizado após alinhamento temporal do sinal de banda baixa residual enquanto na banda alta, um sinal de banda alta não alinhada é sintetizado antes de alinhamento temporal do sinal de fala de banda alta. O método pode compreender ainda classificar segmentos de fala e codificar os segmentos de fala. A codificação dos segmentos de fala pode ser uma entre predição linear excitada por código, predição linear excitada por ruído ou codificação de quadro 1/8 (silêncio).

Description

"quadros de alinhamento temporal de vocoder de banda larga" fundamentos

CAMPO

A presente invengao refere-se geralmente a alinhamento temporal, isto e, expansao ou compressao, quadros em urn vocoder e, em particular, a metodos de alinhamento temporal de quadros em um vocoder de banda larga. FUNDAMENTOS

Alinhamento temporal tem diversas aplicag£>es em redes comutadas por pacote onde pacotes de vocoder podem chegar de forma assincrona. Embora ο alinhamento temporal possa ser executado dentro ou fora do vocoder, a execugao no vocoder oferece diversas vantagens como melhor qualidade de quadros alinhados e carga computacional reduzida·

somario

A invengao compreende um equipamento e metodo de alinhamento temporal de quadros de fala por manipular um sinal de fala. Em um aspecto, e revelado um metodo de alinhamento temporal de quadros de Predigao Linear excitada por c0digo (CELP) e Predigao Linear excitada por ruido (NELP) de um vocoder de banda larga de Vocoder de Quarta geragao (4GV). Mais especificamente, para quadros CELP, ο metodo mantem uma fase de fala por adigao ou delegao de periodos de pitch para expandir ou comprimir fala, respectivamente. Com esse metodo, ο sinal de banda mais baixa pode sofrer alinhamento temporal no residual, isto e, antes de sintese, enquanto ο sinal de banda mais alta pode sofrer alinhamento temporal apos sintese no dominio de 8 kHz· O metodo revelado pode ser aplicado em qualquer vocoder de banda larga que utiliza CELP e/ou NELP para a banda baixa e/ou utiliza uma tecnica de banda dividida para codificar as bandas inferior e superior separadamente. Deve ser observado que ο nome de padrao para banda larga 4GV e EVRC-C.

Em vista do acima, as caracteristicas descritas da invengao se referem, genericamente, a um ou ma is sistemas, metodos e/ou equipamentos aperfeigoados para comunicagao de fala. Em uma modalidade, a invengao compreende um metodo de comunicar fala compreendendo alinhamento temporal de um sinal de fala de banda baixa residua丄 para uma versao expandida ou comprimida do sinal de fala de banda baixa residual, alinhamento temporal de um sinal de fala de banda alta para uma versao expandida ou comprimida do sinal de fala de banda alta, e fundindo os sinais de fala de banda alta e banda baixa com alinhamento temporal para fornecer um sinal de fala com alinhamento temporal inteiro. Em um aspecto da invengao, ο sinal de fala de banda baixa residual e sintetizado apos alinhamento temporal do sinal de banda baixa residual enquanto na banda alta, a sintese e executada antes de alinhamento temporal do sinal de fala de banda alta. O metodo pode compreender ainda classificar os segmentos de fala e codificar os segmentos de fala. A codificagao dos segmentos de fala pode ser um entre predigao linear excitada por codigo, predigao linear excitada por ruido ou codificagao de quadro 1/8 (silencio) . A banda baixa pode representar a banda de frequencia ate aproximadamente 4 kHz e a banda alta pode representar a banda de aproximadamente 3,5 kHz ate aproximadamente 7 kHz.

Em outra modalidade, e revelado um vocoder tendo pelo menos uma entrada e pelo menos uma saida, ο vocoder compreendendo um codificador que compreende um filtro tendo pelo menos uma entrada eficientemente conectada a entrada do vocoder e pelo menos uma saida; e um decodif icador

compreendendo um sintetizador tendo pelo menos uma entrada eficientemente conectada a pelo menos uma saida do codificador e pelo menos uma saida eficientemente conectada a pelo menos uma saida do vocoder. Nessa modalidade, ο decodificador compreende uma memoria, onde ο decodificador e adaptado para executar instrutjiSes de software armazenadas na mem0ria compreendendo alinhamento temporal de um sinal de fala de banda baixa residual para uma versao expandida ou comprimida do sinal de fala de banda baixa residual, alinhamento temporal de um sinal de fala de banda alta para uma versao expandida ou comprimida do sinal de fala de banda alta, θ fundindo os sinais de fala de banda bsixa θ banda alta com alinhamento temporal para fornecer um sinal de fala com alinhamento temporal inteiro.〇 sintetizador pode compreender meio para sintetizar ο sinal de fala de banda baixa residual com alinhamento temporal, e meio para sintetizar ο sinal de fala de banda alta antes de alinhamento temporal do mesmo.〇 codificador compreende uma memoria e pode ser adaptado para executar instrugoes de software na memoria compreendendo classificar segmentos de fala como quadro 1/8 (silencio) , predigao linear excitada por c0digo ou predigao linear excitada por ruido.

0 escopo adiciona丄 de aplicabilidade da presente invengao tornar-se-a evidente a partir da seguinte descrigao detalhada, reivindicagSes e desenhos. Entretanto, deve ser entendido que a descrigao detalhada e exemplos especificos, embora indique modalidades preferidas da invengao, sao fornecidos somente como ilustragao, uma vez que varias alterag5es e modificagoes compreendidas no espirito e escopo da invengao tornar-se-ao evidentes para aqueles versados na tecnica.

BREVE DESCRigAO DOS DESENHOS A presente invengao tornar-se-a entendida de

forma mais completa a partir da descrigao detalhada dada abaixo, reivindicagoes apensas, e desenhos em anexo nos quais:

A figura Ieum diagrama de blocos de um vocoder de Codificagao preditiva linear (LPC);

A figura 2A e um sinal de fala contendo fala com

voz ;

A figura 2B e um sinal de fala contendo fala nao-

sonora;

A figura 2C e um sinal de fala contendo voz transiente;

A figura 3 e um diagrama de blocos ilustrando alinhamento temporal de banda baixa e banda alta;

A figura 4A represents a determinacjao de retardos de pitch atraves da interpolagao; A figura 4B representa a identif icagao de

periodos de pitch;

A figura 5A representa um sinal de fala original na forma de periodos de pitch;

A figura 5B representa um sinal de fala expandido utilizando sobrepor/adicionar; e

A figura 5C representa um sinal de fala comprimido utilizando sobrepor/adicionar·

DESCRigAO DETALHAOA

A palavra "ilustrativo" e utilizada aqui para significar "servir como exemplo, ocorrencia ou ilustragao.“ Qualquer modalidade descrita aqui como "ilustrativa" nao deve ser necessariamente interpretada como preferida ou vantajosa em relagao a outras modalidades.

Alinhamento temporal tem diversas aplicagoes em redes comutadas por pacote onde pacotes de vocoder podem chegar de forma assincrona. Embora alinhamento temporal possa ser executado dentro ou fora do vocoder, a execugao

do mesmo no vocoder oferece diversas vantagens como melhor qualidade de quadros alinhados e carga computacional reduzida· As tecnicas descritas aqui podem ser facilmente aplicadas a outros vocoders que utilizam tecnicas similares como 4GV-banda larga, cujo nome de padrao e EVRC-C, para fazer vocode de dados de voz.

DESCRigAO DE FUNCIONALIDADE DE VOCODER Vozes humanas compreendem dois componentes. Um componente compreende ondas fundamentais que sao sensiveis a pitch (altura) e ο outro e harmonica fixa que nao e sensivel a pitch. O pitch percebido de um som e a resposta do ouvido a frequencia, isto e, para fins mais praticos ο pitch e a frequencia. Os componentes de harmonica acrescentam caracteristicas distintas a voz de uma pessoa. Mudam j untamente com as cordas vocais e com ο f ormato fisico do trato vocal e sao denominados formantes.

A voz humana pode ser representada por um sinal digital s (n) 10 (vide a figura 1). Considere que s (n) 10 e um sinal de fala digital obtido durante uma conversagao tipica incluindo diferentes sons vocais e periodos de silencio. 0 sinal de fala s (n) 10 pode ser dividido em quadros 20, como mostrado nas figuras 2A - 2C. Em um aspecto, s (n) 10 e digitalmente amostrado em 8 kHz. Em outros aspectos, s(n) 10 pode ser digitalmente amostrado em 16 kHz ou 32 kHz ou alguma outra frequencia de amostragem. Esquemas de codificagao atuais comprimem um sinal

de fala digitalizado 10 em um sinal de taxa de bit baixa por remover todas as redundancias naturais (isto e, elementos correlacionados) inerentes em fala. A fala apresenta, tipicamente, redundancias de curta duragao resultando da agao mecanica dos labios e lingua, e redundancias de longa duragao resultando da vibragao das cordas vocais. A Codificagao preditiva linear (LPC) filtra

ο sinal de fala 10 por remover as redundancias que produzem β/17 um sinal de fala residual. Modela, entao, ο sinal residual resultante como ruido Gaussiano branco. Um valor amostrado de uma forma de onda de fala pode ser predito por ponderar uma soma de um niimero de amostras passadas, cada uma das quais e multiplicada por um coeficiente preditivo linear. Codificadores preditivos lineares, portanto, obtem uma taxa de bit reduzida por transmitir coeficientes de filtro e ruido quantizado em vez de um sinal de fala de largura de banda total 10.

1〇 Um diagrama de blocos de uma modalidade de um

vocoder LPC 70 e ilustrado na figura 1· A fungao do LPC e a de minimizar a soma das diferengas ao quadrado entre ο sinal de fala original e ο sinal de fala estimado em uma duragao finite. Isso pode produzir um conjunto ύηίοο de coeficientes preditor que sao normalmente estimados em cada quadro 20. Um quadro 20 tem tipicamente 20 ms de comprimento. A fungao de transferencia de um filtro digital de variagao de tempo 75 pode ser dada por:

G

H(z) =-r

!K

onde os coeficientes de preditor podem ser representados por ak e ο ganho por G.

A soma e computada de k = 1 para k = p. Se um metodo de LPC-IO for utilizado, entao ρ = 10. Isso significa que somente os 10 primeiros coeficientes sao transmitidos para um sintetizador LPC 80. Os dois metodos mais comumente utilizados para computar os coeficientes sao, porem nao limitados a, ο metodo de covariancia e ο metodo de autocorrelag:ao.

Vocoders tipicos produzem quadros 20 de 20 ms de duragao, incluindo 160 amostras na taxa preferida de 8 kHz ou 320 amostras em taxa de 16 kHz. Uma versao comprimida

com alinhamento temporal desse quadro 20 tem uma duragao menor do que 20 ms, enquanto uma versao expandida com alinhamento temporal tem uma duragao maior do que 20 ms - Alinhamento temporal de dados de voz tem vantagens significativas ao enviar dados de voz atraves de redes comutadas por pacote, que introduzem instabilidade de retardo na transmissao de pacotes de voz. Em tais redes, alinhamento temporal pode ser utilizado para diminuir os efeitos dessa instabilidade de retardo e produzir um fIuxo de voz que parece 、、sincr〇n〇〃. As modalidades da invengao se ref erem a um

equipamento e metodo para alinhamento temporal de quadros cientro do vocoder 7 0 por manipular ο residual de f ala. Em uma m〇dalidade, ο presente metodo e equipamento e utilizado em banda larga 4 GV. As modalidades reveladas compreendem metodos e equipamentos ou sistemas para expandir/comprimir tipos diferentes de segmentos de fala de banda larga 4GV codificados utilizando codificagao de Predig;a〇 linear excitada por c6dig〇 (CELP) ou Predigao linear excitada por ruido (NELP). 〇 termo 、λ vocoder" 70 se ref ere, tipicamente, a

dispositivos que comprimem f ala com voz por ext rair parametros com base em um modelo de geragao de fala humana. Vocoders 7 0 incluem um codificador 204 e um decodificador 206.〇 codificador 204 anaIisa a fala que entra e extrai 〇s parametros re levant es. Em uma modalidade, ο codif icador compreende ο filtro 75. 〇 decodificador 206 sintetiza a fala utilizando os parametros que recebe a partir do codificador 204 atraves de um canal de transmissao 208 . Em uma moda lidade, ο decodif icador compreende 〇 sinteti zador 80. O sinal de fala 10 e f requentemente dividido em quadros de dados e processado em bloco pelo vocoder 70.

Aqueles versados na tecriica reconhecerao que fala

humana pode ser classificada em muitos modos diferentes · Tres classificagoes convencionais de fala sao sons de voz, nao-sonora e fala transiente.

A figura 2A e um sinal de fala de voz s(n) 402. A figure 2A mostra uma propriedade comum, mensuravel de fala sonora conhecida como ο periodo de pitch 100.

A figura 2B e um sinal de fala nao-sonora s (n) 404. Um sinal de fala nao-sonora 404 se parece com ruido colorido.

A figura 2C represents um sinal de fala 1〇 transiente s (n) 406, isto e, fala que nao e sonora ou nao- sonora .O exemplo de fala transiente 406 mostrado na figura 2C poderia representar s(n) transigao entre fala nao-sonora e fala sonora. Essas tres classificagSes nao sao todas inclusive. Ha muitas classificagoes diferentes de fala que podem ser empregadas de acordo com os metodos descritos aqui para obter resultados comparaveis. VOCODER DE BANDA LARGA 4GV

O vocoder de quarta geragao (4GV) prove caracteristicas atraentes para uso atraves de redes sem fio como adicionalmente descrito no pedido de patente copendente nuimero de serie 11/123.467, depositado em 5 de maio de 2005, intitulado "Time warping frames inside the vocoder by modifying the residual", que e totalmente incorporada aqui a titulo de referenda. Algumas dessas caracteristicas incluem a capacidade de trade-off qualidade vs. taxa de bits, vocoding mais resiliente na face de taxa de erro de pacote (PER) aumentada, melhor ocultagao de apagamentos, etc. Na presente invengao, ο vocoder de banda larga 4 GV e revelado que codif ica fala utilizando uma tecnica de banda dividida, isto e, as bandas inferior e superior sao separadamente codificadas.

Em uma modalidade, um sinal de entrada represents

uma fala de banda larga amostrada em 16 kHz. Um banco de filtro de analise e fornecido gerando um sinal de banda estreita (banda baixa) amostrada em 8 kHz, e um sinal de banda alta amostrada em 7 kHz. Esse sinal de banda alta represents a banda a partir de aproximadamente 3,5 kHz ate aproximadamente 7 kHz no sinal de entrada, enquanto ο sinal de banda baixa represents a banda ate aproximadamente 4 kHz, e ο sinal de banda larga reconstruido final sera limitado em largura de banda ate aproximadamente 7 kHz. Deve ser observado que ha uma sobreposipao de 1〇 aproximadamente 500 Hz entre as bandas baixa e elevada, permitindo uma transigao mais gradual entre as bandas.

Em um aspecto, ο sinal de banda estreita e codificado utilizando uma versao modificada do codificador de fala EVRC-B de banda estreita, que e um codificador CELP com um tamanho de quadro de 20 milissegundos. V^rios sinais a partir do codificador de banda estreita sao utilizados pela sintese e analise de banda alta; sao: (1) ο sinal de excitagao (isto e, residual quantizado) a partir do codificador de banda estreita; (2) ο primeiro coeficiente de reflexao quantizado (como um indicador da inclinagao espectral do sinal de banda estreita)； (3) ο ganho de livro-codigo adaptavel quantizado; e (4) ο retardo de pitch quantizado.

0 codificador de banda estreita EVRC-B modificado utilizado em banda larga 4GV codifica cada dado de voz de quadro em um de tres tipos de quadros diferentes: Predigao Linear excitada por codigo (CELP)； Predigao linear excitada por ruido (NELP); ou quadro de taxa de l/8°de silencio·

CELP e utilizado para codificar grande parte da fala, que inclui fala que e peri0dica bem como aquela com pouca periodicidade. Tipicamente, aproximadamente 75% dos quadros nao silenciosos sao codificados pelo codificador de

banda estreita EVRC-B modificado utilizando CELP. NELP e utilizado para codificar fala que e de carater semelhante a ruido. O carater semelhante a ruido desses segmentos de fala pode ser reconstruido por gerar sinais aleat0rios no decodificador e aplicar ganhos apropriados aos mesmos.

Quadros de taxa de 1/8° sao utilizados para codificar ruido de segundo piano, isto e, periodos onde ο usuario nao esta falando.

ALINHAMENTO TEMPORAL DE QUADROS DE BANDA LARGA 4GV Uma vez que ο vocoder de banda larga 4GV codifica

bandas inferior e superior separadamente, a mesma filosofia e seguida em alinhamento temporal dos quadros. Δ banda inferior e com alinhamento temporal utilizando uma tecnica similar como descrito no pedido de patente copendente acima mencionado intitulado "Time warping frames inside the vocoder by modifying the residual.“

Com referencia a figura 3, e mostrado um alinhamento de banda inferior 32 que e aplicado em um sinal residual 30. 0 principal motivo para fazer alinhamento temporal 32 no dominio residual e que isso permite que a sintese de LPC 34 seja aplicada no sinal residual com alinhamento temporal. Os coeficientes de LPC desempenham um papel importante em como sons de fala e a aplicagao de sintese 34 apos alinhamento 32 assegura que informagoes de LPC corretas sao mantidas no sinal. Se alinhamento temporal for feito apos ο decodif icador, por outro Iado, a sintese de LPC ja foi executada antes de alinhamento temporal. Desse modo, ο procedimento de alinhamento pode alterar as informagoes de LPC do sinal, especialmente se a estimagao de periodo de pitch nao foi muito precisa.

ALINHAMENTO TEMPORAL DE SINAL RESIDUAL QUANDO SEGMENTO DE FALA E CELP

Para alinhar ο residual, ο decodificador utiliza informag5es de retardo de pitch contidas no quadro codificado.〇 retardo de pitch e na realidade ο retardo de pitch na extremidade do quadro. Deve ser observado aqui que mesmo em um quadro peri0dico, ο retardo de pitch poderia estar levemente alterando. Os retardos de pitch em qualquer ponto no quadro podem ser estimados por interpolar entre ο retardo de pitch na extremidade do iiltimo quadro e aquele na extremidade do quadro atual. Isso e mostrado na figura 4 - Uma vez que os retardos de pitch em todos os pontos no quadro sao conhecidos, ο quadro pode ser dividido em periodos de pitch. Os limites de periodos de pitch sao determinados utilizando os retardos de pitch em varios pontos no quadro.

A figure 4A mostra um exemplo de como dividir os quadros em seus periodos de pitch. Por exemplo, ο nuimero de amostra 70 tem retardo de pitch de aproximadamente 70 e ο η uimero de amostra 142 tem retardo de pitch de aproximadamente 72. Desse modo, periodos de pitch sao de tl-70] e de [71-142]. Isso e ilustrado na figura 4B. Apos ο quadro ter sido dividido em periodos de

pitch, esses periodos de pitch podem ser entao sobrepostos/adicionados para aumentar/diminuir ο tamanho do residual. A tecnica de sobrepor/adicionar e uma tecnica conhecida e as figuras 5A-5C mostram como e utilizada para expandir/comprimir ο residual.

Alternativamente, os periodos de pitch podem ser repetidos se ο sinal de fala necessitar ser expandido. Por exemplo, na figura 5B, ο periodo de pitch PPl pode ser repetido (em vez de sobreposto-adicionado com PP2) para produzir um periodo de pitch extra.

Alem disso, a s〇breposigao/adig;a〇 e/ou repetigao de periodos de pitch pode ser feita tantas vezes quanto e

necessario para produzir a quantidade de expansao/compressao necessaria.

Com referencia a figura 5A, ο sinal de fala original compreendendo 4 periodos de pitch (PPs) e mostrado. A figura 5B mostra como esse sinal de fala pode ser expandido utilizando sobrepor/adicionar. Na figura 5B, periodos de pitch PP2 e PPl sao sobrepostos/adicionados de tal modo que a contribuigao de PP2s continua diminuindo e aquela de PPl esta aumentando. A figura 5C ilustra como sobreposicpao/adicao e utilizado para comprimir ο residual.

Em casos quando ο periodo de pitch esta mudando, a tecnica de sobrepor-adicionar pode exigir a fusao de dois periodos de pitch de comprimento desigual· Nesse caso, fusao melhor pode ser obtida por alinhar os picos dos dois periodos de pitch antes de sobrepor/adicionar os mesmos.

O residual expandido/comprimido e finalmente enviado atraves da sintese de LPC.

Ap6s a banda inferior ser alinhada, a banda superior necessita ser alinhada utilizando ο periodo de pitch a partir da banda inferior, isto e, para expansao, um periodo de pitch de amostras e adicionado, enquanto para compressao, um periodo de pitch e removido.

O procedimento para alinhar a banda superior e diferente da banda inferior. Com referenda novamente a figura 3, a banda superior nao e alinhada no dominio residual, porem em vez disso ο alinhamento 38 e feito apos sintese 36 das amostras de banda superior. O motivo para isso e que a banda superior e amostrada em 7 kHz, enquanto a banda inferior e amostrada em 8 kHz. Desse modo, ο periodo de pitch da banda inferior (amostrada em 8 kHz) pode se tornar um niimero fracional de amostras quando a taxa de amostragem e 7 kHz, como na banda superior. Como exemplo, se ο periodo de pitch for 25 na banda inferior, no dominio residual da banda superior, isso exigira que 25*7/8 =21,875 amostras sejam adicionados/removidos do residual de banda superior. Evidentemente, uma vez que um rnimero fracional de amostras nao pode ser gerado, a banda superior e alinhada 38 apos ter sido reamostrada para 8 kHz, que e ο caso apos a sintese 36.

Apos a banda inferior ser alinhada 32, a excitagao de banda inferior nao alinhada (consistindo em 16〇 amostras) e passada para ο decodif icador de banda superior· Utilizando essa excitagao de banda inferior nao

alinhada, ο decodificador de banda superior produz 140 amostras de banda superior em 7 kHz. Essas 140 amostras sao entao passadas atraves de um filtro de sintese 36 e reamostradas para 8 kHz, fornecendo 160 amostras de banda superior.

Essas 160 amostras em 8 kHz sao entao com

alinhamento temporal 38 utilizando ο periodo de pitch a Partir da banda inferior e a tecnica de sobrepor/adicionar utilizada para alinhar ο segmento de fala CELP de banda inferior.

As bandas superior e inferior sao finalmente

adicionadas ou fundidas para fornecer ο sinal alinhado inteiro.

ALINHAMENTO TEMPORAL DE SINAL RESIDUAL QUANDO SEGMENTO DE FALA E NELP

Para segmentos de fala NELP, ο c〇dificad〇r

codifica somente as informagoes de LPC bem como os ganhos de diferentes partes do segmento de fala para a banda inferior. Os ganhos podem ser codificados em "segmentos" de 16 amostras PCM cada. Desse modo, a banda inferior pode ser

representada como 10 valores de ganho codificado (um de cada para 16 amostras de fala).

〇 decodificador gera ο sinal residual de banda

inferior por gerar valores aleatorios e entao aplicar os respectivos ganhos nos mesmos. Nesse caso, nao ha conceito de perxodo de pitch e como tal, a expansao/compressao de banda inferior nao tem de ser da granularidade de um periodo de pitch.

Para expandir/comprimir a banda inferior de um

quadro codificado NELP, ο decodificador pode gerar um niimero maior/menor de segmentos do que 10. A expansao/compressao de banda inferior nesse caso e por um rrniltiplo de 16 amostras, levando a N = 16*n amostras, onde η e ο ndmero de segmentos. No caso de expansao, os segmentos adicionados extra podem tomar os ganhos de alguma fungao dos primeiros 10 segmentos. Como exemplo, os segmentos extra podem tomar ο ganho do 10° segmento.

Alternativamente, ο decodificador pode

expandir/comprimir a banda inferior de um quadro codificado NELP por aplicar os 10 ganhos decodificados em conjuntos de Y (em vez de 16) amostras para gerar um residual de banda inferior expandido (y > 16) ou comprimido (y < 16).

〇 residual expandido/comprimido e entao enviado atraves da sintese LPC para produzir ο sinal alinhado de banda inferior.

Apos a banda inferior ser alinhada, a excitagao de banda inferior nao alinhada (compreendendo 160 amostras) e passada para ο decodificador de banda superior. Utilizando essa excitagao de banda inferior nao alinhada, ο decodificador de banda superior produz 140 amostras de banda superior em 7 kHz. Essas 140 amostras sao entao passadas atraves de um filtro de sintese e reamostradas para 8 kHz, fornecendo 160 amostras de banda superior. Essas 160 amostras em 8 kHz sao entao com

alinhamento temporal em um modo similar a alinhamento de banda superior de segmentos de fala CELP, isto e,

utilizando sobrepor/adicionar·

Ao utilizer sobrepor/adicionar para a banda superior de NELP, a quantidade a comprimir/expandir e igual a quantidade utilizada para a banda inferior· Em outras palavras, a "sobreposigao" utilizada para ο metodo de sobrepor/adicionar e considerada como sendo a quantidade de expansao/compressao na banda inferior· Como exemplo, se a banda inferior produziu 192 amostras apos alinhamento, ο periodo de sobreposigao utilizado no metodo de sobreposigao/adigao e 192 - 160 = 32 amostras. As bandas superior e inferior sao finalmente

adicionadas para fornecer ο segmento de fala NELP alinhado inteiro.

Aqueles versados na tecnica entenderao que informacoes e sinais podem ser representados utilizando qualquer de uma variedade de tecnicas e tecnologias diferentes. Por exemplo, dados, instrug5es, comandos, informaGdes, sinais, bits, simbolos e chips que podem ser referenciados em toda a descrigao acima podem ser representados por tensoes, correntes, ondas

eletromagneticas, campos ou particulas magneticas, particulas ou campos opticos, ou qualquer combinagao dos mesmos.

Aqueles versados na tecnica reconhecerao adicionalmente que os varios blocos 10gicos ilustrativos, modulos, circuitos, e etapas de algoritmo descritos com relagao as modalidades reveladas aqui podem ser implementados como hardware eletrSnico, software de computador ou combinagao dos mesmos. Para ilustrar claramente essa capacidade de intercambio de hardware e software, varios componentes ilustrativos, blocos, modulos circuitos e etapas foram descritos acima genericamente em termos de sua funcionalidade. 0 fato de se essa

funcionalidade e implementada como hardware ou software depende da aplicagao especifica e limitagoes de desenho impostas no sistema geral. Tecnicos especializados podem implementar a funcionalidade descrita em modos variaveis para cada aplicagao especifica, porem tais decisoes de implementagao nao devem ser interpretadas como causando afastando do escopo da presente invengao.

Os varios blocos logicos ilustrativos, modulos e circuitos descritos com relagao as modalidades reveladas aqui podem ser implementados ou executados com um processador de proposito geral, um Processador de sinais digitals (DSP) , um Circuito integrado de aplicagao especifica (ASIC) , uma Disposigao de porta programavel em c amp ο (FPGA) ou outro dispositivo logico programavel, porta discreta ou logica de transistor, componentes de hardware discretos, ou qualquer combinagao dos mesmos projetada para executar as fungoes descritas aqui. Um processador de proposito geral pode ser um microprocessador, porem na alternativa, ο processador pode ser qualquer processador convencional, controlador, microcontrolador ou maquina de estado. Um processador tambem pode ser implementado como uma combinagao de dispositivos de computagao, por exemplo, uma combinagao de um DSP e um microprocessador, uma pluralidade de microprocessadores, um ou mais microprocessadores em combinagao com um micleo de DSP, ou qualquer outra configuragao.

As etapas de um metodo ou algoritmo descrito com relagao as modalidades reveladas aqui podem ser incorporadas diretamente em hardware, em um modulo de software executado por um processador, ou em uma combinagao dos dois. Um modulo de software pode residir em Memoria de acesso aleatorio(RAM) , memoria flash, Memoria somente de leitura (ROM), ROM eletricamente programavel (EPROM), ROM programavel eletricamente apagavel (EEPROM), registros, disco rigido, um disco removivel, um CD-ROM ou qualquer outra forma de meio de armazenagem conhecido na tecnica. Um mei〇 de armazenagem ilustrativo e acoplado ao processador de tal modo que ο processador possa Ier inf ormagoes a partir de, e gravar informagoes para ο meio de armazenagem. Na alternativa, ο meio de armazenagem pode ser integral ao processador.〇 processador e ο meio de armazenagem podem residir em um ASIC.〇 ASIC pode residir em um terminal de usuario. Na alternativa, 〇 processador e 〇 meio de armazenagem podem residir como componentes discretos em um terminal de usuario.

A descrigao anterior das m〇dalidades reveladas e fornecida para permitir que qualquer pessoa versada na tecnica faga ou utilize a presente invengao. Varies modificagoes nessas modalidades serao prontamente evidentes para aqueles versados na tecnica, e os principios genericos definidos aqui podem ser aplicados em outras modalidades sem se af astar do espirito ou escopo da invenga〇. Desse modo, a presente invengao nao pretende ser limitada as modalidades mostradas aqui porem deve ser acordada 〇 escopo ma is ampIo compativel com os principios e aspectos novos

aqui revelados.

Claims

1. Metodo para comunicar fala, compreendendo: alinhamento temporal de um sinal de fala de banda baixa residual para uma versao expandida ou comprimida do sinal de fala de banda baixa residual,· alinhamento temporal de um sinal de fala de banda alta para uma versao expandida ou comprimida do sinal de fala de banda alta; e fundir os sinais de fala de banda baixa e banda alta com alinhamento temporal para fornecer um sinal de fala com alinhamento temporal inteir〇.

2. Metodof de acordo com a reivindicagao 1, compreendendo ainda sintetizar 〇 sinal de fala de banda baixa residual com alinhamento temporal.

3. Metodo, de acordo com a reivindicagao 2, compreendendo ainda sintetizar ο sinal de fala de banda alta antes de alinhamento temporal do mesmo.

4. Metodo, de acordo com a reivindicagao 3, compreendendo ainda: classificar segmentos de fala; e codificar os segmentos de fala.

5. Metodof de acordo com a reivindicagao 4, em que a codificagao dos segmentos de fala compreende utilizer predigao linear excitada por codigo, predigao linear excitada por ruido ou codificagao de quadro 1/8·

6. Metodo, de acordo com a reivindicagao 4, em que a codificagao e codificagao de predigao linear excitada por codigo.

7. Metodo, de acordo com a reivindicaQao 4, em que a codificagao e codificagao de predigao linear excitada por ruido.

8. Metodo, de acordo com a reivindicec^ao 7 r em que a codificagao compreende codif icar inf ormag:oes de Codificagao preditiva linear como ganhos de partes diferentes de um quadro de fala.

9. · Metodo, de acordo com a reivindicagao 8, em que os ganhos sao codificados para conjuntos de amostras de fala.

10. Metodo, de acordo com a reivindicagao 9, compreendendo ainda gerar um sinal de banda baixa residual por gerar valores aleatorios e entao aplicar os ganhos aos valores aleatorios.

11.· Metodo, de acordo com a reivindicagao 9, compreendendo ainda representar as informagoes de Codificagao preditiva linear como 10 valores de ganho codificado para ο sinal de fala de banda baixa residual, onde cada valor de ganho codificado represents 16 amostras de fala.

12.· Metodo, de acordo com a reivindicagao 7, compreendendo ainda produzir 140 amostras do sinal de fala de banda alt a a partir de um sinal de excitagao de banda baixa nao alinhada·

13. Metodo, de acordo com a reivindicagao 7, em que alinhamento temporal do sinal de fala de banda baixa compreende gerar um niamero mais elevado/mais baixo de amostras e aplicar alguma fungao dos ganhos decodificados das partes de um quadro de fala ao residual e entao sintetizar ο mesmo,

14. Metodof de acordo com a reivindicagao 13, em que a aplicagao de alguma fungao dos ganhos decodificados de partes do quadro de fala ao residual compreende aplicar ο ganho do Ultimo segmento de fala as amostras adicionais quando a banda inferior e expandida.

15. Metodor de acordo com a reivindicagao 7, em que alinhamento temporal do sinal de fala de banda alta compreende: sobrepor/adicionar o mesmo número de amostras como foram comprimidas na banda inferior se o sinal de fala de banda alta for comprimido; e sobrepor/adicionar o mesmo número de amostras como foram expandidas na banda inferior se o sinal de fala de banda alta for expandido.

16. Método, de acordo com a reivindicação 6, em que alinhamento temporal do sinal de fala de banda baixa residual compreende: estimar pelo menos um período de pitch; e adicionar ou subtrair pelo menos um dos períodos de pitch após receber o sinal de fala de banda baixa residual.

17. Método, de acordo com a reivindicação 16, em que alinhamento temporal do sinal de fala de banda alta compreende: utilizar os períodos de pitch a partir do sinal de fala de banda baixa; sobrepor/adicionar um ou mais períodos de pitch se o sinal de fala de banda alta for comprimido; e sobrepor/adicionar ou repetir um ou mais períodos de pitch se o sinal de fala de banda alta for expandido.

18. Método, de acordo com a reivindicação 6, em que alinhamento temporal do sinal de fala de banda baixa residual compreende: estimar retardo de pitch; dividir um quadro de fala em períodos de pitch, onde limites dos períodos de pitch são determinados utilizando o retardo de pitch em vários pontos no quadro de fala; sobrepor/adicionar os períodos de pitch se o sinal de fala de banda baixa residual for comprimido; e sobrepor/adicionar ou repetir um ou mais períodos de pitch se o sinal de fala de banda baixa residual for expandido.

19. Método, de acordo com a reivindicação 18, em que alinhamento temporal do sinal de fala de banda alta compreende: utilizar períodos de pitch a partir do sinal de fala de banda baixa; sobrepor/adicionar os períodos de pitch se o sinal de fala de banda alta for comprimido; e sobrepor/adicionar ou repetir um ou mais períodos de pitch se o sinal de fala de banda alta for expandido.

20. Método de acordo com a reivindicação 18, em que a estimação do retardo de pitch compreende interpolar entre um retardo de pitch de uma extremidade de um último quadro e uma extremidade de um quadro atual.

21. Método, de acordo com a reivindicação 18, em que a sobreposição/adição ou repetição de um ou mais dos períodos de pitch compreende fundir os segmentos de fala.

22. Método, de acordo com a reivindicação 18, em que a sobreposição/adição ou repetição de um ou mais dos períodos de pitch se o sinal de fala de banda baixa residual for expandido compreende adicionar um período de pitch adicional criado a partir de um primeiro segmento de pitch e um segundo segmento de período de pitch.

23. Método, de acordo com a reivindicação 21, compreendendo ainda selecionar segmentos de fala similares, em que os segmentos de fala similares são fundidos.

24. Método, de acordo com a reivindicação 21, compreendendo ainda correlacionar os segmentos de fala, pelo que segmentos de fala similares são selecionados.

25. Método, de acordo com a reivindicação 22, em que a adição de um período de pitch adicional criado a partir de um primeiro segmento de pitch e um segundo segmento de período de pitch compreende adicionar os primeiro e segundo segmentos de pitch de tal modo que a contribuição do primeiro segmento de período de pitch aumenta e a contribuição do segundo segmento de período de pitch diminui.

26. Método, de acordo com a reivindicação 1, em que a banda baixa representa a banda até e incluindo 4 kHz.

27. Método, de acordo com a reivindicação 1, em que a banda alta representa a banda de aproximadamente 3,5 kHz até aproximadamente 7 kHz.

28. Vocoder tendo pelo menos uma entrada e pelo menos uma saída, compreendendo: um codificador compreendendo um filtro que tem pelo menos uma entrada eficientemente conectada à entrada do vocoder e pelo menos uma saída; e um decodificador compreendendo um sintetizador tendo pelo menos uma entrada eficientemente conectada a pelo menos uma saída do codificador e pelo menos uma saída eficientemente conectada a pelo menos uma saída do vocoder.

29. Vocoder, de acordo com a reivindicação 28, em que o decodificador compreende: uma memória, onde o decodificador é adaptado para executar instruções de software armazenadas na memória compreendendo: alinhamento temporal de um sinal de fala de banda baixa residual para uma versão expandida ou comprimida do sinal de fala de banda baixa residual; alinhamento temporal de um sinal de fala de banda alta para uma versão expandida ou comprimida do sinal de fala de banda alta; e fundir os sinais de fala de banda baixa e banda alta com alinhamento temporal para fornecer um sinal de fala com alinhamento temporal inteiro.

30. Vocoder, de acordo com a reivindicação 29, em que o sintetizador compreende meio para sintetizar o sinal de fala de banda baixa residual com alinhamento temporal.

31. Vocoder, de acordo com a reivindicação 30, em que o sintetizador compreende ainda meio para sintetizar o sinal de fala de banda alta antes de alinhamento temporal do mesmo.

32. Vocoder, de acordo com a reivindicação 28, em que o codificador compreende uma memória e o codificador é adaptado para executar instruções de software armazenadas na memória compreendendo classificar segmentos de fala como quadro 1/8, predição linear excitada por código ou predição linear excitada por ruído.

33. Vocoder, de acordo com a reivindicação 31, em que o codificador compreende uma memória e o codificador é adaptado para executar instruções de software armazenadas na memória compreendendo codificar segmentos de fala utilizando codificação de predição linear excitada por código.

34. Vocoder, de acordo com a reivindicação 31, em que o codificador compreende uma memória e o codificador é adaptado para executar instruções de software armazenadas na memória compreendendo codificar segmentos de fala utilizando codificação de predição linear excitada por ruído.

35. Vocoder, de acordo com a reivindicação 34, em que a codificação dos segmentos de fala utilizando instrução de software de codificação de predição linear excitada por ruído compreende codificar informações de Codificação preditiva linear como ganhos de partes diferentes de um segmento de fala.

36. Vocoder, de acordo com a reivindicação 35, em que os ganhos são codificados para conjuntos de amostras de fala.

37. Vocoder, de acordo com a reivindicação 36, em que a instrução de alinhamento temporal do sinal de fala de banda baixa residual compreende ainda gerar um sinal de fala de banda baixa residual por gerar valores aleatórios e então aplicar os ganhos aos valores aleatórios.

38. Vocoder, de acordo com a reivindicação 36, em que a instrução de alinhamento temporal do sinal de fala de banda baixa residual compreende ainda representar a informação de Codificação preditiva linear como 10 valores de ganho codificados para o sinal de fala de banda baixa residual, onde cada valor de ganho codificado representa 16 amostras de fala.

39. Vocoder, de acordo com a reivindicação 34, compreendendo ainda produzir 140 amostras do sinal de fala de banda alta a partir de um sinal de excitação de banda baixa não alinhada.

40. Vocoder, de acordo com a reivindicação 34, em que a instrução de software de alinhamento temporal do sinal de fala de banda baixa compreende gerar um número mais elevado/mais baixo de amostras e aplicar alguma função dos ganhos decodificados de partes de um quadro de fala ao residual e então sintetizar o mesmo.

41. Vocoder, de acordo com a reivindicação 40, em que a aplicação de alguma função dos ganhos decodificados de partes do quadro de fala ao residual compreende aplicar o ganho do último segmento de fala às amostras adicionais quando a banda inferior é expandida.

42. Vocoder, de acordo com a reivindicação 33, em que a instrução de software de alinhamento temporal do sinal de fala de banda alta compreende: sobrepor/adicionar o mesmo número de amostras como foram comprimidas na banda inferior se o sinal de fala de banda alta for comprimido; e sobrepor/adicionar o mesmo número de amostras como foram expandidas na banda inferior se o sinal de fala de banda alta for expandido.

43. Vocoder, de acordo com a reivindicação 33, em que a instrução de software de alinhamento temporal do sinal de fala de banda baixa residual compreende: estimar pelo menos um período de pitch; e adicionar ou subtrair pelo menos um período de pitch após receber o sinal de fala de banda baixa residual.

44. Vocoder, de acordo com a reivindicação 43, em que a instrução de software de alinhamento temporal do sinal de fala de banda alta compreende: utilizar o período de pitch a partir do sinal de fala de banda baixa; sobrepor/adicionar um ou mais períodos de pitch se o sinal de fala de banda alta for comprimido; e sobrepor/adicionar ou repetir um ou mais períodos de pitch se o sinal de fala de banda alta for expandido.

45. Vocoder, de acordo com a reivindicação 33, em que a instrução de software de alinhamento temporal do sinal de fala de banda baixa residual compreende: estimar o retardo de pitch; dividir um quadro de fala em períodos de pitch, onde limites dos períodos de pitch são determinados utilizando o retardo de pitch em vários pontos no quadro de f ala ; sobrepor/adicionar os períodos de pitch se o sinal de fala residual for comprimido; e sobrepor/adicionar ou repetir um ou mais períodos de pitch se o sinal de fala residual for expandido.

46. Vocoder, de acordo com a reivindicação 45, em que a instrução de software de alinhamento temporal do sinal de fala de banda alta compreende: utilizar os períodos de pitch a partir do sinal de fala de banda baixa; sobrepor/adicionar os períodos de pitch se o sinal de fala de banda alta for comprimido; e sobrepor/adicionar ou repetir um ou mais períodos de pitch se o sinal de fala de banda alta for expandido.

47. Vocoder, de acordo com a reivindicação 45, em que a instrução de sobreposição/adição dos períodos de pitch se o sinal de fala de banda baixa residual for comprimido compreende: segmentar uma seqüência de amostra de entrada em blocos de amostras; remover segmentos do sinal residual em intervalos de tempo regulares; fundir os segmentos removidos; e substituir os segmentos removidos com um segmento fundido.

48. Vocoder, de acordo com a reivindicação 45, em que a instrução de estimação do retardo de pitch compreende interpolar entre um retardo de pitch de uma extremidade de um último quadro e uma extremidade de um quadro atual.

49. Vocoder, de acordo com a reivindicação 45, em que a sobreposição/adição ou repetição de uma ou mais das instruções de períodos de pitch compreende fundir os segmentos de fala.

50. Vocoder, de acordo com a reivindicação 45, em que a sobreposição/adição ou repetição de uma ou mais das instruções de períodos de pitch se o sinal de fala de banda ba ixa residual for expandido compreende adicionar um período de pitch adicional criado a partir de um primeiro segmento de período de pitch e um segundo segmento de período de pitch.

51. Vocoder, de acordo com a reivindicação 47, em que a instrução de fusão dos segmentos removidos compreende aumentar a contribuição de um primeiro segmento de período de pitch e diminuir a contribuição de um segundo segmento de período de pitch.

52. Vocoder, de acordo com a reivindicação 49, compreendendo ainda selecionar segmentos de fala similares, em que os segmentos de fala similares são fundidos.

53. Vocoder, de acordo com a reivindicação 49, em que a instrução de alinhamento temporal do sinal de fala de banda baixa residual compreende ainda correlacionar os segmentos de fala, pelo que segmentos de fala similares são selecionados.

54. Vocoder, de acordo com a reivindicação 50, em que a instrução de adição de um período de pitch adicional criado a partir dos primeiro e segundo segmentos de período de pitch compreende adicionar os primeiro e segundo segmentos de período de pitch de tal modo que a contribuição do primeiro segmento de período de pitch aumenta e a contribuição do segundo segmento de período de pitch diminui.

55. Vocoder, de acordo com a reivindicação 29, em que a banda baixa representa a banda até e incluindo 4 kHz.

56. Vocoder, de acordo com a reivindicação 29, em que a banda alta representa a banda de aproximadamente 3,5 kHz até aproximadamente 7 kHz.