BRPI0715978A2 - quadros de alinhamento temporal de vocoder de banda larga - Google Patents

quadros de alinhamento temporal de vocoder de banda larga Download PDF

Info

Publication number
BRPI0715978A2
BRPI0715978A2 BRPI0715978-1A BRPI0715978A BRPI0715978A2 BR PI0715978 A2 BRPI0715978 A2 BR PI0715978A2 BR PI0715978 A BRPI0715978 A BR PI0715978A BR PI0715978 A2 BRPI0715978 A2 BR PI0715978A2
Authority
BR
Brazil
Prior art keywords
speech signal
speech
pitch
residual
band
Prior art date
Application number
BRPI0715978-1A
Other languages
English (en)
Inventor
Rohit Kapoor
Diaz Serafin Spindola
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of BRPI0715978A2 publication Critical patent/BRPI0715978A2/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/01Correction of time axis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

"QUADROS DE ALINHAMENTO TEMPORAL DE VOCODER DE BANDA LARGA". Um método de comunicar fala compreendendo alinhamento temporal de um sinal de fala de banda baixa residual para uma versão expandida ou comprimida do sinal de fala de banda baixa residual, alinhamento temporal de um sinal de fala de banda alta para uma versão expandida ou comprimida do sinal de fala de banda alta, e fundindo os sinais de fala de banda baixa e banda alta com alinhamento temporal para fornecer um sinal de fala com alinhamento temporal inteiro.Na banda baixa, o sinal de fala de banda baixa residual é sintetizado após alinhamento temporal do sinal de banda baixa residual enquanto na banda alta, um sinal de banda alta não alinhada é sintetizado antes de alinhamento temporal do sinal de fala de banda alta. O método pode compreender ainda classificar segmentos de fala e codificar os segmentos de fala. A codificação dos segmentos de fala pode ser uma entre predição linear excitada por código, predição linear excitada por ruído ou codificação de quadro 1/8 (silêncio).

Description

"quadros de alinhamento temporal de vocoder de banda larga" fundamentos
CAMPO
A presente invengao refere-se geralmente a alinhamento temporal, isto e, expansao ou compressao, quadros em urn vocoder e, em particular, a metodos de alinhamento temporal de quadros em um vocoder de banda larga. FUNDAMENTOS
Alinhamento temporal tem diversas aplicag£>es em redes comutadas por pacote onde pacotes de vocoder podem chegar de forma assincrona. Embora ο alinhamento temporal possa ser executado dentro ou fora do vocoder, a execugao no vocoder oferece diversas vantagens como melhor qualidade de quadros alinhados e carga computacional reduzida·
somario
A invengao compreende um equipamento e metodo de alinhamento temporal de quadros de fala por manipular um sinal de fala. Em um aspecto, e revelado um metodo de alinhamento temporal de quadros de Predigao Linear excitada por c0digo (CELP) e Predigao Linear excitada por ruido (NELP) de um vocoder de banda larga de Vocoder de Quarta geragao (4GV). Mais especificamente, para quadros CELP, ο metodo mantem uma fase de fala por adigao ou delegao de periodos de pitch para expandir ou comprimir fala, respectivamente. Com esse metodo, ο sinal de banda mais baixa pode sofrer alinhamento temporal no residual, isto e, antes de sintese, enquanto ο sinal de banda mais alta pode sofrer alinhamento temporal apos sintese no dominio de 8 kHz· O metodo revelado pode ser aplicado em qualquer vocoder de banda larga que utiliza CELP e/ou NELP para a banda baixa e/ou utiliza uma tecnica de banda dividida para codificar as bandas inferior e superior separadamente. Deve ser observado que ο nome de padrao para banda larga 4GV e EVRC-C.
Em vista do acima, as caracteristicas descritas da invengao se referem, genericamente, a um ou ma is sistemas, metodos e/ou equipamentos aperfeigoados para comunicagao de fala. Em uma modalidade, a invengao compreende um metodo de comunicar fala compreendendo alinhamento temporal de um sinal de fala de banda baixa residua丄 para uma versao expandida ou comprimida do sinal de fala de banda baixa residual, alinhamento temporal de um sinal de fala de banda alta para uma versao expandida ou comprimida do sinal de fala de banda alta, e fundindo os sinais de fala de banda alta e banda baixa com alinhamento temporal para fornecer um sinal de fala com alinhamento temporal inteiro. Em um aspecto da invengao, ο sinal de fala de banda baixa residual e sintetizado apos alinhamento temporal do sinal de banda baixa residual enquanto na banda alta, a sintese e executada antes de alinhamento temporal do sinal de fala de banda alta. O metodo pode compreender ainda classificar os segmentos de fala e codificar os segmentos de fala. A codificagao dos segmentos de fala pode ser um entre predigao linear excitada por codigo, predigao linear excitada por ruido ou codificagao de quadro 1/8 (silencio) . A banda baixa pode representar a banda de frequencia ate aproximadamente 4 kHz e a banda alta pode representar a banda de aproximadamente 3,5 kHz ate aproximadamente 7 kHz.
Em outra modalidade, e revelado um vocoder tendo pelo menos uma entrada e pelo menos uma saida, ο vocoder compreendendo um codificador que compreende um filtro tendo pelo menos uma entrada eficientemente conectada a entrada do vocoder e pelo menos uma saida; e um decodif icador
compreendendo um sintetizador tendo pelo menos uma entrada eficientemente conectada a pelo menos uma saida do codificador e pelo menos uma saida eficientemente conectada a pelo menos uma saida do vocoder. Nessa modalidade, ο decodificador compreende uma memoria, onde ο decodificador e adaptado para executar instrutjiSes de software armazenadas na mem0ria compreendendo alinhamento temporal de um sinal de fala de banda baixa residual para uma versao expandida ou comprimida do sinal de fala de banda baixa residual, alinhamento temporal de um sinal de fala de banda alta para uma versao expandida ou comprimida do sinal de fala de banda alta, θ fundindo os sinais de fala de banda bsixa θ banda alta com alinhamento temporal para fornecer um sinal de fala com alinhamento temporal inteiro.〇 sintetizador pode compreender meio para sintetizar ο sinal de fala de banda baixa residual com alinhamento temporal, e meio para sintetizar ο sinal de fala de banda alta antes de alinhamento temporal do mesmo.〇 codificador compreende uma memoria e pode ser adaptado para executar instrugoes de software na memoria compreendendo classificar segmentos de fala como quadro 1/8 (silencio) , predigao linear excitada por c0digo ou predigao linear excitada por ruido.
0 escopo adiciona丄 de aplicabilidade da presente invengao tornar-se-a evidente a partir da seguinte descrigao detalhada, reivindicagSes e desenhos. Entretanto, deve ser entendido que a descrigao detalhada e exemplos especificos, embora indique modalidades preferidas da invengao, sao fornecidos somente como ilustragao, uma vez que varias alterag5es e modificagoes compreendidas no espirito e escopo da invengao tornar-se-ao evidentes para aqueles versados na tecnica.
BREVE DESCRigAO DOS DESENHOS A presente invengao tornar-se-a entendida de
forma mais completa a partir da descrigao detalhada dada abaixo, reivindicagoes apensas, e desenhos em anexo nos quais:
A figura Ieum diagrama de blocos de um vocoder de Codificagao preditiva linear (LPC);
A figura 2A e um sinal de fala contendo fala com
voz ;
A figura 2B e um sinal de fala contendo fala nao-
sonora;
A figura 2C e um sinal de fala contendo voz transiente;
A figura 3 e um diagrama de blocos ilustrando alinhamento temporal de banda baixa e banda alta;
A figura 4A represents a determinacjao de retardos de pitch atraves da interpolagao; A figura 4B representa a identif icagao de
periodos de pitch;
A figura 5A representa um sinal de fala original na forma de periodos de pitch;
A figura 5B representa um sinal de fala expandido utilizando sobrepor/adicionar; e
A figura 5C representa um sinal de fala comprimido utilizando sobrepor/adicionar·
DESCRigAO DETALHAOA
A palavra "ilustrativo" e utilizada aqui para significar "servir como exemplo, ocorrencia ou ilustragao.“ Qualquer modalidade descrita aqui como "ilustrativa" nao deve ser necessariamente interpretada como preferida ou vantajosa em relagao a outras modalidades.
Alinhamento temporal tem diversas aplicagoes em redes comutadas por pacote onde pacotes de vocoder podem chegar de forma assincrona. Embora alinhamento temporal possa ser executado dentro ou fora do vocoder, a execugao
do mesmo no vocoder oferece diversas vantagens como melhor qualidade de quadros alinhados e carga computacional reduzida· As tecnicas descritas aqui podem ser facilmente aplicadas a outros vocoders que utilizam tecnicas similares como 4GV-banda larga, cujo nome de padrao e EVRC-C, para fazer vocode de dados de voz.
DESCRigAO DE FUNCIONALIDADE DE VOCODER Vozes humanas compreendem dois componentes. Um componente compreende ondas fundamentais que sao sensiveis a pitch (altura) e ο outro e harmonica fixa que nao e sensivel a pitch. O pitch percebido de um som e a resposta do ouvido a frequencia, isto e, para fins mais praticos ο pitch e a frequencia. Os componentes de harmonica acrescentam caracteristicas distintas a voz de uma pessoa. Mudam j untamente com as cordas vocais e com ο f ormato fisico do trato vocal e sao denominados formantes.
A voz humana pode ser representada por um sinal digital s (n) 10 (vide a figura 1). Considere que s (n) 10 e um sinal de fala digital obtido durante uma conversagao tipica incluindo diferentes sons vocais e periodos de silencio. 0 sinal de fala s (n) 10 pode ser dividido em quadros 20, como mostrado nas figuras 2A - 2C. Em um aspecto, s (n) 10 e digitalmente amostrado em 8 kHz. Em outros aspectos, s(n) 10 pode ser digitalmente amostrado em 16 kHz ou 32 kHz ou alguma outra frequencia de amostragem. Esquemas de codificagao atuais comprimem um sinal
de fala digitalizado 10 em um sinal de taxa de bit baixa por remover todas as redundancias naturais (isto e, elementos correlacionados) inerentes em fala. A fala apresenta, tipicamente, redundancias de curta duragao resultando da agao mecanica dos labios e lingua, e redundancias de longa duragao resultando da vibragao das cordas vocais. A Codificagao preditiva linear (LPC) filtra
ο sinal de fala 10 por remover as redundancias que produzem β/17 um sinal de fala residual. Modela, entao, ο sinal residual resultante como ruido Gaussiano branco. Um valor amostrado de uma forma de onda de fala pode ser predito por ponderar uma soma de um niimero de amostras passadas, cada uma das quais e multiplicada por um coeficiente preditivo linear. Codificadores preditivos lineares, portanto, obtem uma taxa de bit reduzida por transmitir coeficientes de filtro e ruido quantizado em vez de um sinal de fala de largura de banda total 10.
1〇 Um diagrama de blocos de uma modalidade de um
vocoder LPC 70 e ilustrado na figura 1· A fungao do LPC e a de minimizar a soma das diferengas ao quadrado entre ο sinal de fala original e ο sinal de fala estimado em uma duragao finite. Isso pode produzir um conjunto ύηίοο de coeficientes preditor que sao normalmente estimados em cada quadro 20. Um quadro 20 tem tipicamente 20 ms de comprimento. A fungao de transferencia de um filtro digital de variagao de tempo 75 pode ser dada por:
G
H(z) =-r
!K
onde os coeficientes de preditor podem ser representados por ak e ο ganho por G.
A soma e computada de k = 1 para k = p. Se um metodo de LPC-IO for utilizado, entao ρ = 10. Isso significa que somente os 10 primeiros coeficientes sao transmitidos para um sintetizador LPC 80. Os dois metodos mais comumente utilizados para computar os coeficientes sao, porem nao limitados a, ο metodo de covariancia e ο metodo de autocorrelag:ao.
Vocoders tipicos produzem quadros 20 de 20 ms de duragao, incluindo 160 amostras na taxa preferida de 8 kHz ou 320 amostras em taxa de 16 kHz. Uma versao comprimida
com alinhamento temporal desse quadro 20 tem uma duragao menor do que 20 ms, enquanto uma versao expandida com alinhamento temporal tem uma duragao maior do que 20 ms - Alinhamento temporal de dados de voz tem vantagens significativas ao enviar dados de voz atraves de redes comutadas por pacote, que introduzem instabilidade de retardo na transmissao de pacotes de voz. Em tais redes, alinhamento temporal pode ser utilizado para diminuir os efeitos dessa instabilidade de retardo e produzir um fIuxo de voz que parece 、、sincr〇n〇〃. As modalidades da invengao se ref erem a um
equipamento e metodo para alinhamento temporal de quadros cientro do vocoder 7 0 por manipular ο residual de f ala. Em uma m〇dalidade, ο presente metodo e equipamento e utilizado em banda larga 4 GV. As modalidades reveladas compreendem metodos e equipamentos ou sistemas para expandir/comprimir tipos diferentes de segmentos de fala de banda larga 4GV codificados utilizando codificagao de Predig;a〇 linear excitada por c6dig〇 (CELP) ou Predigao linear excitada por ruido (NELP). 〇 termo 、λ vocoder" 70 se ref ere, tipicamente, a
dispositivos que comprimem f ala com voz por ext rair parametros com base em um modelo de geragao de fala humana. Vocoders 7 0 incluem um codificador 204 e um decodificador 206.〇 codificador 204 anaIisa a fala que entra e extrai 〇s parametros re levant es. Em uma modalidade, ο codif icador compreende ο filtro 75. 〇 decodificador 206 sintetiza a fala utilizando os parametros que recebe a partir do codificador 204 atraves de um canal de transmissao 208 . Em uma moda lidade, ο decodif icador compreende 〇 sinteti zador 80. O sinal de fala 10 e f requentemente dividido em quadros de dados e processado em bloco pelo vocoder 70.
Aqueles versados na tecriica reconhecerao que fala
humana pode ser classificada em muitos modos diferentes · Tres classificagoes convencionais de fala sao sons de voz, nao-sonora e fala transiente.
A figura 2A e um sinal de fala de voz s(n) 402. A figure 2A mostra uma propriedade comum, mensuravel de fala sonora conhecida como ο periodo de pitch 100.
A figura 2B e um sinal de fala nao-sonora s (n) 404. Um sinal de fala nao-sonora 404 se parece com ruido colorido.
A figura 2C represents um sinal de fala 1〇 transiente s (n) 406, isto e, fala que nao e sonora ou nao- sonora .O exemplo de fala transiente 406 mostrado na figura 2C poderia representar s(n) transigao entre fala nao-sonora e fala sonora. Essas tres classificagSes nao sao todas inclusive. Ha muitas classificagoes diferentes de fala que podem ser empregadas de acordo com os metodos descritos aqui para obter resultados comparaveis. VOCODER DE BANDA LARGA 4GV
O vocoder de quarta geragao (4GV) prove caracteristicas atraentes para uso atraves de redes sem fio como adicionalmente descrito no pedido de patente copendente nuimero de serie 11/123.467, depositado em 5 de maio de 2005, intitulado "Time warping frames inside the vocoder by modifying the residual", que e totalmente incorporada aqui a titulo de referenda. Algumas dessas caracteristicas incluem a capacidade de trade-off qualidade vs. taxa de bits, vocoding mais resiliente na face de taxa de erro de pacote (PER) aumentada, melhor ocultagao de apagamentos, etc. Na presente invengao, ο vocoder de banda larga 4 GV e revelado que codif ica fala utilizando uma tecnica de banda dividida, isto e, as bandas inferior e superior sao separadamente codificadas.
Em uma modalidade, um sinal de entrada represents
uma fala de banda larga amostrada em 16 kHz. Um banco de filtro de analise e fornecido gerando um sinal de banda estreita (banda baixa) amostrada em 8 kHz, e um sinal de banda alta amostrada em 7 kHz. Esse sinal de banda alta represents a banda a partir de aproximadamente 3,5 kHz ate aproximadamente 7 kHz no sinal de entrada, enquanto ο sinal de banda baixa represents a banda ate aproximadamente 4 kHz, e ο sinal de banda larga reconstruido final sera limitado em largura de banda ate aproximadamente 7 kHz. Deve ser observado que ha uma sobreposipao de 1〇 aproximadamente 500 Hz entre as bandas baixa e elevada, permitindo uma transigao mais gradual entre as bandas.
Em um aspecto, ο sinal de banda estreita e codificado utilizando uma versao modificada do codificador de fala EVRC-B de banda estreita, que e um codificador CELP com um tamanho de quadro de 20 milissegundos. V^rios sinais a partir do codificador de banda estreita sao utilizados pela sintese e analise de banda alta; sao: (1) ο sinal de excitagao (isto e, residual quantizado) a partir do codificador de banda estreita; (2) ο primeiro coeficiente de reflexao quantizado (como um indicador da inclinagao espectral do sinal de banda estreita); (3) ο ganho de livro-codigo adaptavel quantizado; e (4) ο retardo de pitch quantizado.
0 codificador de banda estreita EVRC-B modificado utilizado em banda larga 4GV codifica cada dado de voz de quadro em um de tres tipos de quadros diferentes: Predigao Linear excitada por codigo (CELP); Predigao linear excitada por ruido (NELP); ou quadro de taxa de l/8°de silencio·
CELP e utilizado para codificar grande parte da fala, que inclui fala que e peri0dica bem como aquela com pouca periodicidade. Tipicamente, aproximadamente 75% dos quadros nao silenciosos sao codificados pelo codificador de
banda estreita EVRC-B modificado utilizando CELP. NELP e utilizado para codificar fala que e de carater semelhante a ruido. O carater semelhante a ruido desses segmentos de fala pode ser reconstruido por gerar sinais aleat0rios no decodificador e aplicar ganhos apropriados aos mesmos.
Quadros de taxa de 1/8° sao utilizados para codificar ruido de segundo piano, isto e, periodos onde ο usuario nao esta falando.
ALINHAMENTO TEMPORAL DE QUADROS DE BANDA LARGA 4GV Uma vez que ο vocoder de banda larga 4GV codifica
bandas inferior e superior separadamente, a mesma filosofia e seguida em alinhamento temporal dos quadros. Δ banda inferior e com alinhamento temporal utilizando uma tecnica similar como descrito no pedido de patente copendente acima mencionado intitulado "Time warping frames inside the vocoder by modifying the residual.“
Com referencia a figura 3, e mostrado um alinhamento de banda inferior 32 que e aplicado em um sinal residual 30. 0 principal motivo para fazer alinhamento temporal 32 no dominio residual e que isso permite que a sintese de LPC 34 seja aplicada no sinal residual com alinhamento temporal. Os coeficientes de LPC desempenham um papel importante em como sons de fala e a aplicagao de sintese 34 apos alinhamento 32 assegura que informagoes de LPC corretas sao mantidas no sinal. Se alinhamento temporal for feito apos ο decodif icador, por outro Iado, a sintese de LPC ja foi executada antes de alinhamento temporal. Desse modo, ο procedimento de alinhamento pode alterar as informagoes de LPC do sinal, especialmente se a estimagao de periodo de pitch nao foi muito precisa.
ALINHAMENTO TEMPORAL DE SINAL RESIDUAL QUANDO SEGMENTO DE FALA E CELP
Para alinhar ο residual, ο decodificador utiliza informag5es de retardo de pitch contidas no quadro codificado.〇 retardo de pitch e na realidade ο retardo de pitch na extremidade do quadro. Deve ser observado aqui que mesmo em um quadro peri0dico, ο retardo de pitch poderia estar levemente alterando. Os retardos de pitch em qualquer ponto no quadro podem ser estimados por interpolar entre ο retardo de pitch na extremidade do iiltimo quadro e aquele na extremidade do quadro atual. Isso e mostrado na figura 4 - Uma vez que os retardos de pitch em todos os pontos no quadro sao conhecidos, ο quadro pode ser dividido em periodos de pitch. Os limites de periodos de pitch sao determinados utilizando os retardos de pitch em varios pontos no quadro.
A figure 4A mostra um exemplo de como dividir os quadros em seus periodos de pitch. Por exemplo, ο nuimero de amostra 70 tem retardo de pitch de aproximadamente 70 e ο η uimero de amostra 142 tem retardo de pitch de aproximadamente 72. Desse modo, periodos de pitch sao de tl-70] e de [71-142]. Isso e ilustrado na figura 4B. Apos ο quadro ter sido dividido em periodos de
pitch, esses periodos de pitch podem ser entao sobrepostos/adicionados para aumentar/diminuir ο tamanho do residual. A tecnica de sobrepor/adicionar e uma tecnica conhecida e as figuras 5A-5C mostram como e utilizada para expandir/comprimir ο residual.
Alternativamente, os periodos de pitch podem ser repetidos se ο sinal de fala necessitar ser expandido. Por exemplo, na figura 5B, ο periodo de pitch PPl pode ser repetido (em vez de sobreposto-adicionado com PP2) para produzir um periodo de pitch extra.
Alem disso, a s〇breposigao/adig;a〇 e/ou repetigao de periodos de pitch pode ser feita tantas vezes quanto e
necessario para produzir a quantidade de expansao/compressao necessaria.
Com referencia a figura 5A, ο sinal de fala original compreendendo 4 periodos de pitch (PPs) e mostrado. A figura 5B mostra como esse sinal de fala pode ser expandido utilizando sobrepor/adicionar. Na figura 5B, periodos de pitch PP2 e PPl sao sobrepostos/adicionados de tal modo que a contribuigao de PP2s continua diminuindo e aquela de PPl esta aumentando. A figura 5C ilustra como sobreposicpao/adicao e utilizado para comprimir ο residual.
Em casos quando ο periodo de pitch esta mudando, a tecnica de sobrepor-adicionar pode exigir a fusao de dois periodos de pitch de comprimento desigual· Nesse caso, fusao melhor pode ser obtida por alinhar os picos dos dois periodos de pitch antes de sobrepor/adicionar os mesmos.
O residual expandido/comprimido e finalmente enviado atraves da sintese de LPC.
Ap6s a banda inferior ser alinhada, a banda superior necessita ser alinhada utilizando ο periodo de pitch a partir da banda inferior, isto e, para expansao, um periodo de pitch de amostras e adicionado, enquanto para compressao, um periodo de pitch e removido.
O procedimento para alinhar a banda superior e diferente da banda inferior. Com referenda novamente a figura 3, a banda superior nao e alinhada no dominio residual, porem em vez disso ο alinhamento 38 e feito apos sintese 36 das amostras de banda superior. O motivo para isso e que a banda superior e amostrada em 7 kHz, enquanto a banda inferior e amostrada em 8 kHz. Desse modo, ο periodo de pitch da banda inferior (amostrada em 8 kHz) pode se tornar um niimero fracional de amostras quando a taxa de amostragem e 7 kHz, como na banda superior. Como exemplo, se ο periodo de pitch for 25 na banda inferior, no dominio residual da banda superior, isso exigira que 25*7/8 =21,875 amostras sejam adicionados/removidos do residual de banda superior. Evidentemente, uma vez que um rnimero fracional de amostras nao pode ser gerado, a banda superior e alinhada 38 apos ter sido reamostrada para 8 kHz, que e ο caso apos a sintese 36.
Apos a banda inferior ser alinhada 32, a excitagao de banda inferior nao alinhada (consistindo em 16〇 amostras) e passada para ο decodif icador de banda superior· Utilizando essa excitagao de banda inferior nao
alinhada, ο decodificador de banda superior produz 140 amostras de banda superior em 7 kHz. Essas 140 amostras sao entao passadas atraves de um filtro de sintese 36 e reamostradas para 8 kHz, fornecendo 160 amostras de banda superior.
Essas 160 amostras em 8 kHz sao entao com
alinhamento temporal 38 utilizando ο periodo de pitch a Partir da banda inferior e a tecnica de sobrepor/adicionar utilizada para alinhar ο segmento de fala CELP de banda inferior.
As bandas superior e inferior sao finalmente
adicionadas ou fundidas para fornecer ο sinal alinhado inteiro.
ALINHAMENTO TEMPORAL DE SINAL RESIDUAL QUANDO SEGMENTO DE FALA E NELP
Para segmentos de fala NELP, ο c〇dificad〇r
codifica somente as informagoes de LPC bem como os ganhos de diferentes partes do segmento de fala para a banda inferior. Os ganhos podem ser codificados em "segmentos" de 16 amostras PCM cada. Desse modo, a banda inferior pode ser
representada como 10 valores de ganho codificado (um de cada para 16 amostras de fala).
〇 decodificador gera ο sinal residual de banda
inferior por gerar valores aleatorios e entao aplicar os respectivos ganhos nos mesmos. Nesse caso, nao ha conceito de perxodo de pitch e como tal, a expansao/compressao de banda inferior nao tem de ser da granularidade de um periodo de pitch.
Para expandir/comprimir a banda inferior de um
quadro codificado NELP, ο decodificador pode gerar um niimero maior/menor de segmentos do que 10. A expansao/compressao de banda inferior nesse caso e por um rrniltiplo de 16 amostras, levando a N = 16*n amostras, onde η e ο ndmero de segmentos. No caso de expansao, os segmentos adicionados extra podem tomar os ganhos de alguma fungao dos primeiros 10 segmentos. Como exemplo, os segmentos extra podem tomar ο ganho do 10° segmento.
Alternativamente, ο decodificador pode
expandir/comprimir a banda inferior de um quadro codificado NELP por aplicar os 10 ganhos decodificados em conjuntos de Y (em vez de 16) amostras para gerar um residual de banda inferior expandido (y > 16) ou comprimido (y < 16).
〇 residual expandido/comprimido e entao enviado atraves da sintese LPC para produzir ο sinal alinhado de banda inferior.
Apos a banda inferior ser alinhada, a excitagao de banda inferior nao alinhada (compreendendo 160 amostras) e passada para ο decodificador de banda superior. Utilizando essa excitagao de banda inferior nao alinhada, ο decodificador de banda superior produz 140 amostras de banda superior em 7 kHz. Essas 140 amostras sao entao passadas atraves de um filtro de sintese e reamostradas para 8 kHz, fornecendo 160 amostras de banda superior. Essas 160 amostras em 8 kHz sao entao com
alinhamento temporal em um modo similar a alinhamento de banda superior de segmentos de fala CELP, isto e,
utilizando sobrepor/adicionar·
Ao utilizer sobrepor/adicionar para a banda superior de NELP, a quantidade a comprimir/expandir e igual a quantidade utilizada para a banda inferior· Em outras palavras, a "sobreposigao" utilizada para ο metodo de sobrepor/adicionar e considerada como sendo a quantidade de expansao/compressao na banda inferior· Como exemplo, se a banda inferior produziu 192 amostras apos alinhamento, ο periodo de sobreposigao utilizado no metodo de sobreposigao/adigao e 192 - 160 = 32 amostras. As bandas superior e inferior sao finalmente
adicionadas para fornecer ο segmento de fala NELP alinhado inteiro.
Aqueles versados na tecnica entenderao que informacoes e sinais podem ser representados utilizando qualquer de uma variedade de tecnicas e tecnologias diferentes. Por exemplo, dados, instrug5es, comandos, informaGdes, sinais, bits, simbolos e chips que podem ser referenciados em toda a descrigao acima podem ser representados por tensoes, correntes, ondas
eletromagneticas, campos ou particulas magneticas, particulas ou campos opticos, ou qualquer combinagao dos mesmos.
Aqueles versados na tecnica reconhecerao adicionalmente que os varios blocos 10gicos ilustrativos, modulos, circuitos, e etapas de algoritmo descritos com relagao as modalidades reveladas aqui podem ser implementados como hardware eletrSnico, software de computador ou combinagao dos mesmos. Para ilustrar claramente essa capacidade de intercambio de hardware e software, varios componentes ilustrativos, blocos, modulos circuitos e etapas foram descritos acima genericamente em termos de sua funcionalidade. 0 fato de se essa
funcionalidade e implementada como hardware ou software depende da aplicagao especifica e limitagoes de desenho impostas no sistema geral. Tecnicos especializados podem implementar a funcionalidade descrita em modos variaveis para cada aplicagao especifica, porem tais decisoes de implementagao nao devem ser interpretadas como causando afastando do escopo da presente invengao.
Os varios blocos logicos ilustrativos, modulos e circuitos descritos com relagao as modalidades reveladas aqui podem ser implementados ou executados com um processador de proposito geral, um Processador de sinais digitals (DSP) , um Circuito integrado de aplicagao especifica (ASIC) , uma Disposigao de porta programavel em c amp ο (FPGA) ou outro dispositivo logico programavel, porta discreta ou logica de transistor, componentes de hardware discretos, ou qualquer combinagao dos mesmos projetada para executar as fungoes descritas aqui. Um processador de proposito geral pode ser um microprocessador, porem na alternativa, ο processador pode ser qualquer processador convencional, controlador, microcontrolador ou maquina de estado. Um processador tambem pode ser implementado como uma combinagao de dispositivos de computagao, por exemplo, uma combinagao de um DSP e um microprocessador, uma pluralidade de microprocessadores, um ou mais microprocessadores em combinagao com um micleo de DSP, ou qualquer outra configuragao.
As etapas de um metodo ou algoritmo descrito com relagao as modalidades reveladas aqui podem ser incorporadas diretamente em hardware, em um modulo de software executado por um processador, ou em uma combinagao dos dois. Um modulo de software pode residir em Memoria de acesso aleatorio(RAM) , memoria flash, Memoria somente de leitura (ROM), ROM eletricamente programavel (EPROM), ROM programavel eletricamente apagavel (EEPROM), registros, disco rigido, um disco removivel, um CD-ROM ou qualquer outra forma de meio de armazenagem conhecido na tecnica. Um mei〇 de armazenagem ilustrativo e acoplado ao processador de tal modo que ο processador possa Ier inf ormagoes a partir de, e gravar informagoes para ο meio de armazenagem. Na alternativa, ο meio de armazenagem pode ser integral ao processador.〇 processador e ο meio de armazenagem podem residir em um ASIC.〇 ASIC pode residir em um terminal de usuario. Na alternativa, 〇 processador e 〇 meio de armazenagem podem residir como componentes discretos em um terminal de usuario.
A descrigao anterior das m〇dalidades reveladas e fornecida para permitir que qualquer pessoa versada na tecnica faga ou utilize a presente invengao. Varies modificagoes nessas modalidades serao prontamente evidentes para aqueles versados na tecnica, e os principios genericos definidos aqui podem ser aplicados em outras modalidades sem se af astar do espirito ou escopo da invenga〇. Desse modo, a presente invengao nao pretende ser limitada as modalidades mostradas aqui porem deve ser acordada 〇 escopo ma is ampIo compativel com os principios e aspectos novos
aqui revelados.

Claims (56)

1. Metodo para comunicar fala, compreendendo: alinhamento temporal de um sinal de fala de banda baixa residual para uma versao expandida ou comprimida do sinal de fala de banda baixa residual,· alinhamento temporal de um sinal de fala de banda alta para uma versao expandida ou comprimida do sinal de fala de banda alta; e fundir os sinais de fala de banda baixa e banda alta com alinhamento temporal para fornecer um sinal de fala com alinhamento temporal inteir〇.
2. Metodof de acordo com a reivindicagao 1, compreendendo ainda sintetizar 〇 sinal de fala de banda baixa residual com alinhamento temporal.
3. Metodo, de acordo com a reivindicagao 2, compreendendo ainda sintetizar ο sinal de fala de banda alta antes de alinhamento temporal do mesmo.
4. Metodo, de acordo com a reivindicagao 3, compreendendo ainda: classificar segmentos de fala; e codificar os segmentos de fala.
5. Metodof de acordo com a reivindicagao 4, em que a codificagao dos segmentos de fala compreende utilizer predigao linear excitada por codigo, predigao linear excitada por ruido ou codificagao de quadro 1/8·
6. Metodo, de acordo com a reivindicagao 4, em que a codificagao e codificagao de predigao linear excitada por codigo.
7. Metodo, de acordo com a reivindicaQao 4, em que a codificagao e codificagao de predigao linear excitada por ruido.
8. Metodo, de acordo com a reivindicec^ao 7 r em que a codificagao compreende codif icar inf ormag:oes de Codificagao preditiva linear como ganhos de partes diferentes de um quadro de fala.
9. · Metodo, de acordo com a reivindicagao 8, em que os ganhos sao codificados para conjuntos de amostras de fala.
10. Metodo, de acordo com a reivindicagao 9, compreendendo ainda gerar um sinal de banda baixa residual por gerar valores aleatorios e entao aplicar os ganhos aos valores aleatorios.
11.· Metodo, de acordo com a reivindicagao 9, compreendendo ainda representar as informagoes de Codificagao preditiva linear como 10 valores de ganho codificado para ο sinal de fala de banda baixa residual, onde cada valor de ganho codificado represents 16 amostras de fala.
12.· Metodo, de acordo com a reivindicagao 7, compreendendo ainda produzir 140 amostras do sinal de fala de banda alt a a partir de um sinal de excitagao de banda baixa nao alinhada·
13. Metodo, de acordo com a reivindicagao 7, em que alinhamento temporal do sinal de fala de banda baixa compreende gerar um niamero mais elevado/mais baixo de amostras e aplicar alguma fungao dos ganhos decodificados das partes de um quadro de fala ao residual e entao sintetizar ο mesmo,
14. Metodof de acordo com a reivindicagao 13, em que a aplicagao de alguma fungao dos ganhos decodificados de partes do quadro de fala ao residual compreende aplicar ο ganho do Ultimo segmento de fala as amostras adicionais quando a banda inferior e expandida.
15. Metodor de acordo com a reivindicagao 7, em que alinhamento temporal do sinal de fala de banda alta compreende: sobrepor/adicionar o mesmo número de amostras como foram comprimidas na banda inferior se o sinal de fala de banda alta for comprimido; e sobrepor/adicionar o mesmo número de amostras como foram expandidas na banda inferior se o sinal de fala de banda alta for expandido.
16. Método, de acordo com a reivindicação 6, em que alinhamento temporal do sinal de fala de banda baixa residual compreende: estimar pelo menos um período de pitch; e adicionar ou subtrair pelo menos um dos períodos de pitch após receber o sinal de fala de banda baixa residual.
17. Método, de acordo com a reivindicação 16, em que alinhamento temporal do sinal de fala de banda alta compreende: utilizar os períodos de pitch a partir do sinal de fala de banda baixa; sobrepor/adicionar um ou mais períodos de pitch se o sinal de fala de banda alta for comprimido; e sobrepor/adicionar ou repetir um ou mais períodos de pitch se o sinal de fala de banda alta for expandido.
18. Método, de acordo com a reivindicação 6, em que alinhamento temporal do sinal de fala de banda baixa residual compreende: estimar retardo de pitch; dividir um quadro de fala em períodos de pitch, onde limites dos períodos de pitch são determinados utilizando o retardo de pitch em vários pontos no quadro de fala; sobrepor/adicionar os períodos de pitch se o sinal de fala de banda baixa residual for comprimido; e sobrepor/adicionar ou repetir um ou mais períodos de pitch se o sinal de fala de banda baixa residual for expandido.
19. Método, de acordo com a reivindicação 18, em que alinhamento temporal do sinal de fala de banda alta compreende: utilizar períodos de pitch a partir do sinal de fala de banda baixa; sobrepor/adicionar os períodos de pitch se o sinal de fala de banda alta for comprimido; e sobrepor/adicionar ou repetir um ou mais períodos de pitch se o sinal de fala de banda alta for expandido.
20. Método de acordo com a reivindicação 18, em que a estimação do retardo de pitch compreende interpolar entre um retardo de pitch de uma extremidade de um último quadro e uma extremidade de um quadro atual.
21. Método, de acordo com a reivindicação 18, em que a sobreposição/adição ou repetição de um ou mais dos períodos de pitch compreende fundir os segmentos de fala.
22. Método, de acordo com a reivindicação 18, em que a sobreposição/adição ou repetição de um ou mais dos períodos de pitch se o sinal de fala de banda baixa residual for expandido compreende adicionar um período de pitch adicional criado a partir de um primeiro segmento de pitch e um segundo segmento de período de pitch.
23. Método, de acordo com a reivindicação 21, compreendendo ainda selecionar segmentos de fala similares, em que os segmentos de fala similares são fundidos.
24. Método, de acordo com a reivindicação 21, compreendendo ainda correlacionar os segmentos de fala, pelo que segmentos de fala similares são selecionados.
25. Método, de acordo com a reivindicação 22, em que a adição de um período de pitch adicional criado a partir de um primeiro segmento de pitch e um segundo segmento de período de pitch compreende adicionar os primeiro e segundo segmentos de pitch de tal modo que a contribuição do primeiro segmento de período de pitch aumenta e a contribuição do segundo segmento de período de pitch diminui.
26. Método, de acordo com a reivindicação 1, em que a banda baixa representa a banda até e incluindo 4 kHz.
27. Método, de acordo com a reivindicação 1, em que a banda alta representa a banda de aproximadamente 3,5 kHz até aproximadamente 7 kHz.
28. Vocoder tendo pelo menos uma entrada e pelo menos uma saída, compreendendo: um codificador compreendendo um filtro que tem pelo menos uma entrada eficientemente conectada à entrada do vocoder e pelo menos uma saída; e um decodificador compreendendo um sintetizador tendo pelo menos uma entrada eficientemente conectada a pelo menos uma saída do codificador e pelo menos uma saída eficientemente conectada a pelo menos uma saída do vocoder.
29. Vocoder, de acordo com a reivindicação 28, em que o decodificador compreende: uma memória, onde o decodificador é adaptado para executar instruções de software armazenadas na memória compreendendo: alinhamento temporal de um sinal de fala de banda baixa residual para uma versão expandida ou comprimida do sinal de fala de banda baixa residual; alinhamento temporal de um sinal de fala de banda alta para uma versão expandida ou comprimida do sinal de fala de banda alta; e fundir os sinais de fala de banda baixa e banda alta com alinhamento temporal para fornecer um sinal de fala com alinhamento temporal inteiro.
30. Vocoder, de acordo com a reivindicação 29, em que o sintetizador compreende meio para sintetizar o sinal de fala de banda baixa residual com alinhamento temporal.
31. Vocoder, de acordo com a reivindicação 30, em que o sintetizador compreende ainda meio para sintetizar o sinal de fala de banda alta antes de alinhamento temporal do mesmo.
32. Vocoder, de acordo com a reivindicação 28, em que o codificador compreende uma memória e o codificador é adaptado para executar instruções de software armazenadas na memória compreendendo classificar segmentos de fala como quadro 1/8, predição linear excitada por código ou predição linear excitada por ruído.
33. Vocoder, de acordo com a reivindicação 31, em que o codificador compreende uma memória e o codificador é adaptado para executar instruções de software armazenadas na memória compreendendo codificar segmentos de fala utilizando codificação de predição linear excitada por código.
34. Vocoder, de acordo com a reivindicação 31, em que o codificador compreende uma memória e o codificador é adaptado para executar instruções de software armazenadas na memória compreendendo codificar segmentos de fala utilizando codificação de predição linear excitada por ruído.
35. Vocoder, de acordo com a reivindicação 34, em que a codificação dos segmentos de fala utilizando instrução de software de codificação de predição linear excitada por ruído compreende codificar informações de Codificação preditiva linear como ganhos de partes diferentes de um segmento de fala.
36. Vocoder, de acordo com a reivindicação 35, em que os ganhos são codificados para conjuntos de amostras de fala.
37. Vocoder, de acordo com a reivindicação 36, em que a instrução de alinhamento temporal do sinal de fala de banda baixa residual compreende ainda gerar um sinal de fala de banda baixa residual por gerar valores aleatórios e então aplicar os ganhos aos valores aleatórios.
38. Vocoder, de acordo com a reivindicação 36, em que a instrução de alinhamento temporal do sinal de fala de banda baixa residual compreende ainda representar a informação de Codificação preditiva linear como 10 valores de ganho codificados para o sinal de fala de banda baixa residual, onde cada valor de ganho codificado representa 16 amostras de fala.
39. Vocoder, de acordo com a reivindicação 34, compreendendo ainda produzir 140 amostras do sinal de fala de banda alta a partir de um sinal de excitação de banda baixa não alinhada.
40. Vocoder, de acordo com a reivindicação 34, em que a instrução de software de alinhamento temporal do sinal de fala de banda baixa compreende gerar um número mais elevado/mais baixo de amostras e aplicar alguma função dos ganhos decodificados de partes de um quadro de fala ao residual e então sintetizar o mesmo.
41. Vocoder, de acordo com a reivindicação 40, em que a aplicação de alguma função dos ganhos decodificados de partes do quadro de fala ao residual compreende aplicar o ganho do último segmento de fala às amostras adicionais quando a banda inferior é expandida.
42. Vocoder, de acordo com a reivindicação 33, em que a instrução de software de alinhamento temporal do sinal de fala de banda alta compreende: sobrepor/adicionar o mesmo número de amostras como foram comprimidas na banda inferior se o sinal de fala de banda alta for comprimido; e sobrepor/adicionar o mesmo número de amostras como foram expandidas na banda inferior se o sinal de fala de banda alta for expandido.
43. Vocoder, de acordo com a reivindicação 33, em que a instrução de software de alinhamento temporal do sinal de fala de banda baixa residual compreende: estimar pelo menos um período de pitch; e adicionar ou subtrair pelo menos um período de pitch após receber o sinal de fala de banda baixa residual.
44. Vocoder, de acordo com a reivindicação 43, em que a instrução de software de alinhamento temporal do sinal de fala de banda alta compreende: utilizar o período de pitch a partir do sinal de fala de banda baixa; sobrepor/adicionar um ou mais períodos de pitch se o sinal de fala de banda alta for comprimido; e sobrepor/adicionar ou repetir um ou mais períodos de pitch se o sinal de fala de banda alta for expandido.
45. Vocoder, de acordo com a reivindicação 33, em que a instrução de software de alinhamento temporal do sinal de fala de banda baixa residual compreende: estimar o retardo de pitch; dividir um quadro de fala em períodos de pitch, onde limites dos períodos de pitch são determinados utilizando o retardo de pitch em vários pontos no quadro de f ala ; sobrepor/adicionar os períodos de pitch se o sinal de fala residual for comprimido; e sobrepor/adicionar ou repetir um ou mais períodos de pitch se o sinal de fala residual for expandido.
46. Vocoder, de acordo com a reivindicação 45, em que a instrução de software de alinhamento temporal do sinal de fala de banda alta compreende: utilizar os períodos de pitch a partir do sinal de fala de banda baixa; sobrepor/adicionar os períodos de pitch se o sinal de fala de banda alta for comprimido; e sobrepor/adicionar ou repetir um ou mais períodos de pitch se o sinal de fala de banda alta for expandido.
47. Vocoder, de acordo com a reivindicação 45, em que a instrução de sobreposição/adição dos períodos de pitch se o sinal de fala de banda baixa residual for comprimido compreende: segmentar uma seqüência de amostra de entrada em blocos de amostras; remover segmentos do sinal residual em intervalos de tempo regulares; fundir os segmentos removidos; e substituir os segmentos removidos com um segmento fundido.
48. Vocoder, de acordo com a reivindicação 45, em que a instrução de estimação do retardo de pitch compreende interpolar entre um retardo de pitch de uma extremidade de um último quadro e uma extremidade de um quadro atual.
49. Vocoder, de acordo com a reivindicação 45, em que a sobreposição/adição ou repetição de uma ou mais das instruções de períodos de pitch compreende fundir os segmentos de fala.
50. Vocoder, de acordo com a reivindicação 45, em que a sobreposição/adição ou repetição de uma ou mais das instruções de períodos de pitch se o sinal de fala de banda ba ixa residual for expandido compreende adicionar um período de pitch adicional criado a partir de um primeiro segmento de período de pitch e um segundo segmento de período de pitch.
51. Vocoder, de acordo com a reivindicação 47, em que a instrução de fusão dos segmentos removidos compreende aumentar a contribuição de um primeiro segmento de período de pitch e diminuir a contribuição de um segundo segmento de período de pitch.
52. Vocoder, de acordo com a reivindicação 49, compreendendo ainda selecionar segmentos de fala similares, em que os segmentos de fala similares são fundidos.
53. Vocoder, de acordo com a reivindicação 49, em que a instrução de alinhamento temporal do sinal de fala de banda baixa residual compreende ainda correlacionar os segmentos de fala, pelo que segmentos de fala similares são selecionados.
54. Vocoder, de acordo com a reivindicação 50, em que a instrução de adição de um período de pitch adicional criado a partir dos primeiro e segundo segmentos de período de pitch compreende adicionar os primeiro e segundo segmentos de período de pitch de tal modo que a contribuição do primeiro segmento de período de pitch aumenta e a contribuição do segundo segmento de período de pitch diminui.
55. Vocoder, de acordo com a reivindicação 29, em que a banda baixa representa a banda até e incluindo 4 kHz.
56. Vocoder, de acordo com a reivindicação 29, em que a banda alta representa a banda de aproximadamente 3,5 kHz até aproximadamente 7 kHz.
BRPI0715978-1A 2006-08-22 2007-08-06 quadros de alinhamento temporal de vocoder de banda larga BRPI0715978A2 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/508,396 2006-08-22
US11/508,396 US8239190B2 (en) 2006-08-22 2006-08-22 Time-warping frames of wideband vocoder
PCT/US2007/075284 WO2008024615A2 (en) 2006-08-22 2007-08-06 Time-warping frames of wideband vocoder

Publications (1)

Publication Number Publication Date
BRPI0715978A2 true BRPI0715978A2 (pt) 2013-08-06

Family

ID=38926197

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0715978-1A BRPI0715978A2 (pt) 2006-08-22 2007-08-06 quadros de alinhamento temporal de vocoder de banda larga

Country Status (10)

Country Link
US (1) US8239190B2 (pt)
EP (1) EP2059925A2 (pt)
JP (1) JP5006398B2 (pt)
KR (1) KR101058761B1 (pt)
CN (1) CN101506877B (pt)
BR (1) BRPI0715978A2 (pt)
CA (1) CA2659197C (pt)
RU (1) RU2414010C2 (pt)
TW (1) TWI340377B (pt)
WO (1) WO2008024615A2 (pt)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720677B2 (en) 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
CN100524462C (zh) 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
ES2739667T3 (es) * 2008-03-10 2020-02-03 Fraunhofer Ges Forschung Dispositivo y método para manipular una señal de audio que tiene un evento transitorio
US8768690B2 (en) 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
CN103000178B (zh) 2008-07-11 2015-04-08 弗劳恩霍夫应用研究促进协会 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码
US8798776B2 (en) 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
US8428938B2 (en) * 2009-06-04 2013-04-23 Qualcomm Incorporated Systems and methods for reconstructing an erased speech frame
KR101445296B1 (ko) * 2010-03-10 2014-09-29 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 샘플링 레이트 의존 시간 왜곡 윤곽 인코딩을 이용하는 오디오 신호 디코더, 오디오 신호 인코더, 방법, 및 컴퓨터 프로그램
JPWO2012046447A1 (ja) 2010-10-06 2014-02-24 パナソニック株式会社 符号化装置、復号装置、符号化方法及び復号方法
CN102201240B (zh) * 2011-05-27 2012-10-03 中国科学院自动化研究所 基于逆滤波的谐波噪声激励模型声码器
JP6303340B2 (ja) * 2013-08-30 2018-04-04 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
US10083708B2 (en) * 2013-10-11 2018-09-25 Qualcomm Incorporated Estimation of mixing factors to generate high-band excitation signal
EP3648103B1 (en) 2014-04-24 2021-10-20 Nippon Telegraph And Telephone Corporation Decoding method, decoding apparatus, corresponding program and recording medium
JP6276845B2 (ja) 2014-05-01 2018-02-07 日本電信電話株式会社 符号化装置、復号装置、符号化方法、復号方法、符号化プログラム、復号プログラム、記録媒体
DE102018206689A1 (de) * 2018-04-30 2019-10-31 Sivantos Pte. Ltd. Verfahren zur Rauschunterdrückung in einem Audiosignal

Family Cites Families (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2412987A1 (fr) * 1977-12-23 1979-07-20 Ibm France Procede de compression de donnees relatives au signal vocal et dispositif mettant en oeuvre ledit procede
US4570232A (en) * 1981-12-21 1986-02-11 Nippon Telegraph & Telephone Public Corporation Speech recognition apparatus
CA1204855A (en) * 1982-03-23 1986-05-20 Phillip J. Bloom Method and apparatus for use in processing signals
US5210820A (en) * 1990-05-02 1993-05-11 Broadcast Data Systems Limited Partnership Signal recognition system and method
JP3277398B2 (ja) * 1992-04-15 2002-04-22 ソニー株式会社 有声音判別方法
DE4324853C1 (de) 1993-07-23 1994-09-22 Siemens Ag Spannungserzeugungsschaltung
US5517595A (en) * 1994-02-08 1996-05-14 At&T Corp. Decomposition in noise and periodic signal waveforms in waveform interpolation
US5717823A (en) 1994-04-14 1998-02-10 Lucent Technologies Inc. Speech-rate modification for linear-prediction based analysis-by-synthesis speech coders
US5594174A (en) * 1994-06-06 1997-01-14 University Of Washington System and method for measuring acoustic reflectance
US5787387A (en) * 1994-07-11 1998-07-28 Voxware, Inc. Harmonic adaptive speech coding method and system
US5598505A (en) * 1994-09-30 1997-01-28 Apple Computer, Inc. Cepstral correction vector quantizer for speech recognition
JP2976860B2 (ja) 1995-09-13 1999-11-10 松下電器産業株式会社 再生装置
AU7463696A (en) * 1995-10-23 1997-05-15 Regents Of The University Of California, The Control structure for sound synthesis
TW321810B (pt) * 1995-10-26 1997-12-01 Sony Co Ltd
US5749073A (en) * 1996-03-15 1998-05-05 Interval Research Corporation System for automatically morphing audio information
US5828994A (en) * 1996-06-05 1998-10-27 Interval Research Corporation Non-uniform time scale modification of recorded audio
US6766300B1 (en) * 1996-11-07 2004-07-20 Creative Technology Ltd. Method and apparatus for transient detection and non-distortion time scaling
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
FR2786308B1 (fr) * 1998-11-20 2001-02-09 Sextant Avionique Procede de reconnaissance vocale dans un signal acoustique bruite et systeme mettant en oeuvre ce procede
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
US6691084B2 (en) 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US7315815B1 (en) 1999-09-22 2008-01-01 Microsoft Corporation LPC-harmonic vocoder with superframe structure
US6842735B1 (en) * 1999-12-17 2005-01-11 Interval Research Corporation Time-scale modification of data-compressed audio information
JP2001255882A (ja) * 2000-03-09 2001-09-21 Sony Corp 音声信号処理装置及びその信号処理方法
US6735563B1 (en) 2000-07-13 2004-05-11 Qualcomm, Inc. Method and apparatus for constructing voice templates for a speaker-independent voice recognition system
US6671669B1 (en) 2000-07-18 2003-12-30 Qualcomm Incorporated combined engine system and method for voice recognition
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US6477502B1 (en) * 2000-08-22 2002-11-05 Qualcomm Incorporated Method and apparatus for using non-symmetric speech coders to produce non-symmetric links in a wireless communication system
US6754629B1 (en) 2000-09-08 2004-06-22 Qualcomm Incorporated System and method for automatic voice recognition using mapping
EP1340317A1 (en) * 2000-11-03 2003-09-03 Koninklijke Philips Electronics N.V. Parametric coding of audio signals
US7472059B2 (en) * 2000-12-08 2008-12-30 Qualcomm Incorporated Method and apparatus for robust speech classification
US20020133334A1 (en) * 2001-02-02 2002-09-19 Geert Coorman Time scale modification of digitally sampled waveforms in the time domain
US6999598B2 (en) * 2001-03-23 2006-02-14 Fuji Xerox Co., Ltd. Systems and methods for embedding data by dimensional compression and expansion
CA2365203A1 (en) 2001-12-14 2003-06-14 Voiceage Corporation A signal modification method for efficient coding of speech signals
US20030182106A1 (en) * 2002-03-13 2003-09-25 Spectral Design Method and device for changing the temporal length and/or the tone pitch of a discrete audio signal
US7254533B1 (en) * 2002-10-17 2007-08-07 Dilithium Networks Pty Ltd. Method and apparatus for a thin CELP voice codec
US7394833B2 (en) * 2003-02-11 2008-07-01 Nokia Corporation Method and apparatus for reducing synchronization delay in packet switched voice terminals using speech decoder modification
US7024358B2 (en) * 2003-03-15 2006-04-04 Mindspeed Technologies, Inc. Recovering an erased voice frame with time warping
US7433815B2 (en) * 2003-09-10 2008-10-07 Dilithium Networks Pty Ltd. Method and apparatus for voice transcoding between variable rate coders
US7672838B1 (en) * 2003-12-01 2010-03-02 The Trustees Of Columbia University In The City Of New York Systems and methods for speech recognition using frequency domain linear prediction polynomials to form temporal and spectral envelopes from frequency domain representations of signals
US20050137730A1 (en) * 2003-12-18 2005-06-23 Steven Trautmann Time-scale modification of audio using separated frequency bands
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
JP4146489B2 (ja) 2004-05-26 2008-09-10 日本電信電話株式会社 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体
ATE488838T1 (de) * 2004-08-30 2010-12-15 Qualcomm Inc Verfahren und vorrichtung für einen adaptiven de- jitter-puffer
US8085678B2 (en) * 2004-10-13 2011-12-27 Qualcomm Incorporated Media (voice) playback (de-jitter) buffer adjustments based on air interface
SG124307A1 (en) * 2005-01-20 2006-08-30 St Microelectronics Asia Method and system for lost packet concealment in high quality audio streaming applications
US8355907B2 (en) 2005-03-11 2013-01-15 Qualcomm Incorporated Method and apparatus for phase matching frames in vocoders
US8155965B2 (en) 2005-03-11 2012-04-10 Qualcomm Incorporated Time warping frames inside the vocoder by modifying the residual
BRPI0607646B1 (pt) * 2005-04-01 2021-05-25 Qualcomm Incorporated Método e equipamento para encodificação por divisão de banda de sinais de fala
US7945305B2 (en) * 2005-04-14 2011-05-17 The Board Of Trustees Of The University Of Illinois Adaptive acquisition and reconstruction of dynamic MR images
US7490036B2 (en) * 2005-10-20 2009-02-10 Motorola, Inc. Adaptive equalizer for a coded speech signal
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
CN100524462C (zh) * 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置

Also Published As

Publication number Publication date
JP5006398B2 (ja) 2012-08-22
EP2059925A2 (en) 2009-05-20
KR20090053917A (ko) 2009-05-28
CA2659197A1 (en) 2008-02-28
TWI340377B (en) 2011-04-11
CN101506877B (zh) 2012-11-28
US20080052065A1 (en) 2008-02-28
WO2008024615A3 (en) 2008-04-17
WO2008024615A2 (en) 2008-02-28
TW200822062A (en) 2008-05-16
RU2414010C2 (ru) 2011-03-10
RU2009110202A (ru) 2010-10-27
CA2659197C (en) 2013-06-25
CN101506877A (zh) 2009-08-12
KR101058761B1 (ko) 2011-08-24
US8239190B2 (en) 2012-08-07
JP2010501896A (ja) 2010-01-21

Similar Documents

Publication Publication Date Title
BRPI0715978A2 (pt) quadros de alinhamento temporal de vocoder de banda larga
TWI389099B (zh) 用於在語音合成儀中藉由修改剩餘量之時間規整訊框之方法及處理器可讀媒體
ES2625895T3 (es) Método y dispositivo para la ocultación eficiente del borrado de tramas en códecs de voz basados en la predicción lineal
JP5019479B2 (ja) ボコーダにおけるフレームの位相整合のための方法および装置
JP4927257B2 (ja) 可変レートスピーチ符号化
ES2434947T3 (es) Procedimiento y dispositivo para la ocultación eficiente de un borrado de trama en códecs de voz
JP4824167B2 (ja) 周期的スピーチコーディング
ES2380307T3 (es) Esquema de codificación/decodificación de audio de tasa de transmisión de bits baja con preprocesamiento común.
ES2661732T3 (es) Decodificador de audio y método para proporcionar una información de audio decodificada usando una ocultación de error que modifica una señal de excitación de dominio de tiempo
ES2460893T3 (es) Sistemas, procedimientos y aparato para limitar el factor de ganancia
JP2010501896A5 (pt)
ES2687249T3 (es) Decisión no sonora/sonora para el procesamiento de la voz
ES2943588T3 (es) Decodificador para generar una señal de audio mejorada en frecuencia, procedimiento de decodificación, codificador para generar una señal codificada y procedimiento de codificación que utiliza información lateral de selección compacta
BRPI0609530A2 (pt) método e equipamento para encodificar e decodificar uma porção de banda alta de um sinal de fala
BRPI0714825A2 (pt) Sistemas e métodos para incluir um identificador a um pacote associado a um sinal de fala
BR112020009114A2 (pt) aparelho para codificar um sinal de informações que inclui uma pluralidade de quadros, sistema que compreende um lado do codificador e um lado do decodificador, método para determinar um atraso de pitch e programa que compreende instruções

Legal Events

Date Code Title Description
B15K Others concerning applications: alteration of classification

Ipc: G10L 19/18 (2013.01), G10L 21/01 (2013.01), G10L 1

B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06T Formal requirements before examination [chapter 6.20 patent gazette]
B11E Dismissal acc. art. 34 of ipl - requirements for examination incomplete
B11T Dismissal of application maintained [chapter 11.20 patent gazette]