BRPI0715978A2 - quadros de alinhamento temporal de vocoder de banda larga - Google Patents
quadros de alinhamento temporal de vocoder de banda larga Download PDFInfo
- Publication number
- BRPI0715978A2 BRPI0715978A2 BRPI0715978-1A BRPI0715978A BRPI0715978A2 BR PI0715978 A2 BRPI0715978 A2 BR PI0715978A2 BR PI0715978 A BRPI0715978 A BR PI0715978A BR PI0715978 A2 BRPI0715978 A2 BR PI0715978A2
- Authority
- BR
- Brazil
- Prior art keywords
- speech signal
- speech
- pitch
- residual
- band
- Prior art date
Links
- 230000002123 temporal effect Effects 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 62
- 230000006870 function Effects 0.000 claims description 7
- 230000002194 synthesizing effect Effects 0.000 claims description 6
- 230000007423 decrease Effects 0.000 claims description 4
- 230000005284 excitation Effects 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims 1
- 230000004927 fusion Effects 0.000 claims 1
- 230000015572 biosynthetic process Effects 0.000 description 13
- 238000003786 synthesis reaction Methods 0.000 description 13
- 230000006835 compression Effects 0.000 description 6
- 238000007906 compression Methods 0.000 description 6
- 230000001934 delay Effects 0.000 description 4
- 230000001052 transient effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005672 electromagnetic field Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/01—Correction of time axis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/087—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
"QUADROS DE ALINHAMENTO TEMPORAL DE VOCODER DE BANDA LARGA". Um método de comunicar fala compreendendo alinhamento temporal de um sinal de fala de banda baixa residual para uma versão expandida ou comprimida do sinal de fala de banda baixa residual, alinhamento temporal de um sinal de fala de banda alta para uma versão expandida ou comprimida do sinal de fala de banda alta, e fundindo os sinais de fala de banda baixa e banda alta com alinhamento temporal para fornecer um sinal de fala com alinhamento temporal inteiro.Na banda baixa, o sinal de fala de banda baixa residual é sintetizado após alinhamento temporal do sinal de banda baixa residual enquanto na banda alta, um sinal de banda alta não alinhada é sintetizado antes de alinhamento temporal do sinal de fala de banda alta. O método pode compreender ainda classificar segmentos de fala e codificar os segmentos de fala. A codificação dos segmentos de fala pode ser uma entre predição linear excitada por código, predição linear excitada por ruído ou codificação de quadro 1/8 (silêncio).
Description
"quadros de alinhamento temporal de vocoder de banda larga" fundamentos
CAMPO
A presente invengao refere-se geralmente a alinhamento temporal, isto e, expansao ou compressao, quadros em urn vocoder e, em particular, a metodos de alinhamento temporal de quadros em um vocoder de banda larga. FUNDAMENTOS
Alinhamento temporal tem diversas aplicag£>es em redes comutadas por pacote onde pacotes de vocoder podem chegar de forma assincrona. Embora ο alinhamento temporal possa ser executado dentro ou fora do vocoder, a execugao no vocoder oferece diversas vantagens como melhor qualidade de quadros alinhados e carga computacional reduzida·
somario
A invengao compreende um equipamento e metodo de alinhamento temporal de quadros de fala por manipular um sinal de fala. Em um aspecto, e revelado um metodo de alinhamento temporal de quadros de Predigao Linear excitada por c0digo (CELP) e Predigao Linear excitada por ruido (NELP) de um vocoder de banda larga de Vocoder de Quarta geragao (4GV). Mais especificamente, para quadros CELP, ο metodo mantem uma fase de fala por adigao ou delegao de periodos de pitch para expandir ou comprimir fala, respectivamente. Com esse metodo, ο sinal de banda mais baixa pode sofrer alinhamento temporal no residual, isto e, antes de sintese, enquanto ο sinal de banda mais alta pode sofrer alinhamento temporal apos sintese no dominio de 8 kHz· O metodo revelado pode ser aplicado em qualquer vocoder de banda larga que utiliza CELP e/ou NELP para a banda baixa e/ou utiliza uma tecnica de banda dividida para codificar as bandas inferior e superior separadamente. Deve ser observado que ο nome de padrao para banda larga 4GV e EVRC-C.
Em vista do acima, as caracteristicas descritas da invengao se referem, genericamente, a um ou ma is sistemas, metodos e/ou equipamentos aperfeigoados para comunicagao de fala. Em uma modalidade, a invengao compreende um metodo de comunicar fala compreendendo alinhamento temporal de um sinal de fala de banda baixa residua丄 para uma versao expandida ou comprimida do sinal de fala de banda baixa residual, alinhamento temporal de um sinal de fala de banda alta para uma versao expandida ou comprimida do sinal de fala de banda alta, e fundindo os sinais de fala de banda alta e banda baixa com alinhamento temporal para fornecer um sinal de fala com alinhamento temporal inteiro. Em um aspecto da invengao, ο sinal de fala de banda baixa residual e sintetizado apos alinhamento temporal do sinal de banda baixa residual enquanto na banda alta, a sintese e executada antes de alinhamento temporal do sinal de fala de banda alta. O metodo pode compreender ainda classificar os segmentos de fala e codificar os segmentos de fala. A codificagao dos segmentos de fala pode ser um entre predigao linear excitada por codigo, predigao linear excitada por ruido ou codificagao de quadro 1/8 (silencio) . A banda baixa pode representar a banda de frequencia ate aproximadamente 4 kHz e a banda alta pode representar a banda de aproximadamente 3,5 kHz ate aproximadamente 7 kHz.
Em outra modalidade, e revelado um vocoder tendo pelo menos uma entrada e pelo menos uma saida, ο vocoder compreendendo um codificador que compreende um filtro tendo pelo menos uma entrada eficientemente conectada a entrada do vocoder e pelo menos uma saida; e um decodif icador
compreendendo um sintetizador tendo pelo menos uma entrada eficientemente conectada a pelo menos uma saida do codificador e pelo menos uma saida eficientemente conectada a pelo menos uma saida do vocoder. Nessa modalidade, ο decodificador compreende uma memoria, onde ο decodificador e adaptado para executar instrutjiSes de software armazenadas na mem0ria compreendendo alinhamento temporal de um sinal de fala de banda baixa residual para uma versao expandida ou comprimida do sinal de fala de banda baixa residual, alinhamento temporal de um sinal de fala de banda alta para uma versao expandida ou comprimida do sinal de fala de banda alta, θ fundindo os sinais de fala de banda bsixa θ banda alta com alinhamento temporal para fornecer um sinal de fala com alinhamento temporal inteiro.〇 sintetizador pode compreender meio para sintetizar ο sinal de fala de banda baixa residual com alinhamento temporal, e meio para sintetizar ο sinal de fala de banda alta antes de alinhamento temporal do mesmo.〇 codificador compreende uma memoria e pode ser adaptado para executar instrugoes de software na memoria compreendendo classificar segmentos de fala como quadro 1/8 (silencio) , predigao linear excitada por c0digo ou predigao linear excitada por ruido.
0 escopo adiciona丄 de aplicabilidade da presente invengao tornar-se-a evidente a partir da seguinte descrigao detalhada, reivindicagSes e desenhos. Entretanto, deve ser entendido que a descrigao detalhada e exemplos especificos, embora indique modalidades preferidas da invengao, sao fornecidos somente como ilustragao, uma vez que varias alterag5es e modificagoes compreendidas no espirito e escopo da invengao tornar-se-ao evidentes para aqueles versados na tecnica.
BREVE DESCRigAO DOS DESENHOS A presente invengao tornar-se-a entendida de
forma mais completa a partir da descrigao detalhada dada abaixo, reivindicagoes apensas, e desenhos em anexo nos quais:
A figura Ieum diagrama de blocos de um vocoder de Codificagao preditiva linear (LPC);
A figura 2A e um sinal de fala contendo fala com
voz ;
A figura 2B e um sinal de fala contendo fala nao-
sonora;
A figura 2C e um sinal de fala contendo voz transiente;
A figura 3 e um diagrama de blocos ilustrando alinhamento temporal de banda baixa e banda alta;
A figura 4A represents a determinacjao de retardos de pitch atraves da interpolagao; A figura 4B representa a identif icagao de
periodos de pitch;
A figura 5A representa um sinal de fala original na forma de periodos de pitch;
A figura 5B representa um sinal de fala expandido utilizando sobrepor/adicionar; e
A figura 5C representa um sinal de fala comprimido utilizando sobrepor/adicionar·
DESCRigAO DETALHAOA
A palavra "ilustrativo" e utilizada aqui para significar "servir como exemplo, ocorrencia ou ilustragao.“ Qualquer modalidade descrita aqui como "ilustrativa" nao deve ser necessariamente interpretada como preferida ou vantajosa em relagao a outras modalidades.
Alinhamento temporal tem diversas aplicagoes em redes comutadas por pacote onde pacotes de vocoder podem chegar de forma assincrona. Embora alinhamento temporal possa ser executado dentro ou fora do vocoder, a execugao
do mesmo no vocoder oferece diversas vantagens como melhor qualidade de quadros alinhados e carga computacional reduzida· As tecnicas descritas aqui podem ser facilmente aplicadas a outros vocoders que utilizam tecnicas similares como 4GV-banda larga, cujo nome de padrao e EVRC-C, para fazer vocode de dados de voz.
DESCRigAO DE FUNCIONALIDADE DE VOCODER Vozes humanas compreendem dois componentes. Um componente compreende ondas fundamentais que sao sensiveis a pitch (altura) e ο outro e harmonica fixa que nao e sensivel a pitch. O pitch percebido de um som e a resposta do ouvido a frequencia, isto e, para fins mais praticos ο pitch e a frequencia. Os componentes de harmonica acrescentam caracteristicas distintas a voz de uma pessoa. Mudam j untamente com as cordas vocais e com ο f ormato fisico do trato vocal e sao denominados formantes.
A voz humana pode ser representada por um sinal digital s (n) 10 (vide a figura 1). Considere que s (n) 10 e um sinal de fala digital obtido durante uma conversagao tipica incluindo diferentes sons vocais e periodos de silencio. 0 sinal de fala s (n) 10 pode ser dividido em quadros 20, como mostrado nas figuras 2A - 2C. Em um aspecto, s (n) 10 e digitalmente amostrado em 8 kHz. Em outros aspectos, s(n) 10 pode ser digitalmente amostrado em 16 kHz ou 32 kHz ou alguma outra frequencia de amostragem. Esquemas de codificagao atuais comprimem um sinal
de fala digitalizado 10 em um sinal de taxa de bit baixa por remover todas as redundancias naturais (isto e, elementos correlacionados) inerentes em fala. A fala apresenta, tipicamente, redundancias de curta duragao resultando da agao mecanica dos labios e lingua, e redundancias de longa duragao resultando da vibragao das cordas vocais. A Codificagao preditiva linear (LPC) filtra
ο sinal de fala 10 por remover as redundancias que produzem β/17 um sinal de fala residual. Modela, entao, ο sinal residual resultante como ruido Gaussiano branco. Um valor amostrado de uma forma de onda de fala pode ser predito por ponderar uma soma de um niimero de amostras passadas, cada uma das quais e multiplicada por um coeficiente preditivo linear. Codificadores preditivos lineares, portanto, obtem uma taxa de bit reduzida por transmitir coeficientes de filtro e ruido quantizado em vez de um sinal de fala de largura de banda total 10.
1〇 Um diagrama de blocos de uma modalidade de um
vocoder LPC 70 e ilustrado na figura 1· A fungao do LPC e a de minimizar a soma das diferengas ao quadrado entre ο sinal de fala original e ο sinal de fala estimado em uma duragao finite. Isso pode produzir um conjunto ύηίοο de coeficientes preditor que sao normalmente estimados em cada quadro 20. Um quadro 20 tem tipicamente 20 ms de comprimento. A fungao de transferencia de um filtro digital de variagao de tempo 75 pode ser dada por:
G
H(z) =-r
!K
onde os coeficientes de preditor podem ser representados por ak e ο ganho por G.
A soma e computada de k = 1 para k = p. Se um metodo de LPC-IO for utilizado, entao ρ = 10. Isso significa que somente os 10 primeiros coeficientes sao transmitidos para um sintetizador LPC 80. Os dois metodos mais comumente utilizados para computar os coeficientes sao, porem nao limitados a, ο metodo de covariancia e ο metodo de autocorrelag:ao.
Vocoders tipicos produzem quadros 20 de 20 ms de duragao, incluindo 160 amostras na taxa preferida de 8 kHz ou 320 amostras em taxa de 16 kHz. Uma versao comprimida
com alinhamento temporal desse quadro 20 tem uma duragao menor do que 20 ms, enquanto uma versao expandida com alinhamento temporal tem uma duragao maior do que 20 ms - Alinhamento temporal de dados de voz tem vantagens significativas ao enviar dados de voz atraves de redes comutadas por pacote, que introduzem instabilidade de retardo na transmissao de pacotes de voz. Em tais redes, alinhamento temporal pode ser utilizado para diminuir os efeitos dessa instabilidade de retardo e produzir um fIuxo de voz que parece 、、sincr〇n〇〃. As modalidades da invengao se ref erem a um
equipamento e metodo para alinhamento temporal de quadros cientro do vocoder 7 0 por manipular ο residual de f ala. Em uma m〇dalidade, ο presente metodo e equipamento e utilizado em banda larga 4 GV. As modalidades reveladas compreendem metodos e equipamentos ou sistemas para expandir/comprimir tipos diferentes de segmentos de fala de banda larga 4GV codificados utilizando codificagao de Predig;a〇 linear excitada por c6dig〇 (CELP) ou Predigao linear excitada por ruido (NELP). 〇 termo 、λ vocoder" 70 se ref ere, tipicamente, a
dispositivos que comprimem f ala com voz por ext rair parametros com base em um modelo de geragao de fala humana. Vocoders 7 0 incluem um codificador 204 e um decodificador 206.〇 codificador 204 anaIisa a fala que entra e extrai 〇s parametros re levant es. Em uma modalidade, ο codif icador compreende ο filtro 75. 〇 decodificador 206 sintetiza a fala utilizando os parametros que recebe a partir do codificador 204 atraves de um canal de transmissao 208 . Em uma moda lidade, ο decodif icador compreende 〇 sinteti zador 80. O sinal de fala 10 e f requentemente dividido em quadros de dados e processado em bloco pelo vocoder 70.
Aqueles versados na tecriica reconhecerao que fala
humana pode ser classificada em muitos modos diferentes · Tres classificagoes convencionais de fala sao sons de voz, nao-sonora e fala transiente.
A figura 2A e um sinal de fala de voz s(n) 402. A figure 2A mostra uma propriedade comum, mensuravel de fala sonora conhecida como ο periodo de pitch 100.
A figura 2B e um sinal de fala nao-sonora s (n) 404. Um sinal de fala nao-sonora 404 se parece com ruido colorido.
A figura 2C represents um sinal de fala 1〇 transiente s (n) 406, isto e, fala que nao e sonora ou nao- sonora .O exemplo de fala transiente 406 mostrado na figura 2C poderia representar s(n) transigao entre fala nao-sonora e fala sonora. Essas tres classificagSes nao sao todas inclusive. Ha muitas classificagoes diferentes de fala que podem ser empregadas de acordo com os metodos descritos aqui para obter resultados comparaveis. VOCODER DE BANDA LARGA 4GV
O vocoder de quarta geragao (4GV) prove caracteristicas atraentes para uso atraves de redes sem fio como adicionalmente descrito no pedido de patente copendente nuimero de serie 11/123.467, depositado em 5 de maio de 2005, intitulado "Time warping frames inside the vocoder by modifying the residual", que e totalmente incorporada aqui a titulo de referenda. Algumas dessas caracteristicas incluem a capacidade de trade-off qualidade vs. taxa de bits, vocoding mais resiliente na face de taxa de erro de pacote (PER) aumentada, melhor ocultagao de apagamentos, etc. Na presente invengao, ο vocoder de banda larga 4 GV e revelado que codif ica fala utilizando uma tecnica de banda dividida, isto e, as bandas inferior e superior sao separadamente codificadas.
Em uma modalidade, um sinal de entrada represents
uma fala de banda larga amostrada em 16 kHz. Um banco de filtro de analise e fornecido gerando um sinal de banda estreita (banda baixa) amostrada em 8 kHz, e um sinal de banda alta amostrada em 7 kHz. Esse sinal de banda alta represents a banda a partir de aproximadamente 3,5 kHz ate aproximadamente 7 kHz no sinal de entrada, enquanto ο sinal de banda baixa represents a banda ate aproximadamente 4 kHz, e ο sinal de banda larga reconstruido final sera limitado em largura de banda ate aproximadamente 7 kHz. Deve ser observado que ha uma sobreposipao de 1〇 aproximadamente 500 Hz entre as bandas baixa e elevada, permitindo uma transigao mais gradual entre as bandas.
Em um aspecto, ο sinal de banda estreita e codificado utilizando uma versao modificada do codificador de fala EVRC-B de banda estreita, que e um codificador CELP com um tamanho de quadro de 20 milissegundos. V^rios sinais a partir do codificador de banda estreita sao utilizados pela sintese e analise de banda alta; sao: (1) ο sinal de excitagao (isto e, residual quantizado) a partir do codificador de banda estreita; (2) ο primeiro coeficiente de reflexao quantizado (como um indicador da inclinagao espectral do sinal de banda estreita); (3) ο ganho de livro-codigo adaptavel quantizado; e (4) ο retardo de pitch quantizado.
0 codificador de banda estreita EVRC-B modificado utilizado em banda larga 4GV codifica cada dado de voz de quadro em um de tres tipos de quadros diferentes: Predigao Linear excitada por codigo (CELP); Predigao linear excitada por ruido (NELP); ou quadro de taxa de l/8°de silencio·
CELP e utilizado para codificar grande parte da fala, que inclui fala que e peri0dica bem como aquela com pouca periodicidade. Tipicamente, aproximadamente 75% dos quadros nao silenciosos sao codificados pelo codificador de
banda estreita EVRC-B modificado utilizando CELP. NELP e utilizado para codificar fala que e de carater semelhante a ruido. O carater semelhante a ruido desses segmentos de fala pode ser reconstruido por gerar sinais aleat0rios no decodificador e aplicar ganhos apropriados aos mesmos.
Quadros de taxa de 1/8° sao utilizados para codificar ruido de segundo piano, isto e, periodos onde ο usuario nao esta falando.
ALINHAMENTO TEMPORAL DE QUADROS DE BANDA LARGA 4GV Uma vez que ο vocoder de banda larga 4GV codifica
bandas inferior e superior separadamente, a mesma filosofia e seguida em alinhamento temporal dos quadros. Δ banda inferior e com alinhamento temporal utilizando uma tecnica similar como descrito no pedido de patente copendente acima mencionado intitulado "Time warping frames inside the vocoder by modifying the residual.“
Com referencia a figura 3, e mostrado um alinhamento de banda inferior 32 que e aplicado em um sinal residual 30. 0 principal motivo para fazer alinhamento temporal 32 no dominio residual e que isso permite que a sintese de LPC 34 seja aplicada no sinal residual com alinhamento temporal. Os coeficientes de LPC desempenham um papel importante em como sons de fala e a aplicagao de sintese 34 apos alinhamento 32 assegura que informagoes de LPC corretas sao mantidas no sinal. Se alinhamento temporal for feito apos ο decodif icador, por outro Iado, a sintese de LPC ja foi executada antes de alinhamento temporal. Desse modo, ο procedimento de alinhamento pode alterar as informagoes de LPC do sinal, especialmente se a estimagao de periodo de pitch nao foi muito precisa.
ALINHAMENTO TEMPORAL DE SINAL RESIDUAL QUANDO SEGMENTO DE FALA E CELP
Para alinhar ο residual, ο decodificador utiliza informag5es de retardo de pitch contidas no quadro codificado.〇 retardo de pitch e na realidade ο retardo de pitch na extremidade do quadro. Deve ser observado aqui que mesmo em um quadro peri0dico, ο retardo de pitch poderia estar levemente alterando. Os retardos de pitch em qualquer ponto no quadro podem ser estimados por interpolar entre ο retardo de pitch na extremidade do iiltimo quadro e aquele na extremidade do quadro atual. Isso e mostrado na figura 4 - Uma vez que os retardos de pitch em todos os pontos no quadro sao conhecidos, ο quadro pode ser dividido em periodos de pitch. Os limites de periodos de pitch sao determinados utilizando os retardos de pitch em varios pontos no quadro.
A figure 4A mostra um exemplo de como dividir os quadros em seus periodos de pitch. Por exemplo, ο nuimero de amostra 70 tem retardo de pitch de aproximadamente 70 e ο η uimero de amostra 142 tem retardo de pitch de aproximadamente 72. Desse modo, periodos de pitch sao de tl-70] e de [71-142]. Isso e ilustrado na figura 4B. Apos ο quadro ter sido dividido em periodos de
pitch, esses periodos de pitch podem ser entao sobrepostos/adicionados para aumentar/diminuir ο tamanho do residual. A tecnica de sobrepor/adicionar e uma tecnica conhecida e as figuras 5A-5C mostram como e utilizada para expandir/comprimir ο residual.
Alternativamente, os periodos de pitch podem ser repetidos se ο sinal de fala necessitar ser expandido. Por exemplo, na figura 5B, ο periodo de pitch PPl pode ser repetido (em vez de sobreposto-adicionado com PP2) para produzir um periodo de pitch extra.
Alem disso, a s〇breposigao/adig;a〇 e/ou repetigao de periodos de pitch pode ser feita tantas vezes quanto e
necessario para produzir a quantidade de expansao/compressao necessaria.
Com referencia a figura 5A, ο sinal de fala original compreendendo 4 periodos de pitch (PPs) e mostrado. A figura 5B mostra como esse sinal de fala pode ser expandido utilizando sobrepor/adicionar. Na figura 5B, periodos de pitch PP2 e PPl sao sobrepostos/adicionados de tal modo que a contribuigao de PP2s continua diminuindo e aquela de PPl esta aumentando. A figura 5C ilustra como sobreposicpao/adicao e utilizado para comprimir ο residual.
Em casos quando ο periodo de pitch esta mudando, a tecnica de sobrepor-adicionar pode exigir a fusao de dois periodos de pitch de comprimento desigual· Nesse caso, fusao melhor pode ser obtida por alinhar os picos dos dois periodos de pitch antes de sobrepor/adicionar os mesmos.
O residual expandido/comprimido e finalmente enviado atraves da sintese de LPC.
Ap6s a banda inferior ser alinhada, a banda superior necessita ser alinhada utilizando ο periodo de pitch a partir da banda inferior, isto e, para expansao, um periodo de pitch de amostras e adicionado, enquanto para compressao, um periodo de pitch e removido.
O procedimento para alinhar a banda superior e diferente da banda inferior. Com referenda novamente a figura 3, a banda superior nao e alinhada no dominio residual, porem em vez disso ο alinhamento 38 e feito apos sintese 36 das amostras de banda superior. O motivo para isso e que a banda superior e amostrada em 7 kHz, enquanto a banda inferior e amostrada em 8 kHz. Desse modo, ο periodo de pitch da banda inferior (amostrada em 8 kHz) pode se tornar um niimero fracional de amostras quando a taxa de amostragem e 7 kHz, como na banda superior. Como exemplo, se ο periodo de pitch for 25 na banda inferior, no dominio residual da banda superior, isso exigira que 25*7/8 =21,875 amostras sejam adicionados/removidos do residual de banda superior. Evidentemente, uma vez que um rnimero fracional de amostras nao pode ser gerado, a banda superior e alinhada 38 apos ter sido reamostrada para 8 kHz, que e ο caso apos a sintese 36.
Apos a banda inferior ser alinhada 32, a excitagao de banda inferior nao alinhada (consistindo em 16〇 amostras) e passada para ο decodif icador de banda superior· Utilizando essa excitagao de banda inferior nao
alinhada, ο decodificador de banda superior produz 140 amostras de banda superior em 7 kHz. Essas 140 amostras sao entao passadas atraves de um filtro de sintese 36 e reamostradas para 8 kHz, fornecendo 160 amostras de banda superior.
Essas 160 amostras em 8 kHz sao entao com
alinhamento temporal 38 utilizando ο periodo de pitch a Partir da banda inferior e a tecnica de sobrepor/adicionar utilizada para alinhar ο segmento de fala CELP de banda inferior.
As bandas superior e inferior sao finalmente
adicionadas ou fundidas para fornecer ο sinal alinhado inteiro.
ALINHAMENTO TEMPORAL DE SINAL RESIDUAL QUANDO SEGMENTO DE FALA E NELP
Para segmentos de fala NELP, ο c〇dificad〇r
codifica somente as informagoes de LPC bem como os ganhos de diferentes partes do segmento de fala para a banda inferior. Os ganhos podem ser codificados em "segmentos" de 16 amostras PCM cada. Desse modo, a banda inferior pode ser
representada como 10 valores de ganho codificado (um de cada para 16 amostras de fala).
〇 decodificador gera ο sinal residual de banda
inferior por gerar valores aleatorios e entao aplicar os respectivos ganhos nos mesmos. Nesse caso, nao ha conceito de perxodo de pitch e como tal, a expansao/compressao de banda inferior nao tem de ser da granularidade de um periodo de pitch.
Para expandir/comprimir a banda inferior de um
quadro codificado NELP, ο decodificador pode gerar um niimero maior/menor de segmentos do que 10. A expansao/compressao de banda inferior nesse caso e por um rrniltiplo de 16 amostras, levando a N = 16*n amostras, onde η e ο ndmero de segmentos. No caso de expansao, os segmentos adicionados extra podem tomar os ganhos de alguma fungao dos primeiros 10 segmentos. Como exemplo, os segmentos extra podem tomar ο ganho do 10° segmento.
Alternativamente, ο decodificador pode
expandir/comprimir a banda inferior de um quadro codificado NELP por aplicar os 10 ganhos decodificados em conjuntos de Y (em vez de 16) amostras para gerar um residual de banda inferior expandido (y > 16) ou comprimido (y < 16).
〇 residual expandido/comprimido e entao enviado atraves da sintese LPC para produzir ο sinal alinhado de banda inferior.
Apos a banda inferior ser alinhada, a excitagao de banda inferior nao alinhada (compreendendo 160 amostras) e passada para ο decodificador de banda superior. Utilizando essa excitagao de banda inferior nao alinhada, ο decodificador de banda superior produz 140 amostras de banda superior em 7 kHz. Essas 140 amostras sao entao passadas atraves de um filtro de sintese e reamostradas para 8 kHz, fornecendo 160 amostras de banda superior. Essas 160 amostras em 8 kHz sao entao com
alinhamento temporal em um modo similar a alinhamento de banda superior de segmentos de fala CELP, isto e,
utilizando sobrepor/adicionar·
Ao utilizer sobrepor/adicionar para a banda superior de NELP, a quantidade a comprimir/expandir e igual a quantidade utilizada para a banda inferior· Em outras palavras, a "sobreposigao" utilizada para ο metodo de sobrepor/adicionar e considerada como sendo a quantidade de expansao/compressao na banda inferior· Como exemplo, se a banda inferior produziu 192 amostras apos alinhamento, ο periodo de sobreposigao utilizado no metodo de sobreposigao/adigao e 192 - 160 = 32 amostras. As bandas superior e inferior sao finalmente
adicionadas para fornecer ο segmento de fala NELP alinhado inteiro.
Aqueles versados na tecnica entenderao que informacoes e sinais podem ser representados utilizando qualquer de uma variedade de tecnicas e tecnologias diferentes. Por exemplo, dados, instrug5es, comandos, informaGdes, sinais, bits, simbolos e chips que podem ser referenciados em toda a descrigao acima podem ser representados por tensoes, correntes, ondas
eletromagneticas, campos ou particulas magneticas, particulas ou campos opticos, ou qualquer combinagao dos mesmos.
Aqueles versados na tecnica reconhecerao adicionalmente que os varios blocos 10gicos ilustrativos, modulos, circuitos, e etapas de algoritmo descritos com relagao as modalidades reveladas aqui podem ser implementados como hardware eletrSnico, software de computador ou combinagao dos mesmos. Para ilustrar claramente essa capacidade de intercambio de hardware e software, varios componentes ilustrativos, blocos, modulos circuitos e etapas foram descritos acima genericamente em termos de sua funcionalidade. 0 fato de se essa
funcionalidade e implementada como hardware ou software depende da aplicagao especifica e limitagoes de desenho impostas no sistema geral. Tecnicos especializados podem implementar a funcionalidade descrita em modos variaveis para cada aplicagao especifica, porem tais decisoes de implementagao nao devem ser interpretadas como causando afastando do escopo da presente invengao.
Os varios blocos logicos ilustrativos, modulos e circuitos descritos com relagao as modalidades reveladas aqui podem ser implementados ou executados com um processador de proposito geral, um Processador de sinais digitals (DSP) , um Circuito integrado de aplicagao especifica (ASIC) , uma Disposigao de porta programavel em c amp ο (FPGA) ou outro dispositivo logico programavel, porta discreta ou logica de transistor, componentes de hardware discretos, ou qualquer combinagao dos mesmos projetada para executar as fungoes descritas aqui. Um processador de proposito geral pode ser um microprocessador, porem na alternativa, ο processador pode ser qualquer processador convencional, controlador, microcontrolador ou maquina de estado. Um processador tambem pode ser implementado como uma combinagao de dispositivos de computagao, por exemplo, uma combinagao de um DSP e um microprocessador, uma pluralidade de microprocessadores, um ou mais microprocessadores em combinagao com um micleo de DSP, ou qualquer outra configuragao.
As etapas de um metodo ou algoritmo descrito com relagao as modalidades reveladas aqui podem ser incorporadas diretamente em hardware, em um modulo de software executado por um processador, ou em uma combinagao dos dois. Um modulo de software pode residir em Memoria de acesso aleatorio(RAM) , memoria flash, Memoria somente de leitura (ROM), ROM eletricamente programavel (EPROM), ROM programavel eletricamente apagavel (EEPROM), registros, disco rigido, um disco removivel, um CD-ROM ou qualquer outra forma de meio de armazenagem conhecido na tecnica. Um mei〇 de armazenagem ilustrativo e acoplado ao processador de tal modo que ο processador possa Ier inf ormagoes a partir de, e gravar informagoes para ο meio de armazenagem. Na alternativa, ο meio de armazenagem pode ser integral ao processador.〇 processador e ο meio de armazenagem podem residir em um ASIC.〇 ASIC pode residir em um terminal de usuario. Na alternativa, 〇 processador e 〇 meio de armazenagem podem residir como componentes discretos em um terminal de usuario.
A descrigao anterior das m〇dalidades reveladas e fornecida para permitir que qualquer pessoa versada na tecnica faga ou utilize a presente invengao. Varies modificagoes nessas modalidades serao prontamente evidentes para aqueles versados na tecnica, e os principios genericos definidos aqui podem ser aplicados em outras modalidades sem se af astar do espirito ou escopo da invenga〇. Desse modo, a presente invengao nao pretende ser limitada as modalidades mostradas aqui porem deve ser acordada 〇 escopo ma is ampIo compativel com os principios e aspectos novos
aqui revelados.
Claims (56)
1. Metodo para comunicar fala, compreendendo: alinhamento temporal de um sinal de fala de banda baixa residual para uma versao expandida ou comprimida do sinal de fala de banda baixa residual,· alinhamento temporal de um sinal de fala de banda alta para uma versao expandida ou comprimida do sinal de fala de banda alta; e fundir os sinais de fala de banda baixa e banda alta com alinhamento temporal para fornecer um sinal de fala com alinhamento temporal inteir〇.
2. Metodof de acordo com a reivindicagao 1, compreendendo ainda sintetizar 〇 sinal de fala de banda baixa residual com alinhamento temporal.
3. Metodo, de acordo com a reivindicagao 2, compreendendo ainda sintetizar ο sinal de fala de banda alta antes de alinhamento temporal do mesmo.
4. Metodo, de acordo com a reivindicagao 3, compreendendo ainda: classificar segmentos de fala; e codificar os segmentos de fala.
5. Metodof de acordo com a reivindicagao 4, em que a codificagao dos segmentos de fala compreende utilizer predigao linear excitada por codigo, predigao linear excitada por ruido ou codificagao de quadro 1/8·
6. Metodo, de acordo com a reivindicagao 4, em que a codificagao e codificagao de predigao linear excitada por codigo.
7. Metodo, de acordo com a reivindicaQao 4, em que a codificagao e codificagao de predigao linear excitada por ruido.
8. Metodo, de acordo com a reivindicec^ao 7 r em que a codificagao compreende codif icar inf ormag:oes de Codificagao preditiva linear como ganhos de partes diferentes de um quadro de fala.
9. · Metodo, de acordo com a reivindicagao 8, em que os ganhos sao codificados para conjuntos de amostras de fala.
10. Metodo, de acordo com a reivindicagao 9, compreendendo ainda gerar um sinal de banda baixa residual por gerar valores aleatorios e entao aplicar os ganhos aos valores aleatorios.
11.· Metodo, de acordo com a reivindicagao 9, compreendendo ainda representar as informagoes de Codificagao preditiva linear como 10 valores de ganho codificado para ο sinal de fala de banda baixa residual, onde cada valor de ganho codificado represents 16 amostras de fala.
12.· Metodo, de acordo com a reivindicagao 7, compreendendo ainda produzir 140 amostras do sinal de fala de banda alt a a partir de um sinal de excitagao de banda baixa nao alinhada·
13. Metodo, de acordo com a reivindicagao 7, em que alinhamento temporal do sinal de fala de banda baixa compreende gerar um niamero mais elevado/mais baixo de amostras e aplicar alguma fungao dos ganhos decodificados das partes de um quadro de fala ao residual e entao sintetizar ο mesmo,
14. Metodof de acordo com a reivindicagao 13, em que a aplicagao de alguma fungao dos ganhos decodificados de partes do quadro de fala ao residual compreende aplicar ο ganho do Ultimo segmento de fala as amostras adicionais quando a banda inferior e expandida.
15. Metodor de acordo com a reivindicagao 7, em que alinhamento temporal do sinal de fala de banda alta compreende: sobrepor/adicionar o mesmo número de amostras como foram comprimidas na banda inferior se o sinal de fala de banda alta for comprimido; e sobrepor/adicionar o mesmo número de amostras como foram expandidas na banda inferior se o sinal de fala de banda alta for expandido.
16. Método, de acordo com a reivindicação 6, em que alinhamento temporal do sinal de fala de banda baixa residual compreende: estimar pelo menos um período de pitch; e adicionar ou subtrair pelo menos um dos períodos de pitch após receber o sinal de fala de banda baixa residual.
17. Método, de acordo com a reivindicação 16, em que alinhamento temporal do sinal de fala de banda alta compreende: utilizar os períodos de pitch a partir do sinal de fala de banda baixa; sobrepor/adicionar um ou mais períodos de pitch se o sinal de fala de banda alta for comprimido; e sobrepor/adicionar ou repetir um ou mais períodos de pitch se o sinal de fala de banda alta for expandido.
18. Método, de acordo com a reivindicação 6, em que alinhamento temporal do sinal de fala de banda baixa residual compreende: estimar retardo de pitch; dividir um quadro de fala em períodos de pitch, onde limites dos períodos de pitch são determinados utilizando o retardo de pitch em vários pontos no quadro de fala; sobrepor/adicionar os períodos de pitch se o sinal de fala de banda baixa residual for comprimido; e sobrepor/adicionar ou repetir um ou mais períodos de pitch se o sinal de fala de banda baixa residual for expandido.
19. Método, de acordo com a reivindicação 18, em que alinhamento temporal do sinal de fala de banda alta compreende: utilizar períodos de pitch a partir do sinal de fala de banda baixa; sobrepor/adicionar os períodos de pitch se o sinal de fala de banda alta for comprimido; e sobrepor/adicionar ou repetir um ou mais períodos de pitch se o sinal de fala de banda alta for expandido.
20. Método de acordo com a reivindicação 18, em que a estimação do retardo de pitch compreende interpolar entre um retardo de pitch de uma extremidade de um último quadro e uma extremidade de um quadro atual.
21. Método, de acordo com a reivindicação 18, em que a sobreposição/adição ou repetição de um ou mais dos períodos de pitch compreende fundir os segmentos de fala.
22. Método, de acordo com a reivindicação 18, em que a sobreposição/adição ou repetição de um ou mais dos períodos de pitch se o sinal de fala de banda baixa residual for expandido compreende adicionar um período de pitch adicional criado a partir de um primeiro segmento de pitch e um segundo segmento de período de pitch.
23. Método, de acordo com a reivindicação 21, compreendendo ainda selecionar segmentos de fala similares, em que os segmentos de fala similares são fundidos.
24. Método, de acordo com a reivindicação 21, compreendendo ainda correlacionar os segmentos de fala, pelo que segmentos de fala similares são selecionados.
25. Método, de acordo com a reivindicação 22, em que a adição de um período de pitch adicional criado a partir de um primeiro segmento de pitch e um segundo segmento de período de pitch compreende adicionar os primeiro e segundo segmentos de pitch de tal modo que a contribuição do primeiro segmento de período de pitch aumenta e a contribuição do segundo segmento de período de pitch diminui.
26. Método, de acordo com a reivindicação 1, em que a banda baixa representa a banda até e incluindo 4 kHz.
27. Método, de acordo com a reivindicação 1, em que a banda alta representa a banda de aproximadamente 3,5 kHz até aproximadamente 7 kHz.
28. Vocoder tendo pelo menos uma entrada e pelo menos uma saída, compreendendo: um codificador compreendendo um filtro que tem pelo menos uma entrada eficientemente conectada à entrada do vocoder e pelo menos uma saída; e um decodificador compreendendo um sintetizador tendo pelo menos uma entrada eficientemente conectada a pelo menos uma saída do codificador e pelo menos uma saída eficientemente conectada a pelo menos uma saída do vocoder.
29. Vocoder, de acordo com a reivindicação 28, em que o decodificador compreende: uma memória, onde o decodificador é adaptado para executar instruções de software armazenadas na memória compreendendo: alinhamento temporal de um sinal de fala de banda baixa residual para uma versão expandida ou comprimida do sinal de fala de banda baixa residual; alinhamento temporal de um sinal de fala de banda alta para uma versão expandida ou comprimida do sinal de fala de banda alta; e fundir os sinais de fala de banda baixa e banda alta com alinhamento temporal para fornecer um sinal de fala com alinhamento temporal inteiro.
30. Vocoder, de acordo com a reivindicação 29, em que o sintetizador compreende meio para sintetizar o sinal de fala de banda baixa residual com alinhamento temporal.
31. Vocoder, de acordo com a reivindicação 30, em que o sintetizador compreende ainda meio para sintetizar o sinal de fala de banda alta antes de alinhamento temporal do mesmo.
32. Vocoder, de acordo com a reivindicação 28, em que o codificador compreende uma memória e o codificador é adaptado para executar instruções de software armazenadas na memória compreendendo classificar segmentos de fala como quadro 1/8, predição linear excitada por código ou predição linear excitada por ruído.
33. Vocoder, de acordo com a reivindicação 31, em que o codificador compreende uma memória e o codificador é adaptado para executar instruções de software armazenadas na memória compreendendo codificar segmentos de fala utilizando codificação de predição linear excitada por código.
34. Vocoder, de acordo com a reivindicação 31, em que o codificador compreende uma memória e o codificador é adaptado para executar instruções de software armazenadas na memória compreendendo codificar segmentos de fala utilizando codificação de predição linear excitada por ruído.
35. Vocoder, de acordo com a reivindicação 34, em que a codificação dos segmentos de fala utilizando instrução de software de codificação de predição linear excitada por ruído compreende codificar informações de Codificação preditiva linear como ganhos de partes diferentes de um segmento de fala.
36. Vocoder, de acordo com a reivindicação 35, em que os ganhos são codificados para conjuntos de amostras de fala.
37. Vocoder, de acordo com a reivindicação 36, em que a instrução de alinhamento temporal do sinal de fala de banda baixa residual compreende ainda gerar um sinal de fala de banda baixa residual por gerar valores aleatórios e então aplicar os ganhos aos valores aleatórios.
38. Vocoder, de acordo com a reivindicação 36, em que a instrução de alinhamento temporal do sinal de fala de banda baixa residual compreende ainda representar a informação de Codificação preditiva linear como 10 valores de ganho codificados para o sinal de fala de banda baixa residual, onde cada valor de ganho codificado representa 16 amostras de fala.
39. Vocoder, de acordo com a reivindicação 34, compreendendo ainda produzir 140 amostras do sinal de fala de banda alta a partir de um sinal de excitação de banda baixa não alinhada.
40. Vocoder, de acordo com a reivindicação 34, em que a instrução de software de alinhamento temporal do sinal de fala de banda baixa compreende gerar um número mais elevado/mais baixo de amostras e aplicar alguma função dos ganhos decodificados de partes de um quadro de fala ao residual e então sintetizar o mesmo.
41. Vocoder, de acordo com a reivindicação 40, em que a aplicação de alguma função dos ganhos decodificados de partes do quadro de fala ao residual compreende aplicar o ganho do último segmento de fala às amostras adicionais quando a banda inferior é expandida.
42. Vocoder, de acordo com a reivindicação 33, em que a instrução de software de alinhamento temporal do sinal de fala de banda alta compreende: sobrepor/adicionar o mesmo número de amostras como foram comprimidas na banda inferior se o sinal de fala de banda alta for comprimido; e sobrepor/adicionar o mesmo número de amostras como foram expandidas na banda inferior se o sinal de fala de banda alta for expandido.
43. Vocoder, de acordo com a reivindicação 33, em que a instrução de software de alinhamento temporal do sinal de fala de banda baixa residual compreende: estimar pelo menos um período de pitch; e adicionar ou subtrair pelo menos um período de pitch após receber o sinal de fala de banda baixa residual.
44. Vocoder, de acordo com a reivindicação 43, em que a instrução de software de alinhamento temporal do sinal de fala de banda alta compreende: utilizar o período de pitch a partir do sinal de fala de banda baixa; sobrepor/adicionar um ou mais períodos de pitch se o sinal de fala de banda alta for comprimido; e sobrepor/adicionar ou repetir um ou mais períodos de pitch se o sinal de fala de banda alta for expandido.
45. Vocoder, de acordo com a reivindicação 33, em que a instrução de software de alinhamento temporal do sinal de fala de banda baixa residual compreende: estimar o retardo de pitch; dividir um quadro de fala em períodos de pitch, onde limites dos períodos de pitch são determinados utilizando o retardo de pitch em vários pontos no quadro de f ala ; sobrepor/adicionar os períodos de pitch se o sinal de fala residual for comprimido; e sobrepor/adicionar ou repetir um ou mais períodos de pitch se o sinal de fala residual for expandido.
46. Vocoder, de acordo com a reivindicação 45, em que a instrução de software de alinhamento temporal do sinal de fala de banda alta compreende: utilizar os períodos de pitch a partir do sinal de fala de banda baixa; sobrepor/adicionar os períodos de pitch se o sinal de fala de banda alta for comprimido; e sobrepor/adicionar ou repetir um ou mais períodos de pitch se o sinal de fala de banda alta for expandido.
47. Vocoder, de acordo com a reivindicação 45, em que a instrução de sobreposição/adição dos períodos de pitch se o sinal de fala de banda baixa residual for comprimido compreende: segmentar uma seqüência de amostra de entrada em blocos de amostras; remover segmentos do sinal residual em intervalos de tempo regulares; fundir os segmentos removidos; e substituir os segmentos removidos com um segmento fundido.
48. Vocoder, de acordo com a reivindicação 45, em que a instrução de estimação do retardo de pitch compreende interpolar entre um retardo de pitch de uma extremidade de um último quadro e uma extremidade de um quadro atual.
49. Vocoder, de acordo com a reivindicação 45, em que a sobreposição/adição ou repetição de uma ou mais das instruções de períodos de pitch compreende fundir os segmentos de fala.
50. Vocoder, de acordo com a reivindicação 45, em que a sobreposição/adição ou repetição de uma ou mais das instruções de períodos de pitch se o sinal de fala de banda ba ixa residual for expandido compreende adicionar um período de pitch adicional criado a partir de um primeiro segmento de período de pitch e um segundo segmento de período de pitch.
51. Vocoder, de acordo com a reivindicação 47, em que a instrução de fusão dos segmentos removidos compreende aumentar a contribuição de um primeiro segmento de período de pitch e diminuir a contribuição de um segundo segmento de período de pitch.
52. Vocoder, de acordo com a reivindicação 49, compreendendo ainda selecionar segmentos de fala similares, em que os segmentos de fala similares são fundidos.
53. Vocoder, de acordo com a reivindicação 49, em que a instrução de alinhamento temporal do sinal de fala de banda baixa residual compreende ainda correlacionar os segmentos de fala, pelo que segmentos de fala similares são selecionados.
54. Vocoder, de acordo com a reivindicação 50, em que a instrução de adição de um período de pitch adicional criado a partir dos primeiro e segundo segmentos de período de pitch compreende adicionar os primeiro e segundo segmentos de período de pitch de tal modo que a contribuição do primeiro segmento de período de pitch aumenta e a contribuição do segundo segmento de período de pitch diminui.
55. Vocoder, de acordo com a reivindicação 29, em que a banda baixa representa a banda até e incluindo 4 kHz.
56. Vocoder, de acordo com a reivindicação 29, em que a banda alta representa a banda de aproximadamente 3,5 kHz até aproximadamente 7 kHz.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/508,396 | 2006-08-22 | ||
US11/508,396 US8239190B2 (en) | 2006-08-22 | 2006-08-22 | Time-warping frames of wideband vocoder |
PCT/US2007/075284 WO2008024615A2 (en) | 2006-08-22 | 2007-08-06 | Time-warping frames of wideband vocoder |
Publications (1)
Publication Number | Publication Date |
---|---|
BRPI0715978A2 true BRPI0715978A2 (pt) | 2013-08-06 |
Family
ID=38926197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BRPI0715978-1A BRPI0715978A2 (pt) | 2006-08-22 | 2007-08-06 | quadros de alinhamento temporal de vocoder de banda larga |
Country Status (10)
Country | Link |
---|---|
US (1) | US8239190B2 (pt) |
EP (1) | EP2059925A2 (pt) |
JP (1) | JP5006398B2 (pt) |
KR (1) | KR101058761B1 (pt) |
CN (1) | CN101506877B (pt) |
BR (1) | BRPI0715978A2 (pt) |
CA (1) | CA2659197C (pt) |
RU (1) | RU2414010C2 (pt) |
TW (1) | TWI340377B (pt) |
WO (1) | WO2008024615A2 (pt) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7720677B2 (en) | 2005-11-03 | 2010-05-18 | Coding Technologies Ab | Time warped modified transform coding of audio signals |
US9653088B2 (en) * | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
CN100524462C (zh) | 2007-09-15 | 2009-08-05 | 华为技术有限公司 | 对高带信号进行帧错误隐藏的方法及装置 |
ES2739667T3 (es) * | 2008-03-10 | 2020-02-03 | Fraunhofer Ges Forschung | Dispositivo y método para manipular una señal de audio que tiene un evento transitorio |
US8768690B2 (en) | 2008-06-20 | 2014-07-01 | Qualcomm Incorporated | Coding scheme selection for low-bit-rate applications |
MY154452A (en) * | 2008-07-11 | 2015-06-15 | Fraunhofer Ges Forschung | An apparatus and a method for decoding an encoded audio signal |
CN103000178B (zh) | 2008-07-11 | 2015-04-08 | 弗劳恩霍夫应用研究促进协会 | 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码 |
US8798776B2 (en) | 2008-09-30 | 2014-08-05 | Dolby International Ab | Transcoding of audio metadata |
US8428938B2 (en) * | 2009-06-04 | 2013-04-23 | Qualcomm Incorporated | Systems and methods for reconstructing an erased speech frame |
KR101445296B1 (ko) * | 2010-03-10 | 2014-09-29 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 샘플링 레이트 의존 시간 왜곡 윤곽 인코딩을 이용하는 오디오 신호 디코더, 오디오 신호 인코더, 방법, 및 컴퓨터 프로그램 |
JPWO2012046447A1 (ja) | 2010-10-06 | 2014-02-24 | パナソニック株式会社 | 符号化装置、復号装置、符号化方法及び復号方法 |
CN102201240B (zh) * | 2011-05-27 | 2012-10-03 | 中国科学院自动化研究所 | 基于逆滤波的谐波噪声激励模型声码器 |
JP6303340B2 (ja) * | 2013-08-30 | 2018-04-04 | 富士通株式会社 | 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム |
US10083708B2 (en) * | 2013-10-11 | 2018-09-25 | Qualcomm Incorporated | Estimation of mixing factors to generate high-band excitation signal |
EP3648103B1 (en) | 2014-04-24 | 2021-10-20 | Nippon Telegraph And Telephone Corporation | Decoding method, decoding apparatus, corresponding program and recording medium |
JP6276845B2 (ja) | 2014-05-01 | 2018-02-07 | 日本電信電話株式会社 | 符号化装置、復号装置、符号化方法、復号方法、符号化プログラム、復号プログラム、記録媒体 |
DE102018206689A1 (de) * | 2018-04-30 | 2019-10-31 | Sivantos Pte. Ltd. | Verfahren zur Rauschunterdrückung in einem Audiosignal |
Family Cites Families (55)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2412987A1 (fr) * | 1977-12-23 | 1979-07-20 | Ibm France | Procede de compression de donnees relatives au signal vocal et dispositif mettant en oeuvre ledit procede |
US4570232A (en) * | 1981-12-21 | 1986-02-11 | Nippon Telegraph & Telephone Public Corporation | Speech recognition apparatus |
CA1204855A (en) * | 1982-03-23 | 1986-05-20 | Phillip J. Bloom | Method and apparatus for use in processing signals |
US5210820A (en) * | 1990-05-02 | 1993-05-11 | Broadcast Data Systems Limited Partnership | Signal recognition system and method |
JP3277398B2 (ja) * | 1992-04-15 | 2002-04-22 | ソニー株式会社 | 有声音判別方法 |
DE4324853C1 (de) | 1993-07-23 | 1994-09-22 | Siemens Ag | Spannungserzeugungsschaltung |
US5517595A (en) * | 1994-02-08 | 1996-05-14 | At&T Corp. | Decomposition in noise and periodic signal waveforms in waveform interpolation |
US5717823A (en) | 1994-04-14 | 1998-02-10 | Lucent Technologies Inc. | Speech-rate modification for linear-prediction based analysis-by-synthesis speech coders |
US5594174A (en) * | 1994-06-06 | 1997-01-14 | University Of Washington | System and method for measuring acoustic reflectance |
US5787387A (en) * | 1994-07-11 | 1998-07-28 | Voxware, Inc. | Harmonic adaptive speech coding method and system |
US5598505A (en) * | 1994-09-30 | 1997-01-28 | Apple Computer, Inc. | Cepstral correction vector quantizer for speech recognition |
JP2976860B2 (ja) | 1995-09-13 | 1999-11-10 | 松下電器産業株式会社 | 再生装置 |
AU7463696A (en) * | 1995-10-23 | 1997-05-15 | Regents Of The University Of California, The | Control structure for sound synthesis |
TW321810B (pt) * | 1995-10-26 | 1997-12-01 | Sony Co Ltd | |
US5749073A (en) * | 1996-03-15 | 1998-05-05 | Interval Research Corporation | System for automatically morphing audio information |
US5828994A (en) * | 1996-06-05 | 1998-10-27 | Interval Research Corporation | Non-uniform time scale modification of recorded audio |
US6766300B1 (en) * | 1996-11-07 | 2004-07-20 | Creative Technology Ltd. | Method and apparatus for transient detection and non-distortion time scaling |
WO1999010719A1 (en) * | 1997-08-29 | 1999-03-04 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
FR2786308B1 (fr) * | 1998-11-20 | 2001-02-09 | Sextant Avionique | Procede de reconnaissance vocale dans un signal acoustique bruite et systeme mettant en oeuvre ce procede |
US6456964B2 (en) * | 1998-12-21 | 2002-09-24 | Qualcomm, Incorporated | Encoding of periodic speech using prototype waveforms |
US6691084B2 (en) | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
US7315815B1 (en) | 1999-09-22 | 2008-01-01 | Microsoft Corporation | LPC-harmonic vocoder with superframe structure |
US6842735B1 (en) * | 1999-12-17 | 2005-01-11 | Interval Research Corporation | Time-scale modification of data-compressed audio information |
JP2001255882A (ja) * | 2000-03-09 | 2001-09-21 | Sony Corp | 音声信号処理装置及びその信号処理方法 |
US6735563B1 (en) | 2000-07-13 | 2004-05-11 | Qualcomm, Inc. | Method and apparatus for constructing voice templates for a speaker-independent voice recognition system |
US6671669B1 (en) | 2000-07-18 | 2003-12-30 | Qualcomm Incorporated | combined engine system and method for voice recognition |
US6990453B2 (en) * | 2000-07-31 | 2006-01-24 | Landmark Digital Services Llc | System and methods for recognizing sound and music signals in high noise and distortion |
US6477502B1 (en) * | 2000-08-22 | 2002-11-05 | Qualcomm Incorporated | Method and apparatus for using non-symmetric speech coders to produce non-symmetric links in a wireless communication system |
US6754629B1 (en) | 2000-09-08 | 2004-06-22 | Qualcomm Incorporated | System and method for automatic voice recognition using mapping |
EP1340317A1 (en) * | 2000-11-03 | 2003-09-03 | Koninklijke Philips Electronics N.V. | Parametric coding of audio signals |
US7472059B2 (en) * | 2000-12-08 | 2008-12-30 | Qualcomm Incorporated | Method and apparatus for robust speech classification |
US20020133334A1 (en) * | 2001-02-02 | 2002-09-19 | Geert Coorman | Time scale modification of digitally sampled waveforms in the time domain |
US6999598B2 (en) * | 2001-03-23 | 2006-02-14 | Fuji Xerox Co., Ltd. | Systems and methods for embedding data by dimensional compression and expansion |
CA2365203A1 (en) | 2001-12-14 | 2003-06-14 | Voiceage Corporation | A signal modification method for efficient coding of speech signals |
US20030182106A1 (en) * | 2002-03-13 | 2003-09-25 | Spectral Design | Method and device for changing the temporal length and/or the tone pitch of a discrete audio signal |
US7254533B1 (en) * | 2002-10-17 | 2007-08-07 | Dilithium Networks Pty Ltd. | Method and apparatus for a thin CELP voice codec |
US7394833B2 (en) * | 2003-02-11 | 2008-07-01 | Nokia Corporation | Method and apparatus for reducing synchronization delay in packet switched voice terminals using speech decoder modification |
US7024358B2 (en) * | 2003-03-15 | 2006-04-04 | Mindspeed Technologies, Inc. | Recovering an erased voice frame with time warping |
US7433815B2 (en) * | 2003-09-10 | 2008-10-07 | Dilithium Networks Pty Ltd. | Method and apparatus for voice transcoding between variable rate coders |
US7672838B1 (en) * | 2003-12-01 | 2010-03-02 | The Trustees Of Columbia University In The City Of New York | Systems and methods for speech recognition using frequency domain linear prediction polynomials to form temporal and spectral envelopes from frequency domain representations of signals |
US20050137730A1 (en) * | 2003-12-18 | 2005-06-23 | Steven Trautmann | Time-scale modification of audio using separated frequency bands |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
JP4146489B2 (ja) | 2004-05-26 | 2008-09-10 | 日本電信電話株式会社 | 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体 |
ATE488838T1 (de) * | 2004-08-30 | 2010-12-15 | Qualcomm Inc | Verfahren und vorrichtung für einen adaptiven de- jitter-puffer |
US8085678B2 (en) * | 2004-10-13 | 2011-12-27 | Qualcomm Incorporated | Media (voice) playback (de-jitter) buffer adjustments based on air interface |
SG124307A1 (en) * | 2005-01-20 | 2006-08-30 | St Microelectronics Asia | Method and system for lost packet concealment in high quality audio streaming applications |
US8355907B2 (en) | 2005-03-11 | 2013-01-15 | Qualcomm Incorporated | Method and apparatus for phase matching frames in vocoders |
US8155965B2 (en) | 2005-03-11 | 2012-04-10 | Qualcomm Incorporated | Time warping frames inside the vocoder by modifying the residual |
BRPI0607646B1 (pt) * | 2005-04-01 | 2021-05-25 | Qualcomm Incorporated | Método e equipamento para encodificação por divisão de banda de sinais de fala |
US7945305B2 (en) * | 2005-04-14 | 2011-05-17 | The Board Of Trustees Of The University Of Illinois | Adaptive acquisition and reconstruction of dynamic MR images |
US7490036B2 (en) * | 2005-10-20 | 2009-02-10 | Motorola, Inc. | Adaptive equalizer for a coded speech signal |
US7720677B2 (en) * | 2005-11-03 | 2010-05-18 | Coding Technologies Ab | Time warped modified transform coding of audio signals |
CN100524462C (zh) * | 2007-09-15 | 2009-08-05 | 华为技术有限公司 | 对高带信号进行帧错误隐藏的方法及装置 |
-
2006
- 2006-08-22 US US11/508,396 patent/US8239190B2/en active Active
-
2007
- 2007-08-06 CN CN2007800308129A patent/CN101506877B/zh active Active
- 2007-08-06 KR KR1020097005598A patent/KR101058761B1/ko active IP Right Grant
- 2007-08-06 RU RU2009110202/09A patent/RU2414010C2/ru active
- 2007-08-06 CA CA2659197A patent/CA2659197C/en active Active
- 2007-08-06 JP JP2009525687A patent/JP5006398B2/ja active Active
- 2007-08-06 EP EP07813815A patent/EP2059925A2/en not_active Withdrawn
- 2007-08-06 BR BRPI0715978-1A patent/BRPI0715978A2/pt not_active Application Discontinuation
- 2007-08-06 WO PCT/US2007/075284 patent/WO2008024615A2/en active Application Filing
- 2007-08-13 TW TW096129874A patent/TWI340377B/zh not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
JP5006398B2 (ja) | 2012-08-22 |
EP2059925A2 (en) | 2009-05-20 |
KR20090053917A (ko) | 2009-05-28 |
CA2659197A1 (en) | 2008-02-28 |
TWI340377B (en) | 2011-04-11 |
CN101506877B (zh) | 2012-11-28 |
US20080052065A1 (en) | 2008-02-28 |
WO2008024615A3 (en) | 2008-04-17 |
WO2008024615A2 (en) | 2008-02-28 |
TW200822062A (en) | 2008-05-16 |
RU2414010C2 (ru) | 2011-03-10 |
RU2009110202A (ru) | 2010-10-27 |
CA2659197C (en) | 2013-06-25 |
CN101506877A (zh) | 2009-08-12 |
KR101058761B1 (ko) | 2011-08-24 |
US8239190B2 (en) | 2012-08-07 |
JP2010501896A (ja) | 2010-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
BRPI0715978A2 (pt) | quadros de alinhamento temporal de vocoder de banda larga | |
TWI389099B (zh) | 用於在語音合成儀中藉由修改剩餘量之時間規整訊框之方法及處理器可讀媒體 | |
ES2625895T3 (es) | Método y dispositivo para la ocultación eficiente del borrado de tramas en códecs de voz basados en la predicción lineal | |
JP5019479B2 (ja) | ボコーダにおけるフレームの位相整合のための方法および装置 | |
JP4927257B2 (ja) | 可変レートスピーチ符号化 | |
ES2434947T3 (es) | Procedimiento y dispositivo para la ocultación eficiente de un borrado de trama en códecs de voz | |
JP4824167B2 (ja) | 周期的スピーチコーディング | |
ES2380307T3 (es) | Esquema de codificación/decodificación de audio de tasa de transmisión de bits baja con preprocesamiento común. | |
ES2661732T3 (es) | Decodificador de audio y método para proporcionar una información de audio decodificada usando una ocultación de error que modifica una señal de excitación de dominio de tiempo | |
ES2460893T3 (es) | Sistemas, procedimientos y aparato para limitar el factor de ganancia | |
JP2010501896A5 (pt) | ||
ES2687249T3 (es) | Decisión no sonora/sonora para el procesamiento de la voz | |
ES2943588T3 (es) | Decodificador para generar una señal de audio mejorada en frecuencia, procedimiento de decodificación, codificador para generar una señal codificada y procedimiento de codificación que utiliza información lateral de selección compacta | |
BRPI0609530A2 (pt) | método e equipamento para encodificar e decodificar uma porção de banda alta de um sinal de fala | |
BRPI0714825A2 (pt) | Sistemas e métodos para incluir um identificador a um pacote associado a um sinal de fala | |
BR112020009114A2 (pt) | aparelho para codificar um sinal de informações que inclui uma pluralidade de quadros, sistema que compreende um lado do codificador e um lado do decodificador, método para determinar um atraso de pitch e programa que compreende instruções |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
B15K | Others concerning applications: alteration of classification |
Ipc: G10L 19/18 (2013.01), G10L 21/01 (2013.01), G10L 1 |
|
B06F | Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette] | ||
B06T | Formal requirements before examination [chapter 6.20 patent gazette] | ||
B11E | Dismissal acc. art. 34 of ipl - requirements for examination incomplete | ||
B11T | Dismissal of application maintained [chapter 11.20 patent gazette] |