BRPI0820463B1 - Método e aparelho para extensão de largura de banda de sinal de áudio - Google Patents

Método e aparelho para extensão de largura de banda de sinal de áudio Download PDF

Info

Publication number
BRPI0820463B1
BRPI0820463B1 BRPI0820463-2A BRPI0820463A BRPI0820463B1 BR PI0820463 B1 BRPI0820463 B1 BR PI0820463B1 BR PI0820463 A BRPI0820463 A BR PI0820463A BR PI0820463 B1 BRPI0820463 B1 BR PI0820463B1
Authority
BR
Brazil
Prior art keywords
signal
energy
band
bandwidth
digital audio
Prior art date
Application number
BRPI0820463-2A
Other languages
English (en)
Inventor
Tenkasi V. Ramabadran
Mark A. Jasiuk
Original Assignee
Google Technology Holdings LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google Technology Holdings LLC filed Critical Google Technology Holdings LLC
Publication of BRPI0820463A2 publication Critical patent/BRPI0820463A2/pt
Publication of BRPI0820463A8 publication Critical patent/BRPI0820463A8/pt
Publication of BRPI0820463B1 publication Critical patent/BRPI0820463B1/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

MÉTODO E APARELHO PARA EXTENSÃO DE LARGURA DE BANDA DE
SINAL DE ÁUDIO
CAMPO TÉCNICO
Esta invenção se refere geralmente à renderização de conteúdo audível e mais particularmente às técnicas de extensão de largura de banda.
ANTECEDENTES
A renderização audível de conteúdo de áudio a partir de uma representação digital compreende uma área conhecida de empenho. Em alguns cenários de aplicação a representação digital compreende uma largura de banda correspondente completa como pertencendo a uma amostra de áudio original. Em tal caso, a renderização audível pode compreender uma saída de som. altamente precisa e natural. Tal abordagem, contudo, requer consideráveis recursos de processamento para acomodar a quantidade correspondente de dados. Em muitos cenários de aplicação, tal como, por exemplo, cenários de comunicação sem fio, tal quantidade de informação não pode ser sempre suportada adequadamente.
Para acomodar tal limitação, as assim chamadas técnicas de fala de banda estreita podem servir para limitar a quantidade de informação mediante, por sua vez, limitação da representação a menos do que a largura de banda correspondente completa correspondendo a uma amostra de áudio original. Apenas como exemplo a esse respeito, embora a fala natural inclua componentes significativos de até 8 kHz (ou superior) , uma representação de banda estreita pode fornecer informação apenas com relação, digamos, a uma faixa de 300 - 3.400 Hz. O conteúdo resultante, quando renderizado audível, é tipicamente
2/37 suficientemente inteligível para suportar as necessidades funcionais de comunicação baseada em fala. Infelizmente, contudo, processamento de fala de banda estreita também tende a produzir fala que soa abafada e pode até mesmo ter inteligibilidade reduzida em comparação com fala de banda completa.
Para atender a essa necessidade, técnicas de extensão de largura de banda algumas vezes sã empregadas. Pode-se gerar artificialmente a informação ausente nas bandas superior e/ou inferior com base na informação de banda estreita disponível assim como outra informação para selecionar informação que pode ser adicionada ao conteúdo de banda estreita para assim sintetizar um sinal de pseudobanda larga (ou completa). Utilizando tais técnicas, por exemplo, é possível transformar a fala de banda estreita na faixa de 300 - 3.400 Hz em fala de banda larga, digamos, na faixa de 100 - 8.000 Hz. Com essa finalidade, uma peça de informação crucial que é exigida é o envelope espectral na banda alta (3.400 - 8.000 Hz) . Se o envelope espectral de banda larga for estimado, o envelope espectral de banda alta pode então normalmente ser facilmente extraído do mesmo. Pode-se considerar o envelope espectral de banda alta como compreendido de um formato e de um ganho (ou equivalentemente, energia).
Mediante uma abordagem, por exemplo, o formato de envelope espectral de banda alta é estimado mediante estimação do envelope espectral de banda larga a partir do envelope espectral de banda estreita através de mapeamento de livro de códigos. A energia de banda alta é então estimada mediante ajuste da energia dentro da seção de
3/37 banda estreita do envelope espectral de banda larga para combinar com a energia do envelope espectral de banda estreita. Nessa abordagem, o formato do envelope espectral de banda alta determina a energia de banda alta e quaisquer erros na estimativa do formato também afetará correspodentemente as estimativas da energia de banda alta.
Em outra abordagem, o formato de envelope espectral de banda alta e a energia de banda alta são estimados separadamente, e o envelope espectral de banda alta que é finalmente usado é ajustado para combinar com a energia de banda alta estimada. Mediante uma abordagem relacionada à energia de banda alta estimada é usada, além de outros parâmetros, para determinar o formato de envelope espectral de banda alta. Contudo, o envelope espectral de banda alta resultante não é necessariamente garantido em termos de ter a energia de banda alta apropriada. Uma etapa adicional, portanto, é exigida para ajustar a energia do envelope espectral de banda alta para o valor estimado. A menos que se tome cuidado especial, essa abordagem resultará em uma descontinuidade no envelope espectral de banda larga no limite entre a banda estreita e a banda alta. Embora as abordagens existentes para extensão de largura de banda e, particularmente, para estimação de envelope de banda alta sejam razoavelmente bem-sucedidas, elas não produzem necessariamente uma fala resultante de qualidade adequada em ao menos alguns cenários de aplicação.
Para gerar fala estendida de largura de banda de qualidade aceitável, o número de artefatos em tal fala deve ser minimizado. Sabe-se que estimativa excessiva de energia de banda alta resulta em artefatos irritantes. A estimativa
4/37 incorreta do formato de envelope espectral de banda alta também pode levar a artefatos, mas esses artefatos normalmente são mais suaves e são facilmente mascarados pela fala de banda estreita.
BREVE DESCRIÇÃO DOS DESENHOS
As necessidades mencionadas acima são ao menos parcialmente satisfeitas através o fornecimento do método e equipamento para facilitar o fornecimento e uso de um valor de energia para determinar um formato e envelope espectral para conteúdo de largura de banda fora de sinal, descrito na descrição detalhada seguinte, particularmente quando estudados em conjunto com os desenhos, nos quais:
A Figura 1 compreende um diagrama de fluxo conforme configurado de acordo com as várias modalidades da invenção;
A Figura compreende um gráfico conforme configurado de acordo com as várias modalidades da invenção;
A Figura 3 compreende um diagrama de blocos conforme configurado de acordo com as várias modalidades da
A Figura 4 compreende um diagrama de blocos conforme configurado de acordo com as várias modalidades da
A Figura 5 compreende um diagrama de blocos conforme configurado de acordo com as várias modalidades da invenção; e
A Figura compreende um gráfico conforme configurado de acordo com as várias modalidades da invenção.
5/37
Aqueles versados na técnica considerarão que os elementos nas figuras são ilustrados para simplicidade e clareza e não foram necessariamente traçados em escala. Por exemplo, as dimensões e/ou o posicionamento relativo e alguns dos elementos nas figuras podem ser exagerados em relação aos outros elementos para ajudar a melhorar o entendimento das várias modalidades da presente invenção. Além disso, elementos comuns, mas bem-entendidos que são úteis ou necessários em uma modalidade comercialmente praticável frequentemente não são ilustrados para facilitar uma vista menos obstruída dessas várias modalidades da presente invenção. Será considerado ainda que certas ações e/ou etapas podem ser descritas ou ilustradas em uma ordem de ocorrência específica enquanto aqueles versados na técnica entenderão que tal especificidade com relação à sequência não é efetivamente exigida. Também será entendido que os termos e expressões aqui usados têm o significado comum conforme concedido a tais termos e expressões com relação às suas áreas respectivas correspondentes de consulta e estudo exceto onde significados específicos tiverem sido de outro modo aqui apresentados.
DESCRIÇÃO DETALHADA
Em termos gerais, de acordo com essas várias modalidades, é fornecido um sinal de áudio digital que tem uma largura de banda de sinal correspondente, e então é fornecido um valor de energia que corresponde a pelo menos uma estimativa da energia de largura de banda fora de sinal como correspondendo àquele sinal de áudio digital. Pode-se então utilizar esse valor de energia para simultaneamente determinar ambos, um formato de envelope espectral e uma
6/37 energia correspondente adequada para o formato de envelope espectral para conteúdo de largura de banda fora de sinal correspondendo ao sinal de áudio digital. Por intermédio de uma abordagem, se desejado, combina-se (em uma base de quadro a quadro) o sinal de áudio digital com o conteúdo de largura de banda fora de sinal para fornecer uma versão estendida de largura de banda do sinal de áudio digital para ser renderizado de forma audível para assim aperfeiçoar a qualidade de áudio correspondente do sinal de áudio digital conforme assim renderizado.
Assim configurada, a energia fora de banda sugere o envelope espectral fora de banda, isto é, o valor de energia estimado é usado para determinar o envelope espectral fora de banda, isto é, um formato espectral e uma energia adequada correspondente. Tal abordagem comprova ser relativamente simples de ser implementada e processada. O parâmetro de energia fora de banda único é mais fácil de controlar e manipular o envelope espectral fora de banda multidimensional. Como resultado, essa abordagem também tende a produzir conteúdo audível resultante de uma qualidade superior a ao menos algumas das abordagens da técnica anterior usadas até o presente.
Essas e outras vantagens podem se tornar mais evidentes a partir de uma análise rigorosa da descrição detalhada seguinte. Com referência agora aos desenhos, e particularmente à Figura 1, um processo correspondente 100 pode começar com o fornecimento 101 de um sinal de áudio digital que tem uma largura de banda de sinal correspondente. Em um cenário de aplicação típico, isso compreenderá o fornecimento de uma pluralidade de quadros
7/37 de tal conteúdo. Esses ensinamentos prontamente acomodarão o processamento de cada tal quadro de acordo com as etapas descritas. Por intermédio de uma abordagem, por exemplo, cada quadro pode corresponder a 10-40 milissegundos do conteúdo de áudio original.
Isso pode compreender, por exemplo, fornecer sinal de áudio digital que compreende conteúdo vocal sintetizado. Tal é o caso, por exemplo, ao se empregar esses ensinamentos em conjunto com o conteúdo de fala vocodificado recebido em um dispositivo de comunicação sem fio portátil. Também existem outras possibilidades, contudo, como será bem entendido por aqueles versados na técnica. Por exemplo, o sinal de áudio digital poderia de outro modo compreender um sinal de fala original ou uma versão outra vez amostrada de um sinal de fala original ou de um conteúdo de fala sintetizado.
Com referência momentaneamente à Figura 2, será entendido que esse sinal de áudio digital pertence a algum sinal de áudio original 201 que tem uma largura de banda de sinal original correspondente 202. Essa largura de banda de sinal correspondente original 202 tipicamente será maior do que a largura de banda de sinal anteriormente mencionada conforme corresponde ao sinal de áudio digital. Isso pode ocorrer, por exemplo, quando o sinal de áudio digital representa apenas uma porção 203 do sinal de áudio original 201 com outras porções sendo deixadas fora de banda. No exemplo ilustrativo mostrado, isso inclui uma porção de banda baixa (204) e uma porção de banda alta (205). Aqueles versados na técnica reconhecerão que esse exemplo tem um propósito apenas ilustrativo e que a porção não
8/37 representada pode compreender apenas uma porção de banda baixa ou uma porção de banda alta. Esses ensinamentos também seriam aplicáveis para uso em um cenário de aplicação onde a porção não representada cai na banda média para duas ou mais porções representadas (não mostradas).
Portanto, será facilmente entendido que a porção (porções) não representada do sinal de áudio original 201 compreende conteúdo que esses ensinamentos aqui presentes podem razoavelmente procurar substituir ou de outro modo representar de alguma forma razoável e aceitável. Também será entendido que essa largura de banda de sinal ocupa apenas uma porção da largura de banda Nyquist determinada pela frequência de amostragem relevante. Isso, por sua vez, será entendido como proporcionando adicionalmente uma região de frequência na qual efetuar a extensão de largura de banda desejada.
Com referência outra vez à Figura 1, esse processo 100 provê então 102 um valor de energia que corresponde a ao menos uma estimativa da energia de largura de banda fora de sinal como correspondendo ao sinal de áudio digital. Para muitos cenários de aplicação, isso pode se basear, ao menos em parte, na suposição de que o sinal original tinha uma largura de banda mais ampla do que aquela do próprio sinal de áudio digital.
Conforme uma abordagem, essa etapa pode compreender estimar o valor de energia como uma função, ao menos em parte, do próprio sinal de áudio digital. Mediante outra abordagem, se desejado, isso pode compreender receber informação a partir da fonte que originalmente transmitiu o sinal de áudio digital anteriormente mencionado que
9/37 representa diretamente ou indiretamente esse valor de energia. A abordagem mencionada por último pode ser útil quando o codificador de fala original (ou outra fonte correspondente) inclui a funcionalidade apropriada para permitir que tal valor de energia seja medido diretamente ou indiretamente e representado por uma ou mais métricas correspondentes que são transmitidas, por exemplo, junto com o próprio sinal de áudio digital.
Essa energia de largura de banda fora de sinal pode compreender energia que corresponde ao conteúdo de sinal que é superior em frequência à largura de banda de sinal correspondente do sinal de áudio digital. Tal abordagem é apropriada, por exemplo, quando o próprio conteúdo removido anteriormente mencionado compreende conteúdo que ocupa uma largura de banda que é superior em frequência ao conteúdo de áudio que é diretamente representado pelo sinal de áudio digital. Na alternativa, ou em combinação com o mencionado acima, essa energia de largura de banda fora de sinal pode corresponder ao conteúdo de sinal que é inferior em frequência à largura de banda de sinal correspondente do sinal de áudio digital. Essa abordagem, evidentemente, pode complementar aquela situação que existe quando o próprio conteúdo removido anteriormente mencionado compreende conteúdo que ocupa uma largura de banda que é inferior em frequência ao conteúdo de áudio que é representado diretamente pelo sinal de áudio digital.
Esse processo 100 utiliza então 103 esse valor de energia (o qual pode compreender múltiplos valores de energia quando múltiplas porções removidas discretas são representadas desse modo como sugerido acima) para
10/37 determinar um formato de envelope espectral para representar adequadamente o conteúdo de largura de banda fora de sinal como correspondendo ao sinal de áudio digital. Isso pode compreender, por exemplo, o uso do valor de energia para simultaneamente determinar um formato de envelope espectral e uma energia adequada correspondente para o formato de envelope espectral que é consistente com o valor de energia para o conteúdo de largura de banda fora de sinal como correspondendo ao sinal de áudio digital.
Conforme uma abordagem, isso pode compreender o uso do valor de energia para acessar uma tabela de consulta que contém uma pluralidade de formatos de envelope espectral, candidatos, correspondentes. Mediante outra abordagem, isso pode compreender o uso do valor de energia para acessar uma tabela de consulta que contém uma pluralidade de formatos de envelope espectral e a interpolação entre dois ou mais desses formatos para se obter o formato de envelope espectral desejado. Mediante ainda outra abordagem, isso pode compreender selecionar uma de duas ou mais tabelas de consulta utilizando um ou mais parâmetros derivados a partir do sinal de áudio digital e utilizando o valor de energia para acessar a tabela de consulta selecionada que contém uma pluralidade de formatos de envelope espectral, candidato correspondente. Isso pode compreender se desejado, acessar os formatos candidatos que são armazenados em uma forma paramétrica. Esses ensinamentos também acomodarão a derivação de um ou mais de tais formatos conforme necessário utilizando uma função matemática apropriada preferida versus a extração do formato a partir de tal tabela se desejado.
11/37
Esse processo 100 opcionalmente então acomodará a combinação 104 do sinal de áudio digital com o conteúdo de largura de banda fora de sinal para assim fornecer uma versão estendida de largura de banda do sinal de áudio digital para desse modo aperfeiçoar a qualidade de áudio correspondente do sinal de áudio digital quando renderizado na forma audível. Mediante uma abordagem, isso pode compreender combinar dois itens que são mutuamente exclusivos com relação ao seu conteúdo espectral. Em tal caso, tal combinação pode assumir a forma, por exemplo, de simplesmente concatenar ou de outro modo unir juntos os dois (ou mais) segmentos. Mediante outra abordagem, se desejado, o conteúdo de largura de banda fora de sinal pode ter uma porção que está dentro da largura de banda de sinal correspondente do sinal de áudio digital. Tal sobreposição pode ser útil em ao menos alguns cenários de aplicação para suavizar e/ou eriçar a transição a partir de uma porção para a outra mediante combinação da porção sobreposta do conteúdo de largura de banda fora de sinal com a porção em banda correspondente do sinal de áudio digital.
Aqueles versados na técnica considerarão que os processos descritos acima são facilmente habilitados utilizando-se qualquer uma de uma ampla variedade de plataformas disponíveis e/ou facilmente configuráveis, incluindo plataformas parcialmente ou integralmente programáveis como conhecidas na técnica ou plataformas de finalidade dedicada como pode ser desejado para algumas aplicações. Com referência agora à Figura 3, será fornecida uma abordagem ilustrativa para tal plataforma.
Nesse exemplo ilustrativo, em um equipamento 300 um
12/37 processador 301 preferido é acoplado operativamente a uma entrada 302 que é configurada e arranjada para receber um sinal de áudio digital que tem uma largura de banda de sinal correspondente. Quando o equipamento 300 compreende um dispositivo de comunicação sem fio de duas vias, tal sinal de áudio digital pode ser fornecido por intermédio de um receptor correspondente 303, como conhecido na técnica. Em tal caso, por exemplo, o sinal de áudio digital pode compreender conteúdo vocal sintetizado formado como uma função do conteúdo de fala vo-codifiçado recebido.
O processador 301, por sua vez, pode ser configurado e arranjado (por intermédio, por exemplo, de programação correspondente quando o processador 301 compreende uma plataforma parcialmente ou integralmente programável como conhecido na técnica) para realizar uma ou mais das etapas ou outra funcionalidade aqui apresentada. Isso pode compreender, por exemplo, fornecer um valor de energia que corresponde a ao menos uma estimativa da energia de largura de banda fora de sinal como correspondendo ao sinal de áudio digital e, então, utilizando-se esse valor de energia e um conjunto de formatos indexados por energia para determinar um formato de envelope espectral para conteúdo fora de largura de banda como correspondendo ao sinal de áudio digital.
Conforme descrito acima, por intermédio de uma abordagem, o valor de energia anteriormente mencionado pode servir para facilitar o acesso a uma tabela de consulta que contém uma pluralidade de formatos de envelope espectral, candidatos, correspondentes. Para suportar tal abordagem, esse equipamento também pode compreender se desejado, uma
13/37 ou mais tabelas de consulta 304 que são acopladas de forma operativa ao processador 301. Assim configurado, o processador 301 pode prontamente acessar a tabela de consulta 304 conforme apropriado.
Aqueles versados na técnica reconhecerão e entenderão que tal equipamento 300 pode ser compreendido de uma pluralidade de elementos fisicamente distintos conforme sugerido pela ilustração mostrada na Figura 3. Também é possível, contudo, ver essa ilustração como compreendendo uma vista lógica, em cujo caso um ou mais desses elementos podem ser habilitados e realizados por intermédio de uma plataforma compartilhada. Também será entendido que tal plataforma compartilhada pode compreender uma plataforma integralmente ou ao menos parcialmente programável como conhecido na técnica.
Com referência agora à Figura 4, fala de banda estreita de entrada Snt amostrada em 8 kHz é primeiramente amostrada ascendentemente mediante 2 utilizando um meio de amostragem ascendente correspondente 401 para obter fala de banda estreita amostrada ascendentemente s»b amostrada em 16 kHz. Isso pode compreender a realização de uma interpolação de 1:2 (por exemplo, mediante inserção de uma amostra de valor zero entre cada par de amostras de fala original) seguida pela filtração passa-baixa utilizando, por exemplo, um filtro passa-baixa (LPF) tendo uma passagem de banda entre 0 e 3.400 Hz.
A partir de Snb, os parâmetros preditivos lineares (LP) de banda estreita, Anb = {1, aiz α2,..., aP}; onde P é a ordem modelo; também são computados utilizando-se um analisador LP 402, que emprega as técnicas de análise de
14/37
LP, bem conhecidas.
(Existem outras possibilidades, evidentemente, por exemplo, os parâmetros LP podem ser computados a partir de uma versão decimada 2:1 de . Esses parâmetros LP modelam o envelope espectral da fala de entrada de banda estreita como __________________________1___________________________ Ι + α^ + α^-^+.,. + αρβ-^ '
Na equação acima, a frequência angular ω em radianos/amostra é dada por a>-2nflF^ onde / é a frequência de sinal em Hz e Fs é a frequência de amostragem em Hz.
Para uma frequência de amostragem Fs de 8 kHz, uma ordem de modelo P
Os adequada, por exemplo, é 10.
LP Anb mediante uso
Ànb= {1,0, <2i,0, a2, 0, . ..,0, aP} parâmetros de um módulo de para obter fala de banda estreita amostrada ascendentemente s»b filtrada inversamente utilizando um filtro de análise 404 para obter o sinal residual LP r«* (o qual também é amostrado em 16 kHz) . Por intermédio de uma pode ser descrita pela equação fnb(ri) = Snb(n) + ai snb(n-2) + a2 s„b(n-4) +...+ a?snb(n-2P) onde n é o índice de amostra.
Em um cenário de aplicação típica, a filtração inversa de para obter r«/> pode ser feita em uma base quadro por quadro onde um quadro é definido como uma sequência de N amostras consecutivas por uma duração de T segundos. Para muitas aplicações de sinal de fala, uma boa escolha para T é de aproximadamente 2 0 ms com valores correspondentes para N de aproximadamente 160 em
15/37 frequências de amostragem de 8 kHz e de aproximadamente 320 em frequências de amostragem de 16 kHz. Os quadros sucessivos podem ser sobrepostos uns aos outros, por exemplo, por até 50%, ou aproximadamente 50%, em cujo caso são idênticas, a segunda metade das amostras no quadro atual e a primeira metade das amostras no quadro seguinte, e um novo quadro é processado a cada T/2 segundos. Para uma escolha de T como 20 ms e 50% de sobreposição, por exemplo, os parâmetros LP Ant são computados para 160 amostras de Snb consecutivas a cada 10 ms, e são usados para filtrar inversamente as 160 amostras do meio do quadro snb correspondente de 320 amostras para produzir 160 amostras de rnb.
Também se podem computar os parâmetros LP de ordem 2P para a operação de filtração inversa diretamente a partir da fala de banda estreita amostrada ascendentemente. Essa abordagem, contudo, pode aumentar a complexidade de ambas, a computação dos parâmetros de LP e a operação de filtração inversa, sem necessariamente aumentar a performance sob ao menos algumas condições de operação.
O sinal residual de LP rnb é a seguir retificado em onda completa utilizando um retificador de onda completa 405 e filtrando passa-alta o resultado (utilizando, por exemplo, um filtro passa-alta (HPF) 406 com uma passagem de banda entre 3.400 e 8.000 Hz) para obter o sinal residual retificado de banda alta rrhb. Em paralelo, a saída de uma fonte de ruído pseudoaleatória 407 também é filtrada em passa-alta 408 para obter o sinal de ruído de banda alta nhb. Esses dois sinais, isto é, rrhb e nhb, são então misturados em um misturador 4 09 de acordo com o nível de
16/37 voz v fornecido por um Módulo de Estimação & Controle (ECM) 410 (cujo módulo será descrito em mais detalhe abaixo). Nesse exemplo ilustrativo, esse nível de voz v varia de 0 a 1, com 0 indicando um nível sem voz e 1 indicando um nível completamente com voz. O misturador 409 forma essencialmente uma soma ponderada dos dois sinais de entrada em sua saída após garantir que os dois sinais de entrada sejam ajustados para ter o mesmo nível de energia. 0 sinal de saída de misturador mhb é dado por nihb = (v) rrhb + (1-v) nhb.
Aqueles versados na técnica considerarão que outras regras de misturação também são possíveis. Também é possível misturar primeiramente os dois sinais, isto é, o sinal residual LP retificado de onda completa e o sinal de ruído pseudoaleatório, e então filtrar em passa-alta o sinal misturado. Nesse caso, os dois filtros passa-alta 406 e 408 são substituídos por um único filtro passa-alta, colocado na saída do misturador 409.
sinal resultante mhb é então pré-processado utilizando um pré-processador de excitação de banda alta (HB) 411 para formar o sinal de excitação de banda alta ex/,/,·. as etapas de pré-processamento podem compreender: (i) escalar o sinal de saída de misturador mhb para combinar com o nível de energia de banda alta e (ii) opcionalmente modelar o sinal de saída de misturador mhb para combinar com o envelope espectral de banda alta 3Ehb._ Ambos, Em> e são fornecidos ao pré-processador de excitação HB 411 pelo ECM 410. Ao empregar essa abordagem, pode ser útil em muitos cenários de aplicação garantir que tal modelagem não
17/37 afete o espectro de fase do sinal de saída de misturador mhb·' isto é, a modelagem preferivelmente pode ser realizada por um filtro de resposta de fase zero.
sinal de fala de banda estreita amostrado ascendentemente e o sinal de excitação de banda alta exhb são adicionados juntos utilizando-se um somador 412 para formar o sinal de banda misturada smb. Esse sinal de banda misturada resultante é introduzido em um filtro de equalizador 413 que filtra essa entrada utilizando informação de envelope espectral de banda larga $Ewb fornecida pelo ECM 410 para formar o sinal de banda larga, estimado o filtro de equalizador, 413, essencialmente impõe o envelope espectral de banda larga SEwb no sinal de entrada para formar s^b (discussão adicional a esse respeito aparece abaixo). O sinal de banda larga, estimado, Swb ê filtrado em passa-alta, por exemplo, utilizando um filtro passa-alta 402 que tem uma passagem de banda a partir de 3.400 a 8.000 Hz, e filtrado em passa-baixa, por exemplo, utilizando um filtro passa-baixa 415 que tem uma passagem de banda a partir de 0 a 3 00 Hz, para obter respectivamente o sinal de passa-alta shb e o sinal de passa-baixa sib. Esses sinais Shb,sib, θ o sinal de banda estreita amostrado ascendentemente $nb são adicionados em conjunto em outro somador 416 para formar o sinal estendido de largura de banda sbwe.
Aqueles versados na técnica considerarão que há várias outras configurações de filtro possíveis para se obter o sinal estendido de largura de banda Sbwe. Se o filtro de equalizador, 413, retém precisamente o conteúdo espectral do sinal de fala de banda estreita amostrado
18/37 ascendentemente Snb o qual é parte de seu sinal de entrada smb, então o sinal de banda larga, estimado, Swb pode ser diretamente emitido como o sinal estendido de largura de banda sbwe eliminando desse modo o filtro passa-alta 412, o filtro passa-baixa 415, e o somador 416. Alternativamente, dois filtros de equalizador podem ser usados, um para recuperar a porção de baixa frequência e outro para recuperar a porção de alta frequência, e a saída do mencionado primeiro pode ser adicionada à saída filtrada em passa-alta do mencionado por último para obter o sinal estendido de largura de banda Sfwe.
Aqueles versados na técnica entenderão e considerarão que, com esse exemplo ilustrativo específico, a excitação residual retificada de banda alta e a excitação de ruído de banda alta são misturadas em conjunto de acordo com o nível de voz. Quando o nível de voz é 0 indicando fala sem voz, a excitação de ruído é exclusivamente usada. Similarmente, quando o nível de voz é 1 indicando fala com voz, a excitação residual retificada de banda alta é usada exclusivamente. Quando o nível de voz está entre 0 e 1 indicando fala misturada-com voz, as duas excitações são misturadas em proporção apropriada conforme determinado pelo nível de voz e usadas. A excitação de banda alta misturada é assim adequada para os sons com voz, sem voz, e misturados-com voz.
Será entendido e considerado ainda que, nesse exemplo ilustrativo, um filtro de equalizador é usado para sintetizar Swb. O filtro de equalizador considera o envelope espectral de banda larga SE*b fornecido pelo ECM como o envelope ideal e corrige (ou equaliza) o envelope
19/37 espectral de seu sinal de entrada $mb para combinar com o ideal. Uma vez que apenas magnitudes estão envolvidas na equalização de envelope espectral, a resposta de fase do filtro de equalizador é escolhida para ser zero. A resposta de magnitude do filtro de equalizador é especificada por SEwb((ò)ISEmb((à). o modelo e a implementação de tal filtro de equalizador para uma aplicação de codificação de fala compreendem uma área de empenho bem entendida. Resumidamente, contudo, o filtro de equalizador opera como a seguir utilizando análise de sobrepor-adicionar (OLA).
O sinal de entrada é primeiramente dividido em quadros de sobreposição, por exemplo, quadros de 20 ms (320 amostras em 16 kHz) com 50% de sobreposição. Cada quadro de amostra é então multiplicado (por pontos) por intermédio de uma janela adequada, por exemplo, uma janela de coseno levantado com propriedade de reconstrução perfeita. O quadro de fala enjanelado é a seguir analisado para estimar os parâmetros LP modelando seu envelope espectral. 0 envelope espectral de banda larga ideal para o quadro é fornecido por ECM. A partir dos dois envelopes espectrais, o equalizador computa a resposta de magnitude de filtro como SEwb(cò)ISEmb((O) e define a resposta de fase para zero. 0 quadro de entrada é então equalizado para obter o quadro de saída correspondente. Os quadros de saída equalizados são finalmente sobrepostos-adicionados para sintetizar a fala de banda larga estimada swb.
Aqueles versados na técnica considerarão que além da análise LP, há outros métodos para se obter o envelope espectral de um determinado quadro de fala, por exemplo, análise cepstral, ajuste de curva de ordem superior ou
20/37 linear contínua de picos de magnitude espectral, etc.
Aqueles versados na técnica também considerarão que em vez de enj anelar diretamente o sinal de entrada smb, se poderia iniciar com versões enjaneladas de rrhb e nhb para se obter o mesmo resultado. Também pode ser conveniente manter o tamanho de quadro e a sobreposição percentual para o filtro e equalizador idênticos como aqueles usados no bloco de filtro de análise utilizado para se obter a partir de Snb.
A abordagem de filtro de equalizador descrita para sintetizar Swb oferece algumas vantagens: i) como a
resposta e fase do filtro de equalizador, 413, é zero, os
diferentes componentes de frequência da saída do
equalizador são alinhados em tempo com os componentes
correspondentes da entrada. . Isso pode ser útil para a fala
com voz porque os segmentos de elevada energia (tal como segmentos de pulso glotal) da excitação de banda alta, residual, retificada, são alinhados em tempo com os segmentos correspondentes de alta energia, da fala de banda estreita, amostrada ascendentemente, snb, na entrada do equalizador; e a preservação desse alinhamento de tempo na saída do equalizador agirá frequentemente para garantir boa qualidade de fala; ii) a entrada para o filtro de equalizador 413 não precisa ter um espectro plano como no caso do filtro de síntese LP, iii) o filtro de equalizador 413 é especificado no domínio de frequência e, portanto, é praticável um controle mais aperfeiçoado sobre as diferentes partes do espectro; e iv) são possíveis repetições para melhorar a eficácia de filtração à custa de complexidade e retardo adicional (por exemplo, a saída do
21/37 equalizador pode ser realimentada à entrada para ser repetidamente equalizada para melhorar a performance).
Alguns detalhes adicionais com relação à configuração descrita serão apresentados agora.
Pré-processamento de excitação de banda alta: A resposta de magnitude do filtro de equalizador, 413, é dada por SEwb{a>)ISEmb((o) e sua resposta de fase pode ser ajustada para zero. Quanto mais próximo o envelope espectral de entrada SEmb(új) estiver do envelope espectral ideal SEwb(<a), mais fácil será para o equalizador corrigir o envelope espectral de entrada para combinar com o ideal. Ao menos uma função do pré-processador de excitação de banda alta 411 é a de mover o SEmb((a) para mais próximo de SEwb(a>) e assim tornar mais fácil a tarefa do filtro de equalizador, 413. Em primeiro lugar, isso é feito mediante a ação de escalar o sinal de saída de misturador mhb para o nível de energia de banda alta, correto Ehb fornecido pelo ECM 410. Em segundo lugar, o sinal de saída de misturador mhb é opcionalmente modelado de modo que seu envelope espectral combina com o envelope espectral de banda alta $Ehb fornecido pelo ECM 410 sem afetar seu espectro de fase. Uma segunda etapa pode compreender essencialmente uma etapa de pré-equali zação.
Excitação de banda baixa: ao contrário da perda de informação na banda alta causada pela restrição de largura de banda imposta, ao menos em parte, pela frequência de amostragem, a perda de informação na banda baixa (0-300 Hz) do sinal de banda estreita se deve, ao menos em grande parte, ao efeito de limitação de banda da função de transferência de canal consistindo, por exemplo, em um
22/37 microfone, amplificador, codificador de fala, canal de transmissão, ou semelhante. Consequentemente, em um sinal de banda estreita limpo, a informação de banda baixa ainda está presente embora em um nível muito baixo. Essa informação de nível baixo pode ser ampliada de uma maneira direta para restaurar o sinal original. Entretanto, deve-se tomar cuidado nesse processo uma vez que sinais de nível baixo são facilmente corrompidos por erros, ruídos e distorções. Uma alternativa é a de sintetizar um sinal de excitação de banda baixa similar ao sinal de excitação de banda alta descrito anteriormente. Isto é, o sinal de excitação de banda baixa pode ser formado mediante misturação do sinal residual retificado de banda baixa rrib e o sinal de ruído de banda baixa nib de uma forma similar à formação do sinal de saída de misturador de banda alta mM>.
Com referência agora à Figura 5, o Módulo de
Estimativa e Controle (ECM) 410 admite como entrada a fala de banda estreita Snb-, a fala de banda estreita amostrada ascendentemente Snb·, e os parâmetros LP de banda estreita ^nb e provê como saída o nível de voz v·, a energia de banda alta Em-, o envelope espectral de banda alta $Ehb, e o envelope espectral de banda larga SEwb.
Estimativa de nível de voz: Para estimar o nível de voz, um calculador de cruzamento zero 501 calcula o número de cruzamentos zero zc em cada quadro da fala de banda estreita Snb como a seguir:
onde
23/37
Ί n é o índice de amostra, e N é o tamanho de quadro nas amostras. É conveniente manter o tamanho de quadro e a sobreposição percentual usada no ECM 410 idênticos àqueles usados no filtro de equalizador 413 e os blocos de filtro de análise, por exemplo, T = 20 ms, N = 160 para amostragem de 8 kHz, N = 320 para amostragem de 16 kHz, e sobreposição de 50% com referência aos valores ilustrativos apresentados anteriormente. O valor do parâmetro zc calculado como acima varia de 0 a 1. A partir do parâmetro zc, um estimador de nível de voz 502 pode estimar o nível de voz v como a seguir.
zc ZCj()W ''^ high ” ^'low caso contrário onde, ZCiow e ZChigh representam limites baixo e alto apropriadamente escolhidos respectivamente, por exemplo, ZCiow _ o.4O e ZChigh = 0.45. A saída d de um detector de início/plosiva 503 também pode ser alimentada ao detector de nível de voz 502. Se um quadro for sinalizado como contendo um início ou uma plosiva com d = 1, o nível de voz do quadro assim como o quadro seguinte podem ser ajustados para 1. Lembrar que, mediante uma abordagem, quando o nível de voz é 1, a excitação residual retificada de banda alta é usada exclusivamente. Isso é vantajoso em um início/plosiva, em comparação com excitação de banda alta misturada ou apenas de ruído, porque a excitação residual
24/37 retificada acompanha de perto o contorno de energia versus tempo da fala de banda estreita amostrada ascendentemente reduzindo assim a possibilidade de artefatos do tipo préeco devido à dispersão de tempo no sinal de largura de banda estendida,
Para estimar a energia de banda alta, um estimador de energia de banda de transição 504 estima a energia de banda de transição a partir do sinal de fala de banda estreita amostrado ascendentemente Snb·. A banda de transição é definida aqui como uma banda de frequência que é contida dentro da banda estreita e próxima à banda alta, isto é, ela serve como uma transição para banda alta, (a qual, nesse exemplo ilustrativo, é de aproximadamente 2.500 - 3.400 Hz) . Intuitivamente, se esperaria que a energia de banda alta fosse bem correlacionada com a energia de banda de transição, a qual é confirmada em experimentos. Uma forma simples de calcular a energia de banda de transição E‘b é a de computar o espectro de frequência Snb (por exemplo, através de uma Transformada Rápida de Fourier (FFT) e soma das energias dos componentes espectrais dentro da banda de transição.
A partir da energia de banda de transição ^,b em dB (decibéis), a energia de banda alta ^hbo em dB é estimada como
EhbO ã Etb í β» onde os coeficientes α e β são selecionados para minimizar o erro quadrático médio entre os valores, verdadeiro e estimado, da energia de banda alta através de um grande número de quadros a partir de um banco de dados
25/37 de fala de treinamento.
A exatidão da estimação pode ser aperfeiçoada adicionalmente mediante exploração da informação contextual a partir de parâmetros adicionais de fala tal como parâmetro de cruzamento zero zc e o parâmetro de inclinação espectral de banda de transição sl conforme pode ser fornecido por um estimador de inclinação de banda de transição 505. O parâmetro de cruzamento zero, conforme discutido anteriormente é indicativo do nível de voz de fala. O parâmetro de inclinação indica a taxa de mudança da energia espectral dentro da banda de transição. Ele pode ser estimado a partir dos parâmetros LP de banda estreita Anb mediante aproximação do envelope espectral (em dB) dentro da banda de transição como uma linha reta, por exemplo, através de regressão linear, e computando a sua inclinação. 0 plano de parâmetro zc-sl é então dividido em um número de regiões, e os coeficientes, α e β, são selecionados separadamente para cada região. Por exemplo, se as faixas dos parâmetros de zc-sl forem divididas individualmente em 8 intervalos iguais, o plano de parâmetro zc-sl é então dividido em 64 regiões, e 64 conjuntos de coeficientes α e β são selecionados, um para cada região.
Um estimador de energia de banda alta 506 pode
fornecer aperfeiçoamento adicional em exatidão de
estimativa mediante uso de potências superiores de Etb na
estimação de Ehbo-, por exemplo,
Ehbo = a.4 Etb4 + a3 Etb3 + a2 Etb2 + α,ι Etb + β.
Nesse caso, cinco coeficientes diferentes, isto é, «4, ai, az, «i, e β; são selecionados para cada divisão do plano
26/37 de parâmetro zc-sl. Como as equações acima (consultar parágrafos 63 e 67) para estimação de Em# são não lineares, deve-se tomar cuidado especial no sentido de ajustar a energia de banda alta estimada à medida que muda o nível de sinal de entrada, isto é, energia. Uma forma de conseguir isso é a de estimar o nível de sinal de entrada em dB, ajustar Etb ascendentemente ou descendentemente para corresponder ao nível de sinal nominal, estimar Ehbo, e ajustar Ehbo descendentemente ou ascendentemente para corresponder ao nível de sinal efetivo.
Embora o método de estimação de energia de banda alta descrito acima funciona muito bem para a maioria dos quadros, ocasionalmente há quadros para os quais a energia de banda alta está a grosso modo sub ou super estimada. Tais erros de estimação podem ser corrigidos ao menos parcialmente por intermédio de um suavizador de trilha de energia57 que compreende um filtro de suavização. O filtro de suavização pode ser projetado de tal modo que ele permite que transições efetivas na trilha de energia passem de modo não afetado, por exemplo, mude entre segmentos com voz e sem voz, mas corrige erros brutos ocasionais em uma trilha de energia de outro modo suave, por exemplo, dentro de um segmento com voz ou sem voz. Um filtro adequado para esse propósito é um filtro de mediana, por exemplo, um filtro mediano de 3 pontos descrito pela equação
Ehbi(k) = median (Ehb0(k-l), Ehb0(k), Ehb0(k+l)) onde k e o inaice ae quaaro, e o operador mediante θ seleciona a mediana de seus três argumentos. O filtro de mediana de 3 pontos introduz um retardo de um quadro. Outros tipos de filtro com ou sem retardo também podem ser
27/37 projetados para suavizar a trilha de energia.
O valor de energia suavizada pode ser adaptado adicionalmente por um adaptador de energia 508 para se obter a estimativa de energia de banda alta adaptada final ^hb. Essa adaptação pode envolver a diminuição ou o aumento do valor de energia suavizada com base no parâmetro de nível de voz v e/ou na saída de parâmetro d pelo detector de início/plosiva 503. Mediante uma abordagem, a adaptação do valor de energia de banda alta muda não apenas o nível de energia, mas também o formato de envelope espectral uma vez que a seleção do espectro de banda alta pode ser ligada à energia estimada.
Com base no parâmetro de nível de voz v, a adaptação de energia pode ser obtida como a seguir. Para v = 0 correspondendo a um quadro sem voz, o valor de energia suavizada é aumentado ligeiramente, por exemplo, em 3 dB, para obter o valor de energia adaptado^. O nível de energia aumentado enfatiza a fala sem voz na saída de largura de banda estendida em comparação com a entrada de banda estreita e também ajuda a selecionar um formato de envelope espectral mais apropriado para os segmentos sem voz. Para v=l correspondendo a um quadro com voz, o valor de energia suavizado ^hbl é diminuído ligeiramente, por exemplo, em 6 dB, para se obter o valor de energia adaptado Ebb. O nível de energia ligeiramente diminuído ajuda a mascarar quaisquer erros na seleção do formato de envelope espectral para os segmentos com voz e consequentes artefatos ruidosos.
Quando o nível de voz v está entre 0 e 1 correspondendo a um quadro com voz misturado, nenhuma
28/37 adaptação do valor de energia é realizada. Tais quadros com voz misturados representam apenas uma pequena fração do número total de quadros e os valores de energia não adaptados funcionam bem para tais quadros. Com base na saída d de detector de início/plosiva, a adaptação de energia é feita como a seguir. Quando d = 1, isso indica que o quadro correspondente contém um início, por exemplo, transição a partir de silêncio para som sem voz ou com voz, ou um som plosiva, por exemplo, /t/. Nesse caso, a energia de banda alta do quadro específico assim como do quadro seguinte é adaptada para um valor muito baixo de modo que seu conteúdo de energia de banda alta é baixo na fala de largura de banda estendida. Isso ajuda a evitar os artefatos ocasionais associados a tais quadros. Para d = 0, nenhuma adaptação adicional da energia é realizada; isto é, é mantida a adaptação de energia baseada no nível de voz v, conforme descrito acima.
A estimação do envelope espectral da banda larga SEwb é descrita a seguir. Para estimar SEwb, pode-se estimar separadamente o envelope espectral de banda estreita SEnh, o envelope espectral de banda alta SEhh, e o envelope espectral de banda baixa SElbl e combinar em conjunto os três envelopes.
Um estimador de espectro de banda estreita 509 pode estimar o envelope espectral de banda estreita SEnh a partir da fala de banda estreita amostrada ascendentemente Snb . A partir de Snb , os parâmetros LP, &nb = (1, b\, b2, ... , bo} onde Q é a ordem de modelo, são primeiramente computados utilizando-se técnicas de análise LP bem conhecidas. Para uma frequência amostrada ascendentemente de 16 kHz, uma
29/37
ordem de modelo adequada Q, por exemplo, é 20. Os
parâmetros LP Snb modelam o envelope espectral da fala de
banda estreita amostrada ascendentemente como
Çp 1
1+bie-^+b2e-^+___ + bQe-JQ^
Na equação acima, a frequência angular ω em
radianos/amostra é dada por (o=2.Kf/2Fs, onc}e f g a frequência de sinal em Hz e Fs é a frequência de amostragem em Hz. Observar que os envelopes espectrais SE^in e SEusnb são diferentes uma vez que o primeiro é derivado da fala de entrada de banda estreita e o último a partir da fala de banda estreita amostrada ascendentemente. Contudo, dentro da passagem de banda e 300 a 3.400 Hz, eles são aproximadamente relacionados por SEusnb (új) ~ SE„bin para dentro de uma constante. Embora o envelope espectral SEusnb seja definido através da faixa de 0 - 8.000 (Fs) Hz, a porção útil está situada dentro da passagem de banda (nesse exemplo ilustrativo, 300 - 3.400 Hz).
Como um exemplo ilustrativo a esse respeito, a computação de SEusnb é feita utilizando FFT como a seguir. Em primeiro lugar, a resposta de impulso do filtro inverso Bnb(z) calculada para uma extensão adequada, por exemplo, 1024, como {L/ú,/>2,, 0, 0, ..., 0} , Então uma FFT da resposta e impulso é tirada, e o envelope espectral de magnitude SEusni3 é obtido mediante computação da magnitude inversa em cada índice FFT. Para uma extensão de FFT de 1024, a resolução de frequência de SEusnb computada como acima é de 16000/1024 = 15.625 Hz. A partir de SEusnb, o envelope espectral de banda estreita SEnb é estimado simplesmente mediante extração das magnitudes espectrais a partir de
30/37 dentro da faixa aproximada, 300-3400 Hz.
Aqueles versados na técnica considerarão que além da análise de LP, há outros métodos para se obter o envelope espectral de um determinado quadro de fala, por exemplo, análise cepstral, ajuste de curva de ordem superior ou linear contínua e picos de magnitude espectral, etc.
Um estimador de espectro de banda alta 510 considera uma estimativa da energia de banda alta como entrada e seleciona um formato de envelope espectral da banda alta que é consistente com a energia de banda alta estimada. Uma técnica para melhorar formatos de envelope espectral de banda alta, diferentes, correspondendo a diferentes energias de banda alta é descrita a seguir.
Começando com um banco de dados de treinamento, grande, de fala de banda larga amostrada em 16 kHz, o envelope de magnitude espectral de banda larga é computado para cada quadro de fala utilizando análise padrão de LP ou outras técnicas. A partir do envelope espectral de banda larga de cada quadro, a porção de banda alta correspondendo a 3400-8000 Hz é extraída e normalizada mediante divisão pela magnitude espectral em 3400 Hz. Os envelopes espectrais de banda alta, resultantes, desse modo têm uma magnitude de 0 dB em 3400 Hz. A energia de banda alta correspondendo a cada envelope de banda alta normalizada é computada a seguir. O grupo de envelopes espectrais de banda alta é então dividido com base na energia de banda alta, por exemplo, uma sequência de valores nominais de energia diferindo em 1 dB é selecionada para cobrir a faixa inteira e todos os envelopes com energia dentro de 0,5 dB de um valor nominal são agrupados juntos.
31/37
Para cada grupo assim formado, o formato médio de envelope espectral de banda alta é computado e subsequentemente a energia de banda alta correspondente. Na Figura 6, um conjunto de 60 formatos de envelope espectral de banda alta 600 (com magnitude em dB versus frequência em Hz) em diferentes níveis de energia é mostrado. Contando a partir da parte inferior da figura, o Io, 10°, 20°, 30°, 40°, 50° e 60° formato (mencionados aqui como formatos précomputados) foram obtidos utilizando-se uma técnica similar àquela descrita acima. Os 53 formatos restantes foram obtidos mediante interpolação linear simples (no domínio dB) entre os formatos pré-computados, mais próximos.
As energias desses formatos variam de aproximadamente 4,5 dB para o primeiro formato a aproximadamente 43,5 dB para o 60° formato. Dada a energia de banda alta para um quadro, é uma questão simples selecionar o formato de envelope espectral de banda alta de combinação mais próxima como será descrito posteriormente no documento. O formato selecionado representa o envelope espectral de banda alta estimado SE^ para dentro de uma constante. Na Figura 6, a resolução de energia média é de aproximadamente 0,65 dB. Claramente, melhor resolução é possível mediante aumento do número de formatos. Dados os formatos na Figura 6, a seleção de um formato para uma energia específica é singular. Também se pode pensar sobre uma situação onde há mais do que um formato para uma determinada energia, por exemplo, quatro formatos por nível de energia, e nesse caso, informação adicional é necessária para selecionar um dos 4 formatos para cada nível de energia determinado. Adicionalmente, é possível ter
32/37 múltiplos conjuntos de formatos cada conjunto indexado pela energia de banda alta, por exemplo, dois conjuntos de formatos selecionáveis pelo parâmetro de voz v, um para os quadros com voz e o outro para os quadros sem voz. Para um quadro com voz misturado, os dois formatos selecionados a partir dos dois conjuntos podem ser combinados apropriadamente.
O método de estimação de espectro de banda alta descrito acima oferece algumas vantagens claras. Por exemplo, essa abordagem oferece controle explícito sobre a evolução temporal das estimativas de espectro de banda alta. Uma evolução suave das estimativas de espectro de banda alta dentro de segmentos de fala distintos, por exemplo, fala com voz, fala sem voz, e assim por diante frequentemente é importante para fala de largura de banda estendida livre de artefatos. Para o método de estimação de espectro de banda alta descrito acima, é evidente a partir da Figura 6, que pequenas alterações na energia de banda alta resultam em pequenas mudanças nos formatos de envelope espectral de banda alta. Assim, evolução suave do espectro de banda alta pode ser essencialmente assegurada mediante garantia de que a evolução temporal da energia de banda alta dentro de segmentos distintos de fala também seja suave. Isso é realizado explicitamente mediante suavização de trilha de energia conforme descrito anteriormente.
Observar que segmentos de fala distintos, dentro dos quais a suavização de energia é realizada, podem ser identificados com resolução ainda mais fina, por exemplo, mediante monitoração da mudança no espectro de fala de banda estreita ou no espectro de fala de banda estreita
33/37 amostrado ascendentemente a partir de quadro a quadro utilizando qualquer uma das medidas de distância espectral, bem conhecidas, tal como distorção espectral de registro ou a distorção Itakura baseada em LP. Utilizando-se essa abordagem, um segmento de fala distinto pode ser definido como uma sequência de quadros dentro da qual o espectro está se desenvolvendo lentamente e que é agrupado em cada lado por um quadro no qual a mudança espectral computada excede um limite fixo ou adaptativo desse modo indicando a presença de uma transição espectral em qualquer um dos lados do segmento de fala distinto. A suavização da trilha de energia pode ser então feita dentro do segmento de fala distinto, mas não através dos limites de segmento.
Aqui, evolução suave da trilha de energia de banda alta se traduz em uma evolução suave do envelope espectral de banda alta estimada, o qual é uma característica desejável dentro de um segmento de fala distinto. Observar também que essa abordagem para garantir uma evolução suave do envelope espectral de banda alta dentro de um segmento de fala distinto também pode ser aplicada como uma etapa de pós-processamento a uma sequência de envelopes espectrais de banda alta, estimados obtidos pelos métodos da técnica anterior. Nesse caso, contudo, os envelopes espectrais de banda alta precisam ser suavizados explicitamente dentro de um segmento de fala distinto, ao contrário da suavização de trilha de energia direta dos ensinamentos atuais que resulta automaticamente na evolução de suavização do envelope espectral da banda alta.
A perda de informação do sinal de fala de banda estreita na banda baixa (a qual, nesse exemplo ilustrativo,
34/37 pode ser de 0 - 300 Hz) não se deve à restrição de largura de banda imposta pela frequência de amostragem como no caso da banda alta, mas devido ao efeito de limitação de banda da função de transferência de canal consistindo, por exemplo, no microfone, amplificador, codificador de fala, canal de transmissão, e assim por diante.
Uma abordagem direta para restaurar o sinal de banda baixa é então o de neutralizar o efeito dessa função de transferência de canal dentro da faixa de 0 a 300 Hz. Uma forma simples de fazer isso é a de utilizar um estimador de espectro de banda baixa 511 para estimar a função de transferência de canal na faixa de frequência a partir de 0 a 300 Hz a partir dos dados disponíveis, obter o seu inverso, e usar o inverso para reforçar o envelope espectral da fala de banda estreita amostrada ascendentemente. Isto é, um envelope espectral de banda baixa SElb é estimado como a soma de SEusnb e uma característica de reforço de envelope espectral SEboost designada a partir do inverso da função de transferência de canal (supondo que as magnitudes de envelope espectral são expressas no domínio de registro, por exemplo, dB) . Para muitos cenários de aplicação, deve-se ter cuidado no modelo de SEboost. Como a restauração do sinal de banda baixa se baseia essencialmente na amplificação de um sinal de nível baixo, ela envolve o risco de amplificar erros, ruído, e distorções associadas tipicamente com os sinais de nível baixo. Dependendo da qualidade do sinal de nível baixo, o valor de reforço máximo deve ser apropriadamente restrito. Além disso, dentro da faixa de frequências a partir de 0 a aproximadamente 60 Hz, é desejável projetar o SEboost para
35/37 ter valores baixos (ou até mesmo negativos, isto é, atenuantes) para evitar a amplificação de zumbido elétrico e ruído de fundo.
Um estimador de espectro de banda larga 512 pode então estimar o envelope espectral de banda larga mediante combinação dos envelopes espectrais estimados na banda estreita, na banda alta, e na banda baixa. Uma forma de combinar os três envelopes para se estimar o envelope espectral de banda larga é conforme a seguir.
envelope espectral de banda estreita SEnb é estimado a partir de Snb como descrito acima e seus valores dentro da faixa de 4 00 a 3.200 Hz são usados sem qualquer mudança na estimativa de envelope espectral de banda larga SE„b. Para selecionar o formato de banda alta apropriado, a energia de banda alta e o valor de magnitude inicial em 3.400 Hz são necessários. A energia de banda alta Ehb em dB é estimada conforme descrito anteriormente. O valor de magnitude inicial em 3.400 Hz é estimado mediante modelagem do espectro de magnitude de FFT de Snb em dB dentro da banda de transição, isto é, 2.500 - 3.400 Hz, por intermédio de uma linha reta através de regressão linear e descobrindo-se o valor da linha reta em 3.400 Hz. Deixando esse valor de magnitude ser denotado por M340o em dB. O formato de envelope espectral de banda alta é então selecionado como aquele entre muitos valores, por exemplo, como mostrado na Figura 6, que tem um valor de energia mais próximo de Ehb ~ M34Oo · Deixemos esse formato ser denotado por SEclosegt. Então a estimativa de envelope espectral de banda alta SEhb e, portanto, o envelope espectral de banda larga SEwb dentro da faixa a partir de 3.4 00 a 8.000 Hz são estimados como
36/37
SEc3osest + M3400.
Entre 3.200 e 3.400 Hz, SEwb é estimado como o valor linearmente interpolado em dB entre SE^ e uma linha reta unindo o SEnh em 3.200 Hz e M34Oo em 3.4 00 Hz. O próprio fator de interpolação é mudado linearmente de tal modo que o SEwb estimado se desloca gradualmente a partir de SEnb em 3.200 Hz para M34Oo em 3.400 Hz. Entre 0 a 400 Hz, o envelope espectral de banda baixa SElb e o envelope espectral de banda larga SEwb são estimados como SEnh + SEboost onde SEboost representa uma característica de reforço apropriadamente projetada a partir do inverso da função de transferência de canal como descrito anteriormente.
Como aludido anteriormente, os quadros contendo inícios e/ou plosivas podem se beneficiar de manipulação especial para evitar artefatos ocasionais na fala estendida de largura de banda. Tais quadros podem ser identificados pelo aumento súbito em suas energias em relação aos quadros precedentes. A saída d do detector de início/plosiva 503 para um quadro é ajustada para 1 sempre que a energia do quadro precedente for baixa, isto é, abaixo de certo limite, por exemplo, -50 dB, e o aumento na energia do quadro atual em relação ao quadro precedente exceder outro limite, por exemplo, 15 dB. Caso contrário, a saída d de detector é ajustada para 0. A própria energia de quadro é computada a partir da energia do espectro de magnitude FFT da fala de banda estreita mostrada ascendentemente Snb dentro da banda estreita, isto é, 300 - 3.400 Hz. Conforme observado acima, a saída do detector de início/plosiva 503 d é alimentada ao estimador de nível de voz 5 02 e ao adaptador de energia 508. Conforme descrito anteriormente,
37/37 sempre que um quadro for sinalizado como contendo um início ou um plosiva com d = 1, o nível de voz v daquele quadro assim como do quadro seguinte é ajustado para 1. Além disso, o valor de energia de banda alta, adaptado, Ehb daquele quadro assim como do quadro seguinte é ajustado para um valor baixo.
Observar que embora a estimação de parâmetros tal como envelope espectral, cruzamentos zero, coeficientes LP, energias de banda, e assim por diante, foi descrita nos exemplos específicos previamente fornecidos como sendo feita a partir da fala de banda estreita em alguns casos e a partir da fala de banda estreita mostrada ascendentemente em outros casos, será considerado por aqueles versados na técnica que a estimação dos parâmetros respectivos e seu uso e aplicação subsequentes, podem ser modificados para serem feitos a partir de qualquer um desses dois sinais (fala de banda estreita ou a fala de banda estreita amostrada ascendentemente), sem se afastar do espírito e escopo dos ensinamentos descritos.
Aqueles versados na técnica reconhecerão que diversas modificações, alterações e combinações podem ser feitas com relação às modalidades descritas acima sem se afastar do espírito e escopo da invenção, e que tais modificações, alterações, e combinações devem ser vistas como dentro do âmbito do conceito inventivo.

Claims (11)

  1. REIVINDICAÇÕES
    1. Método (100), caracterizado por compreender:
    fornecer (101) um sinal de áudio digital (201) tendo uma largura de banda de sinal correspondente (202);
    fornecer (102) um valor de energia que corresponde a pelo menos uma estimativa da energia de largura de banda fora de sinal conforme corresponde ao sinal de áudio digital (2 01) ;
    utilizar (103) o valor de energia para acessar uma tabela de consulta contendo uma pluralidade de formatos correspondentes de envelopes espectrais candidatos para simultaneamente determinar:
    um formato de envelope espectral; e uma energia adequada correspondente para o formato de envelope espectral para conteúdo de largura de banda fora de sinal conforme corresponde ao sinal de áudio digital (201).
  2. 2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o fornecimento (101) de um sinal de áudio digital (201) compreende fornecer conteúdo vocal sintetizado.
  3. 3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o fornecimento (102) de um valor de energia compreende, ao menos em parte, a estimação do valor de energia como função, ao menos em parte, do sinal de áudio digital (201).
  4. 4. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a energia de largura de banda fora de sinal compreende energia que corresponde ao conteúdo de sinal que é superior em frequência à largura de
    Petição 870180161208, de 10/12/2018, pág. 8/10
    2/3 banda de sinal correspondente (202) do sinal de áudio digital (201) .
  5. 5. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a energia de largura de banda fora de sinal compreende energia que corresponde ao conteúdo de sinal que é inferior em frequência à largura de banda de sinal correspondente (202) do sinal de áudio digital (201) .
  6. 6. Método, de acordo com a reivindicação 1, caracterizado por compreender ainda:
    combinar (104) o sinal de áudio digital (201) com o conteúdo de largura de banda fora de sinal para fornecer uma versão estendida de largura de banda do sinal de áudio
    digital (201) de modo a ser renderizada de forma audível para assim melhorar a qualidade de áudio correspondente do sinal de áudio digital (201) quando assim renderizado.
  7. 7. Método, de acordo com a reivindicação 6, caracterizado pelo fato de que o conteúdo de largura de banda fora de sinal compreende ainda uma porção (203) de conteúdo que está dentro da largura de banda de sinal correspondente (202).
  8. 8. Método, de acordo com a reivindicação 7, caracterizado pelo fato de que a combinação (104) do sinal de áudio digital (2 01) com o conteúdo de largura de banda fora de sinal compreende ainda combinar a porção de conteúdo que está dentro da largura de banda de sinal correspondente (202) com uma porção em-banda correspondente do sinal de áudio digital.
  9. 9. Aparelho (300), caracterizado por compreender:
    uma entrada (302) configurada e arranjada para
    Petição 870180161208, de 10/12/2018, pág. 9/10
    3/3 receber um sinal de áudio digital (201) que tem uma largura de banda de sinal correspondente (202);
    um processador (301) acoplado operativamente à entrada e sendo configurado e arranjado para:
    5 fornecer um valor de energia que corresponde a pelo menos uma estimativa da energia de largura de banda fora de sinal conforme corresponde ao sinal de áudio digital (2 01) ;
    utilizar o valor de energia acessar uma tabela de
  10. 10 consulta contendo uma pluralidade de formatos correspondentes de envelopes espectrais candidatos para utilizar o valor de energia e um conjunto de formatos indexados por energia para determinar um formato de envelope espectral para conteúdo de largura de banda fora
  11. 15 de sinal conforme corresponde ao sinal de áudio digital (201) .
BRPI0820463-2A 2007-11-29 2008-10-09 Método e aparelho para extensão de largura de banda de sinal de áudio BRPI0820463B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/946,978 2007-11-29
US11/946,978 US8688441B2 (en) 2007-11-29 2007-11-29 Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
PCT/US2008/079366 WO2009070387A1 (en) 2007-11-29 2008-10-09 Method and apparatus for bandwidth extension of audio signal

Publications (3)

Publication Number Publication Date
BRPI0820463A2 BRPI0820463A2 (pt) 2015-06-16
BRPI0820463A8 BRPI0820463A8 (pt) 2015-11-03
BRPI0820463B1 true BRPI0820463B1 (pt) 2019-03-06

Family

ID=40149754

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0820463-2A BRPI0820463B1 (pt) 2007-11-29 2008-10-09 Método e aparelho para extensão de largura de banda de sinal de áudio

Country Status (8)

Country Link
US (1) US8688441B2 (pt)
EP (1) EP2232223B1 (pt)
KR (2) KR20100086018A (pt)
CN (2) CN102646419B (pt)
BR (1) BRPI0820463B1 (pt)
MX (1) MX2010005679A (pt)
RU (1) RU2447415C2 (pt)
WO (1) WO2009070387A1 (pt)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8688441B2 (en) 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
US8433582B2 (en) * 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
WO2009116815A2 (en) * 2008-03-20 2009-09-24 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding using bandwidth extension in portable terminal
US8463412B2 (en) * 2008-08-21 2013-06-11 Motorola Mobility Llc Method and apparatus to facilitate determining signal bounding frequencies
US8463603B2 (en) * 2008-09-06 2013-06-11 Huawei Technologies Co., Ltd. Spectral envelope coding of energy attack signal
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
CN102612712B (zh) 2009-11-19 2014-03-12 瑞典爱立信有限公司 低频带音频信号的带宽扩展
EP2555188B1 (en) * 2010-03-31 2014-05-14 Fujitsu Limited Bandwidth extension apparatuses and methods
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
MY176904A (en) 2010-06-09 2020-08-26 Panasonic Ip Corp America Bandwidth extension method, bandwidth extension apparatus, program, integrated circuit, and audio decoding apparatus
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
KR20120016709A (ko) * 2010-08-17 2012-02-27 삼성전자주식회사 휴대용 단말기에서 통화 품질을 향상시키기 위한 장치 및 방법
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
US8583425B2 (en) * 2011-06-21 2013-11-12 Genband Us Llc Methods, systems, and computer readable media for fricatives and high frequencies detection
RU2725416C1 (ru) 2012-03-29 2020-07-02 Телефонактиеболагет Лм Эрикссон (Пабл) Расширение полосы частот гармонического аудиосигнала
US9601125B2 (en) * 2013-02-08 2017-03-21 Qualcomm Incorporated Systems and methods of performing noise modulation and gain adjustment
EP2830065A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
US9666202B2 (en) * 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
US9875746B2 (en) 2013-09-19 2018-01-23 Sony Corporation Encoding device and method, decoding device and method, and program
CA3162763A1 (en) 2013-12-27 2015-07-02 Sony Corporation Decoding apparatus and method, and program
FR3017484A1 (fr) * 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
CN106997767A (zh) * 2017-03-24 2017-08-01 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及装置
EP3382703A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and methods for processing an audio signal
CN107863095A (zh) 2017-11-21 2018-03-30 广州酷狗计算机科技有限公司 音频信号处理方法、装置和存储介质
CN108156561B (zh) 2017-12-26 2020-08-04 广州酷狗计算机科技有限公司 音频信号的处理方法、装置及终端
CN108156575B (zh) 2017-12-26 2019-09-27 广州酷狗计算机科技有限公司 音频信号的处理方法、装置及终端
CN109036457B (zh) 2018-09-10 2021-10-08 广州酷狗计算机科技有限公司 恢复音频信号的方法和装置
CN112259117B (zh) * 2020-09-28 2024-05-14 上海声瀚信息科技有限公司 一种目标声源锁定和提取的方法

Family Cites Families (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4771465A (en) 1986-09-11 1988-09-13 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech sinusoidal vocoder with transmission of only subset of harmonics
JPH02166198A (ja) 1988-12-20 1990-06-26 Asahi Glass Co Ltd ドライクリーニング用洗浄剤
US5765127A (en) 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
US5245589A (en) 1992-03-20 1993-09-14 Abel Jonathan S Method and apparatus for processing signals to extract narrow bandwidth features
JP2779886B2 (ja) 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
US5455888A (en) 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
JPH07160299A (ja) 1993-12-06 1995-06-23 Hitachi Denshi Ltd 音声信号帯域圧縮伸張装置並びに音声信号の帯域圧縮伝送方式及び再生方式
EP0732687B2 (en) 1995-03-13 2005-10-12 Matsushita Electric Industrial Co., Ltd. Apparatus for expanding speech bandwidth
JP3522954B2 (ja) 1996-03-15 2004-04-26 株式会社東芝 マイクロホンアレイ入力型音声認識装置及び方法
US5794185A (en) 1996-06-14 1998-08-11 Motorola, Inc. Method and apparatus for speech coding using ensemble statistics
US5949878A (en) 1996-06-28 1999-09-07 Transcrypt International, Inc. Method and apparatus for providing voice privacy in electronic communication systems
JPH10124088A (ja) 1996-10-24 1998-05-15 Sony Corp 音声帯域幅拡張装置及び方法
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
KR20000047944A (ko) * 1998-12-11 2000-07-25 이데이 노부유끼 수신장치 및 방법과 통신장치 및 방법
SE9903553D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6453287B1 (en) 1999-02-04 2002-09-17 Georgia-Tech Research Corporation Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
JP2000305599A (ja) 1999-04-22 2000-11-02 Sony Corp 音声合成装置及び方法、電話装置並びにプログラム提供媒体
US7330814B2 (en) 2000-05-22 2008-02-12 Texas Instruments Incorporated Wideband speech coding with modulated noise highband excitation system and method
SE0001926D0 (sv) * 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
DE10041512B4 (de) 2000-08-24 2005-05-04 Infineon Technologies Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
AU2001294974A1 (en) 2000-10-02 2002-04-15 The Regents Of The University Of California Perceptual harmonic cepstral coefficients as the front-end for speech recognition
US6990446B1 (en) 2000-10-10 2006-01-24 Microsoft Corporation Method and apparatus using spectral addition for speaker recognition
US6889182B2 (en) 2001-01-12 2005-05-03 Telefonaktiebolaget L M Ericsson (Publ) Speech bandwidth extension
US20020128839A1 (en) * 2001-01-12 2002-09-12 Ulf Lindgren Speech bandwidth extension
EP1356454B1 (en) * 2001-01-19 2006-03-01 Koninklijke Philips Electronics N.V. Wideband signal transmission system
SE522553C2 (sv) 2001-04-23 2004-02-17 Ericsson Telefon Ab L M Bandbreddsutsträckning av akustiska signaler
JP3597808B2 (ja) 2001-09-28 2004-12-08 トヨタ自動車株式会社 無段変速機の滑り検出装置
US6895375B2 (en) 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
US6988066B2 (en) 2001-10-04 2006-01-17 At&T Corp. Method of bandwidth extension for narrow-band speech
CN1282156C (zh) * 2001-11-23 2006-10-25 皇家飞利浦电子股份有限公司 音频信号带宽扩展
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
BR0311601A (pt) 2002-07-19 2005-02-22 Nec Corp Aparelho e método decodificador de áudio e programa para habilitar computador
JP3861770B2 (ja) 2002-08-21 2006-12-20 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
KR100917464B1 (ko) 2003-03-07 2009-09-14 삼성전자주식회사 대역 확장 기법을 이용한 디지털 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치
US20050004793A1 (en) 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
US20050065784A1 (en) 2003-07-31 2005-03-24 Mcaulay Robert J. Modification of acoustic signals using sinusoidal analysis and synthesis
US7461003B1 (en) 2003-10-22 2008-12-02 Tellabs Operations, Inc. Methods and apparatus for improving the quality of speech signals
JP2005136647A (ja) 2003-10-30 2005-05-26 New Japan Radio Co Ltd 低音ブースト回路
KR100587953B1 (ko) 2003-12-26 2006-06-08 한국전자통신연구원 대역-분할 광대역 음성 코덱에서의 고대역 오류 은닉 장치 및 그를 이용한 비트스트림 복호화 시스템
CA2454296A1 (en) 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
KR100708121B1 (ko) 2005-01-22 2007-04-16 삼성전자주식회사 음성 신호의 대역 확장 방법 및 장치
JP5129115B2 (ja) 2005-04-01 2013-01-23 クゥアルコム・インコーポレイテッド 高帯域バーストの抑制のためのシステム、方法、および装置
US20060224381A1 (en) 2005-04-04 2006-10-05 Nokia Corporation Detecting speech frames belonging to a low energy sequence
US8249861B2 (en) 2005-04-20 2012-08-21 Qnx Software Systems Limited High frequency compression integration
TWI324336B (en) 2005-04-22 2010-05-01 Qualcomm Inc Method of signal processing and apparatus for gain factor smoothing
US8311840B2 (en) 2005-06-28 2012-11-13 Qnx Software Systems Limited Frequency extension of harmonic signals
KR101171098B1 (ko) 2005-07-22 2012-08-20 삼성전자주식회사 혼합 구조의 스케일러블 음성 부호화 방법 및 장치
EP1772855B1 (en) 2005-10-07 2013-09-18 Nuance Communications, Inc. Method for extending the spectral bandwidth of a speech signal
US7953605B2 (en) 2005-10-07 2011-05-31 Deepen Sinha Method and apparatus for audio encoding and decoding using wideband psychoacoustic modeling and bandwidth extension
US7490036B2 (en) 2005-10-20 2009-02-10 Motorola, Inc. Adaptive equalizer for a coded speech signal
US20070109977A1 (en) 2005-11-14 2007-05-17 Udar Mittal Method and apparatus for improving listener differentiation of talkers during a conference call
US7546237B2 (en) 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
US7835904B2 (en) 2006-03-03 2010-11-16 Microsoft Corp. Perceptual, scalable audio compression
US7844453B2 (en) 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
US20080004866A1 (en) 2006-06-30 2008-01-03 Nokia Corporation Artificial Bandwidth Expansion Method For A Multichannel Signal
US8260609B2 (en) 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
DE602006009927D1 (de) 2006-08-22 2009-12-03 Harman Becker Automotive Sys Verfahren und System zur Bereitstellung eines Tonsignals mit erweiterter Bandbreite
US8639500B2 (en) 2006-11-17 2014-01-28 Samsung Electronics Co., Ltd. Method, medium, and apparatus with bandwidth extension encoding and/or decoding
US8229106B2 (en) * 2007-01-22 2012-07-24 D.S.P. Group, Ltd. Apparatus and methods for enhancement of speech
US8688441B2 (en) 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
US8433582B2 (en) 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090201983A1 (en) 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
US8463412B2 (en) 2008-08-21 2013-06-11 Motorola Mobility Llc Method and apparatus to facilitate determining signal bounding frequencies
US8463599B2 (en) 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder

Also Published As

Publication number Publication date
KR20120055746A (ko) 2012-05-31
RU2447415C2 (ru) 2012-04-10
WO2009070387A1 (en) 2009-06-04
US8688441B2 (en) 2014-04-01
CN101878416A (zh) 2010-11-03
CN101878416B (zh) 2012-06-06
US20090144062A1 (en) 2009-06-04
CN102646419A (zh) 2012-08-22
CN102646419B (zh) 2015-04-22
BRPI0820463A2 (pt) 2015-06-16
EP2232223A1 (en) 2010-09-29
KR20100086018A (ko) 2010-07-29
RU2010126497A (ru) 2012-01-10
EP2232223B1 (en) 2016-06-15
KR101482830B1 (ko) 2015-01-15
BRPI0820463A8 (pt) 2015-11-03
MX2010005679A (es) 2010-06-02

Similar Documents

Publication Publication Date Title
BRPI0820463B1 (pt) Método e aparelho para extensão de largura de banda de sinal de áudio
ES2384084T3 (es) Método y aparato para estimar la energía de banda alta en un sistema de extensión de ancho de banda
EP2238593B1 (en) Method and apparatus for estimating high-band energy in a bandwidth extension system for audio signals
US9659579B2 (en) Method of and apparatus for evaluating intelligibility of a degraded speech signal, through selecting a difference function for compensating for a disturbance type, and providing an output signal indicative of a derived quality parameter
BR112012026984B1 (pt) aparelho e método para modificar um sinal de áudio de entrada
US9953663B2 (en) Method of and apparatus for evaluating quality of a degraded speech signal
AU2013345546B2 (en) Method of and apparatus for evaluating intelligibility of a degraded speech signal
BR112019020357A2 (pt) aparelho e método para processar um sinal de áudio e meio de armazenamento não transitório
US9659565B2 (en) Method of and apparatus for evaluating intelligibility of a degraded speech signal, through providing a difference function representing a difference between signal frames and an output signal indicative of a derived quality parameter

Legal Events

Date Code Title Description
B25D Requested change of name of applicant approved

Owner name: MOTOROLA SOLUTIONS, INC (US)

B25A Requested transfer of rights approved

Owner name: MOTOROLA MOBILITY INC (US)

B25G Requested change of headquarter approved

Owner name: MOTOROLA MOBILITY INC (US)

B25D Requested change of name of applicant approved

Owner name: MOTOROLA MOBILITY LLC (US)

B25A Requested transfer of rights approved

Owner name: GOOGLE TECHNOLOGY HOLDINGS LLC (US)

B25E Requested change of name of applicant rejected

Owner name: GOOGLE TECHNOLOGY HOLDINGS LLC (US)

B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 06/03/2019, OBSERVADAS AS CONDICOES LEGAIS.