BRPI0911932B1 - Equipamento e método para processamento de um sinal de áudio para intensificação de voz utilizando uma extração de característica - Google Patents

Equipamento e método para processamento de um sinal de áudio para intensificação de voz utilizando uma extração de característica Download PDF

Info

Publication number
BRPI0911932B1
BRPI0911932B1 BRPI0911932-9A BRPI0911932A BRPI0911932B1 BR PI0911932 B1 BRPI0911932 B1 BR PI0911932B1 BR PI0911932 A BRPI0911932 A BR PI0911932A BR PI0911932 B1 BRPI0911932 B1 BR PI0911932B1
Authority
BR
Brazil
Prior art keywords
spectral
frequency band
feature
control information
characteristic
Prior art date
Application number
BRPI0911932-9A
Other languages
English (en)
Inventor
Uhle Christian
Hellmuth Oliver
Grill Bernhard
Ridderbusch Falko
Original Assignee
Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP08017124.2A external-priority patent/EP2151822B8/en
Application filed by Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. filed Critical Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V.
Publication of BRPI0911932A2 publication Critical patent/BRPI0911932A2/pt
Publication of BRPI0911932B1 publication Critical patent/BRPI0911932B1/pt

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

equipamento e método para processamento de um sinal de áudio para intensificação de voz utilizando uma extração de característica um equipamento para processamento de um sinal de áudio para obter informações de controle para um filtro de intensificação da voz (12) compreende características (14) para extração de um extrator de pelo menos uma característica por banda de frequência de diversas bandas de frequência de uma representação espectral de curta duração de diversas representações espectrais de curta duração, onde o pelo menos uma característica representa um formato espectral da ' representação espectral de curta duração na banda de frequência. o equipamento compreende ainda um combinador de característica (15) para combinar o pelo menos uma característica para cada banda de frequência utilizando parâmetros de combinação para obter as informações de controle para o filtro de intensificação da voz para urna porção de tempo do sinal de áudio. o combinador de característica pode utilizar um método de regressão de rede neural que é baseado nos parâmetros de combinação determinados em uma fase de treinamento para a rede neural.

Description

CAMPO DA INVENÇÃO
A presente invenção está no campo de processamento de sinal de áudio e, particularmente, no campo de intensificação de voz de sinais de áudio, de maneira que um sinal A processado tenha teor de voz que apresente uma melhor inteligibilidade objetiva ou subjetiva de voz.
FUNDAMENTOS DA INVENÇÃO
A intensificação de voz é aplicada em diferentes aplicações. Uma aplicação notável é o uso de processamento de sinal digital em equipamentos auditivos. O procèssamento de sinal digital em equipamentos auditivos oferece meios novos e eficazes „ 15 =para a reabilitação da audição prejudicada^ Além da melhor qualidade do sinal acústico, equipamentos auditivos digitais permitem a implementação de estratégias de processamento de voz especificas. Para muitas dessas estratégias, é desejável uma estimativa da relação voz-ruido (SNR) do ambiente acústico.
Especificamente, são consideradas aplicações nas quais algoritmos complexos para processamento de voz são otimizados para ambientes acústicos específicos, porém, esses algoritmos podem falhar em situações que não se encaixem nas pressuposições especificas. Isto é válido especialmente para esquemas de redução de ruido que podem 25 introduzir artefatos de processamento em ambientes silenciosos ou em situações nas quais a SNR esteja abaixo de um determinado limite. Uma escolha ideal para parâmetros de algoritmos de compressão e amplificação pode depender da relação voz-ruido, de maneira que uma adaptação da configuração do parâmetro dependente de estimativas de SNR ajuda a provar o beneficio. E ainda, estimativas de SNR podem ser usadas diretamente como parâmetros de controle para esquemas de redução de ruído, como por exemplo a 5 filtração de Wiener ou subtração espectral.
Outras aplicações estão no campo de intensificação de voz no som de um filme. Constatou-se que muitas pessoas têm problemas para entender o conteúdo de voz de um filme, ' por exemplo, devido a problemas de audição. Para acompanhar a trama de um filme, é importante entender a voz da trilha de áudio relacionada, por exemplo, monólogos, diálogos, anúncios e narrações. As pessoas que têm dificuldades para ouvir com frequência sentem quê os sons de~“ fundo", por~~èxempTo, o “ruído ambiental e a música, são apresentados em um nível alto demais em .J5 relação à voz. Neste caso, é desejável aumentar _o nivel dos sinais de voz e atenuar os sons de fundo,ou em geral, aumentar o nível do sinal de voz em relação ao nível total. J
Uma abordagem notável à intensificação de voz é a ponderação espectral, também conhecida como atenuação espectral de curta duração, conforme ilustra a Figura 3. O sinal de saída y[k] é computado atenuando-se os sinais de sub-banda X(co) dos sinais de entrada x[k], dependendo da energia de ruído dentro dos sinais de sub-banda.
A seguir presume-se que o sinal de entrada x[&] seja uma mistura aditiva do sinal de voz desejado s[&] e o ruído de fundo i[£] . (D
Intensificação de voz é a melhoria na inteligibilidade objetiva e/ou qualidade subjetiva da voz.
Uma representação de dominio de frequência do sinal de entrada é computada através de uma Transformada de Fourier de Curta duração (STFT), outras transformadas de tempo- frequência ou um banco de filtros conforme indicado em 30. O sinal de entrada é então filtrado no dominio de frequência de acordo com a Equação 2, enquanto a resposta de frequência G(á?) do filtro é computada de maneira que a energia de ruido seja reduzida. 0 sinal 10 de saida é computado através do processamento inverso das transformadas de tempo-frequência ou banco de filtros, respectivamente. r(®) = x(a>) (2)
Ponderações espectrais adequadas G(a>') são 15 computadas em 31 para todos os valores espectrais, utiTizando o espectro de sinal de entrada X(<o) e uma estimativa do espectro de ruido OU, de maneira equivalente, utilizando uma estimativa da sub-banda linear SNR 7?(á?)=S(<»)/#(&>) . O valor espectral ponderado é transformado novamente no dominio de tempo em 32. Exemplos 20 notáveis de regras de supressão de ruido são subtração espectral [S. Boll, "Suppression of acoustic noise in speech using spectral subtraction", IEEE Trans. on Acoustics, Speech, and Signal Processing, vol. 27, no. 2, pp. 113-120, 1979] e filtração de Wiener. Presumindo-se que o sinal de entrada seja uma mistura 25 aditiva da voz e dos sinais de ruido e que a voz e o ruido não estejam correlacionados, os valores de ganho para o método de subtração espectral são dados na Equação 3.
Figure img0001
Ponderações semelhantes são derivadas de estimativas da sub-banda linear SNR 7?(ÍW) , de acordo com a Equação 4 .
Figure img0002
Várias extensões à subtração espectral foram propostas no passado, a saber, o uso de um fator de supersubtração e parâmetro espectral de base [M. Berouti, R. Schwartz, J. Makhoul, "Enhancement of speech corrupted*“by-^cousti'c’^noise"', Proc, of the IEEE Int. Conf, on Acoustics, Speech, and Signal Processing, ICASSP, 1979], formas generalizadas [J. Lim, A.
Oppenheim, "Enhancement and bandwidth compression of noisy speech", Proc, of the IEEE, vol 67, no. 12, pp. 1586-1604, 1979], o uso de critérios perceptivos (por exemplo, N. Virag, "Single channel speech enhancement based on masking properties of the human auditory system", IEEE Trans. Speech and Audio Proc., vol. 7, no. 2, pp. 126-137, 1999) e subtração espectral multibanda (por exemplo, S. Kamath, P. Loizou, "A multi-band spectral subtraction method for enhancing speech corrupted by colored noise", Proc, of the IEEE Int. Conf. Acoust. Speech Signal Processing, 2002). No entanto, a parte crucial de um método de ponderação espectral é a estimativa do espectro de ruido instantâneo ou da SNR de sub- banda, que tende a apresentar erros, especialmente se o ruido for não-estacionário. Erros na estimativa de ruido levam a ruido residual, distorções dos componentes de voz ou ruido musical (um artefato que foi descrito como "trinado com qualidade tonal" [P. Loizou, Speech Enhancement: Theory and Practice, CRC Press, 2007] ) .
Uma abordagem simples à estimativa de ruído é medir e calcular a média do espectro de ruido durante pausas de voz. Esta abordagem não produz resultados satisfatórios se o espectro de ruido variar ao longo do tempo durante a atividade de voz, e se a detecção das pausas de voz falhar. Métodos para estimativa do espectro de ruído mesmo durante a atividade de voz foram propostos no passado e podem ser classificados de acordo com P. Loizou, Speech Enhancement: Theory and Practice, CRC Press, 2007, como • Algoritmos de rastreamento mínimo • „ Algoritmos para cálculo de média-recorrentes em tempo - ■ • Algoritmos à base de histograma
A estimativa do espectro de ruído que utiliza estatísticas mínimas foi proposta em R. Martin, "Spectral subtraction based on minimum statistics", Proc. of EUSIPCO, Edingburgh, UK, 1994. O método baseia-se no rastreamento de mínimos locais da energia de sinal em cada sub-banda. Uma regra de atualização não linear para a estimativa de ruído e atualização mais rápida foi proposta em G. Doblinger, "Computationally
Efficient Speech Enhancement By Spectral Minima Tracking In Subbands", Proc, of Eurospeech, Madrid, Spain, 1995. Algoritmos para cálculo de média recorrentes em tempo estimam e atualizam o espectro de ruído sempre que a SNR estimada em uma banda de frequência particular for muito baixa. Isto é feito computando-se recursivamente a média ponderada da estimativa de ruido passada e o espectro presente. As ponderações são determinadas como função da SNR estimada na banda de 5 frequência particular, por exemplo, em I. Cohen, "Noise estimation by minima controlled recursive averaging for robust speech enhancement", IEEE Signal Proc. Letters, vol. 9, no. 1, pp. 12-15, 2002, e em L. Lin, W. Holmes, E. Ambikaira j ah, "Adaptive noise estimation algorithm for speech enhancement", Electronic Letters, 10 vol. 39, no. 9, pp. 754-755, 2003.
Métodos à base de histogramas fundamentam-se na pressuposição de que o histograma da energia de sub-banda é com frequência bimodãl. Um modo grande de baixa energia acumula valores de energia de segmentos sem voz ou com segmentos de voz de baixa energia. O modo de alta . energia»acumula valores de energia— de segmentos com voz em fala e ruido.,__A.energia de— ruido -em uma- sub-banda particular é determinada pelo modo de baixa energia [H. Hirsch, C. Ehrlicher, "Noise estimation techniques for robust speech recognition", Proc, of the IEEE Int. Conf, on Acoustics, Speech, and Signal Processing, ICASSP, Detroit, USA, 1995]. Para uma análise recente e abrangente, consulte-se P. Loizou, Speech Enhancement: Theory and Practice, CRC Press, 2007.
Métodos para a estimativa da SNR de sub-banda à base de aprendizado supervisionado com a utilização de recursos de modulação de amplitude são relatados em J. Tchorz, B. Kollmeier, "SNR Estimation based on amplitude modulation analysis applications to noise suppression", IEEE Trans. On Speech and Audio Processing, vol. 11, no. 3, pp. 184-192, 2003, e em M. Kleinschmidt, V. Hohmann, "Sub-band SNR estimation using auditory feature processing", Speech Communication: Special Issue on Speech Processing for Hearing Aids, vol. 39, pp. 47-64, 2003.
Outras abordagens para intensificação de voz são filtração sincrônica de altura (por exemplo, em R. Frazier, S. Samsam, L. Braida, A. Oppenheim, "Enhancement of speech by adaptive filtering", Proc, of the IEEE Int. Conf, on Acoustics, Speech, and Signal Processing, ICASSP, Philadelphia, USA, 1976), filtering of Spectro Temporal Modulation (STM) (por exemplo, em N. Mesgarani, S. Shamina, "Speech enhancement based on filtering the spectro-temporal modulations", Proc, of the IEEE Int. Conf, on Acoustics, Speech, and Signal Processing, ICASSP, Philadelphia, USA, 2005F, e filtração à base de uma representação de modelo senoidal do sinal de entrada (por exemplo, em J. Jensen, J. Hansen, Speech ^enhancement using- a constrained-— iterative sinusoidal model", IEEE Trans on Speech and Audio—Processing, — vol. 9, no. 7, pp. 731-740, 2001).
Os métodos para a estimativa da SNR de sub-banda à base de aprendizado supervisionado com a utilização de recursos de modulação de amplitude, conforme relatados em J. Tchorz, B. Kollmeier, "SNR Estimation based on amplitude modulation analysis applications to noise suppression", IEEE Trans. On Speech and Audio Processing, vol. 11, no. 3, pp. 184-192, 2003, e em M. Kleinschmidt, V. Hohmann, "Sub-band SNR estimation using auditory feature processing", Speech Communication: Special Issue on Speech Processing for Hearing Aids, vol. -39, pp. 47-64, 200312, 13 são desvantajosos, pois são necessárias duas etapas de processamento de espectrograma. A primeira etapa de processamento de espectrograma é a geração de um espectrograma de tempo / frequência do sinal de áudio de tempo-dominio. Depois, para gerar o espectrograma de modulação, é necessária outra transformada "tempo / frequência", a qual transforma a informação espectral do dominio espectral no dominio de modulação. Devido ao retardo sistemático inerente e à questão da resolução tempo / frequência inerente a qualquer algoritmo de transformada, esta operação de transformada adicional fica sujeita a problemas.
Uma outra consequência deste procedimento é que as estimativas de ruido são bastante imprecisas em condições nas quais o ruido é não-estacionário e onde vários sinais de ruido podem ocorrer.
SUMÁRIO DA INVENÇÃO
O objetivo da presente invenção é prover um conceito melhorado.para intensificação de voz*.— — —— De ac_ordo_com__um_primeiro aspecto-,—este—objeti-v-o- é atingido por um equipamento para processamento de um sinal de áudio para obter informações de controle para um filtro de intensificação de voz, compreendendo: extrator de característica para obter uma sequência de tempo de representações espectrais de curta duração do sinal de áudio e para extrair pelo menos uma característica em cada banda de frequência de diversas bandas de frequência para diversas representações espectrais de curta duração, sendo que a pelo menos uma característica representa um formato espectral de uma representação espectral de curta duração em uma banda de frequência das diversas bandas de frequência; e combinador de característica para combinar a pelo menos uma característica para cada banda de frequência utilizando parâmetros de combinação para obter as informações de controle para o filtro de intensificação de voz para uma porção de tempo do sinal de áudio.
De acordo com um segundo aspecto, este objetivo é 5 atingido por um método de processamento de um sinal de áudio para obtenção de uma sequência de tempo de representações espectrais de curta duração do sinal de áudio; extração de pelo menos uma característica em cada banda de frequência de diversas bandas de frequência para diversas representações espectrais de curta 10 duração, sendo que a pelo menos uma característica representa um formato espectral de uma representação espectral de curta duração em uma banda de frequência das diversas bandas de frequência; e combinação "da pêTÕ mênÕs uma característica para cada banda de frequência utilizando-se parâmetros de combinação para obter as informações^ de controle__para o_f iltro_de intensificação—de voz-por —• uma porção de tempo do sinal de_ áudio.. ... —
De acordo com um terceiro aspecto, este objetivo é atingido por um equipamento para intensificação de voz em um sinal de áudio, compreendendo: equipamento para processamento do 20 sinal de áudio para obtenção de informações de controle de filtro para diversas bandas que representam uma porção de tempo do sinal de áudio; e filtro controlável, sendo este filtro controlável de maneira que uma banda do sinal de áudio seja variavelmente atenuada em relação a uma banda diferente, com base nas 25 informações de controle.
De acordo com um quarto aspecto, este objetivo é atingido por um método de intensificação da voz em um sinal de áudio, compreendendo: método de processamento do sinal de áudio para obtenção de informações de controle de filtro para diversas bandas que representam uma porção de tempo do sinal de áudio; e controle de um filtro de maneira que uma banda do sinal de áudio seja variavelmente atenuada em relação a uma banda diferente, com 5 base nas informações de controle.
De acordo com um quinto aspecto, este objetivo é atingido por um equipamento para treinamento de um combinador de característica para determinação de parâmetros de combinação do combinador de característica, compreendendo: extrator de característica para obtenção de uma sequência de tempo de representações espectrais de curta duração de um sinal de áudio de treinamento, para o qual uma informação de controle para um filtro de intensificação ’de voz por-banda de frequência é conhecido, e para extração de pelo menos uma característica em cada banda de 15 frequência das diversas bandas de frequência -para —diversas representações espectrais de curta-duração, sendo, que a pelo menos uma característica representa um formato espectral de uma representação espectral de curta duração em uma banda de frequência das diversas bandas de frequência; e controlador de 20 otimização para alimentar o combinador de característica com a pelo menos uma característica para cada banda de frequência, para cálculo das informações de controle utilizando-se parâmetros de combinação intermediários, para variação dos parâmetros de combinação intermediários, para comparação das informações de 25 controle variadas às informações de controle conhecidas, e para atualização dos parâmetros de combinação intermediários, quando os parâmetros de combinação intermediários variados resultam em informações de controle que combinem melhor com as informações de controle conhecidas.
De acordo com um sexto aspecto, este objetivo é atingido por um método de treinamento de um combinador de característica para determinação de parâmetros de combinação do combinador de característica, compreendendo: a obtenção de uma sequência de tempo de representações espectrais de curta duração de um sinal de áudio de treinamento, para a qual uma informação de controle para um filtro de intensificação de voz por banda de frequência é conhecido; extração de pelo menos uma característica em cada banda de frequência das diversas bandas de frequência para diversas representações espectrais de curta duração, sendo que a pelo menos uma característica representa um formato espectral de uma representação espectral de curta duração em uma banda de frequência das diversas bandas de -frequência; alimentação -do combinador de característica _com .a_ pelo menos-- uma—característica para cada banda de frequência; cálculo da informação de controle através de parâmetros de combinação intermediários; variação dos parâmetros de combinação intermediários; comparação das informações de controle variadas às informações de controle conhecidas; atualização dos parâmetros de combinação intermediários, quando os parâmetros de combinação intermediários variados resultarem em informações de controle que combinem melhor com as informações de controle conhecidas.
De acordo com um sétimo aspecto, este objetivo é atingido por um programa de computador para executar, quando for executado em um computador, qualquer um dos métodos inventivos.
A presente invenção baseia-se na conclusão de que uma informação em bandas no formato espectral do sinal de áudio dentro da banda especifica é um parâmetro muito útil para determinação das informações de controle para um filtro de intensificação de voz. Especificamente, uma característica de 5 informação de formato espectral determinada em bandas para diversas bandas e para diversas representações espectrais de curta duração subsequentes provê uma descrição útil de característica de um sinal de áudio para processamento de intensificação de voz do sinal de áudio. Especificamente, um conjunto características de 10 formato espectral, onde cada formato espectral está associado a uma banda de diversas bandas espectrais, como por exemplo bandas de Bark ou em geral, bandas com largura de banda variável ao longo da—faixa "de frequência", já provê um conjunto de características útil para determinação de relações sinal / ruido para cada banda.
Para tanto as características de formato—espectral para diversas — bandas são processadas através de um combinador de.característica para combinação dessas características utilizando parâmetros de combinação para obter as informações de controle para o filtro de intensificação de voz para uma porção de tempo do sinal de áudio de cada banda. Preferivelmente, o combinador de característica inclui uma rede neural, que é controlada por muitos parâmetros de combinação, onde esses parâmetros de combinação são determinados em uma fase de treinamento, que é realizada antes da realização efetiva da filtração de intensificação de voz. Especificamente, a rede neural executa um método de regressão de rede neural. Uma vantagem específica é que os parâmetros de combinação podem ser determinados dentro de uma fase de treinamento com uso de material de áudio, o qual pode ser diferente do material de áudio com intensificação de voz real, de modo que a fase de treinamento tem que ser executada somente uma única vez e, depois dessa fase de treinamento, os parâmetros de combinação são estabelecidos de modo permanente, e podem ser aplicados a todos os sinais de áudio desconhecidos que tenham voz, sendo comparáveis a uma característica de voz dos sinais de treinamento. Essa característica de voz pode, por exemplo, ser um idioma ou um grupo de idiomas, como por exemplo idiomas europeus versus idiomas asiáticos, etc.
Preferivelmente, o conceito inventivo estima o ruido aprendendo as características da voz com a utilização de extração de característica e redes neurais, onde as caracteristicás extraídas ’inventivamente são características espectrais diretas de baixo nivel, que podem ser extraídas de maneira eficiente e fácil, e, o que é„ relevante, é que podem ser extraídas sem_ um grande retardo inerente ao sistema,., de maneira que o conceito inventivo seja especificamente útil para prover um ruido preciso ou estimativa de SNR, mesmo em uma situação onde o ruido seja não-estacionário e onde ocorram vários sinais de ruido.
BREVE DESCRIÇÃO DOS DESENHOS
Configurações preferidas da presente invenção são subsequentemente discutidas em mais detalhes, com referência aos desenhos anexos, nos quais: A Figura 1 é um diagrama em blocos de um equipamento ou método preferido para processamento de um sinal de áudio; A Figura 2 é um diagrama em blocos de um equipamento ou método para treinamento de um combinador de característica de acordo com uma configuração preferida da presente invenção; A Figura 3 é um diagrama em blocos para ilustração de um equipamento e método de intensificação de voz de 5 acordo com uma configuração preferida da presente invenção; A Figura 4 ilustra uma visão geral do procedimento para treinamento de um combinador de recurso e para aplicação de uma regressão de rede neural utilizando-se os parâmetros de combinação otimizados; A Figura 5 é um gráfico que ilustra o fator de ganho em função da SNR, onde os ganhos aplicados (linha sólida) são comparados aos ganhos de subtração espectral (linha — ponti-lhada) e ao filtro de Wiener" (1’inha tracejada); A Figura 6 é uma visão geral das características 15 por banda de frequência_ e características ^adicionais -preferidas - para toda a largura de banda; _ _ _ . _ . . .. A Figura 7 é um fluxograma para ilustração de uma implementação preferida do extrator de característica; A Figura 8 ilustra um fluxograma para ilustração 20 de uma implementação preferida do cálculo dos fatores de ganho por valor de frequência e o cálculo subsequente da porção do sinal de áudio intensificado; A Figura 9 ilustra um exemplo da ponderação espectral, onde o sinal de tempo de entrada, a SNR de sub-banda estimada, a SNR estimada em bins de frequência após interpolação, as ponderações espectrais e o sinal de tempo processado são ilustrados; e A Figura 10 é um diagrama em blocos esquemático de uma implementação preferida do combinador de característica que utiliza uma rede neural de camadas múltiplas.
Descrição Detalhada das Configurações Preferidas A Figura 1 ilustra um equipamento preferido para processamento de um sinal de áudio 10 para obtenção de informações de controle 11 para um filtro de intensificação de voz 12. O filtro de intensificação de voz pode ser implementado de várias maneiras, como por exemplo como um filtro controlável para filtração do sinal de áudio 10 utilizando-se as informações de controle por banda de frequência para cada uma das diversas bandas de frequência para obter um sinal de saida de áudio com intensificação de voz 13. Conforme será ilustrado posteriormente, o ’“filtro controlável ~pode também ser implementado como uma conversão de tempo / frequência, onde fatores de ganho calculados individualmente são aplicados aos valores-espectrais ou—bandas espectrais, e em seguida ocorre uma conversão de frequência / tempo executada subsequentemente.
O equipamento da Figura 1 compreende um extrator de característica 14 para obtenção de uma sequência de tempo de representações espectrais de curta duração do sinal de áudio e para extração de pelo menos uma característica de cada banda de frequência de diversas bandas de frequência para diversas representações espectrais de curta duração, onde a pelo menos uma característica representa um formato espectral de uma representação espectral de curta duração em uma banda de frequência das diversas bandas de frequência. Além disso, o extrator de características 14 pode ser implementado para extrair espectral. Na saída do extrator de característica 14, existem várias características por espectro de curta duração, onde essas várias características incluem pelo menos uma característica de formato espectral para cada banda de frequência de diversas de 5 pelo menos 10 ou preferivelmente mais, como por exemplo, 20 a 30 bandas de frequência. Essas características podem ser utilizadas como são, ou podem ser processadas utilizando-se um processamento médio ou qualquer outro processamento, como por exemplo a média geométrica ou média aritmética ou processamento médio ou outro 10 processamento de momentos estatísticos (como por exemplo, variação, assimetria, ...) a fim de obter, para cada banda, uma característica bruta ou uma característica com média, de maneira _ _ que _ todas .essas- características" brutas” e/ou com média sejam inseridas em um combinador de características 15. O combinador de 15 características 15 combina as diversas.características de formato espectral e, preferivelmente, características adicionais utilizando parâmetros de combinação, que podem ser providos através de uma entrada de parâmetro de combinação 16, ou que são inseridos ou programados por hardware no combinador de 20 características 15, de maneira que a entrada de parâmetro de combinação 16 não seja necessária. Na saída do combinador de característica, as informações de controle para o filtro de intensificação de voz para cada banda de frequência ou "sub-banda" das diversas bandas de frequência ou as diversas sub-bandas são 25 obtidas para uma porção de tempo do sinal de áudio.
Preferivelmente, o combinador de características 15 é implementado como um circuito de regressão de rede neural, implementado como qualquer outro combinador de características numérica ou estatisticamente controlado, que aplique qualquer operação de combinação à saída de características pelo extrator de características 14, de maneira que, no final, o resultado sejam as informações de controle necessárias, como por exemplo um valor de SNR em bandas ou um fator de ganho em bandas. Na configuração preferida de uma aplicação de rede neural, é necessária uma fase de treinamento ("fase de treinamento" significa uma fase na qual é executado através de exemplos). Nessa fase de treinamento, um equipamento para treinamento de um combinador de características como indica a Figura 2, é utilizado. Especificamente, a Figura 2 ilustra esse equipamento para treinamento de um combinador de características- 15 para determinação‘ de" parâmetros de combinação do combinador de característica. Para tanto, o equipamento da Figura 2 compreende o extrator _de^ característica 14, que é - preferivelmente implementado da mesma maneira que o extrator de características 14 da Figura 1. Além disso, o combinador de características 15 também é implementado da mesma maneira que o combinador de característica 15 da Figura 1.
Além da Figura 1, o equipamento da Figura 2 compreende um controlador de informações 20, o qual recebe, como entrada, informações de controle para um sinal de áudio de treinamento como indicado em 21. A fase de treinamento é realizada com base em sinais de áudio de treinamento conhecidos, os quais apresentem uma relação voz / ruído conhecida em cada banda. A porção de voz e a porção de ruído são - por exemplo - providas separadamente uma da outra, e a SNR real por banda é medida sem interrupções, isto é, durante a operação de aprendizado.
Especificamente, o controlador de otimização 20 é operacional para controle do combinador de característica, de maneira que o combinador de características seja alimentado com as características do extrator de características 14. Com base nessas 5 características e parâmetros de combinação intermediários originários de uma execução de iteração anterior, o combinador de características 15 calcula então as informações de controle 11. Essas informações de controle 11 são encaminhadas para o controlador de otimização, e são, no controlador de otimização 20, 10 comparadas às informações de controle 21 para o sinal de áudio de treinamento. Os parâmetros de combinação intermediários são variados em resposta a uma instrução do controlador de otimização 20, e, utilizando_ esses parâmetros ■ de combinação variados, um outro conjunto de informações de controle é calculado pelo 15 combinador de características 15. Quando as outras .informações de controle combinam melhor com as informações de controle para o sinal de áudio de treinamento 21, o controlador de otimização 20 atualiza os parâmetros de combinação e envia esses parâmetros de combinação atualizados 16 ao combinador de características para 20 serem usados na próxima execução como parâmetros de combinação intermediários. Alternativamente, ou adicionalmente, os parâmetros de combinação atualizados podem ser armazenados em uma memória para serem utilizados novamente. A Figura 4 ilustra uma visão geral de um 25 processamento de ponderação espectral que utiliza extração de características no método de regressão de rede neural. Os parâmetros w da rede neural são computados utilizando-se os itens de treinamento xt[k] durante a fase de treinamento, que é indicada no lado esquerdo da Figura 4. A estimativa de ruido e a filtração de intensificação de voz são mostradas no lado direito da Figura 4.
O conceito proposto segue a abordagem de ponderação espectral e utiliza um método inovador para a computação das ponderações espectrais. A estimativa de ruido baseia-se em um método de aprendizado supervisionado e utiliza um conjunto de características inventivas. As características objetivam a discriminação dos componentes de sinal tonais versus ruidosos. Além disso, as características propostas levam em consideração a evolução de propriedades de sinal em uma escala de tempo maior. ~ -
O método de estimativa de ruido apresentado aqui é capaz de lidar com vários sons de fundo não-estaçionários. Uma estimativa robusta de SNR em ruido de fundo não-estacionário é obtida através de extração de características e um método de regressão de rede neural, conforme ilustra a Figura 4. As ponderações de valor real são computadas com base em estimativas da SNR em bandas de frequência cujo espaçamento aproxima-se à escala de Bark. A resolução espectral da estimativa de SNR é bastante grosseira para possibilitar a medição de um formato espectral em uma banda.
O lado esquerdo da Figura 4 corresponde a uma fase de treinamento que, basicamente, tem que ser executada somente uma vez. O procedimento do lado esquerdo da Figura 4 indicado como treinamento 41 inclui um bloco de computação de SNR de referência 21, que gera as informações de controle 21 para uma entrada de sinal de áudio de treinamento no controlador de otimização 20 da Figura 2. O dispositivo de extração de características 14 da Figura 4 do lado do treinamento corresponde ao extrator de características 14 da Figura 2. Em particular, a Figura 2 foi ilustrada para receber um sinal de áudio de treinamento, que é composto de uma porção de voz e uma porção de fundo. Para conseguir executar uma referência útil, a porção de fundo bt e a porção de voz st estão disponíveis separadamente uma da outra, e são adicionadas através de um adicionador 43 antes de 10 serem inseridas no dispositivo de extração de características 14.
Assim, a saida do adicionador 43 corresponde à entrada do sinal de áudio de treinamento no extrator de características 14 da Figura 2. _ = .... - - • - - " * * ~ * - - “ - '
O dispositivo de treinamento de rede neural indicado em 15, 20 corresponde aos blocos 15 e 20, ,e a. conexão correspondente, conforme indica a Figura 2, ou conforme implementado através de outras conexões semelhantes resulta em um conjunto de parâmetros de combinação w, que podem ser armazenados na memória 40. Esses parâmetros de combinação são então utilizados no dispositivo de regressão de rede neural 15, correspondente ao combinador de características 15 da Figura 1, quando o conceito inventivo é aplicado conforme indicado através da aplicação 42 na Figura 4. O dispositivo de ponderação espectral da Figura 4 corresponde ao filtro controlável 12 da Figura 1, e o extrator de características 14 da Figura 4, o lado direito corresponde ao extrator de características 14 da Figura 1.
A seguir, uma breve concepção do conceito proposto será discutida em detalhes. O dispositivo de extração de da Figura 4 opera como segue.
Um conjunto de 21 diferentes características foi investigado a fim de identificar o melhor conjunto de características para a estimativa da SNR de sub-banda. Essas características foram combinadas em várias configurações e foram avaliadas através de medições objetivas e audição informal. O processo de seleção de características resulta em um conjunto de características que compreende a energia espectral, o fluxo espectral, o nivelamento espectral, a assimetria espectral, LPC e os coeficientes RASTA-PLP. As características de energia, fluxo, nivelamento e assimetria espectrais são computadas a partir do coeficiente espectral correspondente à escala de banda crítica.
As características - são detalhadas ém relação à Figura 6. Características adicionais são a característica delta da energia espectral e a característica delta-delta _da_ . energia - - -espectral filtrada por passa-baixa e do fluxo espectral.
A estrutura da rede neural usada nos blocos 15 ou 15 da Figura 4 ou preferivelmente utilizada no combinador de características 15 da Figura 1 ou da Figura 2 é discutida em 20 relação à Figura 10. Em particular, a rede neural preferida inclui uma camada de neurônios de entrada 100. Em geral, neurônios de entrada n podem ser utilizados, isto é, um neurônio por cada característica de entrada. A rede neural compreende ainda uma camada oculta 102 com p neurônios de camada oculta. De modo geral, 25 pé menor que n e na configuração preferida, a camada oculta possui 50 neurônios. No lado de saída, a rede neural inclui uma camada de saída 104 com q neurônios de saída. Em particular, o número de neurônios de output é igual ao número de bandas de frequência de modo que cada neurônio de saída provenha uma informação de controle para cada banda de frequência, tal como uma informação de SNR (Razão entre Voz e Ruído) para cada banda de frequência. Se, por exemplo, 25 diferentes bandas de frequência 5 existirem preferencialmente tendo uma largura de banda, que aumente de baixa para alta frequências, então o número q de neurônios de saída será igual a 25. Assim, a rede neural é aplicada para a estimativa da SNR de sub-banda a partir das características computadas de baixo nível. A rede neural possui, 10 conforme informado abaixo, 220 neurônios de entrada e uma camada oculta 102 com 50 neurônios. O número de neurônios de saída é igual ao número de bandas de frequência. Preferencialmente, os neurônios ocultos .incluem, uma- função* de “ativação," que é a tangente hiperbólica e a função de ativação dos neurônios de saída é a 15 identidade. . ’
De modo geral, cada neurônio da camada 102 ou 104 recebe todas as entradas correspondentes, que são, em relação à camada 102, as saídas de todos os neurônios de entrada. Então, cada neurônio de camada 102 ou 104 realiza uma adição ponderada 20 onde os parâmetros de ponderação correspondem aos parâmetros de combinação. A camada oculta pode compreender valores de desvio, além dos parâmetros. Então, os valores de desvio também pertencem aos parâmetros de combinação. Em particular, cada entrada é ponderada por seu parâmetro de combinação correspondente e a saída 25 da operação de ponderação, que é indicada por uma caixa de exemplo 106 na Figura 10 é inserida em um acionador 108 dentro de cada neurônio. A saída do acionador ou uma entrada para um neurônio pode compreender uma função não linear 110, que pode ser colocada na saída e/ou entrada de um neurônio, por exemplo, na camada oculta conforme o caso.
As ponderações da rede neural são treinadas em misturas de sinais de voz limpos e ruídos de fundo, cujas SNR de 5 referência são computadas utilizando os sinais separados. O processo de treinamento é ilustrado no lado esquerdo da Figura 4.
A voz e o ruído são misturados com uma SNR de 3 dB por item e alimentados na extração de característica. Essa SNR é constante no decorrer do tempo e um valor de SNR de banda ampla. O conjunto de 10 dados compreende 2304 combinações de 48 sinais de voz e 48 sinais de ruído de 2,5 segundos de duração cada. Os sinais de voz são originados de diferentes alto-falantes com 7 idiomas. Os sinais de ruído são gravações de ruídò "de tráfego,” ruido- de -pessoas- e diversas atmosferas naturais. *15 ' - - • Para uma _ determinada regra de ponderação espectral, duas . definições da saída da rede neural são apropriadas: A rede neural pode ser treinada utilizando os valores de referência para a SNR de sub-banda variável no tempo Ã(ÍW) ou com as ponderações espectrais G(íy) (derivadas dos valores de SNR) .
As simulações com SNR de sub-banda como valores de referência proporcionaram melhores resultados objetivos e melhores classificações na audição informal em comparação às redes que foram treinadas com ponderações espectrais. A rede neural é treinada utilizando 100 ciclos de iteração. Um algoritmo de 25 treinamento é utilizado neste trabalho, que é baseado em gradientes conjugados escalados. As configurações preferidas da operação de ponderação espectral 12 serão subsequentemente discutidos.
As estimativas de SNR de sub-banda estimada são linearmente interpoladas à resolução de frequência dos espectros de entrada e transformadas em razões lineares 7? . A SNR de sub- banda linear é suavizada ao longo do tempo e ao longo da frequência utilizando filtros de passa-baixa UR para reduzir os artefatos, que podem resultar de erros de estimativa. A filtragem em passa-baixa ao longo da frequência é ainda necessária para reduzir o efeito de convolução circular, o que ocorre se a resposta de impulso da ponderação espectral exceder a duração dos quadros DFT. É realizada duas vezes, ao passo que a segunda filtragem é realizada na ordem inversa (começando com a última amostra), de modo que o filtro resultante tenha zero fases. A Figura 5 ilustra o fator de ganho- como uma função da SNR. Os ganhos aplicados (linha continua) são comparados aos ganhos 'de Sujreição espectral- (linha pontilhada) _ e o_ filtro Wiener (linha tracejada) . -.■■■■- . . . .
As ponderações espectrais são computadas de acordo com a regra de subtração espectral modificada na Equação 5 e limitadas a -18 dB.
Figure img0003
Os parâmetros a =3.5 e β = 1 são determinados experimentalmente. Essa atenuação particular acima da SNR de 0 dB é escolhida para evitar distorções do sinal de voz à custa do ruido residual. A curva de atenuação como uma função da SNR é ilustrada na Figura 5. A Figura 9 mostra em exemplo para sinais de entrada e saida, a sub-banda SNR estimada e as ponderações espectrais.
Especificamente, a Figura 9 mostra um exemplo da espectral ponderação: Sinal de tempo de entrada, sub-banda SNR estimada, SNR estimada em bins de frequência após a interpolação, ponderações espectrais e sinal de tempo processado. A Figura 6 é uma visão geral das características preferidas a serem extraídas pelo extrator de características 14.
O extrator de características prefere, para cada baixa resolução, uma banda de frequência, ou seja, para cada uma das 25 bandas de frequência para as quais um SNR ou valor de ganho é exigido, uma característica representando o formato êspêctraT dá representação - espectral curta duração na banda de frequência. O formato espectral na banda - representa_a distribuição de energia_dentro da -- ---banda e pode ser. implementada por meio de várias diferentes regras de cálculo.
Uma característica preferida de formato espectral é a medida de nivelamento espectral (SFM), que é a média 20 geométrica dos valores espectrais dividida pela média aritmética dos valores espectrais. Na definição de média geométrica/média aritmética, uma potência pode ser aplicada a cada valor espectral na banda antes de realizar a operação da enésima raiz ou a operação de determinação da média. De modo geral, uma medida de nivelamento espectral também pode ser calculada quando uma potência para processamento de cada valor espectral na fórmula de cálculo da SFM no denominador for maior que potência utilizada para numerador. Então, tanto o denominador como o numerador podem incluir uma fórmula de cálculo do valor aritmético. Como exemplo, a potência no numerador é 2 e a potência no denominador é 1. De modo geral, a potência utilizada no numerador somente deve ser 5 maior que a potência utilizada no denominador para obter uma medida generalizada de nivelamento espectral.
Fica claro a partir deste cálculo que a SFM para uma banda na qual a energia é igualmente distribuída em toda a banda de frequência é menor que 1 e, para muitas linhas de 10 frequência, se aproxima de pequenos valores próximos a 0, enquanto que no caso em que a energia é concentrada em um único valor espectral dentro de uma banda, por exemplo, o valor da SFM é igual a 1. Assim, um alto- valor ‘da SFM 'indica 'uma- banda “na "qual" a~ energia é concentrada em uma determinada posição dentro da banda, 15 ao. passo que .um .pequeno, valor .da J3FM_ indica que a energia é ... igualmente distribuída dentro da banda.
Outra característica de formatos espectrais inclui a assimetria espectral, que mede a assimetria da distribuição em torno de seu centróide. Há outras características 20 que estão relacionadas com o formato espectral de uma curta representação de frequência de tempo dentro de uma determinada banda de frequência.
Embora o formato espectral seja calculado para uma banda de frequência, existem outras características que são 25 calculadas para uma banda de frequência, bem como indicadas na Figura 6 e conforme discutidas em detalhe abaixo. Existem também características adicionais que não necessariamente precisam ser calculadas para uma banda de frequência, mas que são calculadas para a largura de banda total.
Energia espectral
A energia espectral é computada para cada quadro de tempo e banda de frequência e normalizada pela energia total do quadro. Além disso, a energia espectral passa por um filtro passa- baixa no decorrer do tempo utilizando um filtro IIR de segunda ordem.
Fluxo espectral
O fluxo espectral SF é definido como a dissimilaridade entre espectros de quadros sucessivos 20 e é frequentemente implementado por meio de uma função de distância. Neste trabalho, o fluxo espectral é computado utilizando a distância Euclidiana de acordo com a Equação 6, com coeficientes espectrais X(m,k), indice de quadro de tempo m , indice de sub- banda r , limite inferior e superior cia banda "de frequência* lr e ur, respectivamente.
Figure img0004
Medida de nivelamento espectral
Existem várias definições para a computação do nivelamento de um vetor ou a tonalidade de um espectro (que está inversamente relacionado ao nivelamento de um espectro) . A medida de nivelamento espectral SFM aqui utilizada é computada como a proporção da média geométrica e da média aritmética dos coeficientes espectrais L do sinal de sub-banda conforme mostrado na Equação 7.
Figure img0005
Assimetria espectral A assimetria de uma distribuição mede sua assimetria em torno de seu centróide e é definida como o terceiro momento central de uma variável aleatória dividida pelo cubo de seu desvio padrão. Coeficientes de previsão linear
Os LPC são os coeficientes de um filtro de todos os pólos, que prevê o real valor x(k) de uma série de tempo a partir de valores precedentes, de modo que o erro ao quadrado E (x* — xk)2' se ja- minimizado.
Figure img0006
Os LPC são computados por meio do método de autocorrelação.
Coeficientes cepstrais de frequência mel Os espectros de potência são distorcidos de acordo com a escala mel utilizando funções de ponderação triangular com ponderação de unidade para cada banda de frequência. Os MFCC são computados considerando-se o logaritmo e computando a Transformada de Cosseno Discreto. Coeficientes de previsão linear de espectros perceptuais relativos Os coeficientes RASTA-PLP [H. Hermansky, N. Morgan, "RASTA Processing of Speech", IEEE Trans. On Speech and Audio Processing, vol. 2, no. 4, pp. 578-589, 1994] são computados a partir dos espectros de potência nas seguintes etapas: 1. Compressão de magnitude dos coeficientes espectrais 2. Filtragem de passagem de banda da energia de 5 sub-banda no decorrer do tempo 3. Expansão da magnitude que se relaciona ao processamento inverso da etapa 2 4. Multiplicação com ponderações que correspondem a uma curva de volume elevado igual. 10 5. Simulação da sensação de volume elevado aumentando-se os coeficientes para a potência de 0,33 6. Computação de um modelo de todos os pólos de espectro resultante por meio do método de autocorreíação Coeficientes de previsão linear perceptual (PLP) 15 .Os valores de PLP_ são .computados de forma semelhante aos RASTA-PLP, porém sem a aplicação das etapas 1-3 [H. Hermansky, "Perceptual Linear Predictive Analysis for Speech", J. Ac. Soc. Am., vol. 87, no. 4, pp. 1738 - 1752, 1990]. Características delta
As características delta foram aplicadas com sucesso no reconhecimento automático da voz e na classificação do conteúdo de áudio no passado. Existem várias formas de computá- las. Aqui, elas são computadas por meio da convolução da sequência de tempo de uma característica com uma inclinação linear tendo um comprimento de 9 amostras (a taxa de amostragem da série de tempo da característica é igual à taxa de quadro da STFT) . As características delta-delta são obtidas aplicando-se a operação delta às características delta.
Conforme indicado acima, é preferido ter uma separação de banda da banda de frequência de baixa resolução, que é similar à situação perceptual do sistema auditivo humano. Portanto, uma separação de banda logarítmica ou uma separação de 5 banda do tipo Bark é preferida. Isso significa que as bandas tendo uma central de baixa frequência são mais estreitas que as bandas tendo uma central de alta frequência. No cálculo da medida de nivelamento espectral, por exemplo, a operação de soma se estende de um valor q, que é normalmente o valor de menor frequência em 10 uma banda e se estende até o valor de contagem ur, que é o maior valor espectral dentro de uma banda predefinida. Para se ter uma melhor medida de nivelamento espectral, é preferido utilizar, em bandas menores, pelo menos alguns ou todos os valores espectrais da banda de frequência menor e/ou maior adjacente. Isso significa 15 que,, por exemplo, -a medida de nivelamento espectral para—a segunda banda, é calculada utilizando os valores espectrais da segunda banda e, além disso, utilizando os valores espectrais da primeira banda e/ou da terceira banda. Na configuração preferida, não somente os valores espectrais da primeira ou da segunda bandas são 20 utilizados, mas também os valores espectrais da primeira banda e da terceira banda são utilizados. Isso significa que, ao se calcular a SEM para a segunda banda, q na Equação (7) se estende desde lr igual ao primeiro valor espectral (mais baixo) da primeira banda e ur é igual ao maior valor espectral na terceira 25 banda. Assim, uma característica de formato espectral, que é baseada em um número maior de valores espectrais, pode ser calculada até uma certa largura de banda na qual o número de valores espectrais dentro da própria banda é suficiente de modo que lr e ur indiquem valores espectrais da mesma banda de frequência de baixa resolução.
Com relação aos coeficientes de previsão linear, que são extraidos pelo extrator de características, é preferido 5 utilizar tanto os LPC aj da Equação (8) como os valores residuais/erro remanescente após a otimização ou qualquer combinação dos coeficientes e dos valores de erro, por exemplo uma multiplicação ou uma adição com um fator de normalização de modo que os coeficientes, bem como os valores de erro ao quadrado, 10 influenciem a característica de LPC extraida pelo extrator de características.
Uma vantagem da característica de formato espectral é que está é uma característica de baixa dimensão. Quando, por exemplo, a largura de banda de frequência tendo 10 15 valores espectrais.-complexos ou reais é considerada, o uso de todos ..esses 10 valores espectrais complexos ou reais não seria útil e seria um desperdício de recursos de computação. Portanto, a característica de formato espectral é extraida, que possui uma dimensão que é menor que a dimensão dos dados brutos. Quando, por 20 exemplo, a energia for considerada, então os dados brutos terão uma dimensão de 10, uma vez que os 10 valores espectrais ao quadrado existem. Para extrair a característica de formato espectral, que pode ser utilizada com eficiência, uma característica de formato espectral é extraida, a qual possui uma 25 dimensão menor que a dimensão dos dados brutos e que, preferencialmente, está em 1 ou 2. Uma redução de dimensão similar em relação aos dados brutos pode ser obtida quando, por exemplo, é realizada uma adaptação polinomial de baixo nivel a um envelope espectral de uma banda de frequência. Quando, por exemplo, somente dois ou três parâmetros são adaptados, então a característica de formato espectral inclui esses dois ou três parâmetros de um sistema polinomial ou qualquer outro sistema de parametrização. De 5 modo geral, são úteis todos os parâmetros que indicam a distribuição de energia dentro de uma banda de frequência e que possuem uma baixa dimensão inferior a 5% ou pelo menos inferior a 50% ou somente inferior a 30% da dimensão de dados brutos.
Descobriu-se que somente o uso da característica de formato espectral já resulta em um comportamento vantajoso do equipamento para processamento de um sinal de áudio, porém este é preferido para utilizar pelo menos uma característica adicional na direção da banda. Também foi demonstrado que a característica adicional na direção da banda, útil na provisão de resultados aprimorados, é a energia espectral por banda - que é computada para — cada quadro de tempo e banda de frequência e normalizada pela energia total do quadro. Essa característica pode passar por filtro passa-baixa ou não. Além disso, descobriu-se que a adição da característica de fluxo espectral melhora vantajosamente o desempenho do equipamento da invenção, de modo que um procedimento eficiente que resulta em um bom desempenho seja obtido quando a característica de formato espectral por banda é utilizada além da característica de energia espectral por banda e da característica de fluxo espectral por banda. Além das características adicionais, este ganho melhora o desempenho do equipamento da invenção.
Conforme discutido com relação â característica de energia espectral, a filtragem passa-baixa dessa característica no tempo ou a aplicação de uma normalização média móvel no tempo pode ser aplicada, porém não precisa ser necessariamente aplicada. No último caso, é calculada, por exemplo, uma média das cinco características de formatos espectrais anteriores para a banda correspondente e o resultado desse cálculo é utilizado como a 5 característica de formato espectral para a banda atual no quadro atual. Essa determinação de média, no entanto, também pode ser aplicada de forma bidirecional, de modo que, para a operação de determinação da média, não somente as características do passado, mas também as características do "futuro" são utilizadas para 10 calcular a atual característica. As Figuras 7 e 8 serão subsequentemente discutidas para prover a implementação preferida do extrator de "“características 1’4 conforme ilustrado na Figura 1, na Figura 2 ou na Figura 4. Nessa primeira etapa, um sinal de áudio é janelado 15 para prover um bloco de_valores„de amostragem de áudio-conforme indicado na etapa 70. Preferencialmente, . uma sobreposição é aplicada. Isso significa que uma e a mesma amostra de áudio ocorre em dois quadros sucessivos devido à faixa de sobreposição, onde uma sobreposição de 50% em relação aos valores de amostragem de 20 áudio é preferida. Na etapa 71, uma conversão de tempo/frequência de um bloco de valores de amostragem de áudio janelados é realizada para se obter uma representação de frequência com uma primeira resolução, que é uma alta resolução. Para tanto, é obtida uma transformada de Fourier de curta duração (STFT) implementada 25 com um FFT eficiente. Quando a etapa 71 é aplicada várias vezes com blocos de valores de amostragem de áudio temporalmente sucessivos, um espectrograma é obtido como conhecido na técnica.
Na etapa 72, as informações espectrais de alta resolução, ou seja os valores espectrais alta resolução são agrupados em bandas de frequência de baixa resolução. Quando, por exemplo, um FFT com 1024 ou 2048 valores de entrada é aplicado, existem 1024 ou 2048 valores espectrais, porém essa alta resolução não é necessária nem 5 desejada. Em vez disso, a etapa de agrupamento 72 resulta em uma divisão do espectro de alta resolução em um pequeno número de bandas, por exemplo, bandas tendo uma largura de banda variável como é conhecido, por exemplo, a partir das bandas Bark ou de uma divisão de banda logaritmica. Então, após a etapa de agrupamento 10 72, um cálculo 73 da característica de formato espectral e, preferencialmente, de outras características, é realizado para cada uma das bandas de baixa resolução. Embora não indicado na — Figura—7, --característióãs adicionais- relacionadas a toda a banda de frequência podem ser calculadas utilizando-se os dados obtidos 15 na etapa 70, uma vez que, para essas.características de largura de - banda total, quaisquer separações espectrais obtidas pela etapa 71 ou pela etapa 72 não são necessárias.
A etapa 73 resulta em características de formatos espectrais, que possuem m dimensões, onde m é menor que n e, 20 preferencialmente, é 1 ou 2 por banda de frequência. Isso significa que as informações para uma banda de frequência presentes após a etapa 72 são comprimidas em uma informação de baixa dimensão após a etapa 73 pela operação do extrator de características.
Conforme indicado na Figura 7 próxima da etapa 71 e da etapa 72, a etapa de conversão e agrupamento de de tempo/frequência pode ser substituída por diferentes operações. A salda da etapa 70 pode ser filtrada com um banco de filtro de baixa resolução que, por exemplo, é implementado de modo que, na saida, 25 sinais de sub-banda sejam obtidos. A análise de alta resolução de cada sub-banda pode ser então realizada para se obter os dados brutos para o cálculo da característica de formato 5 espectral. Isto pode ser feito, por exemplo, por uma análise FFT de um sinal de sub-banda ou por qualquer outra análise de um sinal de sub-banda, por exemplo, por outros bancos de filtro em cascata. A Figura 8 ilustra o procedimento preferido para implementação do filtro controlável 12 da Figura 1 ou da 10 característica de ponderação espectral ilustrada na Figura 3 ou indicado como numeral 12 na Figura 4. Após a etapa de determinação das informações de controle na direção da banda de baixa -resolução, assim" como os valores SNR de sub-banda, que são emitidas pelo bloco de regressão de rede neural 15 da Figura 4, 15 conforme indicado na etapa 80, _é realizada -uma - interpolação linear para a alta resolução na etapa 81.
Por fim, é o objetivo obter um fator de ponderação para cada valor espectral obtido pela transformada de Fourier de curta duração realizada na etapa 30 da Figura 3 ou 20 realizada na etapa 71 ou o procedimento alternativo indicado à direita das etapas 71 e 72. Após a etapa 81, um valor SNR para cada valor espectral é obtido. No entanto, esse valor SNR ainda está no dominio logarítmico e a etapa 82 provê uma transformação do dominio logarítmico em um dominio linear para cada valor 25 espectral de alta resolução.
Na etapa 83, os valores SNR lineares para cada valor espectral, ou seja, na alta resolução, são suavizados no tempo e frequência, por exemplo, utilizando filtros passa-baixa HR ou, alternativamente, filtros passa-baixa FIR, ou seja, quaisquer operações de média móvel podem ser aplicadas. Na etapa 84, as ponderações espectrais para cada um dos valores de frequência de alta resolução são calculadas com base nos valores SNR lineares suavizados. Este cálculo se baseia na função indicada na Figura 5, embora a função indicada nesta Figura seja mostrada em termos logarítmicos, enquanto que as ponderações espectrais para cada valor de frequência de alta resolução na etapa 84 são calculadas no dominio linear.
Na etapa 85, cada valor espectral é então multiplicado pela ponderação espectral determinada para obter um conjunto de valores espectrais de alta resolução, que foram multiplicados pelo conjunto de ponderações espectrais. Esse espectro processado é submetido à conversão de frequência-tempo na etapa 86. Dependendo do cenário, de aplicação e- dependendo da sobreposição utilizada na etapa 80, uma operação de cross-fading pode ser realizada entre dois blocos de valores de amostragem de áudio de dominio de tempo obtidos por duas etapas subsequentes de conversão de frequência-tempo para direcionar artefatos de bloqueio. Um janelamento adicional pode ser aplicado para reduzir os artefatos de convolução circular.
O resultado da etapa 86 é um bloco de valores de amostragem de áudio que tem um desempenho de voz aprimorado, ou seja, a voz pode ser percebida melhor que comparada ao sinal de áudio de entrada correspondente onde a intensificação de voz não foi realizada.
Dependendo de certas exigências de implementação dos métodos da invenção, os métodos da invenção podem ser implementados em hardware ou em software. A implementação pode ser realizada utilizando um meio de armazenamento digital, em particular, um disco, DVD ou CD tendo sinais de controle eletronicamente legiveis nele armazenados, que cooperam com os sistemas de computador programável, de modo que os métodos da invenção sejam realizados. De modo geral, a presente invenção é, portanto, um programa de computador com um código de programa armazenado em um veiculo legivel por equipamento, sendo o código do programa operado para realizar os métodos da invenção quando o programa de computador é executado em um computador. Em outras palavras, portanto, os métodos de invenção são programa de «computador-tendo um códigd de programa"para realizar pelo menos um dos métodos da invenção quando o programa de computador é executado em um computador. _ _ _ ------ - — - - - ■
As configurações descritas são meramente ilustrativas dos princípios da presente invenção. Deve ficar entendido que modificações e variações dos arranjos e os detalhes aqui descritos ficarão evidentes aos técnicos no assunto. Portanto, o objetivo é limitar-se somente ao escopo das seguintes reivindicações da patente e não aos detalhes específicos aqui apresentados pela descrição e explicação das configurações.

Claims (14)

1. “EQUIPAMENTO PARA PROCESSAMENTO DE UM SINAL DE ÁUDIO, para obter um controle de informação por sub-banda para um filtro de intensificação de voz, onde o equipamento é caracterizado por compreender: um extrator de características para obtenção de uma sequência de tempo de representações espectrais de curta duração do sinal de áudio e para extração de pelo menos uma característica no qual a banda de frequência de diversas bandas de frequência para diversas representações espectrais de curta duração, ou pelo menos uma característica representando um formato espectral de uma representação espectral de curta duração em uma banda de frequência das diversas bandas de frequência; onde o extrator de características é operacional para adicionalmente extrair características de LPC, os características de LPC incluindo um sinal de erro de LPC, coeficientes de previsão linear até uma ordem predefinida ou uma combinação dos sinais de erro de LPC e dos coeficientes de previsão linear, ou onde o extrator de características é operacional para adicionalmente extrair coeficientes PLP ou coeficientes RASTA-PLP ou coeficientes cepstrais de frequência mel ou características delta, e um combinador de característica para combinar uma característica, ou uma segunda característica, ou uma terceira característica, utilizando parâmetros de combinação para obter as informações de controle para o filtro de intensificação da voz para uma porção de tempo do sinal de áudio; onde o combinador de característica é operacional para combinar uma primeira u para cada banda de frequência que representa uma forma espectral, o pelo menos uma segunda características adicional por banda de frequência e pelo menos uma terceira características adicional para a largura de banda total usando os parâmetros de combinação.
2. Equipamento, de acordo com a reivindicação 1, caracterizado pelo fato de que o extrator de características é operacional para aplicar uma operação de conversão de frequência, onde, para uma sequência de instantes de tempo, uma sequência de representações espectrais é obtida, as representações espectrais tendo bandas de frequência com larguras de banda não-uniformes, uma largura de banda se torna maior com um crescente frequência central de uma banda de frequência.
3. Equipamento, de acordo com a reivindicação 1, caracterizado pelo fato de que o extrator de características é operacional para calcular, como a primeira característica, uma medida de nivelamento espectral por banda representando uma distribuição de energia dentro da banda, ou como uma segunda característica, uma medida de uma energia normalizada por banda, sendo a normalização baseada na energia total de um quadro de sinal, da qual a representação espectral é derivada, e onde o combinador de característica é operacional para utilizar a medida de nivelamento espectral para uma banda ou a energia normalizada por banda.
4. Equipamento, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que o extrator da segunda característica é operacional para adicionalmente extrair, para cada banda, uma medida de fluxo espectral representando uma similaridade ou uma dissimilaridade entre representações espectrais sucessivas no tempo ou uma medida de assimetria espectral, a medida de assimetria espectral representando uma assimetria em torno de um centróide.
5. Equipamento, de acordo com a reivindicação 1, caracterizado pelo fato de que o extrator de características é operacional para calcular as características de coeficiente de previsão linear para um bloco de amostras de áudio de domínio de tempo, o bloco incluindo amostras de áudio utilizadas para a extração do pelo menos uma característica representando o formato espectral para cada banda de frequência.
6. Equipamento, de acordo com a reivindicação 1, caracterizado pelo fato de que o extrator de características é operacional para calcular o formato do espectro em uma banda de frequência utilizando informações espectrais de uma ou duas bandas de frequência imediatamente adjacentes e as informações espectrais somente da banda de frequência.
7. Equipamento, de acordo com a reivindicação 1, caracterizado pelo fato de que o extrator de características é operacional para extrair informações não processadas de característica para cada característica por bloco de amostras de áudio e para combinar a sequência de informações não processadas de característica em uma banda de frequência para obter o pelo menos uma característica para a banda de frequência.
8. Equipamento, de acordo com a reivindicação 1, caracterizado pelo fato de que o extrator de características é operacional para calcular, para cada banda de frequência, um número de valores espectrais e para combinar o número de valores espectrais para obter o pelo menos uma característica representando o formato espectral, de modo que o pelo menos uma característica tenha uma dimensão que é menor que o número de valores espectrais na banda de frequência.
9. Método de processamento de um sinal de áudio para obter informações de controle por sub-banda para um filtro de intensificação da voz, que compreende: obtenção de uma sequência de tempo de representações espectrais de curta duração do sinal de áudio; extração de pelo menos uma característica em cada banda de frequência de diversas bandas de frequência para diversas representações espectrais de curta duração, o pelo menos uma característica representando um formato espectral de uma representação espectral de curta duração em uma banda de frequência das diversas bandas de frequência; e combinação do pelo menos uma característica para cada banda de frequência utilizando parâmetros de combinação para obter as informações de controle para o filtro de intensificação da voz para uma porção de tempo do sinal de áudio. Caracterizado por os segundos recursos adicionais que representam uma característica de uma representação espectral de curto tempo por banda de frequência ser pelo menos um de uma energia espectral, um fluxo espectral entre quadros sucessivos e recursos delta ou delta-delta são extraídos e em que terceiros recursos adicionais para o total largura de banda sendo pelo menos um dos recursos LPC, os recursos LPC incluem um sinal de erro LPC, coeficientes de predição linear até uma ordem predefinida ou uma combinação dos sinais de erro LPC e coeficientes de predição linear, coeficientes PLP, coeficientes RASTA-RLP, ceptstral de frequência mel coeficientes e características delta são extraídos; combinação de pelo menos um primeiro recurso, o pelo menos um segundo recurso e o pelo menos um terceiro recurso usando parâmetros de combinação para obter as informações de controle para o filtro de realce de voz para uma porção de tempo do sinal de áudio, em que pelo menos um primeiro recurso para cada banda de frequência que representa uma forma espectral, o pelo menos um segundo recurso adicional por banda de frequência e o pelo menos um terceiro recurso adicional para a largura de banda total são combinados para cada banda de frequência usando os parâmetros de combinação.
10. Equipamento para intensificação da voz em um sinal de áudio, caracterizado por compreender: um equipamento para processamento do sinal de áudio de acordo com a reivindicação 1 para obtenção de informações de controle de filtro para diversas bandas representando uma porção de tempo do sinal de áudio; e um filtro controlável, o filtro sendo controlável de modo que a banda do sinal de áudio seja variavelmente atenuada em relação a uma diferente banda com base nas informações de controle.
11. Equipamento, de acordo com a reivindicação 10, caracterizado pelo fato de que o equipamento para processamento inclui o conversor de frequência de tempo que provê informações espectrais tendo uma maior resolução que uma resolução espectral, à qual as informações de controle são providas; e onde o equipamento compreende ainda um pós- processador de informações de controle para interpolar as informações de controle à alta resolução e para suavizar as informações de controle interpoladas para obter uma informação de controle pós-processada com base na qual são definidos os parâmetros de filtro controlável do filtro controlável.
12. Método de intensificação da voz em um sinal de áudio, caracterizado por compreender: processamento do sinal de áudio de acordo com a reivindicação 9 para obtenção de informações de controle de filtro para diversas bandas representando uma porção de tempo do sinal de áudio; e controle de um filtro, de modo que a banda do sinal de áudio seja variavelmente atenuada em relação a uma diferente banda com base nas informações de controle.
13. Equipamento para treinamento de um combinador de característica para determinação de parâmetros de combinação do combinador de característica, que compreende: um extrator de características para obtenção de uma sequência de tempo de representações espectrais de curta duração de um sinal de áudio de treinamento, para o qual uma informação de controle para um filtro de intensificação da voz por banda de frequência é conhecida, e para extração de pelo menos uma característica em cada banda de frequência das diversas bandas de frequência para diversas representações espectrais de curta duração, o pelo menos uma característica representando um formato espectral de uma representação espectral de curta duração em uma banda de frequência das diversas bandas de frequência; e caracterizado por o extrator de características ser operativo para extrair segundas características adicionais que representam uma característica de uma representação espectral de curto tempo por banda de frequência sendo pelo menos uma de uma energia espectral, um fluxo espectral entre quadros sucessivos e características delta ou delta-delta, e em que o extrator de recursos é operativo para extrair adicionalmente terceiros recursos para a largura de banda total sendo pelo menos um dos recursos LPC, os recursos LPC incluindo um sinal de erro LPC, coeficientes de predição linear até uma ordem predefinida ou uma combinação dos sinais de erro LPC e coeficientes de predição linear , Coeficientes PLP, coeficientes RASTA-PLP, coeficientes cepstrais de frequência de mel e características delta; e um controlador de otimização para alimentar o combinador de recursos com o pelo menos um primeiro recurso, o pelo menos um segundo recurso e o pelo menos um terceiro recurso para cada banda de frequência, para calcular a informação de controle usando parâmetros de combinação intermediários, para variar o intermediário parâmetros de combinação, para comparar as informações de controle variadas com as informações de controle conhecidas, e para atualizar os parâmetros de combinação intermediários, quando os parâmetros de combinação intermediários variados resultam em informações de controle que combinam melhor com as informações de controle conhecidas, em que o combinador de recursos é operativo para combinar o pelo menos um recurso para cada banda de frequência que representa uma forma espectral, o pelo menos um segundo recurso adicional por banda de frequência e o pelo menos um terceiro recurso adicional para a largura de banda total usando os parâmetros de combinação.
14. Método de treinamento de um combinador de característica para determinação de parâmetros de combinação do combinador de característica, que compreende: obtenção de uma sequência de tempo de representações espectrais de curta duração de um sinal de áudio de treinamento, para o qual a informação de controle para um filtro de intensificação da voz por banda de frequência é conhecida; extração de pelo menos uma característica em cada banda de frequência das diversas bandas de frequência para diversas representações espectrais de curta duração, o pelo menos uma característica representando um formato espectral de uma representação espectral de curta duração em uma banda de frequência das diversas bandas de frequência; alimentação do combinador de característica com o pelo menos uma característica para cada banda de frequência; cálculo das informações de controle utilizando parâmetros intermediários de combinação; variação dos parâmetros intermediários de combinação; comparação das informações de controle variadas com as informações de controle conhecidas; atualização dos parâmetros intermediários de combinação, quando os parâmetros intermediários de combinação variados resultam em informações de controle que melhor correspondem às informações de controle conhecidas, caracterizado por o combinador de recursos ser operacional para combinar pelo menos um primeiro recurso para cada banda de frequência que representa uma forma espectral, o pelo menos um segundo recurso adicional por banda de frequência e pelo menos um terceiro recurso adicional para a largura de banda total usando os parâmetros de combinação.
BRPI0911932-9A 2008-08-05 2009-08-03 Equipamento e método para processamento de um sinal de áudio para intensificação de voz utilizando uma extração de característica BRPI0911932B1 (pt)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US8636108P 2008-08-05 2008-08-05
US61/086,361 2008-08-05
US10082608P 2008-09-29 2008-09-29
US61/100,826 2008-09-29
EP08017124.2A EP2151822B8 (en) 2008-08-05 2008-09-29 Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
EP08017124.2 2008-09-29
PCT/EP2009/005607 WO2010015371A1 (en) 2008-08-05 2009-08-03 Apparatus and method for processing an audio signal for speech enhancement using a feature extraction

Publications (2)

Publication Number Publication Date
BRPI0911932A2 BRPI0911932A2 (pt) 2020-07-07
BRPI0911932B1 true BRPI0911932B1 (pt) 2021-05-04

Family

ID=71451508

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0911932-9A BRPI0911932B1 (pt) 2008-08-05 2009-08-03 Equipamento e método para processamento de um sinal de áudio para intensificação de voz utilizando uma extração de característica

Country Status (1)

Country Link
BR (1) BRPI0911932B1 (pt)

Also Published As

Publication number Publication date
BRPI0911932A2 (pt) 2020-07-07

Similar Documents

Publication Publication Date Title
CA2732723C (en) Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
KR101461774B1 (ko) 대역폭 확장기
RU2329550C2 (ru) Способ и устройство для улучшения речевого сигнала в присутствии фонового шума
US10636433B2 (en) Speech processing system for enhancing speech to be outputted in a noisy environment
WO2005124739A1 (ja) 雑音抑圧装置および雑音抑圧方法
US20140019125A1 (en) Low band bandwidth extended
Jain et al. Marginal energy density over the low frequency range as a feature for voiced/non-voiced detection in noisy speech signals
US11183172B2 (en) Detection of fricatives in speech signals
GB2536727B (en) A speech processing device
BRPI0911932B1 (pt) Equipamento e método para processamento de um sinal de áudio para intensificação de voz utilizando uma extração de característica
JP7152112B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
EP2760022B1 (en) Audio bandwidth dependent noise suppression
WO2022034139A1 (en) Automatic detection and attenuation of speech-articulation noise events

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B06A Notification to applicant to reply to the report for non-patentability or inadequacy of the application [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 04/05/2021, OBSERVADAS AS CONDICOES LEGAIS.