BRPI1001241B1 - Equipamento e método para a determinação de diversos centros degravidade local das frequências de um espectro de um sinal de áudio - Google Patents

Equipamento e método para a determinação de diversos centros degravidade local das frequências de um espectro de um sinal de áudio Download PDF

Info

Publication number
BRPI1001241B1
BRPI1001241B1 BRPI1001241-9A BRPI1001241A BRPI1001241B1 BR PI1001241 B1 BRPI1001241 B1 BR PI1001241B1 BR PI1001241 A BRPI1001241 A BR PI1001241A BR PI1001241 B1 BRPI1001241 B1 BR PI1001241B1
Authority
BR
Brazil
Prior art keywords
iteration
frequency
frequencies
spectrum
audio signal
Prior art date
Application number
BRPI1001241-9A
Other languages
English (en)
Inventor
Disch Sascha
Popp Harald
Original Assignee
Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunge.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunge.V. filed Critical Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunge.V.
Publication of BRPI1001241A2 publication Critical patent/BRPI1001241A2/pt
Publication of BRPI1001241B1 publication Critical patent/BRPI1001241B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Auxiliary Devices For Music (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Stereophonic System (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Transmitters (AREA)

Abstract

equipamento e método para a determinação de diversas frequências de centro de gravidade local de um espectro de um sinal de áudio. um equipamento para a determinação de diversas frequências de centro de gravidade local de um espectro de um sinal de áudio compreende um determinador de compensação, um determinador de frequência e um controlador de iteração. o determinador de compensação determina uma frequência de compensação para cada frequência de início de iteração das diversas frequências de início de iteração com base no espectro do sinal de áudio, onde diversos valores discretos de amostra do espectro são maiores que diversas frequências de início de iteração. o determinador de frequência determina diversas novas frequências de início de iteração por meio do aumento ou redução de cada frequência de início de iteração das diversas frequências de início de iteração pela frequência de compensação determinada correspondente. o controlador de iteração provê as novas diversas frequências de início de iteração ao determinador de compensação para iteração adicional ou provê as diversas frequências de centro de gravidade local, caso uma condição de término predefinida seja atendida. as diversas frequências de centro de gravidade local podem ser utilizadas como base para a geração de diversas novas frequências de início de iteração.

Description

DESCRIÇÃO
As configurações de acordo com a invenção referem-se a sistemas de processamento de sinal de áudio e, mais particularmente, a um equipamento e um método para a determinação de diversos centros de gravidade local de um espectro de um sinal de áudio.
Há uma demanda crescente por técnicas de processamento de sinal digital que abordem a necessidade de manipulações de sinal extremo para acomodar os sinais de áudio pré-registrados, por exemplo, retirados de uma base de dados, em um novo contexto musical. Para tanto, propriedades de sinal semântico de alto nível como a nota, chave musical e modo de escala precisam ser adaptados. Todas essas manipulações têm em comum o fato de objetivar a alteração substancial das propriedades musicais do material de áudio original enquanto preservam a qualidade do som subjetivo da melhor forma possível. Em outras palavras, essas edições alteram fortemente o conteúdo musical do material de áudio mas, no entanto, precisam preservar a naturalidade da amostra de áudio processada e, assim, manter a credibilidade. Isso idealmente requer métodos de processamento de sinal que são amplamente aplicáveis a diferentes classes de sinais, incluindo conteúdo musical polifônico misto.
Portanto, um método de análise, manipulação e síntese de sinais de áudio com base em componentes de modulação de múltiplas bandas foi recentemente proposto (vide “S. Disch and B.
Edler, “An amplitude- and frequency modulation vocoder for audio signal processing.” Proc. of the Int. Conf. on Digital Audio Effects (DAFx). 2008”, “S. Disch and B. Edler, “Multiband perceptual modulation analysis, processing and synthesis of audio singnals,” Proc. of the IEEE-ICASSP, 2009”). A idéia fundamental dessa abordagem é decompor as misturas polifônicas em componentes que sejam percebidos como entidades sônicas de qualquer forma e ainda manipular todos os elementos de sinal que estejam contidos em um componente de forma conjunta. Além disso, foi introduzido um método de síntese que proporciona um sinal de saída suave e perceptivelmente agradável ainda que - dependendo do tipo de manipulação aplicada - drasticamente modificado. Se nenhuma manipulação for aplicada aos componentes, o método demonstrou prover uma qualidade de áudio subjetivo transparente ou quase transparente (vide “S. Disch and B. Edler, “An amplitude- and frequency modulation vocoder for audio signal processing,” Proc. of the Int. Conf. on Digital Audio Effects (DAFx), 2008”) para muitos sinais de teste.
Uma etapa importante para um bloco com base na manipulação de música polifônica, ou seja, a decomposição de modulação de múltiplas bandas, é o cálculo de centros de gravidade (COG) locais (vide “J. Anantharaman, A. Krishnamurthy, and L. Feth, “Intensity-weighted average of instantaneous frequency as a model for frequency discrimination.,” J. Acoust. Soc. Am., vol. 94, pp. 723-729, 1993”, “Q. Xu, L. L. Feth, J. N. Anantharaman, and A. K. Krishnamurthy, “Bandwidth of spectral resolution for the ‘c-o-g’ effect in vowel-like complex sounds,” Acoustical Society of America Journal, vol. 101, pp. 3149-+, May 1997”) em sucessivos 3/50 espectros no decorrer do tempo. Esse documento mostra um algoritmo iterativo que pode ser utilizado para determinar uma decomposição espectral adaptativa de sinal que está alinhada com o COG local do sinal.
A abordagem do COG pode ser sugestiva do clássico método de reatribuição de frequência de tempo (reatribuição t-f). Para uma visão geral dessa técnica, o leitor deve consultar (vide “A. Fulop and K. Fitz, “Algorithms for computing the time corrected instantaneous frequency (reassigned) spectrogram, applications”, Journal of the Acoustical Society of America, vol. 119, pp. 360-371, 2006”). Basicamente, a reatribuição t-f altera a grade regular de tempo-frequência de uma Transformada Rápida de Fourier (STFT) convencional para um espectrograma de frequência instantânea corrigido pelo tempo, revelando assim os acúmulos temporais e espectrais de potência que são mais bem localizados do que implicado pelo compromisso de resolução de t-f inerente no espectrograma de STFT. Geralmente, a reatribuição é utilizada como um front-end intensificado para o subsequente rastreamento parcial (vide “K. Fitz and L. Haken, “On the use of time-frequency reassignment in additive sound modeling”, Journal of the Audio Engineering Society, vol. 50(11), pp. 879—893, 2002”).
Outras publicações relacionadas têm como objetivo o cálculo de múltiplas frequências fundamentais (vide “A Klapuri, Signal Processing Methods For the Automatic Transcription of Music, Ph.D. thesis, Tampere University of Technology, 2004”, “Chunghsin Yeh, Multiple fundamental frequency estimation of polyphonic recordings, Ph.D. thesis, École doctorale edité, Université de Paris, 2008”) pelo agrupamento de picos espectrais 4/50 que exibem determinadas relações harmônicas em fontes separadas. No entanto, para música complexa composta de muitas fontes (por exemplo, a música de orquestra), essa abordagem não tem chance razoável.
Em algumas aplicações, os vocoders são utilizados para a manipulação de sinal. Uma classe de vocoders são os vocoders de fase. Um tutorial sobre vocoders de fase é a publicação “The Phase Vocoder: A tutorial”, Mark Dolson, Computer Music Journal, Volume 10, No. 4, pages 14 to 27, 1986”. Outra publicação é “New phase vocoder techniques for pitch-shifting, harmonizing and other exotic effects”, L. Laroche and M. Dolson, proceedings 1999, IEEE workshop on applications of signal processing to audio and acoustics, New Paltz, New York, October 17 to 20, 1999, pages 91 to 94”. As Figuras 17 e 18 ilustram diferentes implementações e aplicações de um vocoder de fase. A Figura 17 ilustra uma implementação de banco de filtro de um vocoder de fase 1700, no qual um sinal de áudio é provido em uma entrada 500, e onde, em uma saída 510, um sinal de áudio sintetizado é obtido. Especificamente, cada canal do banco de filtro ilustrado na Figura 17 compreende um filtro de passagem de banda 501 e um oscilador 502 subsequentemente conectado. Sinais de saída de todos os osciladores 502 de todos os canais são combinados por meio de um combinador 503, que é ilustrado como um somador. Na saída do combinador 503, o sinal de saída 510 é obtido.
Cada filtro 501 é implementado para prover, por um lado, um sinal de amplitude A(t) e, por outro lado, o sinal de frequência f(t). O sinal de amplitude e o sinal de frequência são sinais de tempo. O sinal de amplitude ilustra um desenvolvimento da amplitude dentro de uma banda de filtro no decorrer do tempo e o sinal de frequência ilustra o desenvolvimento da frequência de um sinal de saída de filtro no decorrer do tempo.
A implementação esquemática de um filtro 501 é ilustrada na Figura 18. O sinal de entrada é roteado para dois caminhos paralelos. Em um caminho, o sinal é multiplicado por uma onda de seno com uma amplitude de 1,0 e uma frequência igual à frequência central do filtro de passagem de banda conforme ilustrado em 551. No outro caminho, o sinal é multiplicado por uma onda de co-seno da mesma amplitude e frequência conforme ilustrado em 551. Assim, os dois caminhos paralelos são idênticos, exceto pela fase da forma de onda de multiplicação. Então, em cada caminho, o resultado da multiplicação é alimentado em um filtro de baixa passagem 553. A operação de multiplicação propriamente dita também é conhecida como uma modulação de anel simples. A multiplicação de qualquer sinal por uma onda de seno (ou de co- seno) da frequência constante tem o efeito de alterar simultaneamente todos os componentes de frequência no sinal original tanto para mais como para menos a frequência da onda de seno. Se esse resultado for agora passado por um filtro de baixa passagem apropriado, somente a porção de baixa frequência permanecerá. Essa sequência de operações também é conhecida como heterodinação. Essa heterodinação é realizada em cada um dos dois caminhos paralelos, porém uma vez que um caminho realiza heterodinação com uma onda de seno, enquanto o outro caminho utiliza uma onda de co-seno, os sinais heterodinados resultantes nos dois caminhos estão fora da fase em 90°. O filtro de baixa passagem superior 553, portanto, provê um sinal quadrático 554 e o filtro inferior 553 provê um sinal em fase. Esses dois sinais, que também são conhecidos como sinais I e Q, são encaminhados para um transformador de coordenada 556 que gera uma representação de magnitude/fase a partir da representação retangular.
O sinal de amplitude sai em 557 e corresponde a A(t) da Figura 17. O sinal de fase entra em um desenrolador de fase 558. Na saída do elemento 558, não existe um valor de fase entre 0 e 360°, mas sim um valor de fase que aumenta de forma linear. Esse valor de fase “desenrolado” entra em um conversor de fase/frequência 559 que pode, por exemplo, ser implementado como um dispositivo de diferença de fase que subtrai uma fase em um instante de tempo precedente da fase em uma instante de tempo atual para obter o valor de frequência para o instante de tempo atual.
Esse valor de frequência é somado a um valor constante de frequência fi do canal de filtro i, para obter um valor de frequência variável no tempo em uma saída 560.
O valor de frequência na saída 560 tem uma porção DC Fi e uma porção de alteração que também é conhecida como a “oscilação de frequência”, por meio da qual uma frequência atual do sinal no canal de filtro desvia da frequência média Fi.
Assim, o vocoder de fase conforme ilustrado na Figura 5 e na Figura 6 provê uma separação de informações espectrais e de informações de tempo. As informações espectrais são compreendidas no banco de canal de filtro específico e na frequência fi, e as informações de tempo estão na oscilação de frequência e na magnitude no decorrer do tempo.
Outra descrição do vocoder de fase é a interpretação da transformada de Fourier. Consiste em uma sucessão de transformadas de Fourier de sobreposição feita em intervalos de tempo de duração finita. Na interpretação da transformada de Fourier, a atenção é concentrada na magnitude e nos valores de fase de todas as diferentes bandas de filtro ou compartimentos de frequência em um único ponto no tempo. Enquanto que na interpretação do banco de filtro a re-síntese pode ser observada como um exemplo clássico de síntese aditiva com controles de amplitude e frequência variáveis no tempo para cada oscilador, a síntese, na implementação de Fourier, é realizada pela retro- conversão para a forma real e imaginária e adição de sobreposição das transformadas de Fourier inversas sucessivas. Na interpretação de Fourier, o número de bandas de filtro no vocoder de fase é o número de pontos na transformada de Fourier. Similarmente, o espaçamento igual na frequência dos filtros individuais pode ser reconhecido como a característica fundamental da transformada de Fourier. Por outro lado, o formato das bandas de passagem de filtro, ou seja, a inclinação do corte nas bordas da banda é determinada pelo formato da função de intervalo que é aplicada antes do cálculo da transformada. Para um formato de característica particular, por exemplo, intervalo de Hamming, a inclinação do corte do filtro aumenta de forma proporcionalmente direta à duração do intervalo.
É útil observar que as duas diferentes interpretações da análise do vocoder de fase se aplicam somente à implementação do banco de filtros de passagem de banda. A operação por meio da qual as saídas desses filtros são expressas como 8/50 amplitudes e frequências variáveis no tempo é a mesma para ambas as implementações. O objetivo básico do vocoder de fase é separar as informações temporais das informações espectrais. A estratégia de operação é dividir o sinal em diversas bandas espectrais e caracterizar o sinal variável no tempo em cada banda.
Duas operações básicas são particularmente significativas. Essas operações são a escalação de tempo e a transposição de nota. É sempre possível reduzir a velocidade de um som registrado simplesmente o reproduzindo novamente (playback) a uma velocidade de amostra menor. Essa ação é análoga à reprodução de uma gravação em fita a uma menor velocidade de playback. Porém, esse tipo de expansão simplista do tempo abaixa simultaneamente a nota ao mesmo fator que a expansão do tempo. Reduzir a evolução temporal de um som sem alterar sua nota requer uma separação explícita das informações temporais e espectrais. Conforme acima observado, é exatamente isso que o vocoder de fase tenta fazer. Ampliar os sinais de amplitude e frequência variáveis no tempo A(t) e f(t) na Figura 5a não alterar a frequência dos osciladores individuais, porém reduz a evolução temporal do som composto. O resultado é um som expandido em termos de tempo com a nota original. A visão de escalação de tempo da transformada de Fourier é tal que, para expandir o tempo de um som, as FFTs inversas podem simplesmente ser espaçadas ainda mais que as FFTs de análise. Como resultado, as alterações espectrais ocorrem mais lentamente no som sintetizado do que no original nesta aplicação, e a fase é novamente escalada precisamente ao mesmo fator pelo qual o som está sendo expandido no tempo.
A outra aplicação é a transposição de nota. Uma vez que o vocoder de fase pode ser utilizado para alterar a evolução temporal de um som sem alterar sua nota, deve ser também possível fazer o contrário, ou seja, alterar a nota sem alterar a duração. Isso é feito por escala de tempo utilizando o fator de alteração de nota desejado e então reproduzindo novamente os sons resultantes em uma velocidade de amostra modificada ao mesmo fator. Por exemplo, para elevar a nota em uma oitava, o som é primeiramente expandido no tempo a um fator de 2 e a expansão de tempo é então reproduzida a uma velocidade de amostra de duas vezes a original...
Uma aplicação de vocoders para processamento de sinais de áudio é mostrada, por exemplo, em “Sascha Disch, Bernd Edler: “An Amplitude- and Frequency-Modulation Vocoder for Audio Signal Processing”, Proceedings of the 11th International Conference on Digital Audio Effects (DAFx-08), Espoo, Finland, September 1-4, 2008”. Neste documento, os candidatos a centro de gravidade local são calculados pela busca de transições positivas para negativas em uma função de posição de centro de gravidade. Para tanto, a função de posição do centro de gravidade é calculada para cada valor do espectro (por exemplo, para cada valor de amplitude espectral ou para cada valor de densidade de potência) para cada bloco de tempo do sinal de áudio. Nesse contexto, os tamanhos de bloco de N=214 valores em frequência de amostra de 48 kHz são mencionados. Portanto, os esforços computacionais para calcular os candidatos a centro de gravidade local são muito altos.
Além disso, um procedimento pós-seleção é necessário para garantir que posições calculadas finais do centro de gravidade sejam aproximadamente equidistantes em uma escala perceptiva.
É um objetivo da presente invenção prover um conceito aprimorado para a determinação de diversas frequências de centros de gravidade locais de um espectro de um sinal de áudio, o que permite reduzir os esforços computacionais. Esse objetivo é alcançado por meio de um equipamento, de acordo com a reivindicação 1 e um método de acordo com reivindicação 21.
Uma configuração da invenção provê um equipamento para a determinação de diversos centros frequências de gravidade locais de um espectro de um sinal de áudio. O equipamento compreende um determinador de compensação, um determinador de frequência e um controlador de iteração. O determinador de compensação é configurado para determinar uma frequência de compensação para cada frequência de início de iteração das diversas frequências de início de iteração com base no espectro do sinal de áudio, onde diversos valores discretos de amostra do espectro são maiores que diversos valores de início de iteração. O determinador de frequência é configurado para determinar diversas novas frequências de início de iteração por meio do aumento ou redução de cada frequência de início de iteração das diversas frequências de início de iteração pela frequência de compensação determinada correspondente. Ainda, o controlador de iteração é configurado para prover as novas diversas frequências de início de iteração ao determinador de compensação para outra iteração ou para prover os diversos centro frequências de gravidade local, caso uma condição de término predefinida seja atendida, onde as 11/50 diversos centros de frequências de gravidade local são configuradas iguais aos diversas novos centros frequências de início de iteração.
As configurações de acordo com a invenção são baseadas na idéia central de que as frequências de compensação são determinadas para as diversas frequências de início de iteração e então as frequências de início de iteração são atualizadas por suas frequências de compensação determinadas. Isto é feito de forma iterativa até que uma condição de término predefinida seja atendida. Uma vez que o número de frequências de início de iteração é menor que o número de valores discretos de amostra do espectro, a complexidade computacional é significativamente reduzida em comparação aos conceitos conhecidos.
Por exemplo, o número de frequências de início de iteração pode ser entre 10 e 100. Ou seja, por exemplo, um número significativamente menor que o número de valores discretos de amostra de N = 214 acima mencionado. Neste exemplo, os esforços computacionais podem ser reduzidos a um fator maior que 100.
Além disso, a resolução espectral pode ser facilmente adaptada variando-se o número de frequências de início de iteração e/ou adaptando-se os parâmetros de cálculo de frequência de compensação. Algumas configurações de acordo com a invenção compreendem um mesclador de frequência. O mesclador de frequência mescla duas frequências adjacentes de início de iteração das diversas frequências de início de iteração, caso uma distância de frequência entre as duas frequências adjacentes de início de iteração seja menor que uma distância mínima de frequência.
Algumas outras configurações de acordo com a invenção compreendem um somador de frequência. O somador de frequência soma uma frequência de início de iteração às diversas frequências de início de iteração, caso uma distância de frequência entre duas frequências adjacentes de início de iteração das diversas frequências de início de iteração seja maior que a distância máxima de frequência. Por exemplo, isto pode ser útil caso uma inicialização seja realizada por um cálculo do bloco anterior (tempo).
Algumas configurações de acordo com a invenção referem-se a um método para a determinação de diversas frequências de centro de gravidade local de um espectro de um sinal de áudio de acordo com uma configuração da invenção. O método compreende a determinação de uma frequência de compensação para cada frequência de início de iteração das diversas frequências de início de iteração, a determinação de diversas novas frequências de início de iteração e a provisão de novas diversas frequências de início de iteração para outra iteração ou a provisão das diversas frequências de centro de gravidade local. A frequência de compensação para cada frequência de início de iteração das diversas frequências de início de iteração é determinada com base no espectro dos sinais de áudio, onde diversos valores discretos de amostra do espectro são maiores que diversas frequências de início de iteração. As novas diversas frequências de início de iteração são determinadas por meio do aumento ou redução de cada frequência de início de iteração das diversas frequências de início de iteração pela frequência de compensação determinada correspondente. As diversas frequências de centro de gravidade local são providas para armazenamento, transmissão ou processamento adicional, caso uma condição de determinação predefinida seja atendida. Para tanto, as diversas frequências de centro de gravidade local são iguais às novas diversas frequências de início de iteração.
Em algumas configurações de acordo com a invenção, as diversas frequências de centro de gravidade local determinadas para um bloco de tempo anterior do sinal de áudio são utilizadas como frequências de início de iteração para a primeira iteração do próximo bloco de tempo do sinal de áudio. Nesse caso, grandes lacunas entre as frequências de início de iteração podem ser preenchidas pelo somador de frequência.
As configurações de acordo com a invenção serão detalhadas a seguir com referência aos desenhos anexos, nos quais: A Figura 1 é um diagrama de blocos de um equipamento para a determinação de diversas frequências de centro de gravidade local; A Figura 2 é um diagrama de blocos de um equipamento para a determinação de diversas frequências de centro de gravidade local; A Figura 3 é um diagrama de blocos de um equipamento para a determinação de diversas frequências de centro de gravidade local utilizando um pré-processamento; A Figura 3a é um diagrama de um espectro mapeado vs. espectro suavizado; A Figura 4 é uma ilustração esquemática de cálculos de centro de gravidade local vs. espectro mapeado (trecho) de dois tons separados; A Figura 5 é uma ilustração esquemática de cálculos de centro de gravidade local vs. espectro mapeado (trecho) de dois tons de batida; A Figura 6 é uma ilustração esquemática de cálculos de centro de gravidade local vs. espectro mapeado (trecho) de cordas tangidas; A Figura 7 é uma ilustração esquemática de cálculos de centro de gravidade local vs. espectro mapeado (trecho) de uma música de orquestra; A Figura 8 é um diagrama de blocos de um banco de filtro adaptativo de sinal; A Figura 9 é uma ilustração esquemática de uma segmentação de passagem de banda alinhada com centro de gravidades local vs. espectro de potência (trecho) de cordas tangidas; A Figura 10 é uma ilustração esquemática de uma segmentação de passagem de banda alinhada com centro de gravidade local vs. espectro de potência (trecho) de uma música de orquestra; A Figura 11 é um diagrama de blocos de um equipamento para a conversão de um sinal de áudio em uma representação parametrizada; A Figura 12 é um diagrama de blocos de um equipamento para a conversão de um sinal de áudio em uma representação parametrizada; A Figura 12a é um diagrama de blocos de um equipamento para a conversão de um sinal de áudio em uma representação parametrizada; A Figura 13a é um diagrama de blocos de um módulo de síntese; A Figura 13b é uma ilustração esquemática de uma aplicação para alterações de modo de chave polifônica; A Figura 13c é uma ilustração esquemática de um círculo de quinta; A Figura 14 é um fluxograma de um método para a determinação de diversas frequências de centro de gravidade local; A Figura 15 é um fluxograma de um método para a determinação de diversas frequências de centro de gravidade local; A Figura 15a é uma ilustração esquemática de um cálculo de COG iterativo; A Figura 16 é um fluxograma de um método para a inclusão de uma frequência de início de iteração; A Figura 17 é uma ilustração esquemática de uma estrutura de vocoder de síntese de análise da técnica anterior; e A Figura 18 é uma ilustração esquemática de uma implementação de filtro da técnica anterior da estrutura de vocoder mostrada Figura 17. A seguir, os mesmos números de referência são parcialmente utilizados para objetos e unidades funcionais tendo propriedades funcionais iguais ou semelhantes e sua descrição com relação a uma figura deve também ser aplicável a outras figuras para reduzir a redundância na descrição das configurações. A Figura 1 mostra um diagrama de blocos de um equipamento 100 para a determinação de diversas frequências de centro de gravidade local 132 de um espectro 102 de um sinal de áudio de acordo com uma configuração da invenção. O equipamento 100 compreende um determinador de compensação 110, um determinador de frequência 120 e um controlador de iteração 130. O determinador de compensação 110 é conectado ao determinador de frequência 120, o determinador de frequência 120 é conectado ao controlador de iteração 130 e o controlador de iteração 130 é conectado ao determinador de compensação 110. O determinador de compensação 110 determina uma frequência de compensação 112 para cada frequência de início de iteração de diversas frequências de início de iteração com base no espectro 102 do sinal de áudio. O espectro 102 é representado por valores discretos de amostra, onde diversos valores de amostra do espectro 102 são maiores que diversas frequências de início de iteração. O determinador de frequência 120 determina diversas novas frequências de início de iteração 122 por meio do aumento ou redução de cada frequência de início de iteração das diversas frequências de início de iteração pela frequência de compensação 112 determinada correspondente. Então, o controlador de iteração 130 provê as novas diversas frequências de início de iteração 122 ao determinador de compensação 110 para outra iteração. Alternativamente ou ainda, as diversas frequências de centro de gravidade local 132 são providas, caso uma condição de término predefinida seja atendida, onde as diversas frequências de centro de gravidade local 132 são iguais ou definidas iguais às novas diversas frequências de início de iteração 122.
Uma vez que o número de frequências de início de iteração é menor que o número de valores discretos de amostra do espectro, os esforços computacionais para a determinação das diversas frequências de centro de gravidade local 132 são reduzidos em comparação aos conceitos que determinam as frequências de centro de gravidade local com base nas funções, o que deve ser calculado para cada valor discreto de amostra do espectro.
A resolução e/ou precisão da determinação da frequência do centro de gravidade local pode ser adaptada à aplicação em particular variando-se o número de frequências de início de iteração e/ou os parâmetros de cálculo da frequência de compensação. Dessa forma, o esforço computacional também varia, porém, uma vez que o número de frequências de início de iteração geralmente fica claramente abaixo do número de valores discretos de amostra do espectro, uma baixa complexidade computacional pode ser garantida.
Por exemplo, os valores discretos de amostra do espectro 102 podem ser amplitudes espectrais, valores de densidade espectral de potência ou outros valores obtidos por uma transformada de Fourier do sinal de áudio. O número de valores discretos de amostra do espectro 102 para um bloco de tempo do sinal de áudio pode ficar, por exemplo, entre 1.000 e 100.000 ou entre 29 e 220. Ao contrário, o número de frequências de início de iteração pode ficar, por exemplo, entre 5 e 500. Essa grande diferença entre o número de valores discretos de amostra do espectro 102 e o número de frequências de início de iteração permite a redução significativa da complexidade computacional em comparação a métodos conhecidos.
A frequência do centro de gravidade local 132 pode ser uma frequência na qual o espectro 102 do sinal de áudio pode compreender, por exemplo, uma agregação máxima local ou uma agregação local de amplitude de espectro ou a densidade espectral de potência ou outro valor obtido por uma transformada de Fourier do sinal de áudio.
Por exemplo, as diversas frequências de início de iteração podem ser igualmente, ou de acordo com uma função de distribuição ou uma determinada distribuição, espaçadas entre si no espectro 102 para a primeira iteração. Com base nessas frequências de início de iteração e no espectro 102, o determinador de compensação 110 determina as frequências de compensação 112 que podem ser uma indicação de quão distante do centro de gravidade local uma frequência de início de iteração está localizada. Portanto, o determinador de frequência 120 tenta compensar essa distância entre o centro de gravidade local e a frequência de início de iteração por meio do aumento ou redução (dependendo de um valor positivo ou negativo da frequência de compensação) da frequência de início de iteração pelas frequências de compensação determinadas correspondentes. Então, as novas diversas frequências de início de iteração 122 são providas ao determinador de compensação 110 para outra iteração ou as novas diversas frequências de início de iteração 122 são providas como as diversas frequências de centro de gravidade local 132 a serem determinadas caso uma condição de término predefinida seja atendida.
O equipamento 100 pode determinar diversas frequências de centro de gravidade local 132 para cada bloco de tempo dos diversos blocos de tempo do sinal de áudio. Em outras palavras, o sinal de áudio pode ser processado em blocos de tempo. Para cada bloco de tempo, um espectro 102 pode ser gerado por uma transformada de Fourier e diversas frequências de centro de gravidade local 132 podem ser determinadas.
As possíveis condições de término predefinidas podem ser, por exemplo, que cada frequência de compensação está abaixo de uma frequência máxima de compensação, que a soma de todas as frequências de compensação está abaixo de uma soma de frequência máxima de compensação ou que a soma da frequência de compensação determinada para o bloco atual de tempo e a frequência de compensação determinada para um bloco de tempo anterior é menor que a compensação limiar.
O espectro 102 provido ao determinador de compensação 110 pode compreender, por exemplo, uma escala linear ou logarítmica. Por exemplo, as diversas frequências de início de iteração podem ser distribuídas de forma igualmente espaçada em um espectro logarítmico 102 para a primeira iteração para definir uma tendência para a determinação das diversas frequências de centro de gravidade local 132, de modo que as diversas frequências de centro de gravidade 132 determinadas possam ser distribuídas em uma escala perceptiva.
O determinador de compensação 110, o determinador de frequência 120 e o controlador de iteração 130 podem ser unidades de hardware independentes, parte de um processador de sinal digital, um microcontrolador ou um computador ou podem ser concebidos como um programa de computador ou um produto para programa de computador configurado para ser executado em um microcontrolador ou computador. A Figura 2 mostra um diagrama de blocos de um equipamento 200 para a determinação de diversas frequências de centro de gravidade local 132 de um espectro 102 de um sinal de áudio de acordo com uma configuração da invenção. O equipamento 200 é semelhante ao equipamento mostrado na Figura 1, porém compreende ainda um somador de frequência 210, um mesclador de frequência 220 e um removedor de frequência 230. Nesse exemplo, o determinador de frequência 120 é conectado ao removedor de frequência 230, o removedor de frequência 230 é conectado ao controlador de iteração 130, o controlador de iteração 130 é conectado ao somador de frequência 210, o somador de frequência 210 é conectado ao mesclador de frequência 220 e o mesclador de frequência 220 é conectado ao determinador de compensação 110. Alternativamente, as posições do somador de frequência 210 e do mesclador de frequência 220 podem ser alteradas e/ou o removedor de frequência 230 pode ser arranjado entre o controlador de iteração 130 e o somador de frequência 210, entre o somador de frequência 210 e o mesclador de frequência 220 ou entre o mesclador de frequência 220 e o determinador de compensação 110.
O somador de frequência 210 pode somar uma frequência de início de iteração às novas diversas frequências de início de iteração 122, caso a distância de frequência entre duas frequências adjacentes de início de iteração das novas diversas frequências de início de iteração 122 seja maior que a distância máxima de frequência. Para tanto, a distância de frequência e a distância máxima de frequência podem ser medidas em uma escala linear ou logarítmica.
Em outras palavras, o somador de frequência 210 soma uma frequência de início de iteração caso uma lacuna entre duas frequências adjacentes de início de iteração seja muito grande. Por exemplo, isso pode ser especialmente interessante se os diversos centros de gravidade local das frequências 132 determinadas para o bloco atual de tempo forem providas ao determinador de compensação 110 a ser utilizado como diversas 21/50 frequências de início de iteração para a primeira iteração do próximo bloco de tempo. Porém, também durante as iterações para o mesmo bloco de tempo, uma frequência de início de iteração pode ser somada.
As diversas frequências de centro de gravidade local podem ser utilizadas como uma base para a geração de diversas novas frequências de início de iteração.
As diversas frequências de início de iteração para a primeira iteração de um bloco de tempo podem ser, por exemplo, igualmente espaçadas entre si, conforme anteriormente descrito, ou as diversas frequências de centro de gravidade local 132 determinadas para o bloco de tempo anterior do sinal de áudio podem ser utilizadas como frequências de início de iteração para a primeira iteração do bloco atual de tempo.
O mesclador de frequência 220 mescla duas frequências adjacentes de início de iteração das novas diversas frequências de início de iteração 122 caso uma distância de frequência entre as duas frequências adjacentes de início de iteração seja menor que a distância mínima de frequência. Mais uma vez, a distância de frequência e a distância mínima de frequência podem ser medidas em uma escala linear ou logarítmica.
Em outras palavras, o mesclador de frequência 220 pode substituir duas frequências adjacentes de início de iteração por uma frequência de início de iteração caso a distância entre as duas frequências adjacentes de início de iteração seja menor que um limite.
O removedor de frequência 230 remove uma frequência de início de iteração das novas diversas frequências de início de iteração 132 caso a frequência de início de iteração seja maior que uma frequência máxima predefinida do espectro 102 do sinal de áudio ou caso a frequência de início de iteração seja menor que uma frequência mínima predefinida do espectro 102 do sinal de áudio. Por exemplo, a frequência máxima predefinida pode ser a maior frequência compreendida pelo espectro 102 e a frequência mínima predefinida pode ser a menor frequência compreendida pelo espectro 102...
Em outras palavras, o removedor de frequência 230 remove as frequências de início de iteração das novas diversas frequências de início de iteração 122 caso estejam localizadas fora da faixa de frequência do espectro 102 do sinal de áudio.
O removedor de frequência 230 remove uma frequência de início de iteração das novas diversas frequências de início de iteração 132 caso a frequência de início de iteração seja maior que uma frequência máxima predefinida do espectro 102 do sinal de áudio ou caso a frequência de início de iteração seja menor que uma frequência mínima predefinida do espectro 102 do 5 sinal de áudio. Por exemplo, a frequência máxima predefinida pode ser a maior frequência compreendida pelo espectro 102 e a frequência mínima predefinida pode ser a menor frequência compreendida pelo espectro 102...
Em outras palavras, o removedor de frequência 230 10 remove as frequências de início de iteração das novas diversas frequências de início de iteração 122 caso estejam localizadas fora da faixa de frequência do espectro 102 do sinal de áudio. O somador de frequência 210 e o removedor de frequência 230 são unidades opcionais do equipamento 200.
O somador de frequência 210, o mesclador de frequência 220 e o removedor de frequência 230 podem ser unidades de hardware independentes ou integradas conforme mencionado para o determinador de compensação 110, o determinador de frequência 120 e o controlador de alteração 130. A Figura 3 mostra um diagrama de blocos de um equipamento 300 para a determinação de diversos centros de gravidade local das frequências 132 de um espectro 102 de um sinal de áudio 302 de acordo com uma configuração da invenção. O equipamento 300 é semelhante ao equipamento mostrado na Figura 1, porém compreende ainda um pré-processador 310. O pré-processador 310 é conectado ao determinador de compensação 110. O pré- processador 310 gera um espectro de transformada de Fourier para um bloco de tempo do sinal de áudio 302 e gera um espectro suavizado com base no espectro de transformada de Fourier do bloco de tempo. Ainda, o pré-processador 310 gera o espectro 102 do sinal de áudio 302 a ser provido ao determinador de compensação 110 dividindo-se o espectro de transformada de Fourier pelo espectro suavizado. Então, o pré-processador 310 mapeia o espectro em uma escala logarítmica e provê o espectro logarítmico 102 ao determinador de compensação 110. Alternativamente, o pré- processador 310 pode mapear o espectro de transformada de Fourier em uma escala logarítmica antes de gerar o espectro suavizado e antes de dividir o espectro de transformada de Fourier pelo espectro suavizado.
Em algumas configurações, para cada bloco de sinal (bloco de tempo), o cálculo da densidade espectral de potência (psd) é obtido computando-se a energia espectral DFT. Subsequentemente, para remover a tendência global, a psd é normalizada em uma psd suavizada que é calculada, por exemplo, adaptando-se um polinomial de baixa ordem, realizando-se a suavização espectral ou filtrando-se ao longo da direção da frequência. Antes da divisão, ambas as quantidades também podem ser temporalmente suavizadas, por exemplo, por um filtro IIR de primeira ordem com constante de tempo de, por exemplo, 200 ms. A seguir, um mapeamento de uma psd é realizado em uma escala perceptiva (escala logarítmica) antes do cálculo e segmentação do COG, por exemplo, para facilitar a tarefa de segmentação de um espectro em bandas não uniformes perceptivamente adaptadas e, ao mesmo tempo, centralizadas no COG. Dessa forma, o problema pode ser simplificado para a tarefa de um alinhamento de um conjunto de segmentos aproximadamente uniformes com as posições locais do sinal calculadas do COG. Como uma escala perceptiva, a escala ERB (vide “B. C. J. Moore and B. R. Glasberg, “A revision of Zwicker’s loudness model,” Acta Acustica, vol. 82, pp. 335-345, 1996”) pode ser aplicada, provendo assim uma melhor resolução espectral em frequências mais baixas que, por exemplo, a escala BARK. No entanto, a escala BARK também pode ser utilizada. O espectro mapeado pode ser calculado por interpolação do espectro uniformemente amostrado em direção às amostras espectrais que são espaçadas seguindo a escala ERB (vide equação 2).
Figure img0001
Alternativamente, para cada bloco de sinal, um cálculo da densidade espectral de potência (psd) é obtido computando-se a energia espectral DFT. A seguir, um mapeamento de uma psd é realizado em uma escala perceptiva antes do cálculo e segmentação do COG para facilitar a tarefa de segmentação de um espectro em bandas não uniformes perceptivamente adaptadas e, ao mesmo tempo, centralizadas no COG. Assim, o problema é simplificado para a tarefa de alinhamento de um conjunto de segmentos aproximadamente uniformes com as posições locais do sinal calculadas do COG. Como uma escala perceptiva, a escala ERB é aplicada, provendo assim uma melhor resolução espectral em frequências mais baixas que, por exemplo, a escala BARK. O espectro mapeado é calculado por interpolação do espectro uniformemente amostrado em direção às amostras espectrais que são espaçadas seguindo a escala ERB (vide equação 2).
Subsequentemente, para remover a tendência global inerente em espectros de sinal de áudio no mundo real, a psd mapeada é normalizada em sua tendência que é calculada por regressão linear minimizando um critério de mínimos quadrados. Antes da divisão, ambas as quantidades são temporalmente suavizadas pela aplicação de, por exemplo, IIR _filtros H (z) de primeira ordem, cada um tendo uma constante de tempo de, por exemplo, T = 200ms conforme definido pelas equações 2a, onde T é o período de amostra de sub-banda de DFT dado pelo período de amostra de entrada vezes o passo temporal da DFT.
Figure img0002
Essas etapas de pré-processamento podem impedir um desvio global em direção a baixas frequências na iteração de posição de COG subsequente e estabilizam as posições calculadas para blocos temporalmente sucessivos, respectivamente. A Figura 3a mostra um exemplo de um diagrama 350 de um espectro mapeado 360 e de um espectro suavizado 370 representados por uma tendência linear.
O pré-processador 310 pode ser uma unidade de hardware separada, parte de um processador de sinal digital, um microprocessador ou um computador ou concebido como um programa de software. A Figura 15 mostra um fluxograma de um método 1500 para a determinação de diversas frequências de centro de gravidade local de um espectro de um sinal de áudio de acordo com uma configuração da invenção. O método 1500 descreve um exemplo mais detalhado do cálculo do centro de gravidade iterativo descrito acima.
Para cada bloco de tempo k, uma lista c classificada de candidatos à posição pode ser inicializada 1510 com uma grade uniformemente espaçada de N posições candidatas c(n) tendo um espaçamento S. O parâmetro S define a resolução espectral dos cálculos obtidos no decorrer do processo de iteração. Redigido diferentemente, o parâmetro S pode determinar o que é considerado escopo local do cálculo do COG.
Figure img0003
Por exemplo, utilizando um comprimento de bloco de tempo de 2Z'14 amostras, o espectro DFT consiste em 2z'13 + 1 amostras. Essas são mapeadas para uma representação de escala ERB também tendo 2^13+1 amostras. A escolha de uma resolução de COG equivalente a 0,5 ERB, resulta em S = 47 amostras na frequência de amostragem de 48 kHz e, portanto, N = 174 candidatos iniciais igualmente espaçados. Na iteração, por exemplo, 40-50 posições finais de COG são calculadas. O número total de posições finais de COG depende das características do sinal, dos pesos g(i) e da resolução de COG medida em ERB (vide também as equações 4). Valores sensatos para a resolução de COG estão, por exemplo, no intervalo de 0,1 - 1 ERB.
O processo de iteração consiste em dois loops. O primeiro loop calcula 1410 a compensação de posição posOff(n) da posição candidata c(n) a partir do centro de gravidade local verdadeiro pela aplicação de uma função de inclinação linear negativa para positiva de tamanho 2S, ponderada por pesos g(i), para cada posição candidata n no cálculo de psd pré-processado de um bloco de sinal (vide equações 4).
Figure img0004
Em outras palavras, o determinador de compensação 110 pode determinar a frequência de compensação, também denominada compensação de posição, com base em diversos valores discretos de amostra do espectro (os valores de densidade espectral de potência nesse exemplo) e nos diversos valores correspondentes de um parâmetro de peso g(i) e em valores correspondentes de um parâmetro de distância idxOff(i). Os valores do parâmetro de distância podem ser igualmente espaçados entre si em uma escala logarítmica, onde todos os valores do parâmetro de distância são menores que um valor de distância máximo (nesse exemplo S). Além disso, o parâmetro de distância pode assumir valores positivos ou negativos, como, por exemplo, mostrado pelas equações 4. O parâmetro de peso pode ter como base uma função de intervalo, como, por exemplo, um retângulo ou um intervalo com bordas mais ou menos inclinadas. Dessa forma, reduz-se a influência de grandes picos longe da frequência de início de iteração (também denominada candidato nesse exemplo), para os quais a frequência de compensação é atualmente determinada. Em outras palavras, os valores do parâmetro de peso podem ser todos os mesmos (por exemplo, para um retângulo) ou os valores do parâmetro de peso podem diminuir para aumentar os valores absolutos do parâmetro de distância correspondente (por exemplo, para reduzir a influência de picos com grande distância). Na Figura 15a, o procedimento de compensação de posição candidata posOff(n) é visualizado. Os gráficos de linha 1590 correspondem às amostras psd local wn(i) centralizadas na posição candidata c(n), a função de intervalo é representada por valores g(i) e a função de inclinação linear é denotada por idxOff(i).
Em uma próxima etapa (vide equação 5), todas as posições candidatas da lista são atualizadas 1420 por sua compensação de posição.
Figure img0005
Cada posição candidata que ultrapassa os limites (frequências maiores que a frequência máxima do espectro e menores que a frequência mínima do espectro) é removida 1525 da lista conforme indicado por (vide equações 6) e o número de posições candidatas remanescente N é reduzido em 1.
Figure img0006
Se o valor absoluto da soma das compensações de posição atual e anterior de um candidato conforme definido em (vide equação 7a) for menor que um limiar predefinido, essa posição candidata c(n) não é atualizada em outras iterações, porém ainda permanece na lista e é assim submetida ao mecanismo de fusão de candidato subsequente.
Figure img0007
Se |sumOff(n)| de todos os candidatos for menor que um limiar predefinido (vide equação 7b), ocorre a saída do primeiro loop de iteração 1440, terminando assim o processo de iteração. Todos os candidatos remanescentes da lista constituem o conjunto final de cálculos de posição de COG. Observe que, utilizando esse tipo de condição, finaliza-se também a iteração caso a compensação de posição varie para trás e para frente entre dois valores, garantindo assim sempre o término adequado.
Figure img0008
Caso contrário, a próxima etapa de iteração pode ser executada com as posições candidatas 1520 atualizadas. Por exemplo, thres1 pode ser definido igual ou menor que uma amostra (2 amostras, 5 amostras ou 10 amostras).
O segundo loop une 1540, de forma iterativa, as duas posições candidatas mais próximas (de acordo com uma determinada medida de proximidade) que violam 1570 uma restrição de proximidade predefinida devido à atualização de posição provida pelo primeiro loop, em um único novo candidato, responsabilizando- se assim pela fusão perceptiva. A medida de proximidade prox2 1530 é a distância espectral dos dois candidatos (vide equações 8).
Figure img0009
Por exemplo, thres2 pode ser definido em S amostras, S/2 amostras, 2S amostras ou outro valor entre 1 amostra e 10S amostras.
Cada candidato conjunto recém-calculado é inicializado para ocupar a posição de média ponderada de energia dos dois últimos candidatos (vide equações 9).
Figure img0010
Ambos os últimos candidatos são excluídos da lista e o novo conjunto de candidato é incluído na lista. Consequentemente, o número de posições candidatas remanescentes N é reduzido em 1. A segunda iteração de loop termina 1570 se nenhum outro candidato violar a restrição de proximidade. O conjunto final de candidatos a COG constitui as posições calculadas dos centros de gravidade locais. As frequências calculadas de centro de gravidade podem ser salvas 1560, transmitidas ou fornecidas para processamento adicional.
Para acelerar o processo de iteração, a inicialização de cada novo bloco pode ser vantajosamente feita utilizando um cálculo da posição do COG do bloco anterior uma vez que já é um cálculo relativamente bom das posições atuais. Por exemplo, isto se aplica devido à sobreposição do bloco na análise e na suavização temporal no pré-processamento, portanto a suposição apropriada de uma taxa de alteração limitada na evolução temporal das posições do COG.
Ainda, deve-se ter cuidado para prover cálculos suficientes da posição inicial para também capturar o possível surgimento de um novo COG. Portanto, as lacunas da posição candidata no cálculo que dimensiona a distância maior que um valor predefinido, por exemplo, localizado em um intervalo S,...,2S, são preenchidas por novas posições candidatas de COG (vide equações 10), garantindo assim que novos candidatos em potencial estejam dentro do escopo da função de atualização da posição. A Figura 16 mostra um fluxograma dessa extensão 1600 para o algoritmo. A aposição de candidatos adicionais à lista é realizada com um loop que termina 1620 caso nenhuma outra lacuna maior que 2S seja encontrada.
Figure img0011
Em outras palavras, para as diversas frequências de centro de gravidade local ou cálculos de centro de gravidade local 1602, a distância de frequência entre frequências adjacentes de centro de gravidade local é calculada 1610. Se 1620 a distância de frequência entre duas frequências adjacentes de centro de gravidade for maior que a distância máxima de frequência, a frequência do centro de gravidade local é somada 1630 a diversas frequências de centro de gravidade local. Depois de preencher todas as lacunas maiores que a distância máxima de frequência, as diversas frequências de centro de gravidade local podem ser salvas 1640 para o próximo bloco de tempo. As Figuras 4, 5, 6 e 7 mostram resultados obtidos pelo algoritmo proposto de cálculo do COG local iterativo descrito antes de ter sido aplicado a diferentes itens de teste. Os itens de teste são dois tons puros separados 400, dois tons que soam entre si 590, cordas tangidas 600 (‘MPEG Test Set - sm03’) e música de orquestra (‘Vivaldi - Four Seasons, Spring, Allegro’) 700. Nessas figuras, o espectro perceptivamente mapeado, suavizado e globalmente destendencionado (normalizado) 410, 595, 610, 710 é mostrado com o cálculo dos COGs (números de referência 12-26). Os cálculos dos COGs são numerados em ordem ascendente. Enquanto, por exemplo, os cálculos no. 22, no. 26 da Figura 4 e os cálculos no. 18 e no. 19 da Figura 6 correspondem aos componentes de sinal sinusoidal, o cálculo no. 22 da Figura 5, os cálculos no. 23 e no. 25 da Figura 6 e a maioria dos cálculos da Figura 7 capturam componentes espectralmente ampliados ou de batida, que são, no entanto, bem detectados e segmentados, agrupando-os assim em unidades perceptivas. A Figura 8 mostra um diagrama de blocos de um banco de filtro adaptativo de sinal 800 de acordo com uma configuração da invenção. O banco de filtro adaptativo de sinal 800 compreende um equipamento 100 para a determinação de diversas frequências de centro de gravidade local 132 de um espectro de um sinal de áudio 802 e de diversos filtros de passagem de banda 810. Os diversos filtros de passagem de banda 810 são configurados para filtrar o sinal de áudio 802 e para prover o sinal de áudio filtrado 812 para transmissão, armazenamento ou processamento adicional. Para tanto, uma frequência central e uma largura de banda de cada filtro de passagem de banda dos diversos filtros de passagem de banda 810 são baseadas nas diversas frequências de centro de gravidade local 132.
Por exemplo, cada filtro de passagem de banda dos diversos filtros de passagem de banda 810 corresponde a uma frequência do centro de gravidade local, onde a frequência central e a largura de banda do filtro de passagem de banda depende da frequência correspondente do centro de gravidade local e das frequências adjacentes de centro de gravidade local da frequência correspondente do centro de gravidade local.
A largura de banda dos diversos filtros de passagem de banda 810 pode ser determinada, de modo que todo o espectro seja coberto sem furos.
Os filtros podem ser projetados em uma escala de frequência logarítmica de acordo com o cálculo original dos COGs obtidos em uma escala logarítmica e os pesos espectrais resultantes podem ser mapeados para o domínio linear ou, alternativamente, em outras configurações, os filtros podem ser projetados no domínio linear de acordo com as posições re-mapeadas do COG.
Em outras palavras, para a última configuração, depois de ter determinado o cálculo dos COGs, por exemplo, no domínio ERB adaptado, as posições do COG são mapeadas de volta no domínio linear por meio da solução da equação 2 para f e subsequentemente, no domínio linear, um conjunto de N filtros de passagem de banda é calculado na forma de pesos espectrais que devem ser aplicados diretamente ao espectro DFT original no sinal de banda larga.
Para a primeira e preferida configuração, as posições de COG são ainda processadas no domínio ERB. Um conjunto de N filtros de passagem de banda é calculado na forma de funções de ponderação espectral weightsn de comprimento M de acordo com as equações (10a). Em outras palavras, um conjunto de filtros de passagem de banda pode ser calculado na forma de pesos espectrais, que, após um mapeamento do domínio linear, devem ser aplicados ao espectro DFT original do sinal de banda larga.
Por exemplo, os filtros de passagem de banda são projetados para ter um roll-off predefinido de comprimento 2 • rollOff com características de seno-quadrado. Para atingir o alinhamento desejado com as posições de COG calculadas, o procedimento de projeto descrito a seguir pode ser aplicado.
Primeiramente, as posições intermediárias entre os cálculos da posição de COG adjacente são calculadas, onde mL(n) denota o menor ponto intermediário e mU(n) o maior ponto intermediário de uma posição de COG c (n) em relação a seus vizinhos. Então, nesses pontos de transição, as partes roll-off dos pesos espectrais são centralizadas de modo que as partes de roll-off dos filtros vizinhos somem até um. A seção intermediária da função de ponderação da passagem de banda é escolhida para ser flat-top igual a um, os demais pontos de amostra são zerados. Os filtros para n = 0 e n = N possuem somente uma parte roll-off e são configurados para ser de baixa passagem ou alta passagem, respectivamente.
Figure img0012
Ao projetar a característica de roll-off, um trade-off deve ser feito em relação à seletividade espectral por um lado e à resolução temporal por outro lado. Também, permitindo que múltiplos filtros se sobreponham espectralmente, é possível somar um grau adicional de liberdade às restrições do projeto. O trade-off pode ser escolhido de forma adaptativa ao sinal, por exemplo, melhorando a reprodução de transientes.
Por último, as posições de COG e as funções de ponderação espectral são mapeadas de volta ao domínio linear por meio da solução da equação (2) para f obtendo a equação (10b). Por fim, são proporcionados os pesos espectrais em uma escala linear que devem ser aplicados ao espectro DFT do sinal de banda larga.
Figure img0013
Utilizando-se um espectro logarítmico e uma inicialização com frequências de início de iteração igualmente espaçadas, pode-se obter uma tendência a uma segmentação perceptiva (pequenas larguras de banda para baixas frequências e grandes larguras de banda para altas frequências), embora em algumas regiões do espectro a largura de banda de filtros para baixas frequências possa ser maior que a largura de banda de filtros para frequências mais altas, uma vez que as posições das frequências de centro de gravidade local dependem do sinal de áudio.
Por exemplo, as bordas dos filtros de passagem de banda podem ser localizadas no meio de cada duas frequências adjacentes de centro de gravidade em uma escala logarítmica ou linear. Alternativamente, também uma sobreposição de vários filtros de passagem de banda pode ser possível.
Algumas configurações da invenção se referem a uma aplicação do conceito descrito para bancos de filtro ou vocoders de fase. O conceito descrito pode ser utilizado para manipulação de música, por exemplo, para alterar notas de somente um canal ou de um número predefinido de canais. Nas Figuras 9 e 10, o psd 910, 1010 original - não pré-processado - do bloco de sinal 900, 1000 é ilustrado e um conjunto de filtros de passagem de banda 920, 1020 é desenhado, o qual foi projetado conforme definido antes. É claramente visível que cada filtro é alinhado com um cálculo do COG e sobreposições suavemente em pares com seus filtros de sub-banda adjacentes. A Figura 9 corresponde à Figura 6 e a Figura 10 corresponde à Figura 7. A Figura 11 mostra um diagrama de blocos de um equipamento 1100 para a conversão de um sinal de áudio 1102 em uma representação parametrizada 1132 de acordo com uma configuração da invenção. O equipamento 1100 compreende um equipamento 100 para a determinação de diversas frequências de centro de gravidade local 132 de um espectro do sinal de áudio 1102, uma calculadora de passagem de banda 1110, uma calculadora de modulação 1120 e uma interface de saída 1130. O equipamento 100 para a determinação das diversas frequências de centro de gravidade local 132 também é denominado analisador de sinal e a calculadora de modulação 1120 compreende diversos filtros de passagem de banda 810.
O analisador de sinal 100 analisa a porção do sinal de áudio 1102 para obter um resultado de análise 132 em termos de frequências de centro de gravidade local 132. O resultado da análise 132 entra em uma calculadora de passagem de banda 1110 para calcular informações 1112 sobre os diversos filtros de passagem de banda 810 para a porção de sinal de áudio com base no resultado da análise 132 do sinal. Assim, as informações 1112 sobre os diversos filtros de passagem de banda 810 são calculadas de forma adaptativo ao sinal.
Especificamente, as informações 1112 sobre os diversos filtros de passagem de banda 810 compreendem informações sobre um formato de filtro. O formato de filtro pode incluir uma largura de banda de um filtro de passagem de banda e/ou uma frequência central do filtro de passagem de banda para a porção do sinal de áudio e/ou uma forma espectral de uma função de transferência de magnitude de uma forma paramétrica ou de uma forma não-paramétrica. De forma importante, a largura de banda de um filtro de passagem de banda não é constante em toda a faixa de frequência, mas pode depender da frequência central do filtro de passagem de banda. Por exemplo, a dependência é tal que a largura de banda aumenta para as frequências centrais mais altas e diminui para as frequências centrais mais baixas.
O analisador de sinal 100 realiza uma análise espectral de uma porção de sinal do sinal de áudio e, particularmente, pode analisar a distribuição de potencia no espectro para encontrar regiões tendo uma concentração de potência, uma vez que essas regiões são determinadas pelo ouvido humano bem como ao receber e ainda processar o som.
O equipamento 1100 da invenção compreende ainda uma calculadora de modulação 1120 para calcular uma modulação de amplitude 1122 ou uma modulação de frequência 1124 para cada banda dos diversos filtros de passagem de banda 810 para a porção do sinal de áudio. Para tanto, a calculadora de modulação 1120 utiliza as informações 1112 sobre os diversos filtros de passagem de banda 810 como será discutido posteriormente.
O equipamento da invenção mostrado na Figura 11 compreende ainda uma interface de saída 1130 para transmitir, armazenar ou modificar as informações sobre a modulação de amplitude 1112, as informações da modulação de frequência 1124 ou as informações sobre os diversos filtros de passagem de banda 810, 38/50 que podem compreender informações de formato de filtro, tais como os valores das frequências centrais dos filtros de passagem de banda para essa porção/bloco do sinal de áudio específico ou outras informações conforme acima discutido. A saída é uma representação parametrizada 1132. As Figuras 12 e 12a ilustram duas configurações preferidas da calculadora de modulação 1120, o analisador de sinal 100 e da calculadora de passagem de banda 1110 combinados em uma única unidade denominada “cálculo da frequência portadora”. A calculadora de modulação 1120 compreende preferencialmente um filtro de passagem de banda 1120a, que provê um sinal de passagem de banda. Este entra em um conversor de sinal analítico 1120b. A saída de bloco 1120b é útil para o cálculo de informações de AM e informações de FM. Para calcular as informações de AM, a magnitude do sinal analítico é calculada pelo bloco 1120c. A saída do bloco de sinal analítico 1120b entra em um multiplicador 1120d, que recebe, em sua outra entrada, um sinal oscilador de um oscilador 1120e que é controlado pela real frequência portadora fc 1210 da passagem de banda 1120a. Então, a fase da saída do multiplicador é determinada no bloco 1120f. A fase instantânea é diferenciada no bloco 1120g para finalmente obter as informações de FM. Além disso, a Figura 12a mostra um pré-processador 310 que gera um espectro DFT do sinal de áudio.
A decomposição de modulação de múltiplas bandas divide o sinal de áudio em um conjunto de sinais (analíticos) de passagem de banda adaptativo ao sinal, sendo cada um ainda dividido em um portador sinusoidal e sua modulação de amplitude (AM) e modulação de frequência (FM). O conjunto de filtros de 39/50 passagem de banda é computado de modo que, por um lado, o espectro de banda total seja coberto de forma totalmente consistente e, por outro lado, os filtros sejam alinhados com COGs locais cada. Além disso, a percepção auditiva humana é responsabilizada pela escolha da largura de banda dos filtros para corresponder a uma escala perceptiva, ou seja, a escala ERB (vide “B. C. J. Moore and B. R. Glasberg, “A revision of Zwicker’s loudness model,” Acta Acustica, vol. 82, pp. 335-345, 1996”).
O COG local corresponde à frequência média que é percebida por um ouvinte devido às contribuições espectrais naquela região de frequência. Além disso, as bandas centralizadas nas posições do COG local correspondem às regiões de fixação de fase com base na influência de vocoders de fase clássicos (vide “J. Laroche and M. Dolson, “Improved phase vocoder timescale modification of audio”, IEEE Transactions on Speech and Audio Processing, vol. 7, no. 3, pp. 323—332, 1999”, “Ch. Duxbury, M. Davies, and M. Sandler, “Improved timescaling of musical audio using phase locking at transients,” in 112th AES Convention, 2002”, “A. Robel, “A new approach to transient processing in the phase vocoder,” Proc. of the Int. Conf. on Digital Audio Effects (DAFx), pp. 344—349, 2003”, “A. Robel, “Transient detection and preservation in the phase vocoder”, Int. Computer Music Conference (ICMC'03), pp. 247-250, 2003”). Tanto a representação do envelope de sinal de passagem de banda como a região tradicional de fixação de fase de influência preservam o envelope temporal de um sinal de passagem de banda: tanto intrinsicamente como, no último caso, garantindo a coerência de fase espectral local durante a síntese. Com relação a um portador sinusoidal de uma frequência correspondente ao COG local calculado, tanto AM como FM são captados no envelope de amplitude e a fase heterodinada dos sinais analíticos de passagem de banda, respectivamente. Um método dedicado de síntese resulta no sinal de saída das frequências portadoras, AM e FM.
Um diagrama de blocos da decomposição do sinal em sinais portadores e seus componentes de modulação associados é ilustrado na Figura 12. Na figura, é mostrado o fluxo esquemático de sinal para a extração de um componente. Todos os outros componentes são obtidos de forma semelhante. Na prática, a extração é realizada em conjunto para todos os componentes bloco a bloco utilizando, por exemplo, um tamanho de bloco N = 214 na frequência de amostragem de 48 kHz e sobreposição de análise de 75% - aproximadamente correspondendo a um intervalo de tempo de 340 ms e um passo 85 ms - aplicando-se uma transformada de Fourier (DFT) discreta em cada bloco de sinal com intervalo. O intervalo pode ser um intervalo de ‘topo plano’ de acordo com Equação (1). Isso pode garantir que as amostras N/2 centralizadas que são passadas a diante para a subsequente síntese de modulação não sejam afetadas pelas inclinações do intervalo de análise. Um maior grau de sobreposição pode ser utilizado para melhor precisão ao custo da maior complexidade computacional.
Figure img0014
Dada a representação espectral, pode ser calculado a seguir um conjunto de funções de ponderação espectral adaptativas ao sinal (tendo característica de passagem de banda) alinhado com as posições do COG local. Após a aplicação da ponderação de passagem de banda ao espectro, o sinal é transformado no domínio de tempo e o sinal analítico é derivado pela transformada de Hilbert. Essas duas etapas de processamento podem ser eficientemente combinadas pelo cálculo de um IDFT de lado único em cada sinal de passagem de banda. Subsequentemente, cada sinal analítico é heterodinado pela sua frequência portadora calculada. Por fim, o sinal é ainda decomposto em seu envelope de amplitude e sua faixa de frequência instantânea (IF), obtida computando-se a derivada de fase, resultando nos sinais de AM e FM desejados (vide também “S. Disch and B. Edler, “An amplitude- and frequency modulation vocoder for audio signal processing,” Proc. of the Int. Conf. on Digital Audio Effects (DAFx), 2008”).
Apropriadamente, a Figura 13a mostra um diagrama de blocos de um equipamento 1300 para sintetizar uma representação parametrizada de um sinal de áudio. Por exemplo, uma implementação vantajosa é baseada em uma operação de sobrepor-somar (OLA) no domínio de modulação, ou seja, no domínio antes de gerar o sinal de passagem de banda do domínio de tempo. O sinal de entrada que pode ser um fluxo de bits, mas que também pode ser uma conexão direta a um analisador ou modificador, é separado em componente AM 1302, componente FM 1304 e componente de frequência portadora 1306. O sintetizador de AM preferencialmente compreende um somador de sobreposição 1310 e, além disso, um componente controlador de junção 1320 que, preferencialmente não só compreende o bloco 1310, mas também o bloco 1330, que é um somador de sobreposição dentro do sintetizador de FM. O sintetizador de FM compreende ainda um somador frequência de sobreposição 1330, um integrador de fase 1332, um combinador de fase 1334 que, novamente, pode ser implementado como um somador regular e um alterador de fase 1336 que é controlável pelo componente controlador de junção 1320 para regenerar uma fase constante de bloco em bloco, de modo que a fase de um sinal de um bloco anterior seja contínua com a fase de um bloco atual. Portanto, pode-se dizer que a adição de fase nos elementos 1334, 1336 corresponde a uma regeneração de uma constante que foi perdida durante a diferenciação no bloco 1120g na Figura 12 no lado do analisador. De uma perspectiva da perda de informações no domínio perceptivo, deve ser observado que esta é a única perda de informações, ou seja, a perda de uma porção constante pelo dispositivo de diferenciação 1120g na Figura 12. Essa perda pode ser recriada adicionando-se uma fase constante determinada pelo componente de junção dispositivo 1320.
A operação de sobrepor-somar (OLA) é aplicada no domínio de parâmetro em vez de no sinal prontamente sintetizado para evitar efeitos de batida entre blocos de tempo adjacentes. A OLA é controlada por um mecanismo de componente de junção, que, orientado pela vizinhança espectral (medida em uma escala ERB), realiza uma correspondência pareada entre os componentes do bloco atual e seus antecessores no bloco anterior. Além disso, a junção alinha as fases de componente absolutas do bloco atual com aquelas do bloco anterior...
Em detalhe, primeiramente o sinal de FM é somado à frequência portadora e o resultado é passado para o estágio OLA, cuja saída é subsequentemente integrada. Um oscilador sinusoidal 1340 é alimentado pelo sinal de fase resultante. O sinal de AM é processado por um segundo estágio OLA. Por fim, a saída do oscilador é modulada 1350 em sua amplitude pelo sinal de AM resultante para obter a contribuição aditiva do componente para o sinal de saída 1360.
Deve ser enfatizado que uma segmentação espectral apropriada do sinal dentro da análise de modulação é de fundamental importância para um resultado convincente de qualquer outro processamento de parâmetro de modulação. Portanto, aqui, um novo algoritmo de segmentação adequado é apresentado. Adequadamente, a Figura 13b mostra uma aplicação do conceito 1300 descrito para alterações de modo de chave polifônica...
Transpor um sinal de áudio enquanto se mantém a velocidade de playback original é uma tarefa desafiadora. Utilizando o sistema proposto, isso pode ser feito de forma direta multiplicando-se todas as componentes portadoras por um fator constante. Uma vez que a estrutura temporal do sinal de entrada é unicamente capturada pelos sinais AM, esta não é afetada pela ampliação do espaçamento espectral da portadora.
Um efeito ainda mais exigente pode ser obtido por processamento seletivo: o modo principal de um trecho de música pode ser alterado de, por exemplo, secundário para principal ou vice- versa. Portanto, somente um subconjunto de portadoras correspondente a determinados intervalos de frequência predefinidos é mapeado para novos valores adequados. Para tanto, as frequências portadoras são quantificadas 1370 em notas MIDI que são subsequentemente mapeadas 1372 em novas notas MIDI apropriadas (utilizando um conhecimento prévio do modo e chave do item de música a ser processado). O processamento necessário é ilustrado na Figura 13b.
No caso de uma conversação entre o modo principal e o modo natural secundário, as notas MIDI a serem mapeadas podem ser derivadas do círculo de quinta 1390 conforme ilustrado na Figura 13c. A conversação de principal para secundária é obtida por um pulo de três etapas no sentido anti-horário, alteração de secundário para principal por três etapas no sentido horário. Por fim, as notas MIDI mapeadas são convertidas de volta 1374 para obter 1376 as frequências portadoras modificadas que são utilizadas para a síntese 1378. Uma detecção de início/de compensação dedicada da nota MIDI não é exigida, uma vez que as características temporais são predominantemente representadas pelo AM não modificado e assim preservadas. Tabelas de mapeamento arbitrário podem ser definidas, permitindo a conversão para e de outras versões menores (por exemplo, harmônico menor). A Figura 14 mostra um fluxograma de um método 1400 para a determinação de diversas frequências de centro de gravidade local de um espectro de um sinal de áudio de acordo com uma configuração da invenção. O método 1400 compreende a determinação de 1410 uma frequência de compensação para cada frequência de início de iteração das diversas frequências de início de iteração, a determinação 1420 de diversas novas frequências de início de iteração e a provisão 1430 de novas diversas frequências de início de iteração para outra iteração ou a provisão 1440 de diversas frequências de centro de gravidade local. A frequência de compensação para cada frequência de início de iteração das diversas frequências de início de iteração é determinada 1410 com base no espectro dos sinais de áudio, onde diversos valores discretos de amostra do espectro são maiores que diversas frequências de início de iteração. As novas diversas frequências de início de iteração são determinadas 1420 por meio do aumento ou redução de cada frequência de início de iteração das diversas frequências de início de iteração pela frequência de compensação determinada correspondente. As diversas frequências de centro de gravidade local são providas 1440 para armazenamento, transmissão ou processamento adicional, caso uma condição de término predefinida seja atendida. Para tanto, as diversas frequências de centro de gravidade local são definidas iguais para as novas diversas frequências de início de iteração.
Algumas configurações de acordo com a invenção referem-se a um algoritmo de segmentação iterativo para espectros de sinal de áudio dependendo dos centros de gravidade locais calculados.
A produção de música moderna e a geração de som geralmente se baseiam na manipulação de trechos previamente registrados de áudio, as assim chamadas amostras, extraídos de uma ampla base de dados. Consequentemente, há uma exigência crescente para se adaptar extensivamente essas amostras a qualquer novo contexto musical de forma flexível. Para tanto, o processamento avançado de sinal digital é necessário para realizar efeitos de áudio como trocas de nota, ampliação do tempo ou harmonização. Geralmente, uma parte principal desses métodos de processamento é uma operação de segmentação espectral baseada em bloco e adaptativa ao sinal. Portanto, é proposto um novo algoritmo para essa segmentação espectral com base em centros de gravidade locais (COG). Por exemplo, o método pode ser utilizado para uma decomposição de modulação de múltiplas bandas para sinais de áudio. Ainda, esse algoritmo também pode ser utilizado no contexto mais geral de aplicações aperfeiçoadas relacionadas a vocoder.
Em algumas configurações, o algoritmo de segmentação aqui proposto consiste em uma lista inicial de candidatos à posição de COG espectral que é atualizada de forma iterativa por cálculos refinados. No processo de refinamento, a inclusão, exclusão ou fusão de candidatos é incorporada, e assim o método não exige um conhecimento prévio do número total de cálculo final dos COGs. A iteração pode ser implementada por dois loops. Todas as operações necessárias são realizadas em uma representação espectral do sinal.
Uma etapa importante na manipulação de música baseada em bloco (polifônica) é o cálculo de centros de gravidade locais (COG) em sucessivos espectros no decorrer do tempo. Motivado pelo desenvolvimento de uma decomposição de modulação de múltiplas bandas adaptativa ao sinal, foi proposto um método e algoritmo detalhados que calculam múltiplos COGs locais no espectro de um sinal de áudio arbitrário. Além disso, foi descrito um esquema de projeto de um conjunto de filtros de passagem de banda resultantes alinhados às posições de COG calculadas. Esses filtros podem ser utilizados para subsequentemente separar o sinal de banda larga em sinais de sub-banda perceptivamente adaptados dependentes de sinal.
Resultados exemplares obtidos pela aplicação deste método foram apresentados e discutidos. Desenvolvido no contexto de um esquema dedicado de decomposição de modulação de múltiplas bandas, o algoritmo proposto pode ser potencialmente utilizado no contexto mais geral de pós-processamento de áudio, efeitos de áudio e aplicações aperfeiçoadas de vocoder.
Ao contrário dos métodos de reatribuição t-f, o algoritmo descrito realiza diretamente uma segmentação espectral em uma escala perceptivamente adaptada, ao passo que a reatribuição t-f isoladamente provê um espectrograma mais bem localizado e deixa o problema de segmentação para os últimos estágios, por exemplo, o rastreamento parcial.
Ao contrário dos métodos que objetivam o cálculo de múltiplas frequências fundamentais, a abordagem apresentada não tenta decompor o sinal em suas fontes, mais sim os espectros de segmentos em unidades perceptivas que podem ser ainda manipuladas em combinação.
Entre outros aspectos, é descrito um novo algoritmo de cálculo de múltiplos COGs locais seguido da derivação de um conjunto de filtros de passagem de banda alinhados com as posições calculadas de COG. Alguns dados de resultado exemplares do cálculo do COG e de seu conjunto associado de filtros de passagem de banda são apresentados e discutidos.
Embora alguns aspectos tenham sido descritos no contexto de um equipamento, é evidente que esses aspectos também representam uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa do método ou uma característica de uma etapa do método. Analogamente, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item correspondente ou uma característica de um equipamento correspondente.
O sinal de áudio codificado da invenção pode ser armazenado em um meio de armazenamento digital ou pode ser transmitido em um meio de transmissão, por exemplo, um meio de transmissão sem fio ou com fio, por exemplo, a Internet.
Dependendo de certas exigências de implementação, as configurações da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando um meio de armazenamento digital, por exemplo, um disco flexível, um DVD, um Blue-Ray, um CD, uma ROM, uma PROM, uma EPROM, uma EEPROM ou uma FLASH memory, tendo sinais de controle eletronicamente legíveis neles armazenados que cooperam (ou são capazes de cooperar) com um sistema de computador programável, de modo que o respectivo método seja realizado. Portanto, o meio de armazenamento digital pode ser legível por computador.
Algumas configurações de acordo com a invenção compreendem um portador de dados tendo sinais de controle eletronicamente legíveis que sejam capazes de cooperar com um sistema de computador programável como aquele dos métodos aqui descritos.
De modo geral, as configurações da presente invenção podem ser implementadas como um produto para programa de computador com um código de programa, o código de programa sendo operacional para realizar um dos métodos quando o produto para programa de computador for executado em um computador. O código de programa pode, por exemplo, ser armazenado em um portador legível em máquina.
Outras configurações compreendem o programa de computador para realizar um dos métodos aqui descritos, armazenados em um portador legível em máquina.
Em outras palavras, uma configuração do método da invenção é, portanto, um programa de computador tendo um código de 49/50 programa para realizar um dos métodos aqui descritos, quando o programa de computador é executado em um computador.
Outra configuração do método da invenção é, portanto, um portador de dados (ou um meio de armazenamento digital ou um meio legível em computador) compreendendo, neles registrados, o programa de computador para realizar um dos métodos aqui descritos.
Outra configuração do método da invenção é, portanto, um fluxo de dados ou uma sequência de sinais que representa o programa de computador para realizar um dos métodos aqui descritos. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido por meio de uma conexão de comunicação de dados, por exemplo, via Internet.
Outra configuração compreende um meio de processamento, por exemplo, um computador ou um dispositivo lógico programável, configurado ou adaptado para realizar um dos métodos aqui descritos.
Outra configuração compreende um computador tendo nele instalado o programa de computador para realizar um dos métodos aqui descritos.
Em algumas configurações, um dispositivo lógico programável (por exemplo, uma matriz de porta programável de campo) pode ser utilizado para realizar alguma ou todas as funcionalidades dos métodos aqui descritos. Em algumas configurações, uma matriz de porta programável de campo pode cooperar com um microprocessador para realizar um dos métodos aqui descritos. De modo geral, os métodos são preferencialmente realizados por qualquer equipamento de hardware.
As configurações acima descritas são meramente ilustrativas para os princípios da presente invenção. Deve ser compreendido que modificações e variações dos arranjos e dos detalhes aqui descritos ficarão evidentes aos técnicos no assunto.
Portanto, a intenção é ficar limitado somente pelo escopo das reivindicações a seguir da patente e não pelos detalhes específicos apresentados pela descrição e explicação das configurações da presente invenção.

Claims (21)

1. Equipamento (100) para a determinação de diversos centros de gravidade local das frequências (132) de um espectro (102) de um sinal de áudio, caracterizado por compreender: um determinador de compensação (110) configurado para determinar uma frequência de compensação (112) para cada frequência de início de iteração das diversas frequências de início de iteração com base no espectro (102) do sinal de áudio, compreendendo diversos valores discretos de amostra do espectro (102) sendo que a quantidade de tais valores discretos de amostra é maior que a quantidade das frequências de início de iteração; um determinador de frequência (120) configurado para determinar diversas novas frequências de início de iteração (122) por meio do aumento ou redução de cada frequência de início de iteração das diversas frequências de início de iteração pela frequência de compensação determinada correspondente (112); e um controlador de iteração (130) configurado para prover as novas diversas frequências de início de iteração (122) ao determinador de compensação (110) para que seja efetuada mais uma iteração ou para prover os diversos centros de gravidade local das frequências (132), caso uma condição para término de iterações seja atendida, sendo que a dita condição é que os diversos centros de gravidade local de frequências (132) sejam iguais às novas diversas frequências de início de iteração (122).
2. Equipamento, de acordo com a reivindicação 1, caracterizado pelo fato de que o determinador de compensação (110) é configurado para determinar a frequência de compensação (112) para uma frequência de início de iteração com base em diversos valores discretos de amostra do espectro (102), valores correspondentes de um parâmetro de peso e valores correspondentes de um parâmetro de distância.
3. Equipamento, de acordo com a reivindicação 2, caracterizado pelo fato de que os valores do parâmetro de distância são igualmente espaçados entre si em uma escala logarítmica, onde todos os valores do parâmetro de distância são menores que um valor de distância máximo.
4. Equipamento, de acordo com a reivindicação 2 ou 3, caracterizado pelo fato de que os valores do parâmetro de peso são todos iguais ou os valores do parâmetro de peso são decrescentes para valores absolutos crescentes do parâmetro de distância correspondente.
5. Equipamento, de acordo qualquer uma das reivindicações de 1 a 4, caracterizado pelo fato de que o determinador de compensação (110) é configurado para determinar a frequência de compensação (112) para cada frequência de início de iteração com base no espectro (102), onde o espectro (102) compreende uma escala logarítmica.
6. Equipamento, de acordo qualquer uma das reivindicações de 1 a 5, caracterizado pelo fato de que o equipamento é configurado para determinar diversos centros de gravidade local das frequências (132) para cada bloco de tempo dos diversos blocos de tempo do sinal de áudio.
7. Equipamento, de acordo com a reivindicação 6, caracterizado pelo fato de que as diversas frequências de início de iteração são inicializadas de forma igualmente espaçada entre si em uma escala logarítmica para uma primeira iteração de um bloco de tempo dos diversos blocos de tempo.
8. Equipamento, de acordo com a reivindicação 6, caracterizado pelo fato de que as diversas frequências de início de iteração para uma primeira iteração de um bloco de tempo são baseadas em diversos centros de gravidade local das frequências (132) determinadas para um bloco de tempo anterior.
9. Equipamento, de acordo qualquer uma das reivindicações de 1 a 8, caracterizado por compreender um somador de frequência (210) configurado para somar uma frequência de início de iteração às novas diversas frequências de início de iteração (122), caso uma distância de frequência entre duas frequências adjacentes de início de iteração das novas diversas frequências de início de iteração (122) seja maior que a distância máxima de frequência.
10. Equipamento, de acordo com qualquer uma das reivindicações de 1 a 9, caracterizado por compreender um mesclador de frequência (220) configurado para mesclar duas frequências adjacentes de início de iteração das diversas frequências de início de iteração (122), caso uma distância de frequência entre as duas frequências adjacentes de início de iteração seja menor que uma distância mínima de frequência.
11. Equipamento, de acordo com a reivindicação 10, caracterizado pelo fato de que o mesclador de frequência (220) é configurado para mesclar as duas frequências adjacentes de início de iteração substituindo-se as duas frequências adjacentes de início de iteração por uma nova frequência de início de iteração localizada entre as duas frequências adjacentes de início de iteração.
12. Equipamento, de acordo com qualquer uma das reivindicações de 1 a 11, caracterizado por compreender um removedor de frequência (230) configurado para remover uma frequência de início de iteração das novas diversas frequências de início de iteração (122), caso a frequência de início de iteração seja maior que uma frequência máxima do espectro (102) predefinida do sinal de áudio ou caso a frequência de início de iteração seja menor que uma frequência mínima do espectro (102) predefinida do sinal de áudio.
13. Equipamento, de acordo com qualquer uma das reivindicações de 6 a 12, caracterizado pelo fato de que a condição de término predefinida é atendida, caso um valor absoluto de uma soma da compensação de frequência determinada para um bloco atual de tempo e a compensação de frequência determinada para um bloco de tempo anterior para cada frequência de início de iteração seja menor que uma compensação limiar predefinida.
14. Equipamento, de acordo com qualquer uma das reivindicações de 1 a 13, caracterizado por compreender um pré- processador (310) configurado para gerar um espectro de transformada de Fourier para um bloco de tempo do sinal de áudio, para gerar um espectro suave com base no espectro de transformada de Fourier do bloco de tempo, para gerar o espectro (102) do sinal de áudio (302) a ser provido ao determinador de compensação (110) dividindo-se o espectro de transformada de Fourier com o espectro suavizado, para mapear o espectro (102) em uma escala logarítmica e para prover o espectro logarítmico (102) ao determinador de compensação (110), ou configurado para gerar um espectro de transformada de Fourier para um bloco de tempo do sinal de áudio, para mapear o espectro de transformada de Fourier (102) em uma escala logarítmica, para gerar um espectro suave com base no espectro logarítmico de transformada de Fourier do bloco de tempo, para gerar o espectro (102) do sinal de áudio (302) a ser provido ao determinador de compensação (110) dividindo-se o espectro logarítmico de transformada de Fourier com o espectro suavizado e para prover o espectro (102) ao determinador de compensação (110).
15. Equipamento, de acordo com a reivindicação 14, caracterizado pelo fato de que o pré-processador (310) compreende um filtro configurado para suavizar temporalmente o espectro de transformada de Fourier, o espectro logarítmico de transformada de Fourier e/ou o espectro suavizado antes de dividir o espectro de transformada de Fourier ou o espectro logarítmico de transformada de Fourier com o espectro suavizado.
16. Banco de filtro adaptativo de sinal (800) para filtrar um sinal de áudio (802), caracterizado por compreender: um equipamento para a determinação de diversas frequências de centro de gravidade local de um espectro do sinal de áudio (802) de acordo com uma das reivindicações de 1 a 15; e diversos filtros de passagem de banda (810) configurados para filtrar o sinal de áudio (802) para obter um sinal de áudio filtrado (812) e para prover o sinal de áudio filtrado (812), compreendendo que uma frequência central e uma largura de banda de cada filtro de passagem de banda dos diversos filtros de passagem de banda (810) são baseadas nos diversos centros de gravidade local das frequências (132).
17. Banco de filtro adaptativo de sinal, de acordo com reivindicação 16, caracterizado pelo fato de que cada filtro de passagem de banda dos diversos filtros de passagem de banda (810) corresponde a um centro de gravidade local das frequências, onde a frequência central e a largura de banda de um filtro de passagem de banda dependem da frequência correspondente do centro de gravidade local e das frequências adjacentes de centro de gravidade local da frequência correlacionada de centro de gravidade.
18. Banco de filtro adaptativo de sinal, de acordo com reivindicação 16 ou 17, caracterizado pelo fato de que a largura de banda dos diversos filtros de passagem de banda (810) é determinada de modo que todo o espectro seja coberto sem furos.
19. Vocoder de fase caracterizado por compreender um banco de filtro adaptativo de sinal, de acordo com uma das reivindicações de 15 a 18...
20. Equipamento (1100) para a conversão de um sinal de áudio (1102) em uma representação parametrizada (1132), caracterizado por compreender: um equipamento para a determinação dos centros de gravidade local das frequências (132) de um espectro do sinal de áudio (1102) de acordo com uma das reivindicações de 1 a 15; uma calculadora de passagem de banda (1110) para calcular informações (1112) dos diversos filtros de passagem de banda (810) com base nas diversas frequências de centro de gravidade local (132), compreendendo que as informações sobre os diversos filtros de passagem de banda (810) compreendem informações sobre um formato de filtro para a porção do sinal de áudio, onde a largura de banda de um filtro de passagem de banda é diferente em relação a um espectro de áudio; uma calculadora de modulação (1120) para calcular uma modulação de amplitude (1122) ou uma modulação de frequência (1124) ou uma modulação de fase (1124) para cada banda dos diversos filtros de passagem de banda (810) para a porção do sinal de áudio utilizando as informações (1112) sobre os diversos filtros de passagem de banda (810); e uma interface de saída (1130) para transmitir, armazenar ou modificar as informações sobre a modulação de amplitude, as informações sobre a modulação de frequência ou a modulação de fase ou as informações sobre os diversos filtros de passagem de banda (810) para a porção do sinal de áudio.
21. Método (1400) para a determinação de diversos centros de gravidade local das frequências de um espectro de um sinal de áudio, caracterizado por compreender: determinação (1410) de uma frequência de compensação (112) para cada frequência de início de iteração das diversas frequências de início de iteração com base no espectro (102) do sinal de áudio, compreendendo diversos valores discretos de amostra do espectro (102) sendo que a quantidade de tais valores discretos de amostra é maior que a quantidade das frequências de início de iteração; determinação (1420) de diversas novas frequências de início de iteração por meio do aumento ou redução de cada frequência de início de iteração das diversas frequências de início de iteração pela frequência de compensação determinada correspondente; e provisão (1430) das novas diversas frequências de início de iteração para outra iteração ou provisão (1440) dos diversos centros de gravidade local (132) das frequências, caso uma condição para término de iterações seja atendida, sendo que a dita condição é que os diversos centros de gravidade local de frequências (132) sejam iguais às novas diversas frequências de início de iteração (122).
BRPI1001241-9A 2009-04-03 2010-03-18 Equipamento e método para a determinação de diversos centros degravidade local das frequências de um espectro de um sinal de áudio BRPI1001241B1 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US16656209P 2009-04-03 2009-04-03
US61/166,562 2009-04-03
EP09011091.7 2009-08-28
EP09011091A EP2237266A1 (en) 2009-04-03 2009-08-28 Apparatus and method for determining a plurality of local center of gravity frequencies of a spectrum of an audio signal
PCT/EP2010/053574 WO2010112348A1 (en) 2009-04-03 2010-03-18 Apparatus and method for determining a plurality of local center of gravity frequencies of a spectrum of an audio signal

Publications (2)

Publication Number Publication Date
BRPI1001241A2 BRPI1001241A2 (pt) 2017-06-13
BRPI1001241B1 true BRPI1001241B1 (pt) 2021-02-23

Family

ID=41328588

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI1001241-9A BRPI1001241B1 (pt) 2009-04-03 2010-03-18 Equipamento e método para a determinação de diversos centros degravidade local das frequências de um espectro de um sinal de áudio

Country Status (12)

Country Link
US (1) US8996363B2 (pt)
EP (2) EP2237266A1 (pt)
JP (1) JP5283757B2 (pt)
KR (1) KR101264486B1 (pt)
CN (1) CN102027533B (pt)
AU (1) AU2010219353B2 (pt)
BR (1) BRPI1001241B1 (pt)
CA (1) CA2721402C (pt)
HK (1) HK1165602A1 (pt)
MX (1) MX2010011863A (pt)
RU (1) RU2490729C2 (pt)
WO (1) WO2010112348A1 (pt)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101701759B1 (ko) * 2009-09-18 2017-02-03 돌비 인터네셔널 에이비 입력 신호를 전위시키기 위한 시스템 및 방법, 및 상기 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독가능 저장 매체
FR2956743B1 (fr) * 2010-02-25 2012-10-05 Inst Francais Du Petrole Procede non intrusif de determination de l'impedance electrique d'une batterie
FR2961938B1 (fr) * 2010-06-25 2013-03-01 Inst Nat Rech Inf Automat Synthetiseur numerique audio ameliore
US8855322B2 (en) * 2011-01-12 2014-10-07 Qualcomm Incorporated Loudness maximization with constrained loudspeaker excursion
GB2488768A (en) * 2011-03-07 2012-09-12 Rhodia Operations Treatment of hydrocarbon-containing systems
EP2631906A1 (en) 2012-02-27 2013-08-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Phase coherence control for harmonic signals in perceptual audio codecs
EP2720222A1 (en) * 2012-10-10 2014-04-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient synthesis of sinusoids and sweeps by employing spectral patterns
EP3171362B1 (en) * 2015-11-19 2019-08-28 Harman Becker Automotive Systems GmbH Bass enhancement and separation of an audio signal into a harmonic and transient signal component
CN109427345B (zh) * 2017-08-29 2022-12-02 杭州海康威视数字技术股份有限公司 一种风噪检测方法、装置及系统
JP2019106575A (ja) * 2017-12-08 2019-06-27 ルネサスエレクトロニクス株式会社 無線受信機、及び中間周波数信号生成方法
KR102277952B1 (ko) * 2019-01-11 2021-07-19 브레인소프트주식회사 디제이 변환에 의한 주파수 추출 방법
CN113544774B (zh) * 2019-03-06 2024-08-20 弗劳恩霍夫应用研究促进协会 降混器及降混方法
CN112666547B (zh) * 2020-12-11 2024-03-19 北京理工大学 一种无线电多普勒信号频率提取和脱靶量测量方法
CN114236231B (zh) * 2021-12-08 2024-08-09 湖南艾科诺维科技有限公司 一种载波频率估计方法、系统及介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5633499A (en) * 1995-11-21 1997-05-27 Trionix Research Laboratory, Inc. Scatter elimination technique and apparatus in radionuclide emission and transmission imaging in a nuclear camera
AU7711498A (en) * 1997-06-02 1998-12-21 Joseph A. Izatt Doppler flow imaging using optical coherence tomography
RU2174714C2 (ru) 1998-05-12 2001-10-10 Научно-технический центр "Вычислительная техника" Способ выделения основного тона
EP1263326A4 (en) * 2000-03-17 2004-09-01 Univ Texas STRAIN ESTIMATORS WITH POWER SPECTRAS IN ELASTOGRAPHY
JP2004334160A (ja) 2002-09-24 2004-11-25 Matsushita Electric Ind Co Ltd 特徴量抽出装置
EP1403783A3 (en) 2002-09-24 2005-01-19 Matsushita Electric Industrial Co., Ltd. Audio signal feature extraction
TWI330355B (en) * 2005-12-05 2010-09-11 Qualcomm Inc Systems, methods, and apparatus for detection of tonal components
KR100653643B1 (ko) 2006-01-26 2006-12-05 삼성전자주식회사 하모닉과 비하모닉의 비율을 이용한 피치 검출 방법 및피치 검출 장치

Also Published As

Publication number Publication date
RU2010136359A (ru) 2012-03-10
CA2721402C (en) 2014-08-26
JP2012507055A (ja) 2012-03-22
AU2010219353B2 (en) 2011-10-06
RU2490729C2 (ru) 2013-08-20
CN102027533B (zh) 2012-11-07
US8996363B2 (en) 2015-03-31
WO2010112348A1 (en) 2010-10-07
BRPI1001241A2 (pt) 2017-06-13
US20120008799A1 (en) 2012-01-12
MX2010011863A (es) 2010-11-30
EP2401740B1 (en) 2013-01-16
AU2010219353A1 (en) 2010-10-21
CA2721402A1 (en) 2010-10-07
EP2237266A1 (en) 2010-10-06
CN102027533A (zh) 2011-04-20
JP5283757B2 (ja) 2013-09-04
HK1165602A1 (en) 2012-10-05
KR20110002089A (ko) 2011-01-06
KR101264486B1 (ko) 2013-05-15
EP2401740A1 (en) 2012-01-04

Similar Documents

Publication Publication Date Title
BRPI1001241B1 (pt) Equipamento e método para a determinação de diversos centros degravidade local das frequências de um espectro de um sinal de áudio
ES2523800T3 (es) Aparato y procedimiento para modificar una señal de audio usando modelado de envolvente
US10430154B2 (en) Tonal/transient structural separation for audio effects
RU2731372C2 (ru) Способ и система для разложения акустического сигнала на звуковые объекты, а также звуковой объект и его использование
ES2895268T3 (es) Aparato y método para modificar una representación parametrizada
BR122019025142B1 (pt) Sistema e método para gerar um sinal de tempo alongado e/ou um sinal de frequência transposta a partir de um sinal de entrada e meio de armazenamento legível por computador não transitório
BRPI0906142B1 (pt) dispositivo e método para a manipulação de um sinal de áudio tendo um evento transiente
BR122021014312B1 (pt) Aparelho e método para processar um sinal de áudio utilizando alinhamento de borda de patch
BR122019025134B1 (pt) sistema e método para gerar um sinal transposto de frequência e/ou estendido no tempo a partir de um sinal de áudio de entrada e meio de armazenamento
CN113257211B (zh) 音频调节方法、介质、装置和计算设备
Ghanavi Final Proposal for Digital Audio Systems, DESC9115, 2018
Molina et al. Dissonance reduction in polyphonic audio using harmonic reorganization
BR122019025118B1 (pt) Sistema e método para gerar um sinal de tempo alongado e/ou um sinal de frequência transposta a partir de um sinal de entrada e meio de armazenamento legível por computador
BRPI0906247B1 (pt) Equipamento e método para converter um sinal de áudio em uma representação parametrizada, equipamento e método para modificar uma representação parametrizada, equipamento e método para sintetizar uma representação parametrizada de um sinal de áudio
Glover et al. Metamorph: Real-Time High-Level Sound Transformations Based On A Sinusoids Plus Noise Plus Transients Model
BR112012021370B1 (pt) Aparelho e método para modificar um sinal de aúdio usando envelope de moldagem

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according art. 34 industrial property law
B06U Preliminary requirement: requests with searches performed by other patent offices: suspension of the patent application procedure
B06A Notification to applicant to reply to the report for non-patentability or inadequacy of the application according art. 36 industrial patent law
B15K Others concerning applications: alteration of classification

Free format text: AS CLASSIFICACOES ANTERIORES ERAM: G10L 11/00 , G10L 11/04 , G10L 19/02

Ipc: G10L 19/02 (2013.01), G10L 25/48 (2013.01), G10L 2

B06A Notification to applicant to reply to the report for non-patentability or inadequacy of the application according art. 36 industrial patent law
B09A Decision: intention to grant
B16A Patent or certificate of addition of invention granted

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 23/02/2021, OBSERVADAS AS CONDICOES LEGAIS.