BRPI0906247B1 - Equipamento e método para converter um sinal de áudio em uma representação parametrizada, equipamento e método para modificar uma representação parametrizada, equipamento e método para sintetizar uma representação parametrizada de um sinal de áudio - Google Patents

Equipamento e método para converter um sinal de áudio em uma representação parametrizada, equipamento e método para modificar uma representação parametrizada, equipamento e método para sintetizar uma representação parametrizada de um sinal de áudio Download PDF

Info

Publication number
BRPI0906247B1
BRPI0906247B1 BRPI0906247-5A BRPI0906247A BRPI0906247B1 BR PI0906247 B1 BRPI0906247 B1 BR PI0906247B1 BR PI0906247 A BRPI0906247 A BR PI0906247A BR PI0906247 B1 BRPI0906247 B1 BR PI0906247B1
Authority
BR
Brazil
Prior art keywords
information
frequency
modulation
bandpass
bandpass filter
Prior art date
Application number
BRPI0906247-5A
Other languages
English (en)
Inventor
Disch Sascha
Original Assignee
Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. filed Critical Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V.
Priority claimed from PCT/EP2009/001707 external-priority patent/WO2009115211A2/en
Publication of BRPI0906247A8 publication Critical patent/BRPI0906247A8/pt
Publication of BRPI0906247B1 publication Critical patent/BRPI0906247B1/pt

Links

Abstract

EQUIPAMENTO E MÉTODO PARA CONVERTER UM SINAL DE ÁUDIO EM UMA REPRESENTAÇÃO PARAMETRIZADA, EQUIPAMENTO E MÉTODO PARA MODIFICAR UMA REPRESENTAÇÃO PARAMETRIZADA, EQUIPAMENTO E MÉTODO PARA SINTETIZAR UMA REPRESENTAÇÃO PARAMETRIZADA DE UM SINAL DE ÁUDIO. Um equipamento para converter um sinal de áudio em uma representação parametrizada, compreende um analisador de sinal (102) para analisar uma porção do sinal de áudio para obter um resultado de análise; uma calculadora de passagem de banda (106) para calcular informações de diversos filtros de passagem de banda com base no resultado da análise, onde as informações sobre os diversos filtros de passagem de banda compreendem informações sobre um formato de filtro para a porção do sinal de áudio, onde a largura de banda de um filtro de passagem de banda é diferente em um espectro de áudio e depende da frequência central do filtro de passagem de banda; uma calculadora de modulação (110) para calcular uma modulação de amplitude (112) ou uma modulação de frequência (114) ou uma modulação de fase para cada banda dos diversos filtros de passagem de banda para uma porção do sinal de áudio utilizando as informações sobre os diversos filtros de passagem de banda; e uma interface de saída (116) para transmitir, armazenar ou modificar (...).

Description

ESPECIFICAÇÃO
A presente invenção refere-se a uma codificação - de áudio e, em particular, a esquemas de codificação de áudio parametrizada que são aplicados em vocoders.
Uma classe de vocoders são os vocoders de fase. Um tutorial sobre os vocoders de fase é a publicação "The Phase Vocoder: A tutorial", Mark Dolson, Computer Music Journal, Volume 10, No. 4, pages 14 to 27, 1986. An additional publication is "New phase vocoder techniques for pitch-shifting, harmonizing and other exotic effects", L. Laroche and M. Dolson, proceedings 1999, IEEE workshop on applications of signal processing to audio and acoustics, New Paltz, New York, October 17 to 20, 1999, pages 91 to 94.
As Figuras 5 a 6 ilustram diferentes L implementações e aplicações para urn vocoder de fase. A Figura 5 ilustra uma implementação de banco de filtro de um vocoder de fase, na qual um sinal de áudio é provido em uma entrada 500, e onde, em uma saida 510, um sinal de áudio sintetizado é obtido. Especificamente, cada canal do banco de filtro ilustrado na Figura 5 compreende um filtro de passagem de banda 501 e um oscilador subsequentemente conectado 502. Os sinais de saida de todos os osciladores 502 de todos os canais são combinados por meio de um combinador 503, que é ilustrado como um adicionador. Na saida do combinador 503, o sinal de saida 510 é obtido.
Cada filtro 501 é implementado para prover, por um lado, um sinal de amplitude A(t), e por outro lado, o sinal de V frequência f (t) . O sinal de amplitude e o sinal de frequência são sinais de tempo. O sinal de amplitude ilustra um desenvolvimento da amplitude dentro de uma banda de filtro no decorrer do tempo e o sinal de frequência ilustra o desenvolvimento da frequência de um filtro sinal de saida no decorrer do tempo.
A implementação esquemática de um filtro 501 é ilustrada na Figura 6. O sinal que entra é roteado para dois 10 caminhos paralelos. Em um caminho, o sinal é multiplicado por uma onda seno com uma amplitude de 1,0 e uma frequência igual à frequência central do filtro de passagem de banda conforme ilustrado em 551. No outro caminho, o sinal é multiplicado ‘por uma onda co-seno da mesma amplitude e frequência conforme ilustrado em 15 551. Assim, os dois caminhos paralelos são idênticos, exceto pela fase da forma de onda de multiplicação. Então, em cada caminho, o resultado da multiplicação é alimentado em um filtro de baixa passagem 553. A operação de multiplicação em si também é conhecida como uma modulação de anel simples. A multiplicação de qualquer 20 sinal por uma onda seno (ou co-seno) de frequência constante tem o efeito de alterar simultaneamente todos os componentes de frequência no sinal original tanto por mais e menos a frequência da onda seno. Se esse resultado for agora passado por um filtro de baixa passagem apropriado, somente a porção de baixa frequência 25 permanecerá. Essa sequência de operações também é conhecida como heterodinação. Essa heterodinação é realizada em cada um dos dois caminhos paralelos, porém, uma vez que um caminho realiza a heterodinação com uma onda seno, ao passo que o outro caminho j, utiliza uma onda co-seno, os sinais heterodinizados resultantes nos dois caminhos estão fora de fase em 90°. O filtro superior de baixa passagem 553, portanto, provê um sinal quadrático 554 e o filtro inferior 553 provê um sinal em fase. Esses dois sinais, que 5 também são conhecidos como sinais I e Q, são enviados para um transformador de coordenada 556, que gera uma representação de magnitude/fase a partir da representação retangular.
O sinal de amplitude é enviado em 557 e corresponde a A(t) da Figura 5. O sinal de fase é inserido em um .. 10 desbloqueador de fase 558. Na saida do elemento 558, não existe um valor de fase entre 0 e 360°, porém um valor de fase que aumenta de forma linear. Esse valor de fase "desbloqueado" é inserido em ' um conversor de fase/frequência 559 que pode, por exemplo, ser implementado como um dispositivo de diferença de fase que subtrai 15 uma fase em um instante de tempo anterior da fase em um instante de tempo atual para obter o valor de frequência para o instante de tempo atual.
Esse valor de frequência é somado a um valor de frequência constante fi do canal de filtro i, para obter um valor 20 de frequência variável no tempo em uma saida 560.
O valor de frequência na saida 560 tem uma porção DC fi e uma porção de alteração, que também é conhecida como a "oscilação de frequência", por meio da qual uma frequência de sinal atual no canal de filtro desvia da frequência central f±.
Assim, o vocoder de fase conforme ilustrado na Figura 5 e na Figura 6 provê uma separação de informações espectrais e informações de tempo. As informações espectrais são compreendidas no local do banco de canal de filtro especifico na . frequência f±, e as informações de tempo estão na oscilação de frequência e na magnitude no decorrer do tempo.
Outra descrição do vocoder de fase é a interpretação da transformada de Fourier. Consiste em uma sucessão de transformadas de Fourier de sobreposição realizadas em intervalos de tempo de duração finita. Na interpretação da transformada de Fourier, a atenção é focada na magnitude e nos valores de fase para todas as diferentes bandas de filtro ou compartimentos de frequência no ponto único no tempo. Enquanto que na interpretação do banco de filtro, a re-sintese pode ser vista como um exemplo clássico de sintese aditiva com controles de amplitude e frequência variáveis no tempo para cada oscilador, a sintese, na implementação de Fourier, é realizada pôr ‘meio da conversão de volta à forma real e imaginária e sobreposição-soma das sucessivas transformadas de Fourier inversas. Na interpretação de Fourier, o número de bandas de filtro nos vocoder de fase é o número de pontos de frequência na transformada de Fourier. Similarmente, o espaçamento igual na frequência dos filtros individuais pode ser reconhecido como a característica fundamental da transformada de Fourier. Por outro lado, o formato dos filtros de passagem de banda, ou seja, a inclinação do corte nas bordas da banda, é determinado pelo formato da função de intervalo que é aplicada antes do cálculo da transformada. Para um formato, característico em particular, por exemplo, intervalo de Hamming, a inclinação do corte do filtro aumenta de forma diretamente proporcional à duração do intervalo.
É útil observar que as duas diferentes interpretações da análise do vocoder de fase se aplicam somente à implementação do banco de filtros de passagem de banda. A operação por meio da qual as saidas desses filtros são expressas como 4 amplitudes e frequências variáveis no tempo é a mesma para ambas as implementações. O objetivo básico do vocoder de fase é separar informações temporais das informações espectrais. A estratégia de operação é dividir o sinal em diversas bandas espectrais e caracterizar o sinal variável no tempo em cada banda.
Duas operações básicas são particularmente significativas. Essas operações são de escalação de tempo e , transposição de passo. É sempre possivel reduzir um som gravado simplesmente reproduzindo-o novamente a uma velocidade de amostra menor. É o mesmo que reproduzir uma gravação em fita com uma velocidade de reprodução menor. Porém, esse tipo de expansão de tempo simplista simultaneamente reduz o passo ao mesmo fator que a expansão de tempo. Reduzindo a evolução temporal de um som sem alterar seu passo requer uma separação explicita de informações temporais e espectrais. Conforme acima observado, isto é precisamente o que o vocoder de fase tenta fazer. Estender os sinais de amplitude e frequência A(t) e f(t) variáveis no tempo para a Figura 5a não altera a frequência dos osciladores individuais, porém reduz a evolução temporal do som composto. O resultado é um som expandido no tempo como passo original. A vista de escalação de tempo da transformada de Fourier _é tal que, para _ expandir o tempo de um som, os FFTs inversos podem simplesmente ser espaçados ainda mais do que os FFTs de análise. Como resultado, as alterações espectrais ocorrem mais lentamente no som sintetizado do que no original nessa aplicação, e a fase é rescalada precisamente pelo mesmo fator pelo qual o som está sendo expandido no tempo.
A outra aplicação é a transposição de passo. Uma vez que o vocoder de fase pode ser utilizado para alterar a evolução temporal de um som sem alterar seu passo, também deve ser possivel fazer o contrário, ou seja, alterar o passo sem alterar a duração. Isso é feito tanto por escala de tempo utilizando o fator de alteração de passo desejado e então reproduzindo os sons resultantes na velocidade de amostra incorreta ou realizando uma amostragem descendente por um fator desejado e reprodução em velocidade inalterada. Por exemplo, para aumentar o passo em uma . 10 oitava, o som é primeiramente expandido no tempo por um fator de 2 e a expansão no tempo é então reproduzida em duas vezes a velocidade de amostra original.
O vocoder (ou 'VODER') foi inventado por Dudley como uma dispositivo sintetizador operado manualmente para gerar a 15 fala humana [2]. Algum considerável tempo depois, o principio de sua operação foi ampliado para o assim chamado vocoder de fase [3] [4] . O vocoder de fase opera em espectros DFT de curto tempo de sobreposição e, portanto, em um conjunto de filtros de sub-banda com frequências centrais fixas. O vocoder teve ampla aceitação 20 como um principio básico para a manipulação de arquivos de audio. Por exemplo, efeitos de áudio como a expansão do tempo e a transposição de passo são facilmente realizados por um vocoder [5]. Desde então, diversas modificações e aprimoramentos dessa_ tecnologia foram publicadas. Especificamente, as restrições de se 25 ter filtros de análise de frequência fixa foram reduzidas pela inclusão de um mapeamento derivado de frequência fundamental ( 'fO'), por exemplo no vocoder 'STRAIGHT' [6] . Ainda, o caso de uso prevalente continua sendo a codificação/processamento da fala.
Outra área de interesse para a comunidade de processamento de áudio têm sido a decomposição de sinais de fala em componentes modulados. Cada componente consiste de um portador, uma parte de modulação de amplitude (AM) e uma parte de modulação de frequência (FM) . Uma forma adaptativa ao sinal dessa decomposição foi publicada, por exemplo, em [7] sugerindo o uso de um conjunto de filtros de passagem de banda adaptativos ao sinal. . Em [8] foi apresentada uma abordagem que utiliza informações de AM em combinação com um codificador paramétrico 'sinusoides mais ruído'. Outro método de decomposição foi publicado em [9] utilizando a assim chamada estratégia 'FAME': aqui, os sinais de fala foram decompostos em quatro bandas utilizandos filtros de passagem de banda para extrair subsequentemente seu conteúdo AM ê FM. As publicações mais recentes também tem como objetivo reproduzir sinais de áudio a partir de informações de AM (envelopes de sub-banda) sozinhos e sugerem métodos iterativos para recuperação das informações de fase associadas que predominantemente contêm a FM [10].
Nossa abordagem aqui apresentada tem como objetivo o processamento de sinais de áudio gerais, portanto, também incluindo música. É semelhante a um vocoder de fase, porém modificado para realizar uma decomposição de sub-banda dependente de sinal perceptivamente motivada em um conjunto de frequências portadoras de sub-banda com sinais de AM e FM associados cada. Queremos apontar que essa decomposição é perceptivamente significativa e que seus elementos podem ser interpretados de forma direta, de modo que todos os tipos de processamento de modulação nos componentes da decomposição se tornem viáveis.
Para atingir o objetivo acima mencionado, nos baseamos na observação de que existem sinais perceptivamente similares. Um sinal de passagem de banda de tom de banda suficientemente estreita é perceptivamente bem representado por 5 uma portador sinusoidal em sua posição de 'centro de gravidade' (COG) espectral e em seu envelope Hilbert. Isto é baseado no fato de que ambos os sinais aproximadamente evocam o mesmo movimento da membrana basilar no ouvido humano [11]. Um exemplo simples para ilustrar isto é o complexo de dois tons (1) com frequências fi e f2 10 suficientemente próximas entre si, de modo que se fundam perceptivamente em um componente modulado (over-)
Um.sinal consistindo em um portador sinusoidal em uma frequência igual ao COG espectral de st e tendo o mesmo envelope de amplitude absoluta que st é sm de acordo com (2)
Na Figura 9b (gráfico superior e intermediário), são ilustrados o sinal de tempo e o envelope de Hilbert de ambos os sinais. Observar o pulo de fase de π no primeiro sinal em zeros do envelope em oposição ao segundo sinal. A Figura 9a mostra os gráficos de densidade de potência espectral dos dois sinais (gráfico superior e intermediário).
Embora esses sinais sejam diferentes em termos de seu teor espectral, suas indicações perceptivas predominantes - a frequência 'média' representada pelo COG, e o envelope de amplitude - são semelhante. Isto os torna substitutos perceptivamente mútuos com relação a uma região » espectral limitada pela banda centralizada no COG conforme ilustrado na Figura 9a e na Figura 9b (gráficos inferiores). O A mesmo principio ainda é verdadeiro aproximadamente para sinais mais complicados.
De modo geral, os sistemas de análise/sintese de modulação que decompõem uma sinal de banda larga em um conjunto de componentes, cada um compreendendo informações de portador, de modulação de amplitude e de modulação de frequência, possuem muitos graus de liberdade uma vez que, em geral, essa tarefa representa um sério problema. Os métodos que modificam os envelopes de magnitude de sub-banda de espectros de áudio complexam e subsequentemente os recombinam com suas fases não modificadas para re-sintese que resulta em artefatos, uma vez' que esses procedimentos dão atenção ao receptor final do som, ou seja, 15 o ouvido humano.
Além disso, a aplicação de FFTs muito longos, ou seja, intervalos muito longos para obter uma resolução de frequência fina, simultaneamente reduz a resolução de tempo. Por outro lado, sinais temporários não exigem uma alta resolução de c frequência, porém exigem uma alta resolução de tempo, uma vez, em um determinado instante de tempo/ os sinais de passagem de banda apresentam forte correlação mútua, o que também é conhecido como "coerência vertical". Nessa terminologia, imagina-se um gráfico de_ — ” espéctrograma de tempo onde, no eixo horizontal, a variável de tempo é utilizada e, no eixo vertical, a variável de frequência é utilizada. O processamento de sinais temporários com altissima resolução de frequência resultarão, portanto, em uma baixa resolução de tempo, que, ao mesmo tempo significa uma perda quase . completa da coerência vertical. Novamente, o receptor final do som, ou seja, o ouvido humano, não é considerado nesse modelo, g
A publicação [22] revela uma metodologia de análise para extrair parâmetros sinusoidais precisos de sinais de áudio. O método combina o cálculo de parâmetro de vocoder modificado com algoritmos de detecção de pico atualmente utilizados no modelo sinusoidal. O sistema processa a entrada quadro a quadro, busca os picos como um modelo de análise sinusoidal, porém também seleciona dinamicamente canais de vocoder . 10 através dos quais os picos no dominio FFT são processados. Dessa forma, as trajetórias de frequência de sinusoides de frequência de alteração dentro de um quadro podem ser precisamente parametrizadas. Em uma etapa de análise- espectral detalhada, os picos e vales no FFT de magnitude são identificados. Em um 15 isolamento de pico, o espectro é zerado fora do pico de interesse e ambas as versões de frequência positiva e negativa do pico são mantidas. Então, a transformada de Hilbert desse espectro é calculada e, subsequentemente, o IFFT do espectro original e do espectro transformado de Hilbert são calculados para obter dois c , sinais de dominio de tempo, que estão 90° fora da fase entre si. Os sinais são utilizados para obtenção do sinal analitico utilizado na análise do vocoder. Picos não autênticos podem ser detectados e serão posteriormente modelados como ruido ou serão — ” êxclüidos do modelo.
Novamente, os critérios perceptivos, tais como uma largura de banda variável do ouvido humano ho espectro, ou seja, uma largura de banda tão pequena na parte inferior do espectro e uma largura de banda maior na parte superior do » espectro não são consideradas. Além disso, uma característica significativa do ouvido humano é que, conforme discutido com relação à Figura 9a, 9b e 9c, o ouvido humano combina tons sinusoidais dentro de uma largura de banda correspondente à 5 largura de banda critica do ouvido humano, de modo que um humano não ouve dois tons estáveis tendo uma pequena diferença de frequência, porém percebe um tom tendo uma amplitude variável, onde a frequência desse tom é posicionada entre as frequências dos tons originais. Esse efeito aumenta mais e mais quando a largura . 10 de banda critica do ouvido humano aumenta.
Além disso, o posicionamento das bandas criticas no espectro não é constante, porém é dependente do sinal. Descobriu-se por psicoacústica que o ouvido .humano seleciona dinamicamente as frequências centrais das bandas criticas dependendo do espectro. Quando, por exemplo, o ouvido humano percebe um tom alto, então uma banda critica é centralizada em torno desse tom alto. Quando, mais tarde, um tom alto é percebido em uma frequência diferente, então o ouvido humano posiciona uma banda critica em torno dessa frequência diferente, de modo que a 20 percepção humana não somente é adaptativa ao sinal no decorrer do tempo, mas também possui filtros tendo uma alta resolução espectral na porção de baixa frequência e tendo uma baixa resolução espectral, ou seja, alta largura de banda na parte - -- - -superior“dci 'espectro.
É o objetivo da presente invenção prover um conceito aperfeiçoado para a parametrização de um sinal de áudio e para o processamento de uma representação parametrizada por modificação ou sintese.
Esse objetivo é alcançado por um equipamento para converter um sinal de áudio de acordo com a reivindicação 1, um método de conversão de um sinal de áudio de acordo com a reivindicação 14, um equipamento para modificar a representação parametrizada de acordo com a reivindicação 15, um método de modificação da representação parametrizada de acordo com a reivindicação 19, um equipamento para sintetizar uma representação parametrizada de acordo com a reivindicação 20, um método de sintetização de uma representação parametrizada de um sinal de . 10 áudio de acordo com a reivindicação 26, uma representação parametrizada para um sinal de áudio de acordo com a reivindicação 27 ou um programa de computador de acordo com a reivindicação 28.
A presente invenção tem como base a descoberta de que a largura de banda variável das bandas criticas pode ser vantajosamente utilizada para diferentes finalidades. Um objetivo é aperfeiçoar a eficiência utilizando a baixa resolução do ouvido humano. Nesse contexto, a presente invenção procura não calcular os dados quando esses dados não são exigidos para melhorar a eficiência.
A segunda vantagem, no entanto, é que, na região, onde uma alta resolução é exigida, os dados necessários são calculados para melhorar a qualidade de um sinal parametrizado e, novamente, re-sintetizado. _ _
A principal vantagem, no entanto, é o fato de que esse tipo de decomposição de sinal provê um meio de manipulação do sinal de uma forma direta, intuitiva e perceptivamente adaptada, ou seja, para abordar diretamente propriedades tais como irregularidades, passo etc.
Para tanto, uma análise adaptativa ao sinal do sinal de áudio é realizada e, com base no resultado de análises, diversos filtros de passagem de banda são calculados de umamforma adaptativa ao sinal. Especificamente, as larguras de banda dos 5 filtros de passagem de banda não são constantes, porém dependem da frequência central do filtro de passagem de banda. Portanto, a presente invenção permite variar as frequências do filtro de passagem de banda e, além disso, variar as larguras de banda do filtro de passagem de banda, de modo que, para cada sinal de 10 passagem de banda perceptivamente correto, uma modulação de amplitude e uma modulação de frequência com uma frequência central atual, que aproximadamente é a frequência central de passagem de banda calculada são obtidas. Preferencialmente, o valor de frequência da frequência central em uma banda representa o centro 15 de gravidade (COG) da energia dentro dessa banda para modelar o ouvido humano ao máximo possivel. Assim, um valor de frequência de uma frequência central de um filtro de passagem de banda não é necessariamente selecionado para ficar em um tom especifico na banda, mas a frequência central de um filtro de passagem de banda 20 pode facilmente ficar em um valor de frequência, onde um pico não existia no espectro FFT.
As informações de modulação de frequência são obtidas pelo downmixing do sinal de passagem de banda com a frequência- central determinãdaT ~Assim, embora a frequência central 25 tenha sido determinada com uma baixa resolução de tempo devido à determinação baseada em FFT (baseada em espectro), as informações instantâneas de tempo são salvas na modulação de frequência. No entanto, a separação da variação de longa duração na frequência „ portadora e a variação de curta duração nas informações de modulação de frequência com a modulação de amplitude, permite a representação parametrizada do tipo vocoder em um sentido perceptivamente correto.
Assim, a presente invenção é vantajosa pelo fato de que é satisfeita a condição que as informações extraídas são perceptivamente significativas e interpretáveis no sentido de que o processamento de modulação aplicado às informações de modulação deve produzir resultados perceptivamente suaves, evitando k . 10 artefatos indesejados introduzidos pelas limitações da representação de modulação propriamente dita.
Outra vantagem da presente invenção é que as informações portadoras extraídas sozinhas já permitem - uma reconstrução "sketch" representativa não-refinada, porém 15 perceptivamente agradável do sinal de áudio, e qualquer aplicação sucessiva de informações AM e FM relacionadas deve refinar essa representação para total detalhe e transparência, o que significa que o conceito inventivo permite a total escalabilidade a partir de uma camada de baixa escalação baseada na reconstrução "sketch" r 20 utilizando somente as informações portadoras extraidas, o que já é perceptivamente agradável, até uma alta qualidade utilizando camadas adicionais de maior escalação tendo as informações AM e FM relacionadas no aumento da precisão/resolução de tempo.
Uma vantagem da présente invenção é ser, por um lado, altamente desejável para o desenvolvimento de novos efeitos de áudio e, por outro lado, como construção de bloco para futuros algoritmos eficientes de compressão de áudio. Embora no passado sempre tenha havido uma distinção entre métodos de codificação paramétrica e codificação de forma de onda, essa distinção pode ser amplamente abrangida pela presente invenção. Embora os métodos de codificação de forma de onda sejam facilmente escalados até a transparência contanto que a taxa de bits necessária esteja 5 disponivel, os esquemas de codificação paramétrica, por exemplo, esquemas CELP ou ACELP, estão sujeitos às limitações dos modelos originais básicos, e mesmo que a taxa de bits for aumentada mais e mais nesses codificadores, não podem se aproximar da transparência. No entanto, os métodos paramétricos geralmente 10 oferecem uma ampla variedade de possibilidades de manipulação, o que pode ser explorado por uma aplicação de efeitos de áudio, ao passo que a codificação de forma de onda é estritamente limitada à melhor reprodução possivel do sinal original.
A presente invenção abrangerá essa falha 15 permitindo uma transição continua entres ambas as abordagens.
A seguir, as configurações da presente invenção são discutidas no contexto dos desenhos anexos, nos quais:
DESCRIÇÃO DAS FIGURAS
A Figura 1 é uma representação esquemática de uma 20 configuração de um equipamento ou método para converter um sinal de áudio;
A Figura lb é uma representação esquemática de outra configuração preferida; . —A- ’Figura 2ã é um fluxograma para ilustrar uma 25 operação de processamento no contexto da configuração da Figura la;
A Figura 2b é um fluxograma para ilustrar o processo de operação para gerar os diversos sinais de passagem de banda em uma configuração preferida;
A Figura 2c ilustra uma segmentação espectral adaptativa ao sinal com base no cálculo do COG e restrições perceptivas;
A Figura 2d ilustra um fluxograma para mostrar o processo realizado no contexto da configuração da Figura lb;
A Figura 3a ilustra uma representação esquemática de uma configuração de um conceito para modificar a representação parametrizada;
A Figura 3b ilustra uma configuração preferida do conceito ilustrado na Figura 3a;
A Figura 3c ilustra uma representação esquemática para explicar uma decomposição de informações de AM em informações de estrutura não-refinada e refinada;
A Figura 3d ilustra um cenário de compressão com base na configuração da Figura 3c;
A Figura 4a ilustra uma representação esquemática do conceito de sintese;
A Figura 4b ilustra uma configuração preferida do 20 conceito da Figura 4a;
A Figura 4c ilustra uma representação de uma sobreposição do sinal de áudio de dominio de tempo processado, fluxo de bits do sinal de áudio e um procedimento de sobrepor/somar para a sintese de informações de modulação;
A Figura 4d ilustra um fluxograma de uma configuração preferida para sintetizar um sinal de áudio utilizando uma representação parametrizada;
A Figura 5 ilustra uma estrutura de vocoder de análise/sintese da técnica anterior;
A Figura 6 ilustra a implementação de filtro da Figura 5 da técnica anterior;
A Figura 7a ilustra um espectrograma de um item 5 de música original;
A Figura 7b ilustra um espectrograma somente dos portadores sintetizados;
A Figura 7c ilustra um espectrograma dos portadores refinados por AM e FM não-refinada;
A Figura 7d ilustra um espectrograma dos portadores refinados por AM e FM não-refinada, e "ruido atenuado" adicionado;
A Figura 7e ilustra um espectrograma dos portadores e de AM e FM não processados após a sintese;
A Figura 8 ilustra um resultado de um teste subjetivo de qualidade de áudio;
A Figura 9a ilustra uma densidade de potência espectral de um sinal de 2 tons, de um sinal de múltiplos tons e de um sinal de múltiplos tons devidamente limitado pela banda;
A Figura 9b ilustra uma forma de onda e um envelope de um sinal de dois tons, de um sinal de múltiplos tons e de um sinal de múltiplos tons devidamente limitado pela banda; e
A Figura 9c ilustra equações para gerar dois_ sinais- em um sentido de passagem de banda - perceptivamente 25 equivalentes.
A Figura 1 ilustra um equipamento para converter um sinal de áudio 100 em uma representação parametrizada 180. O equipamento compreende um analisador de sinal 102 para analisar fc. uma porção do sinal de áudio para obter um resultado de análise 104. O resultado de análise é inserido em uma calculadora de «I passagem de banda 106 para calcular as informações sobre diversos filtros de passagem de banda para a porção de sinal de áudio com 5 base no resultado de análise do sinal. Assim, as informações 108 sobre os diversos filtros de passagem de banda são calculadas de forma adaptativa ao sinal.
Especificamente, as informações 108 sobre os diversos filtros de passagem de banda compreendem informações „ 10 sobre um formato de filtro. O formato de filtro pode incluir uma largura de banda de um filtro de passagem de banda e/ou uma frequência central do filtro de passagem de banda para uma porção do sinal de áudio, e/ou uma forma espectral de uma fuhçãõ de transferência de magnitude de uma forma paramétrica ou de uma 15 forma não-paramétrica. De modo importante, a largura de banda de um filtro de passagem de banda não é constante em toda a faixa de frequência, mas depende da frequência central do filtro de passagem de banda. Preferencialmente, a dependência é tal que a largura de banda aumenta para maiores frequências centrais e diminui para menores frequências centrais. Ainda mais preferencialmente, a largura de banda de um filtro de passagem de banda é determinada em uma escala total perceptivamente correta, por exemplo, a escala de Bark, de modo que a largura de banda de um filtro de passagem de banda sempre depende da largura de banda 25 realmente realizada pelo ouvido humano para uma certa frequência central determinada adaptativamente ao sinal.
Para tanto, é preferivel que o analisador de sinal 102 realize uma análise espectral de uma porção do sinal do sinal de áudio e, particularmente, analise a distribuição de potência no espectro para encontrar regiões tendo uma concentração de potência, uma vez que essas regiões são determinadas pelo ouvido humano também ao receber e processar o som.
O equipamento da invenção compreende ainda uma calculadora de modulação 110 para calcular uma modulação de amplitude 112 ou uma modulação de frequência 114 para cada banda dos diversos filtros de passagem de banda para uma porção do sinal de áudio. Para tanto, a calculadora de modulação 110 utiliza as 10 informações sobre os diversos filtros de passagem de banda 108 conforme será discutido posteriormente.
O equipamento da invenção da Figura la compreende ainda uma interface de saida 116 para transmitir, armazenar ou modificar as informações sobre a modulação de 15 amplitude 112, as informações da modulação de frequência 114 ou as informações sobre os diversos filtros de passagem de banda 108, que podem compreender informações de formato de filtro, tais como os valores das frequências centrais dos filtros de passagem de banda para essa porção/bloco do sinal de áudio 20 especifica ou outras informações conforme discutido acima. A saida é uma representação parametrizada 180 conforme ilustrado na Figura la.
A Figura ld ilustra uma configuração preferida_ ' “ dã ’calculadora de modulação 110 e o analisador de sinal 102 da Figura la e a calculadora de passagem de banda 106 da Figura la combinada em uma única unidade chamada "cálculo da frequência portadora" na Figura lb. A calculadora de modulação 110 compreende preferencialmente um filtro de passagem de banda L 110a, que provê um sinal de passagem de banda. Este sinal é inserido em um conversor de sinal analitico 110b. A saida do bloco 110b é útil para o cálculo de informações de AM e informações de FM. Para calcular as informações de AM, a magnitude do sinal analitico é calculada pelo bloco 110c. O bloco de saida do sinal analitico 110b é inserido em um multiplicador 110d, que recebe, em sua outra entrada, um sinal de oscilador de um oscilador 110e que é controlado pela real frequência portadora fc da passagem de banda 110a. Então, a fase t da saida do multiplicador é determinada no bloco 110f. A fase instantânea é diferenciada no bloco 110g para finalmente obter as informações de FM.
Assim, a decomposição em sinais portadores e deus componentes de modulações associadas é ilustrada na Figura 1b.
Na figura, é mostrado o fluxo de sinal para a extração de um componente. Todos os outros componentes são obtidos de forma semelhante. A extração é preferencialmente realizada bloco a bloco utilizando um tamanho de bloco de N = 214 na frequência de amostragem de 48 kHz e sobreposição de ‘ 20 aproximadamente correspondente a um intervalo de tempo de 340 ms e um passo de 85 ms. Observe que outros tamanhos de bloco ou fatores de sobreposição também podem ser utilizados. Consiste em um filtro de passagem de banda adaptativo ao sinal que é_ centralizado em um COG local [12] no espectro DFT do sinal. Os candidatos a COG local são calculados buscando-se transições de positivo para negativo na função CogPos definidas em (3). Um procedimento pós-seleção garante que as posições de COG calculadas finais são aproximadamente equidistantes em uma escala perceptiva.
Para cada índice de coeficiente espectral k, é gerado o desvio relativo em direção ao centro de gravidade local 5 na região espectral que é abrangida por um intervalo deslizante suave w. A largura B(k) do intervalo segue uma escala perceptiva, ■ por exemplo, a escala de Bark. X(k,m) é o coeficiente espectral k no bloco de tempo m. Além disso, é realizada uma suavização - temporal recursiva de primeira ordem com constante de tempo T .
Funções alternativas de cálculo do valor de centro de gravidade são concebíveis, podendo ser iterativas ou não-iterativas. Uma função não-iterativa, por exemplo, inclui uma adição de valores de energia para diferentes porções de uma banda e por comparação dos resultados da operação de adição para as u 15 diferentes porções.
O COG local corresponde à frequência 'média' que é percebida por um ouvinte humano devido à contribuição espectral naquela região de frequência. Para ver essa relação, observe a equivalência_do..COG ..e-a--'frequência '‘instantânea média ponderada de 20 intensidade' (IWAIF) conforme derivada em [12]. O intervalo de cálculo do COG e a largura de banda de transição do filtro resultante são escolhidos em relação à resolução do ouvido humano ( 'bandas críticas') . Aqui, uma largura de banda de aproximadamente i 0, Bark foi encontrada empiricamente como sendo um bom valor para todos os tipos de itens de teste (fala, música, ambiente). Além ft disso, essa escolha é confirmada pela literatura [13].
Subsequentemente, o sinal analitico é obtido utilizando a transformada de Hilbert do sinal de passagem de banda filtrado e heterodinizado pela frequência de COG calculada. Por fim, o sinal é ainda decomposto em seu envelope de amplitude e sua frequência instantânea (IF), resultando nos sinais de AM e FM desejados. Observe que o uso de sinais de passagem de banda 10 centralizados nas posições do COG local corresponde ao paradigma de 'regiões de influência' de um vocoder de fase tradicional. Ambos os métodos preservam o envelope temporal de um sinal de •i passagem de banda: O primeiro intrinsecamente e o último garantindo a coerência da fase espectral local.
Deve-se ter cautela, pois o conjunto resultante de filtros, por um lado, abrange o espectro de forma continua e, por outro lado, os filtros adjacentes não se sobrepõem muito, pois isto resultará em efeitos de batida indesejados após a sintese de componentes (modificados). Isso envolve alguns compromissos com 20 relação à largura de banda dos filtros que seguem uma escala perceptiva mas, ao mesmo tempo, precisam prover cobertura espectral continua. Assim, o cálculo da frequência portadora e o projeto do filtro adaptativo ao sinal se tornam partes_ cruciais ~ _ para-a significância perceptiva dos componentes de decomposição e assim têm forte influência sobre a qualidade do sinal re- sintetizado. Um exemplo dessa segmentação compensativa é mostrado na Figura 2c.
A Figura 2a ilustra um processo preferido para i. converter um sinal de áudio em uma representação parametrizada conforme ilustrado na Figura 2b. Em uma primeira etapa 120, blocos de amostras de áudio são formados. Para tanto, uma função de intervalo é preferencialmente utilizada. No entanto, o uso de uma função de intervalo não é necessário em qualquer caso. Então, na etapa 121, a conversão espectral em um espectro de resolução de alta frequência 121 é realizada. Então, na etapa 122, a função de centro de gravidade é calculada preferencialmente utilizando a equação (3). Esse cálculo será realizado no analisador de sinal 102 e os _ cruzamentos zero subsequentemente determinados serão o resultado de análise 104 provido do analisador de sinal 102 da Figura la para a calculadora de passagem de banda 106 da Figura la
Como pode ser visto a partir da equação (3) , a função de centro de gravidade é calculada com base em diferentes larguras de banda. Especificamente, a largura de banda_B_ík-)-,—que—é- ' utilizada no cálculo do nominador nom(k,m) e do denominador (k,m) na equação (3), depende da frequência. O indice de frequência k, portanto, determina o valor de B e, ainda mais preferencialmente, o valor de B aumenta para um indice crescente de frequência k. Portanto, como fica claro na equação (3) para nom(k,m), um "intervalo" tendo a largura de intervalo B no dominio espectral é centralizado em torno de um determinado valor de frequência k, onde i varia de-B (k) /2 até +B (k) /2. - — - -
Esse indice i, que é multiplicado por um intervalo w(i) no termo nom, garante que o valor da potência espectral X2 (onde X é uma amplitude espectral) à esquerda do real valor de frequência k entra na operação de soma com um sinal negativo, ao passo que os valores espectrais quadrados à direita do indice de frequência k entra na operação de soma com o sinal positivo. Naturalmente, essa função poderia ser diferente, de modo que, por exemplo, a metade superior entre com um sinal negativo e a metade inferior entre com um sinal positivo. A função B(k) 5 garante que um cálculo perceptivamente correto de um centro de gravidade ocorra, e essa função é preferencialmente determinada, por exemplo, conforme ilustrado na Figura 2c, onde uma segmentação espectral perceptivamente correta é ilustrada.
Em uma implementação alternativa, os valores espectrais X(k) são transformados em um dominio logarítmico antes do cálculo da função de centro de gravidade. Então, o valor B no termo para o nominador e o denominador na equação (3) é independente da frequência (escala logarítmica). Aqui, a dependência perceptivamente correta já está incluída nos valores espectrais X, que estão, nessa configuração, presentes na escala logarítmica. Naturalmente, uma largura de banda igual em uma escala logarítmica corresponde a uma largura de banda crescente com relação à frequência central em uma escala não-logaritmica.
Assim que os cruzamentos zero e, especificamente, as transições de positivo para negativo são calculados na etapa 122, o procedimento de pós-seleção na etapa 124 é realizado. Aqui, os valores de frequência nos cruzamentos zero são modificados com base em critérios perceptivos. Essa modificação permite várias restriçõês'^õndê' todo o espectro deve ser preferencialmente coberto e nenhuma falha espectral é preferencialmente permitida. Além disso, as frequências centrais de filtros de passagem de banda são posicionadas na função de cruzamentos zero de centro de gravidade ao máximo possivel e, preferencialmente, o posicionamento de frequências centrais na porção inferior do espectro é favorecida em relação ao posicionamento na porção superior do espectro. Isso significa que a segmentação espectral adaptativa ao sinal tenta seguir os resultados do centro de gravidade da etapa 122 na porção 5 inferior do espectro mais intimamente e quando, com base nessa determinação, os centros de gravidade na porção superior do espectro não coincidem com as frequências centrais de passagem de banda, esse desvio é aceito.
Assim que os valores de frequência central e as larguras correspondentes dos filtros de passagem de banda são determinados, o bloco de sinal de áudio é filtrado 126 com o banco de filtro tendo filtros de passagem de banda com larguras de banda variáveis nos valores modificados de frequência conforme obtidos pela etapa 124. Assim, com relação ao exemplo na Figura 2c, um 15 banco de filtro, conforme ilustrado na segmentação espectral adaptativa ao sinal, é aplicado calculando-se os coeficientes de filtro e definindo esses coeficientes de filtro, e o banco de filtro é subsequentemente utilizado para filtrar a porção do sinal de áudio que foi utilizada para calcular essas segmentações 20 espectrais.
Essa filtração é realizada preferencialmente com um banco de filtro ou uma transformada de tempo-frequência, por exemplo, uma DFT com intervalo, subsequente ponderação espectral^ e _ _ . - IDFT, -onde um-único filtro de passagem de banda é ilustrado em 25 110a e os filtros de passagem de banda para os outros componentes 101 formam o banco de filtro com o filtro de passagem de banda 110a. Com base nos sinais de sub-banda x , as informações de AM e as informações de FM, a saber, 112, 114, são calculadas na etapa 128 e a saida com a frequência portadora para cada passagem de banda como a representação parametrizada do bloco de valores de amostragem de áudio.
Então, o cálculo de um bloco é concluido e, na 5 etapa 130, um passo ou valor de avanço é aplicado no dominio de tempo de forma sobreponente para obter o próximo bloco de amostras de áudio conforme indicado por 120 na Figura 2a.
Esse procedimento é ilustrado na Figura 4c. O sinal de áudio de dominio de tempo é ilustrado na parte superior 10 onde, por exemplo, são ilustradas sete porções, cada porção preferencialmente compreendendo o mesmo número de amostras de áudio. Cada bloco consiste em N amostras. O primeiro bloco 1 consiste nas primeiras quatro porções adjacentes 1, 2, 3 e 4. O próximo bloco 2 consiste nas porções de sinal 2, 3, 4, 5, o 15 terceiro bloco, ou seja, o bloco 3, compreende porções de sinal 3, 4, 5, 6 e o quarto bloco, ou seja, o bloco 4, compreende porções de sinal 4, 5, 6 e 7 subsequentes conforme ilustrado. No fluxo de bits, a etapa 128 da Figura 2a gera uma representação parametrizada para cada bloco, ou seja, para o bloco 1, bloco 2, bloco 3, bloco 4 ou uma parte selecionada do bloco, preferencialmente a porção intermediária N/2, uma vez que as porções externas podem conter ringing de filtro ou a característica de roll-off de um intervalo de transformada que é .... . adequadamente'” projetado. Preferencialmente, a representação 25 parametrizada de cada bloco é transmitida em um fluxo de bits de forma sequencial. No exemplo ilustrado no gráfico superior da Figura 4c, uma operação de sobreposição de 4 vezes é formada. Alternativamente, uma sobreposição de duas vezes também poderia ser realizada, de modo que o valor de passo ou o valor de avanço aplicado na etapa 130 tenha duas porções na Figura 4c em vez de uma porção. Basicamente, uma operação de sobreposição não é necessária, porém é preferida para evitar o bloqueio de artefatos 5 e para vantajosamente permitir uma operação de cross-fade de bloco para bloco, que, de acordo com uma configuração preferida da presente invenção, não é realizada no dominio de tempo, mas sim no dominio de AM/FM conforme ilustrado na Figura 4c, e conforme descrito posteriormente com relação às Figuras 4a e 4b.
A Figura 2b ilustra uma implementação geral do procedimento especifico na Figura 2a com relação à equação (3) . Esse procedimento na Figura 2b é parcialmente realizado no analisador de sinal e na calculadora de passagem de bandal Na etapa 132, uma porção do sinal de áudio é analisada com relação à 15 distribuição espectral de potência. A etapa 132 pode envolver uma transformada de tempo/frequência. Na etapa 134, os valores de frequência calculados para as concentrações de potência local no espectro são adaptados para obter uma segmentação espectral perceptivamente correta, assim como a segmentação espectral na 20 Figura 2c, tendo uma largura de banda perceptivamente motivada dos diferentes filtros de passagem de banda e que não têm quaisquer falhas no espectro. Na etapa 135, a porção do sinal de áudio é filtrada com a segmentação espectral determinada utilizando_ o banco de-filtro ou um método de transformada, onde um exemplo para a implementação do banco de filtro é mostrado na Figura 1b para um canal tendo passagem de banda 110a e filtros de passagem de banda correspondentes para os outros componentes 101 na Figura 1b. O resultado da etapa 135 são diversos sinais de passagem de banda . para as bandas tendo uma largura de banda crescente até frequências maiores. Então, na etapa 136, cada sinal de passagem de banda é separadamente processado utilizando elementos 110a a 110g na configuração preferida. No entanto, alternativamente, 5 todos os outros métodos de extração de uma modulação A e de uma modulação F podem ser realizados para parametrizar cada sinal de passagem de banda.
Subsequentemente, a Figura 2d será discutida, na qual é ilustrada a sequência preferida de etapas para processar 10 separadamente cada sinal de passagem de banda. Na etapa 138, um filtro de passagem de banda é definido utilizando o valor de ■b frequência central calculado e utilizando uma largura de banda conforme determinado pela segmentação espectral conforme obtida na etapa 134 da Figura 2b. Essa etapa utiliza informações de filtro 15 de passagem de banda e também pode ser utilizada para enviar informações de filtro de passagem de banda para a interface de saida 116 na Figura la. Na etapa 139, o sinal de áudio é filtrado utilizando o filtro de passagem de banda definido na etapa 138. Na etapa 140, um sinal analitico do sinal de passagem de banda é formado. Aqui, a transformada real de Hilbert ou um algoritmo de transformada de Hilbert aproximada pode ser aplicado. Isto é ilustrado pelo item 110b na Figura lb. Então, na etapa 141, a implementação da caixa 110c da Figura lb é realizada, ou seja, a . -- — magnitude "dõ sinal analitico é determinada para prover as informações de AM. Basicamente, as informações de AM são obtidas na mesma resolução que a do sinal de passagem de banda na saida do bloco 110a. Para compactar essa grande quantidade de informações de AM, quaisquer técnicas de decimação ou parametrização podem ser . realizadas, o que será discutido posteriormente.
Para obter informações de fase ou frequência, a etapa 142 compreende a multiplicação do sinal analitico por um sinal de oscilador tendo a frequência central do filtro de 5 passagem de banda. No caso de uma multiplicação, uma subsequente operação de filtração de baixa passagem é preferida para rejeitar a porção de alta frequência gerada pela multiplicação na etapa 142. Quando o sinal de oscilador é complexo, então a filtração não é necessária. A etapa 142 resulta em um sinal analitico downmixed, 10 que é processado na etapa 143 para extrair as informações instantâneas de fase conforme indicado pela caixa 110f na Figura lb. Essas informações de fase podem ser enviadas como informações paramétricas além das informações de AM, porém são preferidas para diferenciar essas informações de fase na caixa 144 para obter uma 15 informação real de modulação de frequência conforme ilustrado na Figura lb em 114. Novamente, as informações de fase podem ser utilizadas para descrever as oscilações relacionadas à frequência/fase. Quando as informações de fase como informações de parametrização são suficientes, então a diferenciação no bloco ’ 20 110g não é necessária.
A Figura 3a ilustra um equipamento para modificar uma representação parametrizada de um sinal de áudio que tem, para a porção de tempo, informações de filtro de passagem de banda a_ partir-de-diversos'filtros de passagem de banda, como o bloco 1 no 25 gráfico intermediário na Figura 4c. As informações de filtro de passagem de banda indicam frequências centrais variáveis no tempo de filtro de passagem de banda (frequências portadoras) de filtros de passagem de banda tendo larguras de banda que dependem dos filtros de passagem de banda e das frequências dos filtros de passagem de banda, e tendo informações de modulação de amplitude ou de modulação de fase ou de modulação de frequência para cada filtro de passagem de banda para a respectiva porção de tempo. O 5 equipamento de modificação compreende um modificador de informações 160 que funciona para modificar as frequências centrais variáveis no tempo ou para modificar as informações de modulação de amplitude ou as informações de modulação de frequência ou as informações de modulação de fase e que envia uma 10 representação parametrizada modificada que possui frequências portadoras para um porção de sinal de áudio, informações de AM modificadas, informações de PM modificadas ou informações de FM modificadas.
A Figura 3b ilustra uma configuração preferida do modificador de informações 160 na Figura 3a. Preferencialmente, as informações de AM são introduzidas em um estágio de decomposição para decompor as informações de AM em uma estrutura de escala não- refinada/fina. Essa decomposição é preferencialmente uma decomposição não-linear, por exemplo, a decomposição conforme ilustrada na Figura 3c. Para compactar os dados transmitidos das informações de AM, somente a estrutura não-refinada é, por exemplo, transmitida para um sintetizador. Uma porção desse sintetizador pode ser o adicionador 160e e a fonte de ruido de passagem—de—banda' *160f ."~No entanto, esses elementos também podem 25 fazer parte do modificador de informações. Na configuração preferida, entretanto, há um caminho de transmissão entre os blocos 160a e 160e, e nesse canal de transmissão, somente uma representação parametrizada da estrutura não-refinada e, por exemplo, um valor de energia que representa ou é derivado da estrutura refinada, é transmitido pela linha 161 de um analisador para um sintetizador. Então, no lado do sintetizador, uma fonte de ruido 160f é escalada para prover um sinal de ruido de passagem de 5 banda para um sinal de passagem de banda especifico, e o sinal de ruido tem uma energia conforme indicada por meio de um parâmetro, por exemplo, o valor de energia online 161. Então, no lado do decodificador/sintetizador, o ruido é temporariamente formado pela estrutura não-refinada, ponderado por sua energia-alvo e 10 adicionado à estrutura não-refinada transmitida para sintetizar um sinal que somente exigiu uma baixa taxa de bits para transmissão devido à sintese artificial da estrutura refinada. De modo geral, o somador de ruido 160f serve para somar um sinal (pseudo- randõmico) de ruido tendo um determinado valor de energia global e uma distribuição de energia temporal predeterminada. É controlado por meio de informações laterais transmitidas ou é fixamente definido, por exemplo, com base em uma figura empirica, por exemplo, valores fixos determinados para cada banda. Alternativamente, é controlado por uma análise local no 20 modificador ou no sintetizador, onde o sinal disponível é analisado e os valores de controle do somador de ruido são derivados. Esses valores de controle são preferencialmente valores relacionados à energia.
O modificador de informações 160 pode ainda compreender uma funcionalidade polinomial de adequação de restrição 160b e/ou um transposer 160d para as frequências portadoras, que também transpõe as informações de FM via o multiplicador 160c. Alternativamente, também pode ser útil somente modificar as frequências portadoras e não modificar as informações de FM ou as informações de AM ou somente modificar as informações de FM, porém não modificar as informações de AM ou as informações de frequência portadora.
Tendo os componentes de modulação em mãos, novos e interessantes métodos de processamento se tornam viáveis. Uma grande vantagem da decomposição de modulação aqui apresentada é que o método de análise/sintese proposto implicitamente garante que o resultado de qualquer processamento de modulação - 10 amplamente independente da natureza exata do processamento - será perceptivamente suave (isento de clicks, repetições temporárias etc.). Alguns exemplos de processamento de modulação são incluidos na Figura 3b.
Certamente uma aplicação notável é a 'transposição' de um sinal de áudio enquanto se mantém a velocidade original da reprodução: isto é facilmente realizado pela multiplicação de todos os componentes portadores por um fator constante. Uma vez que a estrutura temporal do sinal de entrada é unicamente capturada pelos sinais de AM, esta não é afetada pela extensão do espaçamento espectral do portador.
Se somente um subconjunto de portadores correspondentes a certos intervalos de frequência predefinidos for mapeado para valores novos adequados, o modo principal de um trecho .de-música pode ' ser' alterado de, por exemplo, menor para maior ou vice-versa. Para tanto, as frequências portadoras são quantizadas em números MIDI que são subsequentemente mapeados em novos números MIDI apropriados (utilizando, a priori, o conhecimento do modo e a chave do item de música a ser processado) . Por fim, os números MIDI mapeados são convertidos de volta para obter as frequências portadoras modificadas que são utilizadas para a sintese. Novamente, uma detecção de inicio/desvio de nota MIDI dedicada não é necessária, uma vez que 5 as características temporais são predominantemente representadas pela AM não modificada e, assim, preservada.
Um processamento mais avançado visa a modificação das propriedades de modulação de um sinal: por exemplo, pode ser desejável modificar uma 'irregularidade' de sinal [14][15] por 10 filtração da modulação. No sinal de AM, há uma estrutura não- refinada relacionada a eventos musicais on- e offset etc. e estrutura refinada relacionada a frequências de modulação mais rápidas (~30-300 Hz) . Uma vez que essa estrutura refinada está representando as propriedades de irregularidade de um sinal de 15 áudio (para portadores até 2 kHz) [15][16], as irregularidade auditivas podem ser modificadas removendo-se a estrutura refinada e mantendo-se a estrutura não-refinada...
Para decompor o envelope em estrutura não- refinada e refinada, métodos não-lineares podem ser utilizados. 20 Por exemplo, para capturar a AM não-refinada, pode-se aplicar uma adequação piecewise de um polinomial (baixa ordem). A estrutura refinada (residual) é obtida como a diferença de envelope original e não-refinado. A perda de estrutura AM refinada pode ser perceptivamente compensada - se desejado - adicionado~se* ruido 25 'atenuado' limitado pela banda escalado pela energia do residual e temporalmente formado pelo envelope de AM não-refinado.
Observe que se quaisquer modificações forem aplicadas ao sinal de AM, é aconselhável restringir o sinal de FM , a somente lentamente variável, uma vez que a FM não processada pode conter picos repentinos devido aos efeitos de batida dentro de uma região de passagem de banda [17] [18] . Esses picos aparecem na proximidade de zero [19] do sinal de AM e são perceptivamente desprezíveis. Um exemplo desse pico em IF pode ser visto no sinal de acordo com a fórmula (1) na Figura 9 na forma de um pulo de fase de pi em locais zero do envelope de Hilbert. Os picos indesejados podem ser removidos, por exemplo, restringindo-se a polinomialização de adequação na FM onde o sinal de AM original atua como pesos para a harmonia desejada da adequação. Assim, os picos na FM podem ser removidos sem introduzir um desvio indesejado.
Outra aplicação seria remover a FM do sinal. Aqui, se poderia simplesmente zerar a FM. Uma vez que os sinais 15 portadores são centralizados em COGs locais, eles representam a frequência média local perceptivamente correta.
A Figura 3c ilustra um exemplo para extrair uma estrutura não-refinada de um sinal de passagem de banda. A Figura 3c ilustra uma tipica estrutura não-refinada para um tom produzido ’ 20 por um determinado instrumento no gráfico superior. No inicio, o instrumento está silencioso, então em um instante de tempo de ataque, um aumento agudo da amplitude pode ser observado, que é então mantido constante em um assim chamado periodo de — sustentação-;—Então, o tom é—1-iberado. Isto é caracterizado—por um. 25 tipo de decaimento exponencial que começa no final do periodo sustentado. Este é o inicio do periodo de liberação, ou seja, um instante de tempo de liberação. O periodo de sustentação não está necessariamente lá nos instrumentos. Quando, por exemplo, um . violão é considerado, fica claro que o tom é gerado pela excitação de uma corda e, após o ataque no instante de tempo de excitação, uma porção de liberação, que é relativamente longa, acontece imediatamente, o que é considerado pelo fato de que a oscilação da corda é abafada até que entre em um estado estacionário que é, então, o final do tempo de liberação. Para instrumentos tipicos, existem formas tipicas ou estrutura não-refinadas para esses tons. Para extrair essas estruturas não-refinadas de um sinal de passagem de banda, é preferido realizar uma adequação polinomial no sinal de passagem de banda, onde a adequação polinomial tem uma forma geral similar à forma no gráfico superior da Figura 3c, o que pode ser correspondido pela determinação dos coeficientes polinomiais. Assim que a melhor adequação polinomial correspondente é obtida, o sinal é determinado pela alimentação polinomial, que estrutura não-refinada do sinal de passagem de banda subtraída do sinal de passagem de banda real, de modo que a estrutura refinada é obtida e que, quando a adequação polinomial foi boa o suficiente, é um sinal relativamente ruidoso que tem uma determinada energia que pode ser transmitida do lado do analisador para o lado do sintetizador além das informações da estrutura não-refinada que seriam os coeficientes polinomiais. A decomposição de um sinal de passagem de banda em sua estrutura não-refinada e em sua _ estrutura—refinada -é- um-exemplo de uma decomposição não-linear. Outras composições não-lineares também podem ser realizadas para extrair outras características do sinal de passagem de banda e para reduzir drasticamente a taxa de dados para a transmissão de informações de AM em uma aplicação de baixa taxa de bits.
A Figura 3d ilustra as etapas nesse procedimento. Na etapa 165, a estrutura não-refinada é extraida por adequação polinomial e calculando-se os parâmetros polinomiais que são então as informações de modulação de amplitude a serem transmitidas de um analisador para um sintetizador. Para realizar essa transmissão de forma mais eficiente, outra operação de quantização e codificação 166 dos parâmetros de transmissão é realizada. A quantização pode ser 10 uniforme ou não uniforme, e a operação de codificação pode ser qualquer uma das operações de codificação de entropia bem conhecidas, por exemplo, codificação de Huffman, com ou sem tabelas ou codificação aritmética, por exemplo, uma codificação aritmética baseada em contexto conforme conhecida a partir da 15 compressão de video
Então, informações de AM ou informações de FM/PM de baixa taxa de bits são formadas, as quais podem ser transmitidas por um canal de transmissão de forma muito eficiente. Em um lado do sintetizador, a etapa 168 é realizada para 20 decodificação e desquantização dos parâmetros transmitidos. Então, na etapa 169, a estrutura não-refinada é reconstruída, por exemplo, calculando-se de fato todos os valores definidos por um polinomial que possui os coeficientes polinomiais transmitidos. Além_. disso,--pode ser-• úti-1- adicionar ruido atenuado por ’ banda’ 25 preferencialmente com base nos parâmetros de energia transmitidos e temporalmente formados pelas informações de AM não-refinada ou, alternativamente, em uma aplicação de ultra taxa de bits, adicionando-se ruido (atenuado) tendo uma energia empiricamente , selecionada.
Alternativamente, uma modificação de sinal pode incluir, conforme discutido acima, um mapeamento das frequências centrais para números MIDI ou, de modo geral, para uma escala 5 musical e para então transformar a escala para, por exemplo, transformar um trecho de música que está em uma escala maior em uma escala menor ou vice-versa. Nesse caso, de forma mais importante, as frequências portadoras são modificadas. Preferencialmente, as informações de AM ou as informações de PM/FM 10 não são modificadas nesse caso.
Alternativamente, outros tipos de modificações de frequência portadora podem ser realizados, por exemplo, a transposição de todas as frequências portadoras utilizando o mesmo ‘fator de transposição que pode ser um número inteiro maior que 1 15 ou que pode ser um número fracionado entre 1 e 0. Neste último caso, o passo dos tons será menor após a modificação e, no caso anterior, o passo dos tons será maior após a modificação do que antes da modificação.
A Figura 4a ilustra um equipamento para 20 sintetizar uma representação parametrizada de um sinal de áudio, a representação parametrizada compreendendo informações de passagem de banda, por exemplo, frequências portadoras ou frequências centrais de passagem de banda para os filtros de passagem de banda. Componentes, adicionais da representação parametrizada são informações sobre uma modulação de amplitude, informações sobre uma modulação de frequência ou informações sobre uma modulação de fase de um sinal de passagem de banda.
Para sintetizar um sinal, o equipamento de sintetização compreende uma interface de entrada 200 que recebe uma representação parametrizada modificada ou não modificada ou que inclui informações para todos os filtros de passagem de banda. Como exemplo, a Figura 4a ilustra os módulos de sintese de um único filtro de sinal de passagem de banda. Para a sintese de informações de AM, é provido um sintetizador de AM 201 para sintetizar um componente AM com base na modulação AM. Além disso, é também provido um sintetizador FM/PM para sintetizar uma frequência instantânea ou informações de fase com base nas 10 informações sobre as frequências portadoras e as informações PM ou FM de modulação transmitidas. Ambos os elementos 201, 202 são conectados a um módulo oscilador para gerar um sinal de saida, que ’ é um sinal de oscilação modulado AM/FM/PM 204 para cada banco de canal de filtro. Além disso, um combinador 205 é provido para 15 combinar sinais dos canais de filtro de passagem de banda, por exemplo, os sinais 204 dos osciladores para outros canais de filtro de passagem de banda e para gerar um sinal de saida de áudio que é baseado nos sinais dos canais de filtro de passagem de u banda. Simplesmente adicionando-se os sinais de passagem de banda ' 20 em uma amostra de maneira inteligente em uma configuração preferida, gera-se o sinal de áudio sintetizado 206. No entanto, outros métodos de combinação também pode ser utilizados.
A Figura 4b ilustra uma configuração preferida do sintetizador da Figura 4a.. „ ... _ — — - —
Uma implementação vantajosa é baseada em uma operação de sobreposição-soma (OLA) no dominio de modulação, ou seja, no dominio antes da geração do sinal de passagem de banda do dominio de tempo. Conforme ilustrado no gráfico intermediário da * Figura 4c, o sinal de entrada que pode ser um fluxo de bits, porém que também pode ser uma conexão direta com um analisador ou modificador, é separado no componente AM 207a, no componente FM 207b e no componente de frequência portadora 207c. O sintetizador AM 201 compreende preferencialmente um somador de sobreposição 201a e, ainda, um controlador de vinculo ao componente 201b que preferencialmente não somente compreende o bloco 201a, mas também o bloco 202a, que é um somador de sobreposição dentro do sintetizador de FM 202. O sintetizador de FM 202 compreende ainda um somador de sobreposição de frequência 202a, um integrador de fase 202b, um combinador de fase 202c que, novamente, pode ser implementado como um adicionador regular e um alterador de fase ' 202d que pode ser controlado pelo controlador de vinculo ao componente 201b para regenerar uma fase constante de bloco a bloco, de modo que a fase de um sinal de um bloco anterior seja continua com a fase de um bloco real. Portanto, pode-se dizer que a adição de fase em elementos 202d, 202c corresponde a uma regeneração de uma constante que foi perdida durante a diferenciação no bloco 110g na Figura lb no lado do analisador. De uma perspectiva de perda de informações no dominio perceptivo, deve ser observado que esta é a única perda de informações, ou seja, a perda de uma porção constante pelo dispositivo de diferenciação 110g na Figura lb. Essa perda é recriada adicionando-se uma_ fase_constante determinada pelo-dispositivo de- vinculo ao componente 201b na Figura 4b.
O sinal é sintetizado em uma base aditiva de todos os componentes. Para um componente, a cadeia de processamento é mostrada na Figura 4b. Assim como a análise, a sintese é realizada bloco a bloco. Uma vez que somente a porção N/2 centralizada de cada bloco de análise é utilizada para a sintese, surge um fator de sobreposição igual a Um mecanismo de vinculo ao componente é utilizado para misturar AM e FM e alinhar 5 fase absoluta para componentes na vizinhança espectral de seus antecessores em um bloco anterior. A vizinhança espectral também é calculada em uma escala de Bark para novamente refletir a sensibilidade do ouvido humano em relação a uma percepção de passo.
Em detalhe, primeiramente o sinal de FM é adicionado à frequência portadora e o resultado é passado para um estágio de sobreposição-soma (OLA). Então, é integrado para obter a fase do componente a ser sintetizado. Um oscilador sinusoidal é alimentado pelo sinal de fase resultante. O sinal de AM é processado de forma semelhante por outro estágio de OLA. Por fim, a saida do oscilador é modulada em sua amplitude pelo sinal de AM resultante para obter a contribuição aditiva dos componentes para o sinal de saida.
Na Figura 4c, o bloco inferior mostra uma 20 implementação preferida da operação de sobreposição-soma no caso de uma sobreposição de 50%. Nessa implementação, a primeira parte das informações realmente utilizadas do bloco atual é adicionada à parte correspondente que é a segunda parte de um bloco anterior. Além disso, a Figura 4c,_ bloco .inferior, ilustra uma-operação" dê 25 cross-fading, onde a porção do bloco que sofre o fade out recebe pesos decrescentes de 1 a 0 e, ao mesmo tempo, o bloco que sofre o fade in recebe pesos crescentes de 0 a 1. Esses pesos já podem ser aplicados no lado do analisador e, então, somente uma operação de adicionador no lado do decodificador é necessária. No entanto, preferencialmente, esses pesos não são aplicados no lado do codificador, porém são aplicados no lado do decodificador de uma forma predefinida. Conforme anteriormente discutido, somente a 5 porção N/2 centralizada de cada bloco de análise é utilizada para a sintese, de modo que surge um fator de sobreposição igual a 1/2 conforme ilustrado na Figura 4c. No entanto, pode-se também utilizar a porção completa de cada bloco de análise para sobrepor/somar, de modo que seja ilustrada uma sobreposição de 4 10 vezes, conforme ilustrada na porção superior da Figura 4c. A configuração descrita, na qual a parte central é utilizada, é preferivel, uma vez que os quartos externos incluem do rolamento do intervalo de análise e os quartos centrais têm somente a porção de topo plano...
Todas as outras proporções de sobreposição podem ser implementadas conforme a necessidade.
A Figura 4d ilustra uma sequência preferida de etapas a serem realizadas dentro da configuração preferida da Figura 4a/4b. Na etapa 170, dois blocos adjacentes de informações 20 de AM são misturados/submetidos a cross-fading. Preferencialmente, essa operação de cross-fading é realizada no dominio de parâmetro de modulação em vez de no dominio do sinal modulado de passagem de banda de tempo prontamente sintetizado. Assim, artefatos de batida _ _entre__oS—dois_sinais a . serem misturados são evitados em' comparação 25 ao caso em que o cross-fading seria realizado no dominio de tempo e não no dominio de parâmetro de modulação. Na etapa 171, uma frequência absoluta para um determinado instante é calculada combinando-se a frequência portadora no sentido do bloco para um sinal de passagem de banda com as informações de FM de resolução fina utilizando o adicionador 202c. Então, na etapa 171, dois blocos adjacentes de informações de frequência absoluta são misturados/submetidos a cross-fading para obter uma frequência 5 instantânea misturada na saida do bloco 202a. Na etapa 173, o resultado da operação OLA 202a é integrado conforme ilustrado no bloco 202b na Figura 4b. Além disso, a operação de vinculo ao componente 201b determina a fase absoluta de uma frequência antecessora correspondente em um bloco anterior conforme ilustrado 10 em 174. Com base na fase determinada, o alterador de fase 202d da Figura 4b ajusta a fase absoluta do sinal pela adição de um 0O adequado no bloco 202c que também é ilustrado pela etapa 175 na Figura 4d. Agora, a fase está pronta para o controle de fase de um oscilador sinusoidal conforme indicado na etapa 176. Por fim, o 15 sinal de oscilador de saida é modulado pela amplitude na etapa 177 utilizando as informações de amplitude submetidas a cross-fading do bloco 170. O modulador de amplitude, assim como o multiplicador 203b, por fim envia um sinal de passagem de banda sintetizado para um certo canal de passagem de banda que, devido ao procedimento da 20 invenção, tem uma largura de banda de frequência que varia de baixa para alta com o aumento da frequência central de passagem de banda.
A seguir, são apresentados alguns espectrogramas , que. demonstram as -propriedades' dos " esquemas propostos de 25 processamento de modulação. A Figura 7a mostra o espectrograma de log original de um trecho de um item de música clássica de orquestra (Vivaldi).
A Figura 7b até a Figura 7e mostram os . espectrogramas correspondentes após vários métodos de processamento de modulação em ordem crescente de detalhe de modulação recuperada. A Figura 7b ilustra a reconstrução de sinal unicamente dos portadores. As regiões brancas correspondem a alta 5 energia espectral e coincidem como a concentração de energia local no espectrograma do sinal original na Figura7a. A Figura 7c ilustra os mesmos portadores, porém refinados por AM e FM suavizados não-linearmente. A adição de detalhe é claramente visivel. Na Figura 7d, adicionalmente, a perda de detalhe de AM é 10 compensada pela adição de ruido 'atenuado' em formato de envelope que novamente acrescenta mais detalhe ao sinal. Por fim, o espectrograma do sinal sintetizado a partir dos componentes de modulação não modificados é mostrado na Figura 7e. Comparando o espectrograma da Figura 7é como o espectrograma do sinal original 15 na Figura 7a, ilustra-se a reprodução muito boa dos detalhes completos.
Para avaliar o desempenho do método proposto, um teste de audição subjetivo foi realizado. O teste de audição do tipo MUSHRA [21] foi realizado utilizando fones de ouvido ' 20 eletrostáticos de alta qualidade STAX. No total, 6 ouvintes participaram do teste. Todos os participantes podem ser considerados ouvintes experientes.
O teste consistia nos itens ouvidos na Figura 8 e as configurações em teste sãq_resumidas na Figura9. - --- ~
O gráfico na Figura 8 mostra o resultado. São mostrados os resultados médios com intervalos de confiança de 95% para cada item. Os gráficos mostram os resultados após a análise estatística dos resultados do teste de todos os ouvintes. O eixo X mostra o tipo de processamento e o eixo Y representa a pontuação de acordo com a escala de MUSHRA de 100 pontos variando de 0 (ruim) até 100 (transparente).
A partir dos resultados, pode ser visto que as 5 duas versões têm pontuação de detalhe de AM completa e pontuação de detalhe de FM completa ou não-refinada melhor em aproximadamente 80 pontos em média, porém ainda são distinguíveis do original. Uma vez que os intervalos de confiança de ambas as versões se sobrepõem amplamente, pode-se concluir que a perda de 10 detalhe de FM fina é na verdade perceptivamente desprezível. A versão com AM e FM não-refinadas e o ruido 'atenuado' adicionado têm pontuações consideravelmente menores, porém, na média, ainda estão em 60 pontos: isso reflete a propriedade de degradação fina do método proposto com crescente omissão de informações de detalhe 15 de AM fina.
A maior parte da degradação é percebida em itens tendo fortes conteúdos temporários, tais como glockenspiel e cravo. Isto ocorre devido à perda das relações de fase original entre os diferentes componentes ao longo do espectro. No entanto, 20 esse problema pode ser superado em futuras versões do método de sintese proposto pelo ajuste da fase portadora em centros de gravidade temporais do envelope de AM em conjunto para todos os componentes.
Para os itens de música clássica no teste, a degradação observada é estatisticamente insignificante.
O método de análise/sintese apresentado poderia ser útil em diferentes cenários de aplicação: para a codificação de áudio, poderia servir como um bloco de construção de um codificador de áudio escalável de granulação fina aprimorado perceptivamente correto, cujo principio básico foi publicado em [1] . Com a taxa de bits decrescente, menos detalhes poderiam ser enviados ao lado do receptor, por exemplo, substituindo-se o 5 envelope de AM total por um não-refinado e ruido 'atenuado' adicionado.
Além disso, novos conceitos de extensão de largura de banda de áudio [20] são possiveis, os quais, por exemplo, utilizam componentes de banda de base modificados e 10 alterados para formar as bandas altas. Experimentos aperfeiçoados sobre as propriedades auditivas humanas se tornam possiveis, por exemplo, a criação aperfeiçoada de sons quiméricos para ainda avaliar a percepção humana da estrutura de modulação [11].
Por último, porém não menos importante, novos e 15 excitantes efeitos artísticos de áudio para produção de música estão ao alcance: tanto a escala como o modo principal de um item de música podem ser alterados pelo processamento adequado dos sinais portadores ou a propriedade psico-acústica de sensação de irregularidade pode ser acessada pela manipulação dos componentes de AM.
Foi apresentada uma proposta de um sistema de decomposição de um sinal de áudio arbitrário em portadores e componentes de AM/FM perceptivamente significativos, o que permite uma fina escalabilidade de granulação de modificação de detalhe de modulação. Um método adequado de re-sintese foi apresentado. Foram apresentados alguns exemplos de princípios de processamento de modulação foram descritos e os espectrogramas resultantes de um arquivo de áudio exemplar. Um teste de audição foi realizado para verificar a qualidade perceptiva de diferentes tipos de processamento de modulação e subsequente re-sintese. Futuros cenários de aplicação desse novo e promissor método de análise/sintese foram identificados. Os resultados demonstram que o método proposto provê meios adequados de eliminar a distância entre processamento paramétrico e 5 processamento de áudio de forma de onda e, além disso, possibilita novos efeitos fascinantes de áudio.
As configurações descritas são meramente ’ ilustrativas dos princípios da presente invenção. Fica entendido que modificações e variações dos arranjos e os detalhes aqui 10 descritos ficarão evidentes aos técnicos no assunto. Portanto, a intenção é limitar somente pelo escopo das reivindicações a seguir da patente e não pelos detalhes específicos apresentados por meio da descrição e explicação das configurações. -
Dependendo de determinadas exigências de 15 implementação dos métodos da invenção, esses métodos podem ser implementados em hardware ou em software. A implementação pode ser realizada utilizando uma midia de armazenamento digital, em particular, um disco, um DVD ou um CD, tendo nela armazenados sinais de controle que possam ser lidos eletronicamente, que co- 20 operem com sistemas de computador programáveis, de modo que os métodos da invenção sejam realizados. De modo geral, a presente invenção é, portanto, um programa de computador com um código de programa armazenado em um portador legivel por máquina, sendo o código de programa operado para realizar os métodos da invenção 25 quando o programa de computador é executado em um computador. Em outras palavras, os métodos da invenção são, portanto, um programa de computador tendo um código de programa para realizar pelo menos um dos métodos da invenção quando o programa de computador é executado em um computador.
REFERÊNCIAS
[1] M. Vinton and L. Atlas, "A Scalable And Progressive Audio Codec," in Proc, of ICASSP 2001, pp. 3277-3280, 2001
[2] H. Dudley, "The vocoder," in Bell Labs Record, vol. 17, pp. 122-126, 1939
[3] J. L. Flanagan and R. M. Golden, "Phase . Vocoder," in Bell System Technical Journal, vol. 45, pp. 14931509, 1966
[4] J. L. Flanagan, "Parametric coding of speech spectra," J. Acoust. Soc. Am., vol. 68 (2), pp. 412-419, 1980
[5] U. Zoelzer, DAFX: Digital Audio Effects, Wiley & Sons, pp. 201-298, 2002
[6] H. Kawahara, "Speech representation and transformation using adaptive interpolation of weighted spectrum: vocoder revisited," in Proc, of ICASSP 1997, vol. 2, pp. 13031306, 1997
[7] A. Rao and R. Kumaresan, "On decomposing speech into modulated components," in IEEE Trans, on Speech and Audio Processing, vol. 8, pp. 240-254, 2000
[8] M. Christensen et al., "Multiband amplitude modulated sinusoidal audio modelling," in IEEE Proc, of ICASSP 2004, vol. 4, pp. 169-172, 2004
[9] K. Nie and F. Zeng, "A perception-based processing strategy for cochlear implants and speech coding," in Proc, of the 26th IEEE-EMBS, vol. 6, pp. 4205-4208, 2004
[10] J. Thiemann and P. Kabal, "Reconstructing Audio Signals from Modified Non-Coherent Hilbert Envelopes," in Proc. Interspeech (Antwerp, Belgium), pp. 534-537, 2007
[11] Z. M. Smith and B. Delgutte and A. J. Oxenham, "Chimaeric sounds reveal dichotomies in auditory perception," in Nature, vol. 416, pp. 87-90, 2002
[12] J. N. Anantharaman and A.K. Krishnamurthy, L.L Feth, "Intensity weighted average of instantaneous frequency as a model for frequency discrimination," in J. Acoust. Soc. Am., vol. 94 (2), pp. 723-729, 1993
[13] O. Ghitza, "On the upper cutoff frequency of 10 the auditory critical-band envelope detectors in the context of speech perception," in J. Acoust. Soc. Amer., vol. 110(3), pp. 1628-1640, 2001
[14] E. Zwicker and H. Fasti, Psychoacoustics - Facts and Models, Springer, 1999
[15] E. Terhardt, "On the perception of periodic sound fluctuations (roughness)," in Acústica, vol. 30, pp. 201213, 1974
[16] P. Daniel and R. Weber, "Psychoacoustical Roughness: Implementation of an Optimized Model," in Acústica, 20 vol. 83, pp. 113-123, 1997
[17] P. Loughlin and B. Tacer, "Comments on the interpretation of instantaneous frequency," in IEEE Signal Processing Lett., vol. 4, pp. 123-125, 1997.
[18] D. Wei and A. Bovik, "On the instantaneous frequencies of multicomponent AM-FM signals," in IEEE Signal Processing Lett., vol. 5, pp. 84-86, 1998.
[19] Q. Li and L. Atlas, "Over-modulated AM-FM decomposition," in Proceedings of the SPIE, vol. 5559, pp. 172- 183, 2004
[20] M. Dietz, L. Liljeryd, K. Kjorling and O. Kunz, "Spectral Band Replication, a novel approach in audio coding," in 112th AES Convention, Munich, May 2002.
[21] ITU-R Recommendation BS.1534-1, "Method for the subjective assessment of intermediate sound quality (MUSHRA)," International Telecommunications Union, Geneva, Switzerland, 2001.
[22] "Sinusoidal modeling parameter estimation via a dynamic channel vocoder model" A.S. Master, 2002 IEEE 10 International Conference on Acoustics, Speech and Signal Processing.

Claims (22)

1. Equipamento para converter um sinal de áudio em uma representação parametrizada, que compreende:.. um analisador de sinal (102) para analisar uma porção do sinal de áudio para obter um resultado de análise (104); caracterizado pelo fato de que o analisador de sinal está operando para calcular uma função de posição do centro de gravidade para uma representação espectral da porção do sinal de áudio, em que eventos predeterminados no centro da função de posição da gravidade indica valores candidatos (124) para frequências centrais da pluralidade de filtros de passagem da banda; uma calculadora de passagem de banda (106) para calcular informações (108) de uma pluralidade de filtros de passagem de banda com base no resultado da análise (104), onde as informações na pluralidade de filtros de passagem de banda compreendem informações em um formato de filtro para a porção do sinal de áudio, em que a largura de banda de um o filtro passagem da banda é diferente em relação a um espectro de áudio e depende da frequência central do filtro de passagem da banda, em que o estimador de passagem da banda opera para determinar as frequências centrais com base nos valores candidatos (124); uma calculadora de modulação (110) para calcular uma modulação de amplitude ou uma modulação de frequência ou uma modulação de fase para cada banda da pluralidade de filtros de passagem de banda para a porção do sinal de áudio utilizando as informações (108) sobre a pluralidade de filtros de passagem de banda; e uma interface de saída (116) para transmitir, armazenar ou modificar informações sobre a modulação de amplitude, informações sobre modulação de frequência ou modulação de fase ou informações sobre a pluralidade de filtros de passagem de banda para a porção do sinal de áudio.
2. Equipamento, de acordo com a reivindicação 1, caracterizado pelo fato de que o analisador de sinal está funciona para analisar a porção com relação a uma amplitude ou distribuição de potência sobre a frequência da porção (132).
3. Equipamento, de acordo com a reivindicação 1, caracterizado pelo fato de que o analisador de sinais (102) opera para adicionar valores de potência negativos de uma primeira metade de uma banda e adicionar valores de potência positivos de uma segunda metade de uma banda para adquirir um valor candidato à posição do centro de gravidade, em que os valores candidatos à posição do centro de gravidade são suavizados ao longo do tempo para adquirir valores suavizados da posição do centro de gravidade, e em que o calculador de filtro de passagem de banda está operando para determinar as frequências de cruzamentos zero dos valores da posição suavizada do centro de gravidade ao longo do tempo.
4. Equipamento, de acordo com a reivindicação 1, caracterizado pelo fato de que o calculador de passagem de banda opera para determinar as informações da frequência central ou da largura de banda dos filtros de passagem de banda, de modo que um espectro de um valor inicial mais baixo a um valor final mais alto seja coberto sem um furo espectral, em que o valor inicial mais baixo e o valor final mais alto compreendem pelo menos cinco larguras de banda de filtro de passagem de banda.
5. Equipamento, de acordo com a reivindicação 1, caracterizado pelo fato de que o estimador de passagem de banda opera para determinar as informações de modo que a frequência de cruzamentos zero seja modificada de modo a que um espaçamento de frequência central de passe de banda aproximadamente igual em relação a resultados de uma escala perceptiva , em que a distância entre as frequências centrais dos passes de banda e as frequências de cruzamentos zero na função de posição do centro de gravidade é minimizada.
6. Equipamento, de acordo com a reivindicação 1, caracterizado pelo fato de que o calculador de modulação opera para formar um sinal analítico de um sinal de passagem de banda para a passagem de banda e calcular uma magnitude do sinal analítico para obter informações sobre a modulação de amplitude do sinal de áudio na banda do filtro de passagem de banda.
7. Método de conversão de um sinal de áudio em uma representação parametrizada, caracterizado pelo fato de que compreende: analisar uma porção do sinal de áudio para adquirir um resultado de análise (104), em que uma função de posição do centro de gravidade para uma representação espectral da porção do sinal de áudio é calculada, em que eventos predeterminados na função de posição do centro de gravidade indicam valores candidatos (124) para frequências centrais da pluralidade de filtros passagem de banda; calcular informações de uma pluralidade de filtros de passagem de banda com base no resultado da análise, em que as informações na pluralidade de filtros de passagem de banda compreendem informações em uma forma de filtro para a porção do sinal de áudio, em que a largura de banda de um filtro de passagem de banda é diferente sobre um espectro de áudio e depende da frequência central do filtro passagem de banda, em que a etapa de estimativa determina as frequências centrais com base nos valores candidatos; calcular uma modulação de amplitude ou uma modulação de frequência ou uma modulação de fase para cada banda da pluralidade de filtros de passagem de banda para a porção do sinal de áudio usando as informações na pluralidade de filtros de passagem de banda; e transmitir, armazenar ou modificar informações sobre a modulação de amplitude, informações sobre modulação de frequência ou modulação de fase ou informações sobre a pluralidade de filtros passagem de banda para a porção do sinal de áudio.
8. Equipamento para modificar uma representação parametrizada caracterizado por compreender, por uma parte do tempo de um sinal de áudio, informações de filtro de passagem de banda para uma pluralidade de filtros de passagem de banda, a informação de filtro de passagem de banda indicando filtro de passagem de faixa variável no tempo frequências centrais de filtros passagem de banda que compreendem larguras de banda, que dependem de uma frequência central do filtro passagem de banda correspondente e informações de modulação de amplitude ou modulação de fase ou modulação de frequência para cada filtro de passagem de banda para a parte temporal do sinal de áudio, a informação de modulação sendo relacionada às frequências centrais dos filtros de passagem de banda, o equipamento compreendendo: um modificador para modificar as frequências centrais variáveis no tempo e para gerar uma representação parametrizada modificada, na qual as larguras de banda dos filtros passagem de banda dependem das frequências centrais do filtro passagem de banda dos filtros passagem de banda correspondentes.
9. Equipamento, de acordo com a reivindicação 8, caracterizado pelo fato de que o modificador opera para modificar todas as frequências centrais por multiplicação com um fator constante ou apenas alterando as frequências centrais selecionadas, a fim de alterar o modo principal de uma peça de música, por exemplo, maior para menor ou vice- versa.
10. Método para modificar uma representação parametrizada caracterizado por compreender, por uma parte do tempo de um sinal de áudio, informações de filtro de passagem de banda para uma pluralidade de filtros de passagem de banda, as informações de filtro de passagem de banda indicando frequências centrais de filtro de passagem de banda variável no tempo dos filtros de passagem de banda compreendendo larguras de banda, que dependem de uma frequência central do filtro passagem de banda dos filtros passa-faixa correspondentes e compreendem informações sobre modulação de amplitude ou modulação de fase ou modulação de frequência para cada filtro de passagem de banda para a parte temporal do sinal de áudio, estando as informações de modulação relacionadas a as frequências centrais dos filtros passagem de banda, o método compreendendo: modificar as frequências centrais variáveis no tempo e gerar uma representação parametrizada modificada, na qual as larguras de banda dos filtros passagem de banda dependem das frequências centrais do filtro passagem de banda dos filtros passagem de banda correspondentes.
11. Equipamento para sintetizar uma representação parametrizada de um sinal de áudio caracterizado por compreender uma porção de tempo de um sinal de áudio, informações de filtro de passagem de banda para uma pluralidade de filtros de passagem de banda, as informações de filtro de passagem de banda indicando as frequências centrais do filtro de passagem de banda com variação no tempo da passagem de banda filtros compreendendo larguras de banda variáveis, que dependem de uma frequência central do filtro de passagem de banda do filtro de passagem de banda correspondente, e compreendendo informações de modulação de amplitude ou de modulação de fase ou modulação de frequência para cada filtro de passagem de banda para a parte temporal do sinal de áudio, compreendendo: um sintetizador de modulação de amplitude para sintetizar um componente de modulação de amplitude com base nas informações de modulação de amplitude; um sintetizador de modulação de frequência ou modulação de fase para sintetizar informações instantâneas de frequência de fase com base nas informações de uma frequência portadora e uma informação de modulação de frequência para uma largura de banda respectiva, em que as distâncias na frequência entre frequências portadoras adjacentes são diferentes ao longo de um espectro de frequência, um oscilador para gerar um sinal de saída representando um sinal de oscilação instantaneamente modulado em amplitude, modulado em frequência ou modulado em fase para cada canal de filtro de passagem de banda; e um combinador para combinar sinais dos canais de filtro de passagem de banda e para gerar um sinal de saída de áudio com base nos sinais dos canais de filtro de passagem de banda, em que o sintetizador de modulação de amplitude compreende um somador de sobreposição para sobreposição e ponderação adicionando blocos subsequentes de informações de modulação de amplitude para adquirir o componente de modulação de amplitude; ou em que a modulação de frequência ou sintetizador de modulação de fase compreende e adiciona sobreposição para adicionar dois blocos subsequentes de informações de modulação de frequência ou modulação de fase ou uma representação combinada das informações de modulação de frequência e a frequência portadora de um sinal de passagem de banda para adquirir as informações de frequência sintetizadas .
12. Equipamento, de acordo com a reivindicação 11, caracterizado pelo fato de que o sintetizador de modulação de frequência ou de modulação de fase compreende um integrador para integrar as informações de frequência sintetizadas e para adicionar, às informações de frequência sintetizadas, um termo de fase derivado de uma fase de um componente na vizinhança espectral de um bloco anterior de um sinal de saída do oscilador.
13. Equipamento, de acordo com a reivindicação 12, caracterizado pelo fato de que o oscilador é um oscilador sinusoidal alimentado por um sinal de fase adquirido pela operação de adição.
14. Equipamento, de acordo com a reivindicação 13, caracterizado pelo fato de que o oscilador compreende um modulador para modular um sinal de saída do oscilador sinusoidal usando o componente de modulação de amplitude para a banda.
15. Método de sintetizar uma representação parametrizada de um sinal de áudio caracterizado por compreender uma parte do tempo de um sinal de áudio, informações de filtro de passagem de banda para uma pluralidade de filtros de passagem de banda, a informação de filtro de passagem de banda indicando as frequências centrais do filtro de passagem de banda variável no tempo filtros que compreendem larguras de banda variáveis, que dependem de uma frequência central do filtro de passagem de banda do filtro de passagem de banda correspondente, e compreendendo informações de modulação de amplitude ou de modulação de fase ou modulação de frequência para cada filtro de passagem de banda para a parte temporal do sinal de áudio, compreendendo: sintetizar um componente de modulação de amplitude com base nas informações de modulação de amplitude; sintetizar informações instantâneas de frequência ou fase com base nas informações de uma frequência portadora e de informações de modulação de frequência para uma largura de banda respectiva, em que as distâncias na frequência entre frequências portadoras adjacentes são diferentes ao longo de um espectro de frequência, gerar um sinal de saída representando um sinal de oscilação instantaneamente modulado em amplitude, modulado em frequência ou modulado em fase para cada canal de filtro de passagem de banda; e combinar sinais dos canais de filtro de passagem de banda e gerar um sinal de saída de áudio com base nos sinais dos canais de filtro de passagem de banda, em que a etapa de sintetizar um componente de modulação de amplitude compreende uma etapa de sobreposição e ponderação adicionando blocos subsequentes de informações de modulação de amplitude para adquirir o componente de modulação de amplitude; ou em que a etapa de sintetizar informações instantâneas de frequência ou fase compreende uma etapa de adição ponderada de dois blocos subsequentes de informações de modulação de frequência ou modulação de fase ou uma representação combinada das informações de modulação de frequência e a frequência portadora de um sinal de passagem de banda para adquirir as informações de frequência sintetizadas .
16. Meio de armazenamento não transitório, tendo armazenado nele um método de acordo com as reivindicações 7, 10 ou 15.
17. Equipamento, para converter um sinal de áudio em uma representação parametrizada, caracterizado pelo fato de que compreende: um analisador de sinal para analisar uma porção do sinal de áudio para obter um resultado de análise; um calculador de passagem de banda para estimar informações de uma pluralidade de filtros de passagem de banda com base no resultado da análise, em que as informações na pluralidade de filtros de passagem de banda compreendem informações em uma forma de filtro para a porção do sinal de áudio, em que a largura de banda de um o filtro passagem de banda é diferente em um espectro de áudio e depende da frequência central do filtro passagem de banda; um calculador de modulação para estimar uma modulação de amplitude ou uma modulação de frequência ou uma modulação de fase para cada banda da pluralidade de filtros de passagem de banda para a porção do sinal de áudio usando as informações na pluralidade de filtros de passagem de banda, em que o estimador de modulação é operativo misturar um sinal de passagem de banda com uma portadora compreendendo a frequência central da respectiva passagem de banda para obter informações sobre a modulação de frequência ou modulação de fase na banda do filtro de passagem de banda; e uma interface de saída para transmitir, armazenar ou modificar informações sobre a modulação de amplitude, informações sobre modulação de frequência ou modulação de fase ou informações sobre a pluralidade de filtros de passagem de banda para a porção do sinal de áudio.
18. Método para converter um sinal de áudio em uma representação parametrizada, caracterizado pelo fato de que compreende: analisar uma parte do sinal de áudio para obter um resultado de análise; calcular informações de uma pluralidade de filtros de passagem de banda com base no resultado da análise, em que as informações na pluralidade de filtros de passagem de banda compreendem informações em uma forma de filtro para a porção do sinal de áudio, em que a largura de banda de um filtro de passagem de banda é diferente sobre um espectro de áudio e depende da frequência central do filtro de passagem de banda; calcular uma modulação de amplitude ou uma modulação de frequência ou uma modulação de fase para cada banda da pluralidade de filtros de passagem de banda para a porção do sinal de áudio usando as informações na pluralidade de filtros de passagem de banda, em que um sinal de passagem de banda é mixado com uma portadora compreendendo a frequência central da respectiva passagem de banda para adquirir informações sobre a modulação de frequência ou modulação de fase na banda do filtro de passagem de banda; e transmitir, armazenar ou modificar informações sobre a modulação de amplitude, informações sobre modulação de frequência ou modulação de fase ou informações sobre a pluralidade de filtros passagem de banda para a porção do sinal de áudio.
19. Equipamento, para modificar uma representação parametrizada caracterizado por compreender, por uma parte do tempo de um sinal de áudio, informações de filtro de passagem de banda para uma pluralidade de filtros de passagem de banda, a informação de filtro de passagem de banda indicando frequências centrais de filtro de passagem de banda variável no tempo de filtros de passagem de banda compreendendo larguras de banda, que dependem de uma frequência central do filtro passagem de banda os filtros de passagem de banda correspondentes e compreendendo informações de modulação de amplitude ou modulação de fase ou modulação de frequência para cada filtro de passagem de banda para a porção de tempo do sinal de áudio, sendo as informações de modulação relacionadas às frequências centrais dos filtros de passagem de banda, o Equipamento compreendendo : um modificador para modificar as frequências centrais variáveis no tempo ou para modificar as informações de modulação de amplitude ou de modulação de fase ou de modulação de frequência e para gerar uma representação parametrizada modificada, na qual as larguras de banda dos filtros de passagenm de anda dependem das frequências centrais do filtro de pasasgem de banda dos filtros de passagem de banda correspondentes, em que o modificador opera para modificar as informações de modulação de amplitude ou as informações de modulação de fase ou as informações de modulação de frequência por uma decomposição não linear em uma estrutura grossa e uma estrutura fina e modificando apenas a estrutura grossa ou a estrutura fina.
20. Método para modificar uma representação parametrizada caracterizado por compreender, por uma parte do tempo de um sinal de áudio, informações de filtro de passagem de banda para uma pluralidade de filtros de passagem de banda, as informações de filtro de passagem de banda indicando frequências centrais de filtro de passagem de banda com variação no tempo dos filtros de passagem de banda compreendendo larguras de banda, que dependem de uma frequência central do filtro passagem de banda dos filtros passa-faixa correspondentes e compreendem informações sobre modulação de amplitude ou modulação de fase ou modulação de frequência para cada filtro de passagem de banda para a parte temporal do sinal de áudio, estando as informações de modulação relacionadas a as frequências centrais dos filtros passagem de banda, o Equipamento compreendendo: modificar as frequências centrais de variação no tempo ou modificar as informações de modulação de amplitude ou de modulação de fase ou de modulação de frequência e gerar uma representação parametrizada modificada, na qual as larguras de banda dos filtros passagem de banda dependem das frequências centrais do filtro passagem de banda dos filtros passagem de banda correspondentes, em que a modificação modifica as informações de modulação de amplitude ou as informações de modulação de fase ou as informações de modulação de frequência por uma decomposição não linear em uma estrutura grossa e uma estrutura fina e modificando apenas a estrutura grossa ou a estrutura fina.
21. Equipamento para sintetizar uma representação parametrizada de um sinal de áudio compreendendo uma porção de tempo de um sinal de áudio, informações de filtro de passagem de banda para uma pluralidade de filtros de passagem de banda, a informação de filtro de passagem de banda indicando as frequências centrais do filtro de passagem de banda com variação no tempo da passagem de banda filtros compreendendo larguras de banda variáveis, que dependem de uma frequência central do filtro de passagem de banda do filtro de passagem de banda correspondente, e compreendendo informações de modulação de amplitude ou de modulação de fase ou modulação de frequência para cada filtro de passagem de banda para a parte temporal do sinal de áudio, compreendendo: um sintetizador de modulação de amplitude para sintetizar um componente de modulação de amplitude com base nas informações de modulação de amplitude, em que o sintetizador de modulação de amplitude compreende um adicionador de ruído para adicionar ruído, o adicionador de ruído sendo controlado via informações laterais transmitidas, sendo fixado ou sendo controlado por uma análise local ; um sintetizador de modulação de frequência ou modulação de fase para sintetizar informações instantâneas de frequência de fase com base nas informações de uma frequência portadora e uma informação de modulação de frequência para uma largura de banda respectiva, em que as distâncias na frequência entre frequências portadoras adjacentes são diferentes ao longo de um espectro de frequência, um oscilador para gerar um sinal de saída representando um sinal de oscilação instantaneamente modulado em amplitude, modulado em frequência ou modulado em fase para cada canal de filtro de passagem de banda; e um combinador para combinar sinais dos canais de filtro de passagem de banda e para gerar um sinal de saída de áudio com base nos sinais dos canais de filtro de passagem de banda.
22. Método de sintetizar uma representação parametrizada de um sinal de áudio compreendendo uma porção de tempo de um sinal de áudio, informações de filtro de passagem de banda para uma pluralidade de filtros de passagem de banda, as informações de filtro de passagem de banda indicando as frequências centrais do filtro de passagem de banda com variação no tempo da passagem de banda filtros compreendendo larguras de banda variáveis, que dependem de uma frequência central do filtro de passagem de banda do filtro de passagem de banda correspondente, e compreendendo informações de modulação de amplitude ou de modulação de fase ou modulação de frequência para cada filtro de passagem de banda para a parte temporal do sinal de áudio, compreendendo: sintetizar um componente de modulação de amplitude com base nas informações de modulação de amplitude, a etapa de sintetizar compreendendo uma etapa de adição de ruído controlado por meio de informações laterais transmitidas, sendo as informações secundárias fixadas ou controladas por uma análise local; sintetizar informações instantâneas de frequência ou fase com base nas informações de uma frequência portadora e de informações de modulação de frequência para uma largura de banda respectiva, em que as distâncias na frequência entre frequências portadoras adjacentes são diferentes ao longo de um espectro de frequência gerar um sinal de saída representando um sinal de oscilação instantaneamente modulado em amplitude, modulado em frequência ou modulado em fase para cada canal de filtro de passagem de banda; e combinar sinais dos canais de filtro de passagem de banda e para gerar um sinal de saída de áudio com base nos sinais dos canais de filtro de passagem de banda.
BRPI0906247-5A 2008-03-20 2009-03-10 Equipamento e método para converter um sinal de áudio em uma representação parametrizada, equipamento e método para modificar uma representação parametrizada, equipamento e método para sintetizar uma representação parametrizada de um sinal de áudio BRPI0906247B1 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP08151236 2008-02-08
US3830008P 2008-03-20 2008-03-20
US61/038,300 2008-03-20
EP08015123.6 2008-08-27
PCT/EP2009/001707 WO2009115211A2 (en) 2008-03-20 2009-03-10 Apparatus and method for converting an audio signal into a parameterized representation, apparatus and method for modifying a parameterized representation, apparatus and method for synthensizing a parameterized representation of an audio signal

Publications (2)

Publication Number Publication Date
BRPI0906247A8 BRPI0906247A8 (pt) 2018-10-16
BRPI0906247B1 true BRPI0906247B1 (pt) 2023-07-04

Family

ID=

Similar Documents

Publication Publication Date Title
ES2770597T3 (es) Aparato y método para modificar una representación parametrizada
JP5425250B2 (ja) 瞬間的事象を有する音声信号の操作装置および操作方法
Nagel et al. A harmonic bandwidth extension method for audio codecs
WO2014115225A1 (ja) 帯域幅拡張パラメータ生成装置、符号化装置、復号装置、帯域幅拡張パラメータ生成方法、符号化方法、および、復号方法
Disch et al. An amplitude-and frequency modulation vocoder for audio signal processing
BRPI0906247B1 (pt) Equipamento e método para converter um sinal de áudio em uma representação parametrizada, equipamento e método para modificar uma representação parametrizada, equipamento e método para sintetizar uma representação parametrizada de um sinal de áudio
Hamdy Audio modeling for coding and time scaling applications