(54) Título: DISPOSITIVO E MÉTODO PARA UMA EXTENSÃO DE LARGURA DE BANDA DE UM SINAL DE ÁUDIO (51) Int.CI.: G10L 21/02.
(30) Prioridade Unionista: 26/03/2008 DE 10 2008 015 702.3; 31/01/2008 US 61/025,129.
(73) Titular(es): FRAUNHOFER-GESELLSCHAFT ZUR FÔERDERUNG DER ANGEWANDTEN FORSCHUNG E.V..
(72) Inventor(es): NAGEL, FREDERIK; DISCH, SASCHA; NEUENDORF, MAX.
(86) Pedido PCT: PCT EP2009000329 de 20/01/2009 (87) Publicação PCT: WO 2009/095169 de 06/08/2009 (85) Data do Início da Fase Nacional: 30/07/2010 (57) Resumo: DISPOSITIVO E MÉTODO PARA UMA EXTENSÃO DE LARGURA DE BANDA DE UM SINAL DE ÁUDIO Para uma extensão de largura de banda de um sinal de áudio, em um dispersor de sinal, o sinal de áudio é temporalmente disperso por um fator de dispersão maior que 1. O sinal de áudio temporalmente disperso é, então, suprido para um dizimador para dizimar a versão temporalmente dispersa por um fator de dizimação correspondido com o fator de dispersão. A banda gerada por esta operação de dizimação é extraída e distorcida, e finalmente combinada com o sinal de áudio para obter um sinal de áudio de largura de banda estendida. Um vocoder de fase na implementação de banco de filtro ou implementação de transformação pode ser utilizado para dispersão de sinal.
| DISPOSITIVO E MÉTODO PARA UMA EXTENSÃO DE
Ir LARGURA DE BANDA DE UM SINAL DE ÁUDIO
S
DESCRIÇÃO
A presente invenção se refere ao processamento de sinal de áudio, e em especial, ao processamento de sinal de áudio em situações nas quais a taxa de dados disponível é bastante reduzida.
t A codificação de audição adaptada de sinais de áudio para uma redução de dados para uma armazenagem e transmissão eficientes destes sinais ganhou aceitação em muitos campos. Algoritmos de codificação são conhecidos, em especial, como MP3 ou MP4. A codificação utilizada para isto, em especial quando atingindo as menores taxas de bit, conduz à redução da qualidade de áudio que é, frequentemente, causada principalmente por uma limitação no lado do codificador da largura de banda do sinal de áudio a ser transmitido.
É conhecido da WO 98 57436 como submeter o sinal de áudio a uma limitação de banda em uma situação no lado do codificador e a codificar apenas uma banda inferior do sinal de áudio por meio de um codificador de áudio de alta qualidade. A banda superior, entretanto, é caracterizada apenas de forma muito grosseira, isto é, por um conjunto de parâmetros que reproduz o envelope espectral da banda superior.. No lado do decodificador, a banda superior é, então, sintetizada. Para este objetivo, uma transposição harmônica é proposta, onde a banda inferior do sinal de áudio decodificado é suprida a um banco de filtros. Os canais de banco de filtro da banda inferior são conectados a canais de banco de filtro da banda superior, ou são remendados, e cada * sinal de passagem de banda remendado é submetido a um ajuste de {t- envelope. O banco de filtro de síntese pertencendo a um banco de
G* filtro de análise especial, aqui, recebe sinais de passagem de banda do sinal de áudio na banda inferior e sinais de passagem de 5 banda ajustados ao envelope da banda inferior que foram remendados harmonicamente na banda superior. O sinal de saída do banco de filtro de síntese é um sinal de áudio estendido com relação a sua largura de banda, que foi transmitido do lado do codificador para o lado do decodif icador com uma taxa de dados muito baixa. Em 10 especial, cálculos de banco de filtro e remendos no domínio de banco de filtro podem se tornar um grande esforço computacional.
Métodos de complexidade reduzida para uma extensão de largura de banda de sinais de áudio de banda limitada ao invés do uso de uma função de cópia de porções de sinalde baixa freqüência (LF) na faixa de alta freqüência (HF) , de modo a aproximar informação que está perdida devido a uma limitaçãode banda. Esses métodos são descritos por M. Dietz, L. Liljeryd,K.
Kjõrling e O. Kunz, Spectral Band Replication, a novel approach in audio coding, na 112- Convenção AES, Munique, Maio de 2002; S.
Meltzer, R. Bõhm e F. Henn, SBR enhanced audio codecs for digital broadcasting such as Digital Radio Mondiale (DRM),112Convenção AES, Munique, Maio de 2002; T. Ziegler, A. Ehret, P.
Ekstrand e M. Lutzky, Enhancing mp3 with SBR: Features and Capabilities of the new mp3PRO Algorithm, na 112- Convenção AES,
Munique, maio de 2002; Norma Internacional ISO/TEC 144963:2001/FPDAM 1, Bandwidth Extension, ISO/IEC, 2002, ou Speech bandwidth extension method and apparatus, Vasu Iyengar et al., Patente Norte-Americana N2 5.455.888.
Nestes métodos nenhuma transposição harmônica é realizada, mas sinais de banda de passagem sucessivos da banda inferior são introduzidos em sucessivos canais de banco de filtro da banda superior. Por isto, uma aproximação grosseira do sinal é obtida. Esta aproximação grosseira do sinal é, então, em uma etapa adicional, aproximada do original por um pós-processamento utilizando informação de controle obtida do sinal original. Aqui, por exemplo, fatores de escala servem para adaptar o envelope espectral, uma filtragem inversa e adição de um carpete de ruído para adaptar tonalidade e uma suplementação por porções de sinal sinusoidal, como é também descrito na Norma MPEG-4.
Além disto, existem métodos adicionais tais como aqueles denominados de extensão de largura de banda cega, descritos por E. Larsen, R.M. Aarts, e M. Danessis, Efficient high-frequency bandwidth extension of music and speech, na 112Convenção AES, Munique, Alemanha, Maio de 2002, onde nenhuma informação na faixa HF original é utilizada. Além disso, também existe o método denominado Artificial bandwidth extension, ο qual é descrito por K. Kayhkõ, A Robust Wideband Enhancement For Narrowband Speech Signal; Research Report, Helsinki University of Technology, Laboratory of Acoustics and Audio Signal Processing, 2001.
Em J. Makinen et al. : AMR-WB+: a new audio codiging standard for 3rd generation mobile audio services broadcasts, IEEE, ICASSP '05, é descrito um método para extensão de largura de banda, onde a operação de cópia da extensão de largura de banda com uma cópia crescente de sucessivos sinais de passagem de banda de acordo com a tecnologia SBR é substituída por * espelhamento, por exemplo, por amostragem crescente.
»í- Tecnologias adicionais para extensão de largura de banda são descritas nos documentos a seguir. R.M. Aarts, E. Larsen, e O. Ouweltjes, A unified approach to low- and high frequency bandwidth extension , 115- Convenção AES, Nova York,
EUA, Outubro de 2003; E. Larsen e R.M. Aarts, Audio Bandwidth Extension - Application to psychoacoustics, Signal Processing and ' Loudspeaker Design, John Wiley & Sons, Ltd., 2004; E. Larsen,
R.M. Aarts, e M. Danessis, Efficient high-frequency bandwidth extension of music and speech, 112- Convensão AES, Munique, Maio de 2002; J. Makhoul, Spectral Analysis of Speech by Linear Prediction, IEEE Transactions on Audio and Electroacoustics, AU210), Junho de 1973; Pedido de Patente Norte-Americana N08/951.029; Patente Norte-Americana N2 6.895.375.
Métodos conhecidos de extensão de largura de banda harmônica mostram uma alta complexidade. Por outro lado, métodos de extensões de largura de banda de complexidade reduzida 1 mostram perdas de qualidade. Em especial, com baixa taxa de bits e em combinação com uma largura de banda baixa da faixa LF, artefatos tais como aspereza e um timbre percebido como desagradável podem ocorrer. Uma razão para isto é o fato de que a porção HF aproximada é baseada em uma operação de cópia que ignora as relações harmônicas das porções de sinal tonal não observadas com relação umas as outras. Isto se aplica tanto a uma relação harmônica entre LF e HF, quanto também à relação harmônica dentro da própria porção HF. Com SBR, por exemplo, no limite entre a faixa LF e a faixa HF gerada, ocasionalmente impressões de som áspero ocorrem, como porções tonais copiadas da faixa LF na faixa
HF, como, por exemplo, ilustrado na Figura 4a, podem agora no sinal geral encontrar porções tonais da faixa LF como sendo espectralmente densamente adjacentes. Dessa maneira, na Figura 4a, um sinal original com picos em 401, 402, 403, e 404 é ilustrado, enquanto um sinal de teste é ilustrado com picos em 405, 406, 407, e 408. Pela cópia de porções tonais da faixa LF na faixa HF, onde na Figura 4a o limite era em 4250 Hz, a distância dos dois picos esquerdos no sinal de teste é menor que a freqüência base subjacente à varredura harmônica, o que conduz a uma percepção de aspereza.
Como a largura dos grupos de freqüência de tom compensado aumenta com um aumento da freqüência central, conforme é descrito por Zwicker, E. e H. Fasti (1999), Psychoacoustics: Facts and models. Berlim - Springerverlag, porções sinusoidais presentes na faixa LF em diferentes grupos de freqüência, pela cópia na faixa HF, podem estar no mesmo grupo de freqüência aqui, o que também conduz a uma impressão áspera de audição como pode ser visto na Figura 4b. Aqui é especificamente mostrado que a cópia da faixa LF na faixa RF conduz a uma estrutura tonal mais densa no sinal de teste se comparado com o original. O sinal original é distribuído relativamente de forma uniforme através do espectro na faixa de freqüência mais elevada, como é especificamente mostrado em 410. Em contraste, em especial nesta faixa mais elevada, o sinal de teste 411 é distribuído relativamente de forma não uniforme através do espectro e, assim, claramente mais tonal do que o sinal original 410.
É um objetivo da presente invenção atingir uma extensão de largura de banda com uma alta qualidade, e ainda simultaneamente atingir um processamento de sinal com complexidade mais baixa, entretanto, que pode ser implementada com pouco atraso e pouco esforço, e, dessa maneira, também com processadores com requisitos de hardware reduzidos com relação à velocidade do 5 processador e memória requerida.
O objetivo é atingido por um dispositivo para extensão de largura de banda de acordo com a reivindicação 1 ou um método para extensão de largura de banda de acordo com a reivindicação 13, ou um programa de computador de acordo com a 10 reivindicação 14.
0 |
conceito |
da |
invenção |
para uma extensão de |
largura de banda é |
baseado |
em |
um |
sinal |
temporal disperso para |
gerar uma versão do |
sinal de |
áudio |
como |
um sinal de tempo que é |
disperso por um fator de dispersão >1 e uma dizimação subsequente do sinal de tempo para obter um sinal transposto, que pode, então, por exemplo, ser filtrado por um filtro de passagem de banda simples para extrair uma porção de sinal de alta frequência que pode ainda ser distorcido ou alterado com relação a sua amplitude, respectivamente, para obter uma boa aproximação para a porção de alta frequência original. A filtragem de passagem de banda pode, alternativamente, ocorrer antes da dispersão de sinal ser realizada, de modo que apenas a faixa de frequência desejada esteja presente após dispersar o sinal de dispersão, de modo que uma filtragem de passagem de banda após dispersão possam ser omitida.
Com a extensão de largura de banda harmônica por um lado, problemas resultantes de uma operação de cópia ou reflexão, ou de ambas, podem ser eliminados com base em uma continuação harmônica e dispersão do espectro utilizando o dispersor de sinal para dispersar o sinal de tempo. Por outro lado, uma dispersão temporal e subsequente dizimação podem ser realizadas mais facilmente por processadores simples do que por um banco de filtro de análise/sintese completa, como é, por exemplo, utilizado com a transposição harmônica, onde decisões adicionais têm que ser tomadas sobre como o remendo dentro do domínio de banco de filtro deve ocorrer.
Preferivelmente, para dispersão de sinal, um vocoder de fase é utilizado para os quais existem implementações de esforço mínimo. De modo a obter extensões de largura de banda com fatores >2, vários vocoders de fase também podem ser utilizados em paralelo, o que é vantajoso, em especial com relação ao atraso da extensão de largura de banda que tem que ser baixo em aplicações de tempo real. Alternativamente, outros métodos para dispersão de sinal estão disponíveis, tal como, por exemplo, o método PSOLA (Pitch Synchronous Overlap Add) .
Em uma configuração preferida da presente invenção, o sinal de áudio LF é primeiramente estendido na direção do tempo com a frequência LF máxima com a ajuda do vocoder de fase, isto é, um múltiplo inteiro da duração convencional do sinal. Aqui, em um dizimador a jusante, uma dizimação do sinal pelo fator da extensão temporal ocorre, o que no total conduz a uma dispersão do espectro. Isto corresponde a uma transposição do sinal de áudio. Finalmente, o sinal resultante é filtrado por passagem de banda para a faixa (fator de extensão - 1) LF máxima para o fator de extensão LF máximo. Alternativamente, os sinais de fregüência elevados individuais gerados pela dispersão de dizimação podem ser submetidos a uma filtragem de passagem de banda de modo que no final eles se sobreponham aditivamente através da faixa de frequência elevada inteira (isto é, de LFmax até K*LFmax) . Isto é sensato para o caso em que uma densidade espectral mais alta de harmônicas é ainda desejada.
O método de extensão de largura de banda harmônica é realizado em uma configuração preferida da presente invenção em paralelo para vários fatores de extensão diferentes. Como alternativa ao processamento paralelo, um vocoder de fase única também pode ser utilizado, o qual é operado serialmente e onde resultados intermediários são armazenados. Dessa maneira, quaisquer frequências de corte de extensão de largura de banda podem ser atingidas. A extensão do sinal pode, alternativamente, ser realizada também diretamente na direção da frequência, isto é, em especial, por uma operação dupla correspondendo ao principio funcional do vocoder de fase.
Vantajosamente, nas configurações da invenção, nenhuma análise do sinal é requerida com relação à harmonia ou frequência fundamental.
A seguir, as configurações preferidas da presente invenção são explicadas em maiores detalhes com referência aos desenhos anexos, nos quais:
A Figura 1 mostra um diagrama de bloco do conceito da invenção para uma extensão de largura de banda de um sinal de áudio;
A Figura 2a mostra um diagrama de bloco de um dispositivo para uma extensão de largura de banda de um sinal de áudio de acordo com um aspecto da presente invenção;
A Figura 2b mostra um melhoramento do conceito da Figura 2a com detectores transientes;
A Figura 3 mostra uma ilustração esquemática do processamento de sinal utilizando espectro em certos pontos no tempo de uma extensão de largura de banda da invenção;
A Figura 4a mostra uma comparação entre um sinal original e um sinal de teste provendo uma impressão de som grosseira;
A Figura 4b mostra uma comparação de um sinal original com um sinal de teste também conduzindo a uma impressão auditiva grosseira;
A Figura 5a mostra uma ilustração esquemática da implementação de banco de filtro de um vocoder de fase;
A Figura 5b mostra uma ilustração detalhada de um filtro da Figura 5a;
A Figura 5c mostra uma ilustração esquemática para a manipulação do sinal de magnitude e do sinal de frequência em um canal de filtro da Figura 5a;
A Figura 6 mostra uma ilustração esquemática da implementação de transformação de um vocoder de fase;
A Figura 7a mostra uma ilustração esquemática do lado do codificador no contexto da extensão de largura de banda; e
A Figura 7b mostra uma ilustração esquemática do lado do decodificador no contexto de uma extensão de largura de banda de um sinal de áudio.
A Figura 1 mostra uma ilustração esquemática de um dispositivo ou um método, respectivamente, para uma extensão de largura de banda de um sinal de áudio. Apenas exemplificativamente, a Figura 1 é descrita como um dispositivo, embora a Figura 1 também possa ser simultaneamente considerada como o fluxograma de um método para uma extensão de largura de banda. Aqui, o sinal de áudio é alimentado no dispositivo em uma entrada 100. O sinal de áudio é suprido a um dispersor de sinal
102 que é implementado para gerar uma versão do sinal de áudio como um sinal de tempo disperso no tempo por um fator de dispersão maior que 1. 0 fator de dispersão na configuração ilustrada na Figura 1 é suprido por meio de uma entrada de fator de dispersão 104. 0 sinal de tempo de áudio de dispersão presente em uma saída
103 do dispersor de sinal 102 é suprido para um dizimador 105 que é implementado para dizimar o sinal de tempo de áudio temporalmente disperso 103, por um fator de dizimação correspondendo ao fator de dispersão 104. Isto é ilustrado esquematicamente pela entrada do fator de dispersão 104 na Figura 1, que é plotada em linhas tracejadas e conduz ao dizimador 105. Em uma configuração, o fator de dispersão no dispersor de sinal é igual ao inverso do fator de dizimação. Se, por exemplo, um fator de dispersão de 2,0 for aplicado no dispersor de sinal 102, uma dizimação com um fator de dizimação de 0,5 é realizada. Se, entretanto, a dizimação é descrita com o efeito de que uma dizimação por um fator de 2 é realizada, isto é, que cada segundo valor de amostra é eliminado, então nesta ilustração, o fator de dizimação é idêntico ao fator de dispersão. As proporções alternativas entre o fator de dispersão e o fator de dizimação, por exemplo, as proporções integrais ou as proporções racionais, também podem ser utilizadas dependendo da implementação. A extensão de largura de banda harmônica máxima é atingida, entretanto, quando o fator de dispersão é igual ao fator de dizimação, ou ao inverso do fator de dizimação, respectivamente.
Em uma configuração preferida da presente invenção, o dizimador 105 é implementado, por exemplo, para eliminar cada segunda amostra (com um fator de dispersão igual a 2) de modo que resulta em um sinal de áudio dizimado que tem o mesmo comprimento temporal que o sinal de áudio original 100. Outros algoritmos de dizimação, por exemplo, formando valores de média pesada ou considerando as tendências do passado ou do futuro, respectivamente, também podem ser utilizados, embora uma dizimação simples pode ser implementada com muito pouco esforço pela eliminação de amostras. O sinal de tempo dizimado 106 gerado pelo dizimador 105 é suprido para um filtro 107, onde o filtro 107 é implementado para extrair um sinal de passagem de banda do sinal de áudio dizimado 106, que contém faixas de frequência que não estão contidas no sinal de áudio 100 na entrada do dispositivo. Na implementação, o filtro 107 pode ser implementado como um filtro de passagem de banda digital, por exemplo, como um filtro FIR ou IIR, ou também como um filtro de passagem de banda analógico, embora uma implementação digital seja preferida. Além disso, o filtro 107 é implementado de modo que ele extrai a faixa espectral superior gerado pelas operações 102 e 105 onde, entretanto, a faixa espectral inferior, que é de qualquer maneira coberta pelo sinal de áudio 100, é suprimida tanto quanto possível. Na implementação, o filtro 107 também pode ser implementado, de modo que, entretanto, ele também extraia porções de sinal com frequências como um sinal de passagem de banda contido no sinal original 100, onde o sinal de passagem de banda extraído contenha pelo menos uma banda de frequência que não estava contida no sinal de áudio original 100.
O sinal de passagem de banda 108, enviado pelo filtro 107, é suprido para um deformador 109, que é implementado para deformar os sinais de passagem de banda de modo que o sinal de passagem de banda compreenda um envelope predeterminado. Esta informação de envelope que pode ser utilizada para distorção pode ser inserida externamente, e pode vir de um codificador ou também pode ser gerada internamente, por exemplo, por uma extrapolação 10 cega do sinal de áudio 100, ou baseada nas tabelas armazenadas no lado do decodif icador, indexadas com um envelope de um sinal de áudio 100. O sinal de passagem de banda distorcido 110 enviado pelo deformador 109 é finalmente suprido a um combinador 111 que é implementado para combinar o sinal de passagem de banda distorcido 15 110 com o sinal de áudio original 100 que foi também distorcido dependendo da implementação (o estágio de atraso não é indicado na
Figura 1), para gerar um sinal de áudio estendido com relação a sua largura de banda em uma saída 112.
Em uma implementação alternativa, a seqüência do deformador 109 e combinador 111 é inversa à ilustração indicada na
Figura 1. Aqui, o sinal de saída de filtro, isto é, o sinal de passagem de banda 108, é diretamente combinado com o sinal de áudio 100, e a distorção da banda superior do sinal combinado que é enviado do combinador 111 é apenas realizado após combinação 25 pelo deformador 109. Nesta implementação, o deformador opera como um deformador para distorção do sinal de combinação, de modo que o sinal de combinação compreenda um envelope predeterminado. O combinador está nesta configuração, dessa maneira, implementado de modo que ele combine o sinal de passagem de banda 108 com o sinal de áudio 100 para obter um sinal de áudio que seja estendido com relação a sua largura de banda. Nesta configuração, na qual a distorção apenas ocorre após combinação, é preferível implementar o deformador 109, de modo que ele não influencie o sinal de áudio 100 ou a largura de banda do sinal de combinação, respectivamente, provido pelo sinal de áudio 100, visto que a banda inferior do sinal de áudio foi codificada por um codificador de alta qualidade e está, no lado do codificador, na síntese da banda superior, quer dizer, a medida de todas as coisas e não deve sofrer interferência da extensão de largura de banda.
Before detailed embodiments of the present invention are illustrated a bandwidth extension scenario is illustrated with reference to Figs. 7a and 7b
Antes das configurações detalhadas da presente invenção serem ilustradas, um cenário de extensão de largura de banda é ilustrado com referência às Figuras 7a e 7b, nas quais a presente invenção pode ser implementada vantajosamente. Um sinal de áudio é alimentado em uma combinação de passagem baixa/passagem alta em uma entrada 700. A combinação de passagem baixa/passagem alta, por um lado, inclui uma passagem baixa (LP) , para gerar uma versão filtrada de passagem baixa do sinal de áudio 700, ilustrado em 703 na Figura 7a. Este sinal de áudio filtrado de baixa passagem é codificado com um codificador de áudio 704 . O codificador de áudio é, por exemplo, um codificador MP3 (MPEG1 Camada 3) ou um codificador AAC, também conhecido como um codificador MP4 e descrito na Norma MPEG4. Codificadores de áudio alternativos provendo uma representação transparente ou vantajosamente psicoacusticamente transparente do sinal de áudio limitado por banda 703 podem ser utilizados no codificador 704 para gerar um sinal de áudio psicoacusticamente codificado e preferivelmente codificado psicoacusticamente e transparentemente 705, respectivamente. A banda superior do sinal de áudio é enviada a uma saída 706 pela porção de passagem alta do filtro 702, designado por HP. Ά porção de passagem alta do sinal de áudio, isto é, a banda superior ou banda HF, também designada como porção HF, é suprida a um calculador de parâmetro 707 que é implementado para calcular os diferentes parâmetros. Estes parâmetros são, por exemplo, o envelope espectral da banda superior 706 em uma resolução relativamente grosseira, por exemplo, pela representação de um fator de escala para cada grupo de frequência psicoacústica ou para cada banda de Bark na escala de Bark, respectivamente. Um parâmetro adicional que pode ser calculado pelo calculador de parâmetro 707 é o carpete de ruído na banda superior, cuja energia por banda pode preferivelmente ser relacionada à energia do envelope nesta banda. Parâmetros adicionais, que podem ser calculados pelo calculador de parâmetro 707, incluem uma medida de tonalidade para cada banda parcial da banda superior que indica como a energia espectral é distribuída em uma banda, isto é, se a energia espectral na banda é distribuída relativamente e uniformemente, onde, então, um sinal não tonal existe nesta banda, ou se a energia nesta banda está relativamente concentrada de maneira forte em certa localização da banda, onde, então, um sinal tonal existe para esta banda. Parâmetros adicionais consistem em picos explicitamente de codificação, relativamente se projetando fortemente na banda superior com relação a sua altura e sua frequência, visto que o conceito de extensão de largura de banda, na reconstrução sem esta codificação explicita de porções sinusoidais proeminentes na banda superior, irá apenas recuperar de forma muito rudimentar ou não recuperará a mesma.
Em qualquer caso, o calculador de parâmetro 707 é implementado para gerar apenas parâmetros 708 para a banda superior que pode ser submetida a etapas de redução de entropia similar, visto que elas também podem ser realizadas no codificador de áudio 704 para valores espectrais quantizados, tal como, por exemplo, codificação diferencial, predição ou codificação de Huffman, etc. A representação de parâmetro 708 e o sinal de áudio 705 são, então, supridos para um formatador de corrente de dados 709 que é implementado para prover uma corrente de dados do lado da saída 710 que será, tipicamente, uma corrente de bits de acordo com certo formato como é, por exemplo, normalizado na Norma MPEG4.
O lado do decodificador, como é especialmente adequado para a presente invenção, é ilustrado a seguir com relação à Figura 7b. A corrente de dados 710 entra em um interpretador de corrente de dados 711 que é implementado para separar a porção de parâmetro 708 da porção de sinal de áudio 705. A porção de parâmetro 708 é decodificada por um decodificador de parâmetro 712 para obter parâmetros decodificados 713. Em paralelo a isto, a porção de sinal de áudio 705 é decodificada por um decodificador de áudio 714 para obter o sinal de áudio que foi ilustrado em 100 na Figura 1.
Dependendo da implementação, o sinal de áudio 100 pode ser enviado por meio de uma primeira saída 715. Na saída 715, um sinal de áudio com uma pequena largura de banda e, dessa maneira, uma qualidade baixa também pode, então, ser obtida. Para uma melhora de qualidade, entretanto, a extensão de largura de banda 720 da invenção é realizada, que é, por exemplo, implementada conforme ela é ilustrada na Figura 1 para obter o sinal de áudio 112 no lado da saída com uma largura de banda estendida ou alta, respectivamente, e uma qualidade elevada.
A seguir, com referência à Figura 2a, uma implementação preferida da implementação de extensão de largura de banda da Figura 1 é ilustrada, a qual pode, preferivelmente, ser utilizada no bloco 712 da Figura 7b. A Figura 2a primeiramente inclui um bloco designado por “sinal de áudio e parâmetro, que pode corresponder ao bloco 711, 712, e 714 da Figura 7b, e é designado por 200. O bloco 200 provê o sinal de saída 100, assim como parâmetros decodificados 713 no lado de saída que podem ser utilizados para distorções diferentes, como, por exemplo, para a correção de tonalidade 109a e um ajuste de envelope 109b. O sinal gerado ou corrigido, respectivamente, pela correção de tonalidade
109a |
e pelo ajuste |
de |
envelope |
109b, |
é |
suprido |
ao |
combinador |
111 |
para |
obter o sinal |
de |
áudio no |
lado |
da |
saída i |
com |
uma largura |
de |
banda |
estendida 112. |
|
|
|
|
|
|
|
|
|
Preferivelmente |
, o |
dispersor |
de |
sinal 102 |
da |
Figura 1 é implementado por um vocoder de fase 202a. O dizimador 105 da Figura 1 é preferivelmente implementado por um conversor de taxa de amostra simples 205a. O filtro 107 para a extração de um sinal de banda passada é preferivelmente implementado por um filtro de passagem de banda simples 107a. Em especial, o vocoder de fase 202a e o dizimador de taxa de amostra 205a são operados com um fator de dispersão = 2.
Preferivelmente, um trem adicional consistindo do vocoder de fase 202b, dizimador 205b e filtro de passagem de banda 207b, é provido para extrair um sinal de passagem de banda adicional na saída do filtro 207b, compreendendo uma faixa de frequência entre a frequência de corte superior do filtro de passagem de banda 207a e três vezes a freqüência máxima do sinal de áudio 100.
Em adição a isto, um vocoder de fase k 202c é provido atingindo uma dispersão do sinal de áudio pelo fator k, onde k é preferivelmente um número inteiro maior que 1. Um dizimador 205 é conectado a jusante ao vocoder de fase 202c, que dizima pelo fator k. Finalmente, o sinal dizimado é suprido para um filtro de passagem de banda 207c que é implementado para ter uma freqüência de corte inferior que é igual à freqüência de corte superior da ramificação adjacente e que tem uma freqüência de corte superior que corresponde à dobra k da freqüência máxima do sinal de áudio 100. Todos os sinais de passagem de banda são combinados por um combinador 209, onde o combinador 209 pode, por exemplo, ser implementado como um adicionador. Alternativamente, o combinador 209 também pode ser implementado como um adicionador pesado que, dependendo da implementação, atenua bandas mais elevadas de forma mais acentuada do que bandas inferiores, independente da distorção a jusante pelos elementos 109a, 109b. Além disso, o sistema ilustrado na Figura 2a inclui um estágio de atraso 211 que garante que uma combinação sincronizada ocorre no combinador 111 que pode, por exemplo, ser uma adição ao âmbito de amostra.
A Figura 3 mostra uma ilustração esquemática de espectros diferentes que podem ocorrer no processamento ilustrado na Figura 1 ou Figura 2a. A imagem parcial (1) da Figura 3 mostra um sinal de áudio de banda limitada como está, por exemplo, presente em 100 na Figura 1, ou 703 na Figura 7a. Este sinal é preferivelmente disperso pelo dispersor de sinal 102 em um múltiplo inteiro da duração original do sinal e subsequentemente dizimada pelo fator inteiro, que conduz a uma dispersão geral do espectro conforme é ilustrado na imagem parcial (2) da Figura 3. A porção HF é ilustrada na Figura 3, conforme é extraída por um filtro de passagem de banda compreendendo uma banda de passagem 300. Na terceira imagem parcial (3), a Figura 3 mostra as variantes nas quais o sinal de passagem de banda já é combinado com o sinal de áudio original 100 antes da distorção do sinal de passagem de banda. Dessa maneira, um espectro de combinação com um sinal de passagem de banda não distorcido resulta, então, conforme indicado na imagem parcial (4), em uma distorção da banda superior, mas se possível, nenhuma modificação da banda inferior ocorre para obter o sinal de áudio 112 com uma largura de banda estendida.
sinal LF na imagem parcial (1) tem a freqüência máxima LFmax. O vocoder de fase 202a realiza uma transposição do sinal de áudio, de modo que a freqüência máxima do sinal de áudio transposto é 2LFmax. Agora, o sinal resultante na imagem parcial (2) é filtrado por passagem de banda para a faixa LFmax até 2LFmax. De modo geral, quando o fator de dispersão é designado por k (k >1) , o filtro de passagem de banda compreende uma passagem de banda de (k-1) LFmax a k LFmax. O procedimento ilustrado na Figura é repetido para fatores de dispersão diferentes, até freqüência mais elevada desejada k LFMax ser atingida, onde k = o fator de extensão máxima kmax.
A seguir, com referência às Figuras 5 e 6, implementações preferidas para um vocoder de fase 202a, 202b, 202c são ilustradas de acordo com a presente invenção. A Figura 5a mostra uma implementação de banco de filtro de um vocoder de fase, onde um sinal de áudio é alimentado em uma entrada 500 e obtido em uma saída 510. Em especial, cada canal do banco de filtro esquemático ilustrado na Figura 5a inclui um filtro de passagem de banda 501 e um oscilador a jusante 502. Sinais de saída de todos os osciladores de cada canal são combinados por um combinador, que é, por exemplo, implementado como um adicionador e indicado em 503, de modo a obter o sinal de saída. Cada filtro 501 é implementado de modo que ele provê um sinal de amplitude em um lado e um sinal de freqüência por outro lado. O sinal de amplitude e o sinal de freqüência são sinais de tempo ilustrando um desenvolvimento da amplitude em um filtro 501 em relação ao tempo, enquanto o sinal de freqüência representa um desenvolvimento da freqüência do sinal filtrado por um filtro 501.
Um ajuste esquemático de filtro 501 é ilustrado na Figura 5b. Cada filtro 501 da Figura 5a pode ser ajustado como na Figura 5b, onde, entretanto, apenas as freqüências fi supridas para os dois misturadores de entrada 551 e o adicionador 552 são diferentes de canal para canal. Os sinais de saída do misturador são, ambos, de passagem baixa filtrados por passagens baixas 553, onde os sinais de passagem baixa são diferentes na medida em que eles foram gerados por freqüências de oscilador local (freqüências LO) , que estão fora de fase em 90°. O filtro de baixa passagem superior 553 provê um sinal de quadrature 554, enquanto o filtro inferior provê um sinal de fase 555. Estes dois sinais, isto é, I e Q, são supridos a um transformador de coordenada 556 que gera uma representação de fase de magnitude da representação retangular. O sinal de magnitude ou sinal de amplitude, respectivamente, da Figura 5a em relação ao tempo, é enviado em uma saída 557. O sinal de fase é suprido a um desenrolador de fase 558. Na saída do elemento 558, não existe mais valor de fase presente que esteja sempre entre 0 e 360°, mas um valor de fase que aumenta linearmente. Este valor de fase desenrolado é suprido a um conversor de fase/freqüência 559 que pode, por exemplo, ser implementado como um formador de diferença de fase simples que subtrai uma fase de um ponto anterior no tempo a partir de uma fase em um ponto atual no tempo para obter um valor de freqüência para o ponto atual no tempo. Este valor de freqüência é adicionado ao valor de freqüência constante fi do canal de filtro i para obter um valor de freqüência de variação temporária na saída 560. O valor de freqüência na saída 560 tem um componente direto = fi e um componente alternado = o desvio de freqüência pelo qual uma freqüência real do sinal no canal de filtro desvia da freqüência média fi.
Dessa maneira, conforme ilustrado nas Figuras 5a e 5b, o vocoder de fase atinge uma separação da informação espectral e informação de tempo. A informação espectral está no canal especial ou na freqüência fi que provê a porção direta da freqüência para cada canal, enquanto a informação de tempo está contida no desvio de freqüência ou na magnitude em relação ao tempo, respectivamente.
8 A Figura 5c mostra uma manipulação como é ” realizada para o aumento da largura de banda de acordo com a invenção, em especial, no vocoder de fase 202a, e em especial, no local do circuito ilustrado plotado em linhas tracejadas na Figura 5 5a.
Para escalonamento de tempo, por exemplo, os sinais de amplitude A(t) em cada canal ou a frequência dos sinais f(t) em cada sinal pode ser dizimada ou interpolada, respectivamente. Para fins de transposição, como é útil para a 10 presente invenção, uma interpelação, isto é uma extensão temporal ou dispersão dos sinais A(t) e f(t) é realizada para obter sinais de dispersão A' (t) e f' (t) , onde a interpelação é controlada pelo fator de dispersão 104, como foi ilustrado na Figura 1. Pela interpelação da variação de fase, isto é, do valor antes da adição 15 da freqüência constante pelo adicionador 552, a frequência de cada oscilador individual 502 na Figura 5a não é alterada. A alteração temporal do sinal de áudio geral é diminuída, entretanto, isto é pelo fator 2. O resultado é um tom temporalmente disperso tendo o tom de som original, isto é a onda fundamental original com sua 20 harmônica.
Pela execução do processamento de sinal ilustrado na Figura 5c, em que este processamento é realizado em cada canal de banda de filtro na Figura 5, e pelo sinal de temporal resultante, então, sendo dizimado no dizimador 105 da Figura 1, ou 25 no dizimador 205a na Figura 5a, respectivamente, o sinal de áudio é encolhido de volta para sua duração original enquanto todas as frequências são dobradas simultaneamente. Isto conduz a uma transposição de tom de som pelo fator 2, entretanto, um sinal de áudio é obtido, o qual tem o mesmo comprimento que o sinal de áudio original, isto é, o mesmo número de amostras.
Como alternativa à implementação de banda de filtro ilustrada na Figura 5a, uma implementação de transformação 5 de um vocoder de fase também pode ser utilizada. Aqui, o sinal de áudio 100 é alimentado no processador FFT, ou de forma mais geral, em um Processador de Transformação de Fourier de Curta Duração 600 como uma seqüência de amostras de tempo. O processador FFT 600 é implementado esquematicamente na Figura 6 para execujtar - uma janela 10 de tempo de um sinal de áudio de modo a, então, por meio de um FFT, calcular ambos, um espectro de magnitude e também um espectro de fase, onde este cálculo é realizado para espectros sucessivos que são relacionados aos blocos do sinal de áudio, que estão fortemente sobrepostos.
Em um caso extremo, para cada nova amostra de sinal de áudio, um novo espectro pode ser calculado, onde um novo espectro também pode ser calculado, por exemplo, apenas para cada vigésima nova amostra. Esta distância a em amostras entre dois espectros é preferivelmente provida por um controlador 602. O 20 controlador 602 é adicionalmente implementado para alimentar um processador IFFT 604 que é implementado para operar em uma operação de sobreposição. Em especial, o processador IFFT 604 é implementado de modo que ele realiza uma Transformação de Fourier de curta duração inversa pela execução de um IFFT por espectro com 25 base em um espectro de magnitude e um espectro de fase, de modo a, então, realizar uma operação de adição de sobreposição, da qual resulta a faixa de tempo. A operação de adição de sobreposição elimina os efeitos da janela de análise.
Uma dispersão do sinal de tempo é atingida pela distância b entre dois espectros, conforme eles são processados pelo processador IFFT 604, sendo maior que a distância a entre os espectros na geração dos espectros FFT. A idéia básica é dispersar o sinal de áudio pelos FFTs inversos simplesmente sendo separados mais do que na análise FFT. Como um resultado, alterações espectrais no sinal de áudio sintetizado ocorrem mais lentamente do que no sinal de áudio original.
Sem um reescalonamento de fase no bloco 606 isto conduziría, entretanto, a artefatos de frequência. Quando, por exemplo, um bin de frequência única é considerado para o qual valores de fase sucessivos por 45° são implementados, isto implica que o sinal dentro desta banda de filtro aumenta na fase com uma taxa de 1/8 de um ciclo, isto é, em 45° por intervalo de tempo, onde o intervalo de tempo, aqui, é o intervalo de tempo entre FFTs sucessivos. Se, agora, os FFTs inversos estão sendo adicionalmente separados entre si, isto significa que o aumento de fase de 45° ocorre através de um intervalo de tempo maior. Isto significa que a frequência desta porção de sinal foi acidentalmente reduzida. Para eliminar esta redução de frequência de artefato, a fase é reescalonada exatamente pelo mesmo fator pelo qual o sinal de áudio foi disperso no tempo. A fase de cada valor espectral FFT é, dessa maneira, aumentada pelo fator b/a, de modo que esta redução de frequência acidental seja eliminada.
Embora na confiquração ilustrada na Figura 5c a dispersão por interpolação dos sinais de controle de amplitude/freqüência tenha sido atingida para um oscilador de sinal na implementação de banco de filtro da Figura 5a, a dispersão na Figura 6 é atingida pela distância entre dois espectros IFFT sendo maior que a distância entre dois espectros FFT, isto é b sendo maior que a, onde, entretanto, para uma prevenção de artefato, reescalonamento de fase é realizado de acordo com b/a.
Com relação a uma descrição detalhada de vocoders de fase, é feito referência aos documentos a seguir:
The phase Vocoder: A tutorial, Mark Dolson, Computer Music Journal, vol. 10, n2 4, páginas 14-27, 1986, ou New phase Vocoder techniques for pitch-shifting, harmonizing and other exotic effects, L. Laroche e M. Dolson, Proceedings 1999 IEEE Workshop on applications of signal processing to audio and acoustics, New Paltz, Nova York, 17-20 de Outubro de 1999, páginas 91 a 94; New approached to transient processing interphase vocoder, A. Rõbel, Proceedings of the 6th international conference on digital audio effects (DAFx-03), Londres, RU, 8-11 de setembro de 2003, páginas DAFx-1 a DAFx-6; Phase-locked Vocoder, Meller Puckett, Proceedings 1995, IEEE ASSP, Conference on applications of signal processing to audio and acoustics, ou Pedido de Patente Norte-Americana Número 6.549.884.
A Figura 2b mostra uma melhora do sistema ilustrado na Figura 2a, onde um detector transiente 250 é utilizado, o qual é implementado para determinar se uma operação temporal atual do sinal de áudio contém uma porção transiente. Uma porção transiente consiste do fato de que o sinal de áudio muda muito no total, isto é que, por exemplo, a energia do sinal de áudio altera em mais que 50% de uma porção temporal para a próxima porção temporal, isto é, aumentos ou diminuições. O limite de 50% é apenas um exemplo, entretanto, e ela pode ter valores menores ou maiores. Alternativamente, para uma detecção transiente, a alteração de distribuição de energia também pode ser considerada, por exemplo, na conversão de um vocal para sibilante.
Se uma porção transiente do sinal de áudio é determinada, a transposição harmônica é deixada, e para a faixa de tempo transiente, uma mudança de uma operação de cópia não harmônica ou de uma reflexão não harmônica ou de algum outro algoritmo de extensão de largura de banda é realizada, como é ilustrado em 260. Se for, então, novamente detectado que o sinal de áudio não é mais transiente, uma transposição harmônica é novamente realizada, conforme ilustrado pelos elementos 102, 105 na Figura 1. Isto é ilustrado em 270 na Figura 2b.
Os sinais de saida de blocos 270 e 260, que chegam deslocados no tempo devido ao fato de que uma porção temporal do sinal de áudio pode ser tanto transiente quanto não transiente, são supridos para um combinador 280 que é implementado para prover um sinal de passagem de banda em relação ao tempo que pode, por exemplo, ser suprido à correção de tonalidade no bloco 109a na Figura 2a. Alternativamente, a combinação por bloco 280 pode, por exemplo, ser realizada também após o adicionador 111. Isto significaria, entretanto, que para um bloco de transformação integral do sinal de áudio, uma característica transiente é assumida, ou se a implementação de banco de filtro também opera com base em blocos, para um bloco total, uma decisão a favor tanto de transiente quanto de não transiente, respectivamente, é feita.
Como um vocoder de fase 202a, 202b, 202c, conforme ilustrado na Figura 2a e explicado em maiores detalhes nas Figuras 5 e 6, gera mais artefatos no processamento de porções de sinal transientes do que no processamento de porções de sinal não transientes, uma mudança é realizada para uma operação de cópia não harmônica ou reflexão, conforme é ilustrado na Figura 2b em 260. Alternativamente, um reajuste de fase para o transiente também pode ser realizado, como é, por exemplo, descrito na publicação especializada de Laroche, citada acima, ou na Patente Norte-Americana Número 6.549.884.
Conforme já foi indicado, nos blocos 109a, 109b, após a geração da porção HF do espectro, uma formação espectral e um ajuste à medida original de ruido são realizados. A formação espectral pode ocorrer, por exemplo, com a ajuda de fatores de escala, dB(A)-fatores de escala pesados ou uma predição linear, onde existe a vantagem, na predição linear, de que nenhuma conversão de tempo/freqüência e nenhuma conversão de freqüência/tempo subsequente é requerida.
A presente invenção é vantajosa pelo uso do vocoder de fase, um espectro com uma freqüência crescente é adicionalmente disperso e é sempre corretamente harmonicamente continuado pela dispersão integral. Dessa maneira, o resultado do não refinamento na freqüência de corte da faixa LF é excluído e interferências por porções HF muito densamente ocupadas do espectro são eliminadas. Além disso, implementações eficientes de vocoder de fase podem ser utilizadas, o que pode ser feito sem operações de remendo de banco de filtro.
Alternativamente, outros métodos para dispersão de sinal estão disponíveis, tais como, por exemplo, o método PSOLA (Pitch Synchronous Overlap Add) . Adição de Sobreposição Síncrona de Tom de som, a sigla PSOLA, é um método de síntese no qual gravações de sinais de voz estão localizadas nas bases de dados. Contanto que estes sejam sinais periódicos, os mesmos são providos com informação na freqüência fundamental (tom de som) e o início de cada período é marcado. Na síntese, estes períodos são cortados com certo ambiente por meio de uma função de janela, e adicionado ao sinal para ser sintetizado em um local adequado: Dependendo do fato da freqüência fundamental desejada ser maior ou menor que aquela da entrada do base de dados, elas são combinadas conseqüentemente mais densas ou menos densas do que no original. Para ajuste da duração do audível, períodos podem ser omitidos ou enviados duplicados. Este método é também denominado de TD-PSOLA, onde TD quer dizer domínio de tempo e enfatiza que os métodos operam no domínio de tempo. Um desenvolvimento adicional é o método de MultiBand Resynthesis OvereLap Add, abreviado como MBROLA. Aqui os segmentos no base de dados são trazidos para uma freqüência fundamental uniforme por um pré-processamento e a posição de fase da harmônica é normalizada. Por isso, na síntese de uma transição de um segmento para o próximo, menos interferências perceptivas resultam e a qualidade de voz atingida é maior.
Em uma alternativa adicional, o sinal de áudio já é filtrado por passagem de banda antes da dispersão, de modo que o sinal após dispersão e dizimação já contém as porções desejadas e a filtragem de passagem de banda subseqüente possa ser omitida. Neste caso, o filtro de passagem de banda é definido de modo que a porção do sinal de áudio que teria sido filtrada após extensão de largura de banda ainda esteja contida no sinal de saída do filtro de passagem de banda. O filtro de passagem de banda, dessa maneira, contém uma faixa de freqüência que não é contida no sinal de áudio 106 após dispersão e dizimação. O sinal com esta faixa de freqüência é o sinal desejado, formando o sinal de alta freqüência sintetizado. Nesta configuração, o deformador 109 não distorcerá um sinal de passagem de banda, mas um sinal disperso e dizimado derivado de um sinal de áudio filtrado de passagem de banda.
Deve ainda ser observado que o sinal disperso também pode ser útil na faixa de freqüência do sinal original, por exemplo, pela mistura do sinal original e sinal de dispersão, e dessa maneira nenhuma passagem de banda restrita é requerida. O sinal de dispersão pode, então, ser bem misturado com o sinal original na banda de freqüência na qual ele se sobrepõe ao sinal original com relação à freqüência, para modificar a característica do sinal original na faixa de sobreposição.
Deve ainda ser observado que as funcionalidades de distorção 109 e filtragem 107 podem ser implementadas em um bloco de filtro único ou em dois filtros separados em cascata. Visto que ocorre distorção dependendo do sinal, a amplitude característica deste bloco de filtro será variável. Sua freqüência característica é, entretanto, independente do sinal.
Dependendo da implementação, conforme ilustrado na Figura 1, primeiramente o sinal de áudio geral pode ser disperso, dizimado e, então, filtrado, onde filtragem corresponde às operações dos elementos 107, 109. Ά distorção é, assim, realizada após ou simultaneamente à filtragem, onde para este objetivo, um bloco de filtro/deformador combinado na forma de um filtro digital é adequado. Alternativamente, antes (passagem de banda) da filtragem (107) uma distorção pode ocorrer aqui quando dois elementos de filtro diferentes são utilizados.
Novamente, alternativamente, uma filtragem de passagem de banda pode ocorrer antes da dispersão de modo que apenas a distorção (109) ocorra após a dizimação. Para estas funções, dois elementos diferentes são preferidos aqui.
Novamente e alternativamente, também em todas as variantes acima, a distorção pode ocorrer após a combinação do sinal de síntese com o sinal de áudio original, tal como, por exemplo, com um filtro que não tem nenhum efeito, ou tem apenas pouco efeito, no sinal a ser filtrado na faixa de freqüência do filtro original, que, entretanto, gera o envelope desejado na faixa de freqüência estendida. Neste caso, novamente dois elementos diferentes são preferivelmente utilizados para extração e distorção.
|
0 conceito da |
invenção é adequado |
para todas as |
aplicações |
de áudio, nas quais |
a largura de banda |
total não |
está |
disponível |
Na propagação de |
conteúdo de áudio |
tal como, |
por |
exemplo, |
por rádio digital, |
Internet e em |
aplicações |
de |
comunicação de áudio, o conceito da invenção pode ser utilizado.
Dependendo das circunstâncias, o método da invenção pode ser implementado para analisar um sinal de informação no hardware ou no software. A implementação pode ser realizada em um meio de armazenagem digital, em especial um disquete ou um CD, tendo sinais de controle eletronicamente legíveis armazenados nos mesmos, que podem cooperar com o sistema de computador programável, de modo que o método seja realizado. De forma geral, a invenção, dessa maneira, consiste em um produto de programa de computador com um código de programa para executar o método armazenado em um transportador legível por máquina, quando o produto de programa de computador é executado em um computador. Em outras palavras, a invenção pode, assim, ser realizada como um 5 programa de computador tendo um código de programa para executar o método, quando o programa de computador é executado em um computador.
1/15