BR112016030149B1

BR112016030149B1 - Processador de áudio e método para processamento de um sinal de áudio utilizando correção de fase horizontal

Info

Publication number: BR112016030149B1
Application number: BR112016030149-8A
Authority: BR
Inventors: Disch Sascha; Laitinen Mikko-Ville; Pulkki Ville
Original assignee: Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V
Priority date: 2014-07-01
Filing date: 2015-06-25
Publication date: 2023-03-28
Also published as: EP2963648A1; EP3164869B1; TW201618080A; US20170110133A1; ES2677524T3; TWI587292B; CA2998044C; KR20170030549A; EP3164872A1; AR101083A1; AU2015282746A1; CA2953427A1; PT3164873T; RU2017103102A3; MX356672B; AU2015282747B2; BR112016030149A2; AU2015282748B2; MX2016016770A; US20170110134A1

Abstract

PROCESSADOR DE ÁUDIO E MÉTODO PARA PROCESSAMENTO DE UM SINAL DE ÁUDIO UTILIZADO CORREÇÃO DE FASE HORIZONTAL É mostrado um processador de áudio 50 para processamento de um sinal de áudio 55. O processador de áudio compreende uma calculadora de medição de fase do sinal de áudio 60 configurada para cálculo de uma medição de fase 80 de um sinal de áudio para um período de tempo 75a, um determinador de medição de fase alvo 65 para determinação de uma medição de fase alvo 85 para o referido período de tempo 75a e um corretor de fase 70 configurado para correção de fases 45 do sinal de áudio 55 para o período de tempo 75a, utilizando a medição de fase calculada 80 e a medição de fase alvo 85 para obter um sinal de áudio processado 90.

Description

RELATÓRIO DESCRITIVO

[0001] A presente invenção refere-se a um processador de áudio e um método para processamento de um sinal de áudio, um decodificador e um método para decodificação de um sinal de áudio e um codificador e um método para codificação de um sinal de áudio. Além disso, uma calculadora e um método para determinação de dados de correção de fase, um sinal de áudio e um programa de computador para realizar um dos métodos previamente mencionados são descritos. Em outras palavras, a presente invenção mostra uma correção do derivativo de fase e extensão da largura de banda (BWE | bandwidth extension) para codecs de áudio perceptuais ou correção do espectro de fase dos sinais estendidos pela largura de banda no domínio de QMF com base na importância perceptual.

CODIFICAÇÃO DE ÁUDIO PERCEPTUAL

[0002] A codificação de áudio perceptual vista até o momento segue vários temas comuns, incluindo o uso do processamento de tempo/frequência-domínio, redução de redundância (codificação por entropia) e remoção de irrelevância através da exploração de efeitos perceptuais [1]. Tipicamente, o sinal de entrada é analisado por um banco de filtro de análise que converte o sinal de domínio de tempo em uma representação espectral (tempo/frequência). A conversão em coeficientes espectrais possibilita processar seletivamente os componentes do sinal dependendo de seu conteúdo de frequência (por exemplo, diferentes instrumentos com suas estruturas de sobretom individual).

[0003] Em paralelo, o sinal de entrada é analisado em relação a suas propriedades perceptuais, ou seja, especificamente o limite de mascaramento por tempo e frequência é computado. O limite do mascaramento dependente do tempo/da frequência é entregue à unidade de quantização através de um limite de codificação alvo na forma de um valor de energia absoluta ou uma Relação Máscara-para-Sinal (MSR | Mask-to- Signal-Ratio) para cada banda de frequência e período de tempo de codificação.

[0004] Os coeficientes espectrais entregues pelo banco de filtro de análise são quantizados para reduzir a taxa de dados necessária para representação do sinal. Esta etapa implica na perda de informações e introduz uma distorção de codificação (erro, ruído) ao sinal. A fim de minimizar o impacto audível deste ruído de codificação, os tamanhos da etapa do quantizador são controlados de acordo com os limites de codificação alvo para cada banda de frequência e estrutura. De forma ideal, o ruído de codificação injetado em cada banda de frequência é mais baixo do que o limite de codificação (mascaramento) e, assim, nenhuma degradação no áudio subjetivo é perceptível (remoção de irrelevância). Este controle do ruído de quantização sobre a frequência e tempo de acordo com as exigências psicoacústica leva a um efeito de modulação de ruído sofisticado e é o que torna o codificador um codificador de áudio perceptual.

[0005] Subsequentemente, codificadores de áudio modernos realizam a codificação por entropia (por exemplo, codificação de Huffman, codificação aritmética) nos dados espectrais quantizados. A codificação por entropia é uma etapa de codificação ser perdas, o que ainda economiza na taxa de bit.

[0006] Finalmente, todos os dados espectrais codificados e parâmetros adicionais relevantes (informação secundária, como, por exemplo, os ajustes do quantizador para cada banda de frequência) são embalados juntos em um fluxo contínuo de dados, que é a representação codificada final destinada para armazenamento ou transmissão de arquivo.

EXTENSÃO DA LARGURA DE BANDA

[0007] Na codificação de áudio perceptual com base nos bancos de filtro, a parte principal da taxa de bit consumida é geralmente gasta nos coeficientes espectrais quantizados. Assim, em taxas de bit muito baixas, bits insuficientes podem estar disponíveis para representar todos os coeficientes na precisão necessária para atingir a redução não prejudicada perceptualmente. Assim, as exigências de baixa taxa de bit efetivamente definem um limite para a largura de banda de áudio que pode ser obtido pela codificação de áudio perceptual. A extensão da largura de banda [2] remove esta limitação fundamental de longa data. A ideia central da extensão da largura de banda é complementar um codec perceptual limitado por banda por um processador adicional de alta frequência que transmite e restaura o conteúdo de alta frequência ausente em uma forma paramétrica compacta. O conteúdo de alta frequência pode ser gerado com base na modulação de banda lateral única do sinal de banda base, nas técnicas de cópia como utilizado na Réplica de Banda Espectral (SBR | Réplica de banda espectral) [3] ou na aplicação de técnicas de mudança de tom como, por exemplo, o vocoder [4].

EFEITOS DE ÁUDIO DIGITAL

[0008] Efeitos de extensão de tempo ou mudança de tom são geralmente obtidos pela aplicação de técnicas de domínio de tempo como adição por sobreposição sincronizada (SOLA | synchronized overlap-add) ou técnicas de domínio de frequência (vocoder). Ainda, os sistemas híbridos foram propostos aplicando um processamento de SOLA que processa em sub-bandas. Vocoders e sistemas híbridos geralmente apresentam uma perturbação chamada sem fase [8] que pode ser atribuída à perda de coerência de fase vertical. Algumas publicações se referem às melhorias na qualidade de som dos algoritmos de extensão de tempo preservando a coerência de fase vertical onde é importante [6] [7].

[0009] Os codificadores de áudio do estado da técnica [1] geralmente comprometem a qualidade perceptual dos sinais de áudio negligenciando as propriedades de fase importantes do sinal a ser codificado. Uma finalidade geral da coerência de fase de correção em codificadores de áudio perceptual é direcionada em [9].

[0010] Entretanto, nem todos os tipos de erros de coerência de fase podem ser corrigidos ao mesmo tempo e nem todos os erros de coerência de fase são perceptualmente importantes. Por exemplo, na extensão da largura de banda de áudio, não está claro do estado da técnica, que os erros relacionados à coerência de fase deveriam ser corrigidos com a mais alta prioridade e que os erros podem permanecer apenas parcialmente corrigidos ou, em relação ao seu impacto perceptual insignificante, ser totalmente negligenciado.

[0011] Especialmente devido à aplicação de extensão da largura de banda de áudio [2] [3] [4], a coerência de fase sobre a frequência e ao longo do tempo é geralmente prejudicada. O resultado é um som monótono que exibe aspereza auditiva e pode conter adicionalmente tons percebidos que desintegram dos objetos auditivos no sinal original e, assim, sendo percebidos como um objeto auditivo sozinho adicionalmente ao sinal original. Além disso, o som também pode parecer chegar de uma distância longe, tendo menos “zumbido”, e assim evocando pouco engajamento do ouvinte [5]

[0012] Portanto, há uma necessidade por uma abordagem melhorada.

[0013] É um objeto da presente invenção fornecer um conceito melhorado para processamento de um sinal de áudio. Este objeto é solucionado pela matéria das reivindicações independentes.

[0014] A presente invenção se baseia na constatação de que a fase de um sinal de áudio pode ser corrigida de acordo com uma fase alvo calculada por um processador de áudio ou um decodificador. A fase alvo pode ser vista como uma representação de uma fase de um sinal de áudio não processado. Portanto, a fase do sinal de áudio processado é ajustada para melhor ajustar a fase do sinal de áudio não processado. Tendo, por exemplo, uma representação de frequência de tempo do sinal de áudio, a fase do sinal de áudio pode ser ajustada para períodos de tempo subsequentes em uma sub-banda, ou a fase pode ser ajustada em um período de tempo para sub-bandas de frequência subsequentes. Portanto, uma calculadora foi observada detectar e escolher automaticamente o método de correção mais adequado. As constatações descritas podem ser implementadas em diferentes aplicações ou conjuntamente implementadas em um decodificador e/ou codificador.

[0015] As aplicações mostram um processador de áudio para processamento de um sinal de áudio, compreendendo uma calculadora de medida de fase do sinal de áudio configurada para calcular uma medida de fase de um sinal de áudio para um período de tempo. Além disso, o sinal de áudio compreende um determinador de medida de fase alvo para determinação de uma medida de fase alvo para o referido período de tempo e um corretor de fase configurado para correção de fases do sinal de áudio para o período de tempo utilizando a medida de fase calculada e a medida de fase alvo para obter um sinal de áudio processado.

[0016] De acordo com as aplicações adicionais, o sinal de áudio pode compreender uma pluralidade de sinais de subbanda para período de tempo. O determinador de medida de fase alvo é configurado para determinação de uma primeira medida de fase alvo para um primeiro sinal de sub-banda e uma segunda medida de fase alvo para um segundo sinal de sub-banda. Além disso, a calculadora de medida de fase do sinal de áudio determina uma primeira medida de fase para o primeiro sinal de sub-banda e uma segunda medida de fase para o segundo sinal de sub-banda. O corretor de fase é configurado para correção da primeira fase do primeiro sinal de sub-banda utilizando a primeira medida de fase do sinal de áudio e a primeira medida de fase alvo e para correção de uma segunda fase do segundo sinal de sub-banda utilizando a segunda medida de fase do sinal de áudio e a segunda medida de fase alvo. Portanto, o processador de áudio pode compreender um sintetizador de sinal de áudio para sintetização de um sinal de áudio corrigido utilizando o primeiro sinal de sub-banda corrigido e o segundo sinal de sub-banda corrigido.

[0017] De acordo com a presente invenção, o processador de áudio é configurado para correção da fase do sinal de áudio na direção horizontal, ou seja, uma correção ao longo do tempo. Portanto, o sinal de áudio pode ser subdividido em um conjunto de períodos de tempo, em que a fase de cada período de tempo pode ser ajustada de acordo com a fase alvo. A fase alvo pode ser uma representação de um sinal de áudio original, em que o processador de áudio pode ser parte de um decodificador para decodificação do sinal de áudio que é uma representação codificada do sinal de áudio original. Opcionalmente, a correção de fase horizontal pode ser aplicada separadamente para várias sub-bandas do sinal de áudio, se o sinal de áudio estiver disponível em uma representação de tempo-frequência. A correção da fase do sinal de áudio pode ser realizada pela subtração de um desvio de um derivativo de fase ao longo do tempo da fase alvo e de fase do sinal de áudio da fase do sinal de áudio.

[0018] Portanto, visto que o derivativo de fase ao longo do tempo é uma frequência

com F sendo uma fase), a correção de fase descrita realiza um ajuste de frequência para cada sub-banda do sinal de áudio. Em outras palavras, a diferença de cada sub-banda do sinal de áudio a uma frequência alvo pode ser reduzida para obter uma qualidade melhor para o sinal de áudio.

[0019] Para determinar a fase alvo, o determinador de fase alvo é configurado para obtenção de uma estimativa de frequência fundamental para um período de tempo atual e para cálculo de uma estimativa de frequência para cada sub-banda da pluralidade de sub-bandas do período de tempo utilizando a estimativa de frequência fundamental para o período de tempo. A estimativa de frequência pode ser convertida em um derivativo de fase ao longo do tempo utilizando um número total de subbandas e uma frequência de amostragem do sinal de áudio. Em uma aplicação adicional, o processador de áudio compreende um determinador de medida de fase alvo para determinação de uma medida de fase alvo para o sinal de áudio em um período de tempo, uma calculadora de erro da fase para cálculo de um erro da fase utilizando uma fase do sinal de áudio e o período de tempo da medida de fase alvo, e um corretor de fase configurado para correção da fase do sinal de áudio e do período de tempo utilizando o erro de fase.

[0020] De acordo com as aplicações adicionais, o sinal de áudio está disponível em uma representação de frequência de tempo, em que o sinal de áudio compreende uma pluralidade de sub-bandas para o período de tempo. O determinador de medida de fase alvo determina uma primeira medida de fase alvo para um primeiro sinal de sub-banda e uma segunda medida de fase alvo para um segundo sinal de sub-banda. Além disso, a calculadora de erro da fase forma um vetor dos erros de fase, em que um primeiro elemento do vetor se refere a um primeiro desvio da fase do primeiro sinal de sub-banda e da primeira medida de fase alvo e em que um segundo elemento do vetor se refere a um segundo desvio da fase do segundo sinal de sub-banda e da segunda medida de fase alvo. Adicionalmente, o processador de áudio desta aplicação compreende um sintetizador de sinal de áudio para sintetização de um sinal de áudio corrigido utilizando o primeiro sinal de sub-banda corrigido e o segundo sinal de sub-banda corrigido. Essa correção de fase produz os valores de fase corrigida na média.

[0021] De modo adicional ou alternativo, a pluralidade de sub-bandas é agrupada em uma banda base e um conjunto de correções temporárias de frequência, em que a banda base compreende uma sub-banda do sinal de áudio e o conjunto de correções temporárias de frequência compreende, pelo menos, uma sub-banda da banda base em uma frequência mais alta do que a frequência de pelo menos uma sub-banda na banda base.

[0022] Aplicações adicionais mostram a calculadora de erro da fase configurada para calcular uma média dos elementos de um vetor de erros de fase com referência a uma primeira correção temporária do segundo número de correções temporárias de frequência para obter um erro de fase médio. O corretor de fase é configurado para correção de uma fase do sinal de sub-banda nas correções temporárias de frequência primárias e subsequentes do conjunto de correções temporárias de frequência do sinal de correção temporária utilizando um erro de fase médio ponderado, em que o erro de fase médio é dividido de acordo com um índice da correção temporária de frequência para obter um sinal de correção temporária modificado. Essa correção de fase fornece boa qualidade nas frequências cruzadas, que são as frequências da borda entre as duas correções temporárias de frequência subsequentes.

[0023] De acordo com uma aplicação adicional, as duas aplicações previamente descritas podem ser combinadas para obter um sinal de áudio corrigido compreendendo os valores corrigidos de fase que são bons na média e nas frequências cruzadas. Portanto, a calculadora de derivativo de fase do sinal de áudio é configurada para calcular uma média de derivações de fase sobre uma frequência para uma banda base. O corretor de fase calcula um sinal de correção temporária ainda modificado com uma primeira correção temporária de frequência otimizada adicionando a média das derivações de fase sobre a frequência ponderada por um índice de sub-banda atual para a fase do sinal de sub-banda com o índice de sub-banda mais alto em uma banda base do sinal de áudio. Além disso, o corretor de fase pode ser configurado para cálculo de uma média ponderada do sinal de correção temporária modificado e o sinal de correção temporária ainda modificado para obter um sinal de correção temporária modificado combinado e para recursivamente atualizar, com base nas correções temporárias de frequência, o sinal de correção temporária modificado combinado adicionando a média das derivações de fase sobre a frequência, ponderada pelo índice de sub-banda da sub-banda atual, para a fase do sinal de sub-banda com o índice de subbanda mais alto na correção temporária de frequência anterior do sinal de correção temporária modificado combinado.

[0024] Para determinar a fase alvo, o determinador de medida de fase alvo pode compreender um extrator de fluxo de dados configurado para extrair uma posição de pico e uma frequência fundamental de posições de pico em um período de tempo atual do sinal de áudio de um fluxo de dados. De modo alternativo, o determinador de medida de fase alvo pode compreender um analisador de sinal de áudio configurado para analisar o período de tempo atual para calcular uma posição de pico e uma frequência fundamental de posições de pico no período de tempo atual. Além disso, o determinador de medida de fase alvo compreende um gerador do espectro alvo ara estimativa de posições de pico adicionais no período de tempo atual utilizando a posição de pico e a frequência fundamental das posições de pico. Em detalhes, o gerador do espectro alvo pode compreender um detector de pico para geração de um trem de pulso de um tempo, um formador de sinal para ajustar uma frequência do trem de pulso de acordo com a frequência fundamental das posições de pico, um posicionador de pulso para ajustar a fase do trem de pulso de acordo com a posição e um analisador de espectro para gerar um espectro de fase do trem de pulso ajustado, em que o espectro de fase do sinal de domínio de tempo é a medida de fase alvo. A aplicação descrita do determinador de medida de fase alvo é vantajosa para geração de um espectro alvo para um sinal de áudio tendo uma forma de onda com picos.

[0025] As aplicações do segundo processador de áudio descrevem uma correção de fase vertical. A correção de fase vertical ajusta a fase do sinal de áudio em um período de tempo sobre todas as sub-bandas. O ajuste da fase do sinal de áudio, aplicado independentemente para cada sub-banda, resulta, após a sintetização das sub-bandas do sinal de áudio, em uma forma de onda do sinal de áudio diferente do sinal de áudio não corrigido. Portanto, é, por exemplo, possível remodular um pico espalhado ou um transiente.

[0026] De acordo com uma aplicação adicional, uma calculadora é mostrada para determinação de dados de correção de fase para um sinal de áudio com um determinador de variação para determinação de uma variação da fase do sinal de áudio em um primeiro e um segundo modo de variação, um comparador de variação para comparação de uma primeira variação determinada utilizando o modo de variação de fase e uma segunda variação determinada utilizando o segundo modo de variação, e uma calculadora dos dados de correção para cálculo da correção de fase de acordo com o primeiro modo de variação ou o segundo modo de variação com base em um resultado da comparação.

[0027] Uma aplicação adicional mostra o determinador de variação para determinação de uma medida de desvio padrão de um derivativo de fase ao longo do tempo (PDT | phase derivative over time) para uma pluralidade de períodos de tempo do sinal de áudio como a variação da fase no primeiro modo de variação ou uma medida de desvio padrão de um derivativo de fase sobre a frequência (PDF | phase derivative over frequency) para uma pluralidade de sub-bandas como a variação da fase no segundo modo de variação. O comparador de variação compara a medida do derivativo de fase ao longo do tempo como o primeiro modo de variação e a medida do derivativo de fase sobre a frequência como o segundo modo de variação para períodos de tempo do sinal de áudio. De acordo com uma aplicação adicional, o determinador de variação é configurado para determinação de uma variação da fase do sinal de áudio em um terceiro modo de variação, em que o terceiro modo de variação é um modo de detecção de transiente. Portanto, o comparador de variação compara os três modos de variação e a calculadora dos dados de correção calcula a correção de fase de acordo com o primeiro modo de variação, a segunda variação, ou o terceiro modo de variação com base em um resultado da comparação.

[0028] As regras de decisão da calculadora dos dados de correção podem ser descritas como segue. Se um transiente for detectado, a fase é corrigida de acordo com a correção de fase para transientes restaurarem o formato do transiente. Caso contrário, se a primeira variação for menor ou igual à segunda variação, a correção de fase do primeiro modo de variação é aplicada ou, se a segunda variação for maior do que a primeira variação, a correção de fase de acordo com o segundo modo de variação é aplicada. Se a ausência de um transiente for detectada e se ambas a primeira e a segunda variação excederem um valor limite, nenhum dos modos de correção de fase é aplicado.

[0029] A calculadora pode ser configurada para analisar o sinal de áudio, por exemplo, em um estágio de codificação de áudio, para determinar o melhor modo de correção de fase e para calcular os parâmetros relevantes para o modo de correção de fase determinado. Em um estágio de decodificação, os parâmetros podem ser utilizados para obter um sinal de áudio decodificado que tem uma melhor qualidade em comparação com os sinais de áudio decodificados utilizando os codecs do estado da técnica. Deve ser observado que a calculadora detecta autonomamente o modo de correção correto para cada período de tempo do sinal de áudio.

[0030] As aplicações mostram um decodificador para decodificação de um sinal de áudio com um primeiro gerador de espectro alvo para geração de um espectro alvo para um primeiro período de tempo de um segundo sinal do sinal de áudio utilizando dados de correção primários e um primeiro corretor de fase para correção de uma fase do sinal de sub-banda no primeiro período de tempo do sinal de áudio determinado com um algoritmo de correção de fase, em que a correção é realizada pela redução de uma diferença entre uma medida do sinal de sub-banda no primeiro período de tempo do sinal de áudio e no espectro alvo. Adicionalmente, o decodificador compreende uma calculadora do sinal de áudio de sub-banda para cálculo do sinal de áudio de sub-banda para o primeiro período de tempo utilizando uma fase corrigida para o período de tempo e para cálculo do sinal de áudio de sub-banda para um segundo período de tempo diferente do primeiro período de tempo utilizando a medida do sinal de sub-banda no segundo período de tempo ou utilizando um cálculo da fase corrigida de acordo com um algoritmo de correção de fase adicional diferente do algoritmo de correção de fase.

[0031] De acordo com as aplicações adicionais, o decodificador compreende um segundo e um terceiro gerador do espectro alvo equivalentes à geração do primeiro espectro alvo e um segundo e um terceiro corretor de fase equivalentes ao primeiro corretor de fase. Portanto, o primeiro corretor de fase pode realizar uma correção de fase horizontal, o segundo corretor de fase pode realizar uma correção de fase vertical e o terceiro corretor de fase pode realizar os transientes de correção de fase. De acordo com uma aplicação adicional, o decodificador compreende um decodificador central configurado para decodificação do sinal de áudio em um período de tempo com um número reduzido de sub-bandas em relação ao sinal de áudio. Além disso, o decodificador pode compreender um corretor temporário para correção temporária de um conjunto de sub-bandas do sinal de áudio central decodificado com um número reduzido de sub-bandas, em que o conjunto de sub-bandas forma uma primeira correção temporária, para outras sub-bandas no período de tempo, adjacente ao número reduzido de sub-bandas, para obter um sinal de áudio com um número regular de sub-bandas. Além disso, o decodificador pode compreender um processador de magnitude para processamento dos valores de magnitude do sinal de áudio de sub-banda no período de tempo e um sintetizador de sinal de áudio para sintetização dos sinais de áudio de sub-banda ou uma magnitude dos sinais de áudio de sub-banda processados para obter um sinal de áudio decodificado sintetizado. Esta aplicação pode estabelecer um decodificador para extensão da largura de banda compreendendo uma correção de fase do sinal de áudio decodificado.

[0032] Consequentemente, um codificador para codificação de um sinal de áudio, compreendendo um determinador de fase para determinação de uma fase do sinal de áudio, uma calculadora para determinação de dados de correção de fase para um sinal de áudio com base na fase determinada do sinal de áudio, um codificador central configurado para codificação central do sinal de áudio para obter um sinal de áudio central codificado tendo um número reduzido de sub-bandas em relação ao sinal de áudio, e um extrator de parâmetro configurado para extração de parâmetros do sinal de áudio para obtenção de uma representação de parâmetro de baixa resolução para um segundo conjunto de sub-bandas não incluído no sinal de áudio central codificado, e um formador de sinal de áudio para modulação de um sinal de saída compreendendo os parâmetros, o sinal de áudio central codificado e os dados de correção de fase podem formar um codificador para extensão da largura de banda.

[0033] Todas as aplicações previamente descritas podem ser vistas totalmente ou em combinação, por exemplo, em um codificador e/ou um decodificador para extensão da largura de banda com uma correção de fase do sinal de áudio decodificado. De modo alternativo, é possível visualizar todas as aplicações descritas independentemente descritas sem relação entre si.

[0034] Aplicações da presente invenção serão discutidas subsequentemente com referência aos desenhos anexos, em que:

[0035] A Figura 1a mostra o espectro de magnitude de um sinal de violino em uma representação de frequência de tempo;

[0036] A Figura 1b mostra o espectro de fase correspondente ao espectro de magnitude da figura 1a;

[0037] A Figura 1c mostra o espectro de magnitude de um sinal de trombone no domínio de QMF em uma representação de frequência de tempo;

[0038] A Figura 1d mostra o espectro de fase correspondente ao espectro de magnitude da figura 1c;

[0039] A Figura 2 mostra um diagrama de frequência de tempo compreendendo porções de frequência de tempo (por exemplo, posições de QMF, posições do banco de Filtro de Espelho em Quadratura), definidas por um período de tempo e uma sub-banda;

[0040] A Figura 3a mostra um diagrama de frequência exemplar de um sinal de áudio, em que a magnitude da frequência é representada sobre dez sub-bandas diferente;

[0041] A Figura 3b mostra uma representação de frequência exemplar do sinal de áudio após a recepção, por exemplo, durante um processo de decodificação em uma etapa intermediária;

[0042] A Figura 3c mostra uma representação de frequência exemplar do sinal de áudio reconstruído Z(k,rí);

[0043] A Figura 4a mostra um espectro de magnitude do sinal de violino no domínio de QMF utilizando SBR de cópia direta em uma representação de tempo-frequência;

[0044] A Figura 4b mostra um espectro de fase correspondente ao espectro de magnitude da figura 4a;

[0045] A Figura 4c mostra um espectro de magnitude de um sinal de trombone no domínio de QMF utilizando SBR de cópia direta em uma representação de tempo-frequência;

[0046] A Figura 4d mostra o espectro de fase correspondente ao espectro de magnitude da figura 4c;

[0047] A Figura 5 mostra uma representação de tempo- domínio de uma única posição de QMF com diferentes valores de fase;

[0048] A Figura 6 mostra uma apresentação de tempo- domínio e frequência-domínio de um único, que tem uma banda de frequência não zero e a mudança de fase com um valor fixo, p/A: (superior) e 3p/4 (inferior);

[0049] A Figura 7 mostra uma apresentação de tempo- domínio e frequência-domínio de um sinal, que tem uma banda de frequência não zero e a fase está mudando aleatoriamente;

[0050] A Figura 8 mostra o efeito descrito referente à figura 6 em uma representação de frequência de tempo de quatro períodos de tempo e quatro sub-bandas de frequência, onde apenas a terceira sub-banda compreende uma frequência diferente de zero;

[0051] A Figura 9 mostra uma apresentação de tempo- domínio e frequência-domínio de um sinal, que tem uma estrutura temporal não zero e a fase está mudando com um valor fixo, p/4 (superior) e 3p/4 (inferior);

[0052] A Figura 10 mostra uma apresentação de tempo- domínio e frequência-domínio de um sinal, que tem uma estrutura temporal não zero e a fase está mudando aleatoriamente;

[0053] A Figura 11 mostra um diagrama de frequência de tempo similar ao diagrama de frequência de tempo mostrado na figura 8, onde apenas o terceiro período de tempo compreende uma frequência diferente de zero;

[0054] A Figura 12a mostra um derivativo de fase ao longo do tempo do sinal de violino no domínio de QMF em uma representação de tempo-frequência;

[0055] A Figura 12b mostra a frequência de derivativo de fase correspondente ao derivativo de fase ao longo do tempo mostrada na figura 12a;

[0056] A Figura 12c mostra o derivativo de fase ao longo do tempo do sinal de trombone no domínio de QMF em uma representação de tempo-frequência;

[0057] A Figura 12d mostra o derivativo de fase sobre a frequência do derivativo de fase correspondente ao longo do tempo da figura 12c;

[0058] A Figura 13a mostra o derivativo de fase ao longo do tempo do sinal de violino no domínio de QMF utilizando SBR de cópia direta em uma representação de tempo-frequência;

[0059] A Figura 13b mostra o derivativo de fase sobre a frequência correspondente à derivativo de fase ao longo do tempo mostrado na figura 13a;

[0060] A Figura 13c mostra o derivativo de fase ao longo do tempo do sinal de trombone no domínio de QMF utilizando SBR de cópia direta em uma representação de tempo- frequência;

[0061] A Figura 13d mostra o derivativo de fase sobre a frequência correspondente à derivativo de fase ao longo do tempo mostrado na figura 13c;

[0062] A Figura 14a mostra esquematicamente quatro fases de, por exemplo, períodos de tempo ou sub-bandas de frequência subsequentes, em um círculo de unidade;

[0063] A Figura 14b mostra as fases ilustradas na figura 14a após o processamento de SBR e, em linhas tracejadas, as fases corrigidas;

[0064] A Figura 15 mostra um diagrama de blocos esquemático de um processador de áudio 50;

[0065] A Figura 16 mostra o processador de áudio em um diagrama de blocos esquemático de acordo com uma aplicação adicional;

[0066] A Figura 17 mostra um erro suavizado na PDT do sinal de violino no domínio de QMF utilizando SBR de cópia direta em uma representação de tempo-frequência;

[0067] A Figura 18a mostra um erro na PDT do sinal de violino no domínio de QMF para a SBR corrigida em uma representação de tempo-frequência;

[0068] A Figura 18b mostra o derivativo de fase ao longo do tempo correspondente ao erro mostrado na figura 18a;

[0069] A Figura 19 mostra um diagrama de blocos esquemático de um decodificador;

[0070] A Figura 20 mostra um diagrama de blocos esquemático de um codificador ;

[0071] A Figura 21 mostra um diagrama de blocos esquemático de um fluxo de dados que pode ser um sinal de áudio;

[0072] A Figura 22 mostra o fluxo de dados da figura 21 de acordo com uma aplicação adicional;

[0073] A Figura 23 mostra um diagrama de blocos esquemático de um método para processamento de um sinal de áudio;

[0074] A Figura 24 mostra um diagrama de blocos esquemático de um método para decodificação de um sinal de áudio;

[0075] A Figura 25 mostra um diagrama de blocos esquemático de um método para codificação de um sinal de áudio;

[0076] A Figura 26 mostra um diagrama de blocos esquemático de um processador de áudio de acordo com uma aplicação adicional;

[0077] A Figura 27 mostra u diagrama de blocos esquemático do processador de áudio de acordo com uma aplicação preferida;

[0078] A Figura 28a mostra um diagrama de blocos esquemático de um corretor de fase no processador de áudio que ilustra o fluxo de sinal em mais detalhes;

[0079] A Figura 28b mostra as etapas da correção de fase a partir de outro ponto de vista em comparação às figuras 26 a 28a;

[0080] A Figura 29 mostra um diagrama de blocos esquemático de um determinador de medida de fase alvo no processador de áudio que ilustra o determinador de medida de fase alvo em mais detalhes;

[0081] A Figura 30 mostra um diagrama de blocos esquemático de um gerador do espectro alvo no processador de áudio que ilustra o gerador do espectro alvo em mais detalhes;

[0082] A Figura 31 mostra um diagrama de blocos esquemático de um decodificador;

[0083] A Figura 32 mostra um diagrama de blocos esquemático de um codificador;

[0084] A Figura 33 mostra um diagrama de blocos esquemático de um fluxo de dados que pode ser um sinal de áudio;

[0085] A Figura 34 mostra um diagrama de blocos esquemático de um método para processamento de um sinal de áudio;

[0086] A Figura 35 mostra um diagrama de blocos esquemático de um método para decodificação de um sinal de áudio;

[0087] A Figura 36 mostra um diagrama de blocos esquemático de um método para decodificação de um sinal de áudio;

[0088] A Figura 37 mostra um erro no espectro de fase do sinal de trombone no domínio de QMF utilizando SBR de cópia direta em uma representação de tempo-frequência;

[0089] A Figura 38a mostra o erro no espectro de fase do sinal de trombone no domínio de QMF utilizando a SBR corrigida em uma representação de tempo-frequência;

[0090] A Figura 38b mostra o derivativo de fase sobre a frequência correspondente ao erro mostrado na figura 38a;

[0091] A Figura 39 mostra um diagrama de blocos esquemático de uma calculadora;

[0092] A Figura 40 mostra um diagrama de blocos esquemático da calculadora que ilustra o fluxo de sinal no determinador de variação em mais detalhes;

[0093] A Figura 41 mostra um diagrama de blocos esquemático da calculadora de acordo com uma aplicação adicional;

[0094] A Figura 42 mostra um diagrama de blocos esquemático de um método para determinação de dados de correção de fase para um sinal de áudio;

[0095] A Figura 43a mostra um desvio padrão do derivativo de fase ao longo do tempo do sinal de violino no domínio de QMF em uma representação de tempo-frequência;

[0096] A Figura 43b mostra o desvio padrão do derivativo de fase sobre a frequência correspondente ao desvio padrão do derivativo de fase ao longo do tempo mostrado com relação à figura 43a;

[0097] A Figura 43c mostra o desvio padrão do derivativo de fase ao longo do tempo do sinal de trombone no domínio de QMF em uma representação de tempo-frequência;

[0098] A Figura 43d mostra o desvio padrão do derivativo de fase sobre a frequência correspondente ao desvio padrão do derivativo de fase ao longo do tempo mostrado na figura 43c;

[0099] A Figura 44a mostra a magnitude de um sinal de violino + palmas no domínio de QMF em uma representação de tempo-frequência;

[0100] A Figura 44b mostra o espectro de fase correspondente ao espectro de magnitude mostrado na figura 44a;

[0101] A Figura 45a mostra um derivativo de fase ao longo do tempo do sinal de violino + palmas no domínio de QMF em uma representação de tempo-frequência;

[0102] A Figura 45b mostra o derivativo de fase sobre a frequência correspondente à derivativo de fase ao longo do tempo mostrado na figura 45a;

[0103] A Figura 46a mostra um derivativo de fase ao longo do tempo do sinal de violino + palmas no domínio de QMF utilizando a SBR corrigida em uma representação de frequência de tempo;

[0104] A Figura 46b mostra o derivativo de fase sobre a frequência correspondente à derivativo de fase ao longo do tempo mostrado na figura 46a;

[0105] A Figura 47 mostra as frequências das bandas de QMF em uma representação de tempo-frequência;

[0106] A Figura 48a mostra as frequências da SBR de cópia direta das bandas de QMF em comparação com as frequências originais mostradas em uma representação de tempo-frequência;

[0107] A Figura 48b mostra as frequências da banda de QMF utilizando SBR corrigida em comparação com as frequências originais em uma representação de tempo-frequência;

[0108] A Figura 49 mostra as frequências estimadas de harmônicas em comparação com as frequências das bandas de QMF do sinal original em uma representação de tempo-frequência;

[0109] A Figura 50a mostra o erro no derivativo de fase ao longo do tempo do sinal de violino no domínio de QMF utilizando SBR corrigida com dados de correção comprimida in a representação de tempo-frequência;

[0110] A Figura 50b mostra o derivativo de fase ao longo do tempo correspondente ao erro do derivativo de fase ao longo do tempo mostrado na figura 50a;

[0111] A Figura 51a mostra a forma de onda do sinal de trombone em um diagrama de tempo;

[0112] A Figura 51b mostra o sinal de domínio de tempo correspondente ao sinal de trombone na figura 51a que contém apenas os picos estimados; em que as posições dos picos foram obtidas utilizando os metadados transmitidos;

[0113] A Figura 52a mostra o erro no espectro de fase do sinal de trombone no domínio de QMF utilizando a SBR corrigida com dados de correção comprimida em uma representação de tempo-frequência;

[0114] A Figura 52b mostra o derivativo de fase sobre a frequência correspondente ao erro no espectro de fase mostrado na figura 52a;

[0115] esquemático A Figura 53 mostra um diagrama de blocos de um decodificador;

[0116] esquemático A Figura 54 mostra um diagrama de blocos de acordo com uma aplicação preferida;

[0117] A Figura 55 mostra um diagrama de blocos esquemático adicional; do decodificador de acordo com uma aplicação

[0118] esquemático A Figura 56 mostra um diagrama de blocos de um codificador;

[0119] A Figura 57 mostra um diagrama de blocos de uma calculadora que pode ser utilizada no codificador mostrado na figura 56;

[0120] A Figura 58 mostra um diagrama de blocos esquemático áudio; e de um método para decodificação de um sinal de

[0121] A Figura 59 mostra um diagrama de blocos esquemático de um método para codificação de um sinal de áudio.

[0122] A seguir, as aplicações da invenção serão descritas em mais detalhes. Os elementos mostrados nas respectivas figuras tendo a mesma funcionalidade ou similar serão associados a eles com os mesmos sinais de referência.

[0123] As aplicações da presente invenção serão descritas com referência ao processamento do sinal específico. Portanto, as figuras de 1 a 14 descrevem o processamento do sinal aplicado ao sinal de áudio. Embora as aplicações sejam descritas com relação a este processamento do sinal especial, a presente invenção não é limitada a esse processamento e pode ser, ainda, aplicada a muitos outros esquemas de processamento também. Além disso, as figuras de 15 a 25 mostram as aplicações de um processador de áudio que pode ser utilizado para correção de fase horizontal do sinal de áudio. As figuras de 26 a 38 mostram as aplicações de um processador de áudio que pode ser utilizado para a correção de fase vertical do sinal de áudio. Além disso, as figuras de 39 a 52 mostram as aplicações de uma calculadora para determinação de dados de correção de fase para um sinal de áudio. A calculadora pode analisar o sinal de áudio e determinar quais dos processadores de áudio previamente mencionados são aplicados ou, se nenhum dos processadores de áudio é adequado para o sinal de áudio, aplicar nenhum dos processadores de áudio ao sinal de áudio. As figuras de 53 a 59 mostram as aplicações de um decodificador e um codificador que podem compreender o segundo processador e a calculadora. 1 INTRODUÇÃO

[0124] A codificação de áudio perceptual tem proliferado como dominante permitindo a tecnologia digital para todos os tipos de aplicações que fornecem áudio e multimídia para consumidores que utilizam canais de transmissão ou armazenamento com capacidade limitada. Os codecs de áudio perceptual modernos são necessários para entregar qualidade de áudio satisfatória em taxas de bit crescentemente baixas. Por sua vez, tem-se que suportar certas perturbações de codificação que são mais toleráveis pela maioria dos ouvintes. A extensão da largura de banda de áudio (BWE) é uma técnica para artificialmente estender a faixa de frequência de um codificador de áudio pela translação espectral ou transposição de partes de sinal de banda baixa transmitidos em banda lata no preço de introdução de certas perturbações.

[0125] A constatação é que algumas dessas perturbações estão relacionadas à mudança do derivativo de fase dentro da banda lata artificialmente estendida. Uma dessas perturbações é a alteração de derivativo de fase sobre a frequência (veja também coerência de fase “vertical”) [8]. A preservação da referido derivativo de fase é perceptualmente importante para os sinais tonais com um trem de pulso como forma de onda de domínio de tempo e uma baixa frequência fundamental. As perturbações relacionadas a uma mudança do derivativo de fase vertical correspondem a uma dispersão local de energia no tempo e são geralmente encontradas em sinais de áudio que foram processados pelas técnicas de BWE. Outra perturbação é a alteração do derivativo de fase ao longo do tempo (vide também coerência de fase “horizontal”) que é perceptualmente importante para sinais tonais ricos em sobretom de qualquer frequência fundamental. Perturbações relacionadas a uma alteração do derivativo de fase horizontal correspondem a uma compensação da frequência local no tom e são geralmente encontradas em sinais de áudio que foram processados pelas técnicas de BWE.

[0126] A presente invenção apresenta meios para reajuste do derivativo de fase vertical ou horizontal de tais sinais quando essa propriedade foi comprometida pela aplicação da chamada extensão da largura de banda de áudio (BWE). Outros meios são fornecidos para decidir se uma restauração do derivativo de fase é perceptualmente benéfica e se o ajuste do derivativo de fase vertical ou horizontal é perceptualmente preferível.

[0127] Os métodos de extensão de largura de banda, como a réplica de banda espectral (SBR) [9], são geralmente utilizados em codecs de baixa taxa de bit. Eles possibilitam a transmissão apenas de uma região de baixa frequência relativamente estreita junto com as informações paramétricas sobre as bandas mais altas. Visto que a taxa de bit das informações paramétricas é pequena, a melhoria significante na eficiência de codificação pode ser obtida.

[0128] Tipicamente, o sinal para as bandas mais altas é obtido simplesmente pela cópia dele a partir da região de baixa frequência transmitida. O processamento é geralmente realizado no domínio de banco de filtro de espelho em quadratura modulado complexo (QMF) [10], que é assumido também a seguir. O sinal copiado é processado pela multiplicação do espectro de magnitude dele com ganhos adequados com base nos parâmetros transmitidos. O objetivo é obter um espectro de magnitude similar como o do sinal original. Em contrapartida, o espectro de fase do sinal copiado é tipicamente não processado de nenhuma forma, mas em vez disso, o espectro de fase copiado é diretamente utilizado.

[0129] As consequências perceptuais de utilização do espectro de fase diretamente copiado são investigadas a seguir. Com base nos efeitos observados, duas métricas para detecção dos efeitos perceptualmente mais significantes são sugeridas. Além disso, os métodos como para corrigir o espectro de fase com base neles são sugeridos. Finalmente, as estratégias para minimização da quantidade de valores de parâmetro transmitido para realização da correção são sugeridas.

[0130] A presente invenção está relacionada à constatação que a preservação ou restauração do derivativo de fase é capaz de remediar as perturbações proeminentes induzidas pelas técnicas de extensão da largura de banda de áudio (BWE). Por exemplo, sinais típicos, onde a preservação do derivativo de fase é importante, são tons com conteúdo de sobretom harmônico rico, como discurso com voz, instrumentos de sopro e cordas friccionadas.

[0131] A presente invenção fornece, ainda, meios para decidir se - para uma dada estrutura do sinal - uma restauração do derivativo de fase é perceptualmente benéfica e se o ajuste derivativo de fase vertical ou horizontal é perceptualmente preferível.

[0132] A invenção ensina um aparelho e um método para correção da correção do derivativo de fase em codecs de áudio utilizando técnicas de BWE com os seguintes aspectos: 1. Quantificação da “importância” da correção do derivativo de fase; 2. Priorização dependente do sinal de se a correção do derivativo de fase vertical (“frequência”) ou correção do derivativo de fase horizontal (“tempo”); 3. Comutação dependente do sinal da direção de correção (“frequência” ou “tempo”); 4. Modo de correção do derivativo de fase vertical dedicado para transientes; 5. Obtenção dos parâmetros estáveis para correção suave; 6. Formato compacto de transmissão de informação adicional dos parâmetros de correção. 7. APRESENTAÇÃO DOS SINAIS NO DOMÍNIO DE QMF

[0133] Um sinal de tempo-domínio x(m), onde m é tempo discreto, pode ser apresentado no domínio de tempo-frequência, por exemplo, utilizando um banco de Filtro de Espelho em Quadratura (QMF) complexo modulado. O sinal resultante é X (k, rí), onde k é o índice da banda de frequência e n o índice da estrutura temporal. O QMF de 64 bandas e a frequência de amostragem fs de 48 kHz são assumidas para visualizações e aplicações. Assim, a largura de banda /BW de cada banda de frequência é 3 75 Hz e o tamanho do salto temporal t^op (17 na figura 2) é 1,33 ms. Entretanto, o processamento não é limitado a tal transformada. De modo alternativo, uma MDCT (Modified Discrete Cosine Transform | Transformada Discreta de Cosseno Modificada) ou uma DFT (Discrete Fourier Transform | Transformada de Fourier Discreta) pode ser utilizada então.

[0134] O sinal resultante é X(k,rí), onde k é o índice da banda de frequência e n o índice da estrutura temporal. X (k, rí) é um sinal complexo. Assim, também pode ser apresentado utilizando a magnitude Xmas (k,n) e os componentes de fase %Pha(k,n) com j sendo o número complexo

[0135] Os sinais de áudio são apresentados na maioria das vezes utilizando Xmas(k,n) e%Pha(k,n) (vide figura 1 para dois exemplos).

[0136] A figura 1a mostra um espectro de magnitude Xma*(k,rí) de um sinal de violino o, em que a figura 1b mostra o espectro de fase %Pha(k,n) correspondente, ambos no domínio de QMF. Além disso, a figura 1c mostra um espectro de magnitude Xma*(k,rí) de um sinal de trombone, em que a figura 1d mostra o espectro de fase correspondente novamente no domínio de QMF correspondente. Em relação aos espectros de magnitude nas figuras 1a e 1c, o gradiente de cor indica uma magnitude do vermelho = 0 dB ao azul = -80 dB. Além disso, para os espectros de fase nas figuras 1b e 1d, o gradiente de cor indica as fases do vermelho = p ao azul = —p. 8. DADOS DE ÁUDIO

[0137] Os dados de áudio utilizados para mostrar um efeito de um processamento de áudio descrito são chamados de ‘trombone’ para um sinal de áudio de um trombone, ‘violino o’ para um sinal de áudio de um violino e ‘violino+palmas’ para o sinal de violino com uma palma da mão somada ao meio. 9. OPERAÇÃO BÁSICA DE SBR

[0138] A figura 2 mostra um diagrama de frequência de tempo (5) compreendendo porções de frequência de tempo (10) (por exemplo, posições de QMF, posições do banco de Filtro de Espelho em Quadratura), definidas por um período de tempo (15) e uma sub-banda (20). Um sinal de áudio pode ser transformado em tal representação de frequência de tempo utilizando uma transformada do QMF (banco do Filtro de Espelho em Quadratura), uma MDCT (Transformada Discreta de Cosseno Modificada), ou uma DFT (Transformada de Fourier Discreta). A divisão do sinal de áudio em períodos de tempo pode compreender partes de sobreposição do sinal de áudio. Na parte inferior da figura 1, uma única sobreposição dos períodos de tempo (15) é mostrada, onde no máximo dois períodos de tempo se sobrepõem ao mesmo tempo. Além disso, ou seja, se mais redundância for necessária, o sinal de áudio pode ser dividido utilizando sobreposição múltipla também. Em um algoritmo de sobreposição múltipla três ou mais períodos de tempo podem compreender a mesma parte do sinal de áudio em um certo ponto do tempo. A duração de uma sobreposição é o tamanho do salto thop (17) .

[0139] Assumindo um sinal X(k,rí), o sinal estendido por largura de banda (BWE) Z(k,rí) é obtido do sinal de entrada X(k,n) pela cópia de certas partes da banda de frequência de baixa frequência transmitida. Um algoritmo de SBR começa selecionando uma região de frequência a ser transmitida. Neste exemplo, as bandas de 1 a 7 são selecionadas:

[0140] A quantidade de bandas de frequência a ser transmitida depende da taxa de bit desejada. As figuras e as equações são produzidas utilizando 7 bandas, e de 5 a 11 bandas são utilizadas para os dados de áudio correspondentes. Assim, as frequências cruzadas entre a região de frequência transmitida e as bandas mais altas são de 1875 a 4125 Hz, respectivamente. As bandas de frequência acima dessa região não são transmitidas de nenhuma forma, mas em vez disso, os metadados paramétricos são criados para descrevê-los. Xtrans(k,p) é codificado e transmitido. Para fins de simplificação, assume- se que a codificação não modifica o sinal em qualquer forma, embora tenha sido visto que o processamento adicional não é limitado ao caso assumido.

[0141] Na extremidade de recebimento, a região de frequência transmitida é diretamente utilizada para as frequências correspondentes.

[0142] Para as bandas mais altas, o sinal pode ser criado de alguma forma que utilize o sinal transmitido. Uma abordagem é simplesmente copiar o sinal transmitido a frequências mais altas. Uma versão levemente modificada é utilizada aqui. Primeiro, um sinal de banda base é selecionado. Poderia ser todo o sinal transmitido, mas nessa aplicação a primeira banda de frequência é omitida. A razão para isso é que o espectro de fase foi observado ser irregular para a primeira banda em muitos casos. Assim, a banda base a ser copiada é definida como

[0143] Outras larguras de banda também podem ser utilizadas para os sinais de banda base transmitidos. Utilizando o sinal de banda base, os sinais brutos para as frequências mais altas são criados

[0144] onde Kraw(k,n,Q é o sinal de QMF complexo para a correção temporária de frequência í. Os sinais brutos de correção temporária de frequência são manipulados de acordo com os metadados transmitidos pela multiplexação deles com os ganhos g(k,n,i)

[0145] Deve-se observar que os ganhos estão em valores reais e, assim, apenas o espectro de magnitude é afetado e, assim, adaptado a um valor alvo desejado. As abordagens conhecidas mostram como os ganhos são obtidos. A fase alvo permanece não corrigida nas referidas abordagens conhecidas.

[0146] O sinal final a ser reproduzido é obtido pela concatenação dos sinais transmitidos e de correção temporária para estender, continuamente, a largura de banda para obter um sinal de BWE da largura de banda desejada. Nesta aplicação, assume-se i = 7.

[0147] A figura 3 mostra os sinais descritos em uma representação gráfica. A figura 3a mostra um diagrama de frequência exemplar de um sinal de áudio, em que a magnitude da frequência é representada sobre dez sub-bandas diferentes. As primeiras sete sub-bandas refletem as bandas de frequência transmitidas ^trans(^>n) (25)- A banda base ^base(^>n) (30) é derivada delas escolhendo da segunda até a sétima sub-banda. A figura 3a mostra o sinal de áudio original, ou seja, o sinal de áudio antes da transmissão ou codificação. A figura 3b mostra uma representação de frequência exemplar do sinal de áudio após a recepção, por exemplo, durante um processo de decodificação em uma etapa intermediária. O espectro de frequência do sinal de áudio compreende as bandas de frequência transmitidas (25) e sete sinais de banda base (30) copiados em sub-bandas mais altas do espectro de frequência que forma um sinal de áudio (32) compreendendo frequências mais altas do que a frequências na banda base. O sinal de banda base completo também é referido como uma correção temporária de frequência. A figura 3c mostra um sinal de áudio reconstruído Z(k,rí) (35). Em comparação com a Figura 3b, as correções temporárias dos sinais de banda base são multiplicadas individualmente por um fator de ganho. Portanto, o espectro de frequência do sinal de áudio compreende o espectro de frequência principal (25) e várias correções temporárias corrigidas pela magnitude Y(k,n, 1) (40). Este método de correção temporária é referido como correção temporária de cópia direta. A correção temporária de cópia direta é, de forma exemplar, utilizada para descrever a presente invenção, embora a invenção não esteja limitada a tal algoritmo de correção temporária. Um algoritmo de correção temporária adicional que pode ser utilizado é, por exemplo, um algoritmo de correção temporária harmônico.

[0148] Assume-se que a representação paramétrica das bandas mais altas é perfeita, ou seja, o espectro de magnitude do sinal reconstruído é idêntico ao do sinal original

[0149] Entretanto, deve ser observado que o espectro de fase não é corrigido em qualquer forma pelo algoritmo, assim não está correto mesmo se o algoritmo trabalhou perfeitamente. Portanto, as aplicações mostram como adaptar e corrigir adicionalmente o espectro de fase de Z(k,ri) a um valor alvo de modo que uma melhoria da qualidade perceptual é obtida. Nas aplicações, a correção pode ser realizada utilizando três modos de processamento diferentes, “horizontal”, “vertical” e “transiente”. Estes modos são separadamente discutidos a seguir.

[0150]

são representados figura 4 para os sinais de violino e de trombones. A figura 4 mostra espectros exemplificadores do sinal de áudio reconstruído (35) utilizando réplica de largura de banda espectral (SBR) com correção temporária de cópia direta. O espectro de magnitude Zmaz(k,n) de um sinal de violino é mostrado na figura 4a, em que a figura 4b mostra o espectro de fase correspondente ZPha(k,n). As figuras 4c e 4d mostram os espectros correspondentes para um sinal de trombone. Todos os sinais são apresentados no domínio de QMF. Conforme já visto na figura 1, o gradiente de cor indica uma magnitude do vermelho = 0 dB ao azul = -80 dB, e uma fase do vermelho = p ao azul = —p. Pode ser visto que seus espectros de fase são diferentes do que os espectros dos sinais originais (vide figura 1). Devido à SBR, o violino é percebido conter níveis não harmônicos e o trombone conter ruídos de modulação nas frequências cruzadas. Entretanto, os gráficos da fase parecem bem aleatórios e é realmente difícil dizer os quão diferentes eles são, e o quais são os efeitos perceptuais das diferenças. Além disso, o envio dos dados de correção para este tipo de dados aleatórios não é prático nas aplicações de codificação que exigem baixa taxa de bit. Assim, o entendimento dos efeitos perceptuais do espectro de fase e a constatação das métricas para descrevê- los são necessários. Esses tópicos são discutidos nas seguintes seções. 5. SIGNIFICADO DO ESPECTRO DE FASE NO DOMÍNIO DE QMF

[0151] Geralmente, pensa-se que o índice da banda de frequência define a frequência de um único componente tonal, a magnitude define o nível dele e a fase define o “tempo” dele. Entretanto, a largura de banda de uma banda de QMF é relativamente grande e os dados são sobreamostrados. Assim, a interação entre as porções de tempo-frequência (ou seja, posições de QMF) define de fato todas estas propriedades.

[0152] Uma apresentação de tempo-domínio de uma única posição de QMF com três valores de fase diferentes, ou seja,

representada na figura 5. O resultado é uma função do tipo sincronização com o comprimento de 13,3 ms. O formato exato da função é definido pelo parâmetro de fase.

[0153] Considerando um caso onde apenas uma banda de frequência é não zero para todas as estruturas temporais, ou seja,

[0154] Pela mudança da fase entre as estruturas temporais com um valor fixo a, ou seja,

[0155] um sinusoide é criado. O sinal resultante (ou seja, o sinal de tempo-domínio após a transformada de QMF inversa) é apresentado na figura 6 com os valores de a = p/^ (superior) e 3p/4 (inferior). Pode ser visto que a frequência do sinusoide é afetada pela mudança de fase. O domínio de frequência é mostrado à direita, em que o domínio de tempo do sinal é mostrado à esquerda da figura 6.

[0156] Correspondentemente, se a fase for selecionada aleatoriamente, o resultado é ruído de banda estreita (vide figura 7). Assim, pode ser dito que a fase de uma posição de QMF está controlando o conteúdo de frequência dentro da banda de frequência correspondente.

[0157] A figura 8 mostra o efeito descrito com relação à figura 6 em uma representação de frequência de tempo de quatro períodos de tempo e quatro sub-bandas de frequência, onde apenas a terceira sub-banda compreende uma frequência diferente de zero. Isso resulta no sinal do domínio de frequência da figura 6, apresentado esquematicamente à direita da figura 8 e na representação do domínio de tempo da figura 6 apresentada esquematicamente na parte inferior da figura 8.

[0158] Considerando um caso onde apenas uma estrutura temporal é não zero para todas as bandas de frequência, ou seja,

[0159] Pela mudança da fase entre as bandas de frequência com um valor fixo a , ou seja,

[0160] um transiente é criado. O sinal resultante (ou seja, o sinal de tempo-domínio após a transformada de QMF inversa) é apresentado na figura 9 com os valores de a = p/^ (superior) e 3p/4 (inferior). Pode ser visto que a posição temporal do transiente é afetada pela mudança de fase. O domínio de frequência é mostrado à direita da figura 9, em que o domínio de tempo do sinal é mostrado à esquerda da figura 9.

[0161] Correspondentemente, se a fase for selecionada aleatoriamente, o resultado é uma curta explosão de ruído (vide figura 10). Assim, pode ser dito que a fase de uma posição de QMF também está controlando as posições temporais das harmônicas dentro da temporal estrutura correspondente.

[0162] A figura 11 mostra um diagrama de frequência de tempo similar ao diagrama de frequência de tempo mostrado na figura 8. Na figura 11, apenas o terceiro período de tempo compreende valores diferentes de zero tendo uma alternância de tempo de p/4 de uma sub-banda para outra. Transformado em um domínio de frequência, o sinal do domínio de frequência do lado direito da figura 9 é obtido, esquematicamente apresentado ao lado direito da figura 11. Uma esquemática de uma representação de domínio de tempo da parte esquerda da figura 9 é mostrada na parte inferior da figura 11. Este sinal resulta pela transformação do domínio de frequência de tempo em um sinal de domínio de tempo. 6. MEDIDAS PARA DESCREVER AS PROPRIEDADES PERCEPTUALMENTE RELEVANTES DO ESPECTRO DE FASE

[0163] Conforme discutido na Seção 4, o espectro de fase se apresenta bem bagunçado e é difícil ver diretamente qual seu efeito na percepção. A Seção 5 apresentou dois efeitos que podem ser causados pela manipulação do espectro de fase no domínio de QMF: (a) mudança de fase constante ao longo do tempo produz um sinusoide e a quantidade de mudança de fase controla a frequência do sinusoide, e (b) mudança de fase constante sobre a frequência produz um transiente e a quantidade de mudança de fase controla a posição temporal do transiente.

[0164] A frequência e a posição temporal de uma parcial são obviamente significantes à percepção humana, assim detectar essas propriedades é potencialmente útil. Elas podem ser estimadas pela computação do derivativo de fase ao longo do tempo (PDT)

e pela computação do derivativo de fase sobre a frequência (PDF)

[0165] Xpdt(k,n) está relacionado à frequência e Xpdf(k,n) à posição temporal de uma parcial. Devido às propriedades da análise de QMF (como as fases dos formadores das estruturas temporais adjacentes combinam na posição de um transiente), p é adicionado às estruturas temporais pares de Xpdf(k,n) nas figuras para finalidades de visualização a fim de produzir curvas suaves.

[0166] Depois inspeciona-se como essas medidas parecem para nossos sinais de exemplo. A figura 12 mostra as derivações para os sinais de violino e de trombone. Mais especificamente, a figura 12a mostra um derivativo de fase ao longo do tempo Xpdt(k,n) do sinal de áudio de violino não processado, ou seja, original, no domínio de QMF. A figura 12b mostra um derivativo de fase sobre a frequência correspondente Xpdf(k,n). As figuras 12c e 12d mostram o derivativo de fase ao longo do tempo e o derivativo de fase sobre a frequência para um sinal de trombone, respectivamente. O gradiente de cor indica valores de fase do vermelho = p ao azul = —p. Para o violino, o espectro de magnitude é basicamente ruído até aproximadamente 0,13 segundos (vide figura 1) e, assim, as derivações também têm ruído. Começando de aproximadamente 0,13 segundos Xpdt aparece ter valores relativamente estáveis ao longo do tempo. Isso significaria que o sinal contém fortes sinusoides relativamente estáveis. As frequências desses sinusoides são determinadas pelos valores de Xpdt. Em contrapartida, o gráfico de Xpdf parece ser relativamente com ruído, assim nenhum dado relevante é encontrado para o violino utilizando-o.

[0167] Para o trombone, zpdt é relativamente com ruído. Em contrapartida, o Xpdf parece ter aproximadamente o mesmo valor em todas as frequências. Na prática, isso significa que todos os componentes harmônicos estão alinhados no tempo produzindo um sinal do tipo transiente. As localizações temporais dos transientes são determinadas pelos valores de Zpdf.

[0168] As mesmas derivações também podem ser computadas para os sinais processados por SBR Z(k,rí) (vide figura 13). As figuras 13a a 13d estão diretamente relacionadas às figuras 12a a 12d, derivadas utilizando o algoritmo de SBR de cópia direta descrito previamente. Como o espectro de fase é simplesmente copiado da banda base às correções temporárias mais altas, PDTs das correções temporárias de frequência são idênticas às da banda base. Assim, para o violino, a PDT é relativamente suave ao longo do tempo produzindo sinusoides estáveis, como no caso do sinal original. Entretanto, os valores de Zpdt são diferentes daqueles com o sinal original Zpdt, o que faz com que os sinusoides produzidos tenham diferentes frequências do que no sinal original. O efeito perceptual disso é discutido na Seção 7.

[0169] Correspondentemente, o PDF das correções temporárias de frequência é, caso contrário, idêntico às da banda base, mas nas frequências cruzadas o PDF é, na prática, aleatório. No cruzamento, o PDF é de fato computada entre o último e o primeiro valore de fase da correção temporária de frequência, ou seja,

[0170] Esses valores dependem do PDF real e o cruzamento, e eles não correspondem com os valores do sinal original.

[0171] Para o trombone, os valores de PDF do sinal copiado são corretos separado das frequências cruzadas. Assim, as localizações temporais da maioria das harmônicas estão em locais corretos, mas as harmônicas nas frequências cruzadas são praticamente em localizações aleatórias. O efeito perceptual disso é discutido na Seção 7. 7. PERCEPÇÃO HUMANA DE ERROS DE FASE

[0172] Sons podem ser rudemente divididos em duas categorias: sinais harmônicos e sinais do tipo ruído. Os sinais do tipo ruído têm, já por definição, propriedades de fase com ruído. Assim, os erros de fase causados pela SBR são assumidos não serem perceptualmente significantes com eles. Em vez disso, é concentrado em sinais harmônicos. A maioria dos instrumentos musicais, e também a fala, produzem estrutura harmônica ao sinal, ou seja, o tom contém fortes componentes sinusoidais espaçados na frequência pela frequência fundamental.

[0173] A audição humana é frequentemente assumida se comportar como se tivesse um banco de filtros passa-banda de sobreposição, referidos como os filtros auditivos. Assim, a audição pode ser assumida para lidar com sons complexos de modo que os sons parciais dentro do filtro auditivo sejam analisados como uma entidade. A largura destes filtros pode ser aproximada para seguir a largura de banda retangular equivalente (ERB | equivalent rectangular bandwidth) [11], que pode ser determinada de acordo com

onde fc é a frequência central da banda (em kHz). Conforme discutido na Seção 4, a frequência cruzada entre a banda base e as correções temporárias de SBR é aproximadamente 3 kHz. Nestas frequências, a ERB é aproximadamente 350 Hz. A largura de banda de uma banda de frequência de QMF é, de fato, próxima a isso, 375 Hz. Assim, a largura de banda das bandas de frequência de QMF podem ser assumidas para seguir a ERB nas frequências de interesse.

[0174] Duas propriedades de um som que podem dar errado devido ao espectro de fase errôneo foram observadas na Seção 6: a frequência e o tempo de um componente parcial. Concentrado na frequência, a pergunta é, a audição humana pode perceber as frequências de harmônicas individuais? Se sim, então a compensação da frequência causada pela SBR deveria ser corrigida e, se não, então a correção não é necessária.

[0175] O conceito das harmônicas solucionadas e não solucionadas [12] pode ser utilizado para esclarecer este tópico. Se houver apenas uma harmônica dentro da ERB, a harmônica é chamada de solucionada. É tipicamente assumido que a audição humana processa as harmônicas solucionadas individualmente e, assim, é sensível à frequência delas. Na prática, a mudança da frequência das harmônicas solucionadas é percebida para causar níveis não harmônicos.

[0176] Correspondentemente, se houver múltiplas harmônicas dentro da ERB, as harmônicas são chamadas de não solucionadas. A audição humana é assumida para não processar essas harmônicas individualmente, mas em vez disso, seu efeito conjunto é visto pelo sistema auditivo. O resultado é um sinal periódico e o comprimento do período é determinado pelo espaçamento das harmônicas. A percepção do tom está relacionada ao comprimento do período, assim, a audição humana é assumida ser sensível a ele. Todavia, se todas as harmônicas dentro da correção temporária de frequência em SBR são mudadas pela mesma quantidade, o espaçamento entre as harmônicas, e assim o tom percebido, permanece o mesmo. Assim, no caso de harmônicas não solucionadas, a audição humana não percebe as compensações de frequência como níveis não harmônicos.

[0177] Os erros relacionados à temporização causados pela SBR são considerados a seguir. Por temporização da posição temporal, ou a fase, entende-se componente harmônico. Isso não deveria ser confundido com a fase de uma posição de QMF. A percepção dos erros relacionados à temporização foi estudada em detalhes em [13]. Observou-se que para a maioria dos sinais, a audição humana não é sensível à temporização, ou à fase, dos componentes harmônicos. Entretanto, há certos sinais com os quais a audição humana é muito sensível à temporização das parciais. Os sinais incluem, por exemplo, sons de trombone e trompete e fala. Com estes sinais, um certo ângulo de fase ocorre ao mesmo tempo com todas as harmônicas. A taxa de disparo neural de diferentes bandas sonoras foi simulada em [13]. Constatou-se que com esses sinais sensíveis à fase, a taxa de disparo neural produzida é fraca em todas das bandas auditivas e que os picos estão alinhados no tempo. A mudança de fase de mesmo uma única harmônica pode mudar o achatamento da taxa de disparo neural com estes sinais. De acordo com os resultados do teste de audição formal, a audição humana é sensível a isso [13]. Os efeitos produzidos são a percepção de um componente sinusoidal adicionado ou um ruído de banda estreita nas frequências onde a fase foi modificada.

[0178] Além disso, observou-se que a sensibilidade aos efeitos relacionados à temporização depende da frequência fundamental do tom harmônico [13]. Quanto menor a frequência fundamental, maiores são os efeitos percebidos. Se a frequência fundamental estiver acima de aproximadamente 800 Hz, o sistema auditivo não é sensível de forma alguma aos efeitos relacionados à temporização.

[0179] Assim, se a frequência fundamental estiver baixa e se a fase das harmônicas estiver alinhada sobre a frequência (significa que as posições temporais das harmônicas estão alinhadas), as mudanças na temporização, ou em outras palavras a fase, das harmônicas podem ser percebidas pela audição humana. Se a frequência fundamental estiver alta e/ou a fase das harmônicas não estiver alinhada sobre a frequência, a audição humana não é sensível a mudanças na temporização das harmônicas. 8. MÉTODOS DE CORREÇÃO

[0180] Na Seção 7, observou-se que os humanos são sensíveis a erros nas frequências das harmônicas solucionadas. Além disso, humanos são sensíveis a erros nas posições temporais das harmônicas se a frequência fundamental estiver abaixo e se as harmônicas estiverem alinhadas sobre a frequência. SBR pode causar ambos os erros, conforme discutido na Seção 6, assim a qualidade percebida pode ser melhorada corrigindo-os. Os métodos para fazer isso são os sugeridos nesta seção.

[0181] A figura 14 esquematicamente ilustra a ideia básica dos métodos de correção. A figura 14a mostra esquematicamente quatro fases 45a-d de, por exemplo, períodos de tempo ou sub-bandas de frequência subsequentes, em um círculo de unidade. As fases 45a-d são espaçadas igualmente por 90°. A figura 14b mostra as fases após o processamento de SBR e, em linhas tracejadas, as fases corrigidas. A fase 45a antes do processamento pode ser mudada para o ângulo de fase 45a’. O mesmo aplica-se às fases de 45b a 45d. É mostrado que a diferença entre as fases após o processamento, ou seja, o derivativo de fase, pode ser corrompida após o processamento da SBR. Por exemplo, a diferença entre as fases 45a’ e 45b’ é 110° após o processamento da SBR, que foi 90° antes do processamento. Os métodos de correção mudarão os valores de fase 45b’ para o novo valor de fase 45b” para recuperar a antigo derivativo de fase de 90°. A mesma correção é aplicada nas fases de 45d’ e 45d”. 8.1 CORREÇÃO DOS ERROS DE FREQUÊNCIA — CORREÇÃO DO DERIVATIVO DE FASE HORIZONTAL

[0182] Conforme discutido na Seção 7, humanos podem perceber um erro na frequência de uma harmônica na maioria das vezes quando há apenas uma harmônica dentro de uma ERB. Além disso, a largura de banda de uma banda de frequência de QMF pode ser utilizada para estimar a ERB no primeiro cruzamento. Assim, a frequência tem que ser corrigida apenas quando já uma harmônica dentro de uma banda de frequência. Isso é muito conveniente, pois a Seção 5 mostrou que, se houver uma harmônica por banda, os valores de PDT produzidos são estáveis, ou estão mudando lentamente ao longo do tempo, e podem ser potencialmente corrigidos utilizando baixa taxa de bit.

[0183] A figura 15 mostra um processador de áudio (50) para processamento de um sinal de áudio (55). O processador de áudio (50) compreende uma calculadora de medida de fase do sinal de áudio (60), um determinador de medida de fase alvo (65) e um corretor de fase (70). A calculadora de medida de fase do sinal de áudio (60) é configurada para cálculo de uma medida de fase (80) do sinal de áudio (55) para um período de tempo (75). O determinador de medida de fase alvo (65) é configurado para determinação de uma medida de fase alvo (85) para o referido período de tempo (75). Além disso, o corretor de fase é configurado para correção de fases (45) do sinal de áudio (55) para o período de tempo (75) utilizando a medida de fase (80) calculada e a medida de fase alvo (85) para obter um sinal de áudio processado (90). Opcionalmente, o sinal de áudio (55) compreende uma pluralidade de sinais de sub-banda (95) para o período de tempo (75). Aplicações adicionais do processador de áudio (50) são descritas em relação à figura 16. De acordo com uma aplicação, o determinador de medida de fase alvo (65) é configurado para determinação de uma primeira medida de fase alvo (85a) e uma segunda medida de fase alvo (85b) para um segundo sinal de sub-banda (95b). Consequentemente, a calculadora de medida de fase do sinal de áudio (60) é configurada para determinação de uma primeira medida de fase (80a) para o primeiro sinal de sub-banda (95a) e uma segunda medida de fase (80b) para o segundo sinal de sub-banda (95b). O corretor de fase é configurado para correção de uma fase 45a do primeiro sinal de sub-banda (95a) utilizando a primeira medida de fase (80a) do sinal de áudio (55) e a primeira medida de fase alvo (85a) e para corrigir uma segunda fase (45b) do segundo sinal de sub-banda (95b) utilizando a segunda medida de fase (80b) do sinal de áudio (55) e a segunda medida de fase alvo (85b). Além disso, o processador de áudio (50) compreende um sintetizador de sinal de áudio (100) para sintetização do sinal de áudio processado (90) utilizando o primeiro sinal de sub-banda (95a) processado e o segundo sinal de sub-banda (95b) processado. De acordo com as aplicações adicionais, a medida de fase (80) é um derivativo de fase ao longo do tempo. Portanto, a calculadora de medida de fase do sinal de áudio (60) pode calcular, para cada sub-banda (95) de uma pluralidade de sub-bandas, o derivativo de fase de um valor de fase (45) de um período de tempo atual (75b) e um valor de fase de um período de tempo futuro (75c). Consequentemente, o corretor de fase (70) pode calcular, para cada sub-banda (95) da pluralidade de sub-bandas do período de tempo atual (75b), um desvio entre o derivativo de fase alvo 85 e o derivativo de fase ao longo do tempo (80), em que uma correção realizada pelo corretor de fase (70) é realizada utilizando o desvio.

[0184] As aplicações mostram o corretor de fase (70) sendo configurado para correção de sinais de sub-banda (95) de diferentes sub-bandas do sinal de áudio (55) dentro do período de tempo (75), de modo que as frequências dos sinais de subbanda (95) corrigidos tenham valores de frequência sendo harmonicamente alocados a uma frequência fundamental do sinal de áudio (55). A frequência fundamental é a frequência mais baixa que ocorre no sinal de áudio (55), ou em outras palavras, a primeira harmônica do sinal de áudio (55).

[0185] Além disso, o corretor de fase (70) é configurado para suavizar o desvio (105) para cada sub-banda (95) da pluralidade de sub-bandas por um período de tempo anterior, o período de tempo atual e um período de tempo futuro (75a a 75c) e é configurado para reduzir as rápidas mudanças do desvio (105) dentro de uma sub-banda (95). De acordo com as aplicações adicionais, a suavização é uma média ponderada, em que o corretor de fase 70 é configurado para cálculo da média ponderada pelos períodos de tempo anteriores, atuais e futuros (75a a 75c), ponderada por uma magnitude do sinal de áudio (55) nos períodos de tempo anteriores, atuais e futuros (75a a 75c).

[0186] As aplicações mostram as etapas de processamento previamente descritas com base no vetor. Portanto, o corretor de fase (70) é configurado para modulação de um vetor de desvios (105), em que um primeiro elemento do vetor se refere a um primeiro desvio (105a) para a primeira sub-banda (95a) da pluralidade de sub-bandas e um segundo elemento do vetor se refere a um segundo desvio (105b) para uma segunda sub-banda (95b) da pluralidade de sub-bandas de um período de tempo anterior (75a) a um período de tempo atual (75b). Além disso, o corretor de fase (70) pode aplicar o vetor dos desvios (105) nas fases (45) do sinal de áudio (55), em que o primeiro elemento do vetor é aplicado a uma fase (45a) do sinal de áudio (55) em uma primeira sub-banda (95a) de uma pluralidade de sub-bandas do sinal de áudio (55) e o segundo elemento do vetor é aplicado em uma fase (45b) do sinal de áudio (55) em uma segunda sub-banda (95b) da pluralidade de sub-bandas do sinal de áudio (55).

[0187] De outro ponto de vista, pode ser estabelecido que todo o processamento no processador de áudio (50) se baseia em vetor, em que cada vetor representa um período de tempo (75), em que cada sub-banda (95) da pluralidade de sub-banda compreende um elemento do vetor. Aplicações adicionais focam no determinador de medida de fase alvo que é configurado para obtenção de uma estimativa de frequência fundamental (85b) para um período de tempo atual (75b), em que o determinador de medida de fase alvo (65) é configurado para cálculo de uma estimativa de frequência (85) para cada sub-banda da pluralidade de sub-bandas para o período de tempo (75) utilizando a estimativa de frequência fundamental (85) para o período de tempo (75). Além disso, o determinador de medida de fase alvo (65) pode converter as estimativas de frequência (85) para cada sub-banda (95) da pluralidade de sub-bandas em um derivativo de fase ao longo do tempo utilizando um número total de sub-bandas (95) e uma frequência de amostragem do sinal de áudio (55). Para esclarecimento, observou-se que a saída (85) do determinador de medida de fase alvo (65) pode ser a estimativa de frequência ou o derivativo de fase ao longo do tempo, dependendo da aplicação. Portanto, em uma aplicação a estimativa de frequência já compreende o formato correto para processamento adicional no corretor de fase (70), em que em outra aplicação a estimativa de frequência deve ser convertida em um formato adequado, que pode ser um derivativo de fase ao longo do tempo.

[0188] Consequentemente, o determinador de medida de fase alvo (65) pode ser visto como com base no vetor também. Portanto, o determinador de medida de fase alvo (65) pode formar um vetor de estimativas de frequência (85) para cada sub-banda (95) da pluralidade de sub-bandas, em que o primeiro elemento do vetor se refere a uma estimativa de frequência (85a) para uma primeira sub-banda (95a) e um segundo elemento do vetor se refere a uma estimativa de frequência (85b) para uma segunda sub-banda (95b). Adicionalmente, o determinador de medida de fase alvo (65) pode calcular a estimativa de frequência (85) utilizando múltiplos da frequência fundamental, em que a estimativa de frequência (85) da sub-banda atual (95) é esse múltiplo da frequência fundamental que está mais próximo ao centro da sub-banda (95), ou em que a estimativa de frequência (85) da sub-banda atual é uma frequência da margem da sub-banda atual (95) se nenhum dos múltiplos da frequência fundamental estiverem dentro da sub-banda atual (95).

[0189] Em outras palavras, o algoritmo sugerido para correção dos erros nas frequências das harmônicas utilizando o processador de áudio (50) funciona como segue. Primeiro, a PDT é computada e o sinal da SBR processado Zpdt. Zpát(k,rí) = Zpha(k,n+ 1) -Zpha(k,n). A diferença entre ela e a PDT alvo para a correção horizontal é computada a seguir:

[0190] Neste ponto, a PDT alvo pode ser assumida igual à PDT da entrada do sinal de entrada

[0191] Posteriormente, será apresentado como a PDT alvo pode ser obtida com uma baixa taxa de bit.

[0192] Este valor (ou seja, o valor de erro 105) é suavizado ao longo do tempo utilizando uma janela Hann W(7). O comprimento adequado é, por exemplo, 41 amostras no domínio de QMF (correspondentes a um intervalo de 55 ms). A suavização é ponderada pela magnitude das porções de tempo-frequência correspondentes

onde circmean {a,b} denota a computação do meio circular para valores angulares a ponderados pelos valores b. O erro suavizado na PDT D^Çk,n) é representado na figura 17 para o sinal de violino no domínio de QMF utilizando SBR de cópia direta. O gradiente de cor indica valores de fase do vermelho = p ao azul = —p.

[0193] Depois, uma matriz do formador é criada para modificar o espectro de fase a fim de obter a PDT desejada

[0194] O espectro de fase é processado utilizando esta Matriz

[0195] A figura 18a mostra o erro no derivativo de fase ao longo do tempo (PDT) D^Çk,n) do sinal de violino no domínio de QMF para a SBR corrigida. A figura 18b mostra o derivativo de fase ao longo do tempo correspondente Z^lÇk,n), em que o erro na PDT mostrado na figura 18a foi derivado pela comparação dos resultados apresentados na figura 12a com os resultados apresentados na figura 18b. Novamente, o gradiente de cor indica valores de fase do vermelho = p ao azul = —p. A PDT é computada para o espectro de fase corrigida Z^aÇk,n) (vide figura 18b). Pode ser visto que a PDT do espectro de fase corrigida lembra bem a PDT do sinal original (vide figura 12) e o erro é pequeno para porções de tempo-frequência contendo energia significativa (vide figura 18a). Pode ser observado que os níveis não harmônicos dos dados da SBR não corrigida estão amplamente ausentes. Além disso, o algoritmo não parece causar perturbações significativas.

[0196] Utilizando %Pdt(k,n) como uma PDT alvo, ela provavelmente transmitirá os valores de erro por PDT D^Çk,n) para cada porção de tempo-frequência. Uma abordagem adicional que calcula a PDT alvo de modo que a largura de banda para transmissão seja reduzida é mostrado na seção 9.

[0197] Em aplicações adicionais, o processador de áudio (50) pode ser parte de um decodificador (110). Portanto, o decodificador (110) para decodificação de um sinal de áudio (55) pode compreender o processador de áudio (50), um decodificador central (115) e um corretor temporário (120). O decodificador central (115) é configurado para decodificação central de um sinal de áudio (25) em um período de tempo (75) com um número reduzido de sub-bandas em relação ao sinal de áudio (55). O corretor temporário corrige temporariamente um conjunto de sub-bandas (95) do sinal de áudio central decodificado (25) com um número reduzido de sub-bandas, em que o conjunto de sub-bandas forma uma primeira correção temporária (30a), para mais sub-bandas no período de tempo (75), adjacente ao número reduzido de sub-bandas, para obter um sinal de áudio (55) com um número regular de sub-bandas. Adicionalmente, o processador de áudio (50) é configurado para correção das fases (45) dentro das sub-bandas da primeira correção temporária (30a) de acordo com uma função alvo (85). O processador de áudio (50) e o sinal de áudio (55) foram descritos em relação às figuras 15 e 16, onde os sinais de referência representados na figura 19 são explicados. O processador de áudio de acordo com as aplicações realiza a correção de fase. Dependendo das aplicações, o processador de áudio pode compreender, ainda, uma correção da magnitude do sinal de áudio por um aplicador de parâmetro da extensão da largura de banda (125) aplicando parâmetros BWE ou SBR às correções temporárias. Além disso, o processador de áudio pode compreender o sintetizador (100), por exemplo, um banco do filtro de síntese, para combinação, ou seja, da sintetização, as sub-bandas do sinal de áudio para obter um arquivo de áudio regular.

[0198] De acordo com as aplicações adicionais, o corretor temporário (120) é configurado para correção temporária de um conjunto de sub-bandas (95) do sinal de áudio (25), em que o conjunto de sub-bandas forma uma segunda correção temporária, para mais sub-bandas do período de tempo, adjacente à primeira correção temporária e em que o processador de áudio (50) é configurado para correção da fase (45) dentro das sub-bandas da segunda correção temporária. De modo alternativo, o corretor temporário (120) é configurado para correção temporária da primeira correção temporária corrigida para mais sub-bandas do período de tempo, adjacente à primeira correção temporária.

[0199] Em outras palavras, na primeira opção, o corretor temporário cria um sinal de áudio com um número regular de sub-bandas da parte transmitida do sinal de áudio e, assim, as fases de cada correção temporária do sinal de áudio são corrigidas. A segunda opção primeiro corrige as fases da primeira correção temporária em relação à parte transmitida do sinal de áudio e, assim, cria o sinal de áudio com o número regular de sub-bandas com a primeira correção temporária já corrigida.

[0200] As aplicações adicionais mostram o decodificador 110, compreendendo um extrator de fluxo de dados 130 configurado para extrair a frequência fundamental 114 do período de tempo atual 75 do sinal de áudio 55 a partir de um fluxo de dados 135, caracterizado pelo fluxo de dados compreender ainda o sinal de áudio codificado 145 com um número reduzido de sub-bandas. Alternativamente, o decodificador pode compreender um analisador de frequência fundamental 150 configurado para analisar o sinal de áudio central decodificado 25 a fim de calcular a frequência fundamental 140. Em outras palavras, opções para derivar a frequência fundamental 140 são, por exemplo, uma análise do sinal de áudio no decodificador ou no codificador, caracterizado pelo último caso a frequência fundamental poder ser mais precisa ao custo de uma maior taxa de dados, uma vez que o valor tem que ser transmitido do codificador para o decodificador.

[0201] A figura 20 mostra um codificador (155) para codificar do sinal de áudio (55). O codificador compreende um codificador central (160) para codificação central do sinal de áudio (55) para obter um sinal de áudio central codificado (145) que tem um número reduzido de sub-bandas em relação ao sinal de áudio, e o codificador compreende um analisador de frequência fundamental (175) para analisar o sinal de áudio (55) ou uma versão de filtro passa baixa do sinal de áudio (55) para obter uma estimativa de frequência fundamental do sinal de áudio. Além disso, o codificador compreende um extrator de parâmetro (165) para extrair parâmetros de sub-bandas do sinal de áudio (55) não incluído no sinal de áudio central codificado (145) e o codificador compreende um formador de sinal de saída (170) para formar um sinal de saída (135) compreendendo o sinal de áudio central codificado (145), os parâmetros e a estimativa de frequência fundamental. Nesta aplicação, o codificador (155) pode compreender um filtro passa baixa em frente ao decodificador central (160) e um filtro passa-alta (185) em frente ao extrator de parâmetro (165). De acordo com as aplicações adicionais, o formador de sinal de saída (170) é configurado para formar a saída do sinal (135) em uma sequência de estruturas, caracterizado por cada estrutura compreender o sinal codificado central (145), os parâmetros (190), e em que somente cada nésima estrutura compreende uma estimativa de frequência fundamental (140), em que n > 2. Em aplicações, o codificador central (160) pode ser, por exemplo, um codificador AAC (Advanced Audio Coding | Codificação Avançada de Áudio).

[0202] Em uma aplicação alternativa um codificador de preenchimento de lacuna inteligente pode ser usado para codificar o sinal de áudio (55). Portanto, o codificador central codifica um sinal de áudio de largura de banda total, caracterizado por, pelo menos, uma sub-banda do sinal de áudio ser excluída. Portanto, o extrator de parâmetro (165) extrai parâmetros para reconstruir as sub-bandas que foram excluídas do processo de codificação do codificador central (160).

[0203] A figura 21 mostra uma ilustração esquemática do sinal de saída (135). O sinal de saída é um sinal de áudio, compreendendo um sinal de áudio central codificado (145) que tem um número reduzido de sub-bandas em relação ao sinal de áudio original (55), um parâmetro (190) representando sub-bandas do sinal de áudio não incluído no sinal de áudio central codificado (145), e a estimativa de frequência fundamental (140) do sinal de áudio (135) ou o sinal de áudio original (55).

[0204] A figura 22 mostra uma aplicação do sinal de áudio (135), caracterizado pelo sinal de áudio ser formado em uma sequência de estruturas (195), caracterizado por cada estrutura (195) compreender o sinal de áudio central codificado (145), os parâmetros (190), e em que somente cada nésima estrutura (195) compreende a estimativa de frequência fundamental (140), em que n > 2. Isso pode descrever uma transmissão de estimativa de frequência fundamental igualmente espaçada para, por exemplo, a cada 20a estrutura, ou em que a estimativa de frequência fundamental é transmitida irregularmente, por exemplo, quando solicitada ou propositadamente.

[0205] A figura 23 mostra um método (2300) para processar um sinal de áudio com uma etapa (2305) “calcular uma medida de fase de um sinal de áudio por um período de tempo com uma calculadora derivada da fase de sinal de áudio”, uma etapa (2310) “determinar uma medida de fase alvo para o referido período de tempo com um determinador derivado de fase alvo”, e uma etapa (2315) “corrigir fases do sinal de áudio pelo período de tempo com um corretor de fase utilizando o cálculo de medida de fase e a medida de fase alvo para obter um sinal de áudio processado”.

[0206] A figura 24 mostra um método (2400) para decodificar um sinal de áudio com uma etapa (2405) “decodificar um sinal de áudio em um período de tempo com o número reduzido de sub-bandas em relação ao sinal de áudio”, uma etapa (2410) “corrigir temporariamente um conjunto de sub-bandas do sinal de áudio decodificado com o número reduzido de sub-bandas, caracterizado pelo conjunto de sub-bandas formar uma primeira correção temporária, para sub-bandas adicionais no período de tempo, adjacente ao número reduzido de sub-bandas, para obter um sinal de áudio com um número regular de sub-bandas”, e uma etapa (2415) “corrigir as fases dentro das sub-bandas da primeira correção temporária de acordo com uma função alvo com o processo de áudio”.

[0207] A figura 25 mostra um método (2500) para codificar um sinal de áudio com uma etapa (2505) “codificação central do sinal de áudio com um codificador central para obter um sinal de áudio central codificado que tenha um número reduzido de sub-bandas em relação ao sinal de áudio”, uma etapa (2510) “analisar o sinal de áudio ou uma versão de filtro passa baixa do sinal de áudio com um analisador de frequência fundamental para obter uma estimativa de frequência fundamental para o sinal de áudio”, uma etapa (2515) “extrair parâmetros de sub-bandas do sinal de áudio não incluído no sinal de áudio central codificado com um extrator de parâmetro”, e uma etapa (2520) “formar um sinal de saída compreendendo o sinal de áudio central codificado, os parâmetros, e a estimativa de frequência fundamental com um formador de sinal de saída”.

[0208] Os métodos descritos (2300, 2400 e 2500) podem ser implementados em um código de programa de um programa de computador para realizar os métodos quando o programa de computador executar em um computador. 8.2 CORREÇÃO DE ERROS TEMPORAIS — CORREÇÃO DO DERIVATIVO DE FASE VERTICAL

[0209] Como discutido previamente, os humanos podem perceber um erro na posição temporal de uma harmônica se as harmônicas estiverem sincronizadas com a frequência e se a frequência fundamental estiver baixa. Na Seção 5 foi mostrado que as harmônicas são sincronizadas se a fase derivada com a frequência estiver constante no domínio QMF. Portanto, é vantajoso ter, pelo menos, uma harmônica em cada banda de frequência. De outra forma as bandas de frequência “vazias” teriam fases aleatórias e iriam atrapalhar essa medida. Por sorte, os humanos são sensíveis à localização temporal das harmônicas somente quando a frequência fundamental estiver baixa (veja Seção 7). Deste modo, a fase derivada com a frequência pode ser usada como uma medida para determinar efeitos perceptivelmente significativos devido aos movimentos temporais das harmônicas.

[0210] A figura 26 mostra um diagrama de blocos esquemáticos de um processador de áudio (50’) para processar um sinal de áudio (55), em que processador de áudio (50’) compreender um determinador de medida de fase alvo (65’), uma calculadora de erro de fase (200), e um corretor de fase (70’). O determinador de medida de fase alvo (65’) determina medida de fase alvo (85’) para o sinal de áudio 55 no período de tempo (75). A calculadora de erro de fase (200) calcula um erro de fase (105’) utilizando uma fase do sinal de áudio (55) no período de tempo (75) e a medida de fase alvo (85’). O corretor de fase (70’) corrige a fase do sinal de áudio (55) no período de tempo utilizando o erro de fase (105’) formando o sinal de áudio processado (90’).

[0211] A figura 27 mostra um diagrama de blocos esquemáticos do processador de áudio (50’) de acordo com uma aplicação adicional. Portanto, o sinal de áudio (55) compreende uma pluralidade de sub-bandas (95) para o período de tempo (75). Consequentemente, o determinador de medida de fase alvo (65’) é configurado para determinar uma primeira medida de fase alvo (85a’) para um primeiro sinal de sub-banda (95a) e uma segunda medida de fase alvo (85b’) para um segundo sinal de sub-banda (95b). A calculadora de erro de fase (200) forma um vetor de erro de fases (105’), caracterizado por um primeiro elemento do vetor referir-se a um primeiro desvio (105a’) da fase do primeiro sinal de sub-banda (95) e a primeira medida de fase alvo (85a’) e em que um segundo elemento do vetor refere-se a um segundo desvio (105b’) da fase do segundo sinal de sub-banda (95b) e um segundo medidor de fase alvo (85b’). Além disso, o processador de áudio (50’) compreende um sintetizador do sinal de áudio (100) para sintetizar um sinal de áudio corrigido (90’) utilizando um primeiro sinal de sub-banda corrigido (90a’) e um segundo sinal de sub-banda corrigido (90b’).

[0212] Quanto às aplicações adicionais, a pluralidade de sub-bandas (95) é agrupada em uma banda base (30) e um conjunto de correções temporárias de frequência (40), a banda base (30) compreendendo uma sub-banda (95) do sinal de áudio (55) e o conjunto de correções temporárias de frequência (40) compreende, pelo menos, uma sub-banda (95) de uma banda base (30) a uma frequência maior que a frequência de, pelo menos, uma sub-banda em uma banda base. Nota-se que as correções temporárias do sinal de áudio já foram descritas em relação à figura 3 e, portanto, não será descrita em detalhes nesta parte da descrição. Deve-se mencionar que as correções temporárias de frequência (40) podem ser de sinal de banda base crua copiadas às frequências mais altas multiplicadas por um fator de ganho em que a correção de fase pode ser aplicada. Além disso, de acordo com uma aplicação preferida, a multiplicação do ganho e a correção de fase podem ser trocadas de modo que as fases do sinal de banda base crua sejam copiadas às frequências mais altas antes de serem multiplicadas pelo fator de ganho. A aplicação mostra ainda uma calculadora de erro de fase (200) calculando um meio de elementos de um vetor de fases de erros (105’) referindo-se a uma primeira correção temporária (40a) do conjunto de correções temporárias de frequências (40) para obter uma média de erro de fase (105”). Além disso, uma calculadora de derivação de fase de sinal de áudio (210) é mostrada para cálculo de um meio de derivativo de fase sobre frequência (215) para uma banda base (30).

[0213] A figura 28a mostra uma descrição mais detalhada do corretor de fase (70’) em um diagrama de blocos. O corretor de fase (70’) no topo da figura 28a é configurado para corrigir uma fase do sinal de sub-bandas (95) na primeira e subsequente correção temporária de frequências (40) do conjunto de correções temporárias de frequências. Na aplicação da figura 28a está ilustrado que como sub-bandas (95c e 95d) pertence a correção temporária (40a) e sub-bandas (95e e 95f) pertence a correção temporária de frequência (40b). As fases são corrigidas utilizando um erro de fase de média de ponderação, em que a média de erro de fase (105) é ponderada de acordo com um índice da correção temporária de frequência (40) para obter um sinal de correção temporária modificada (40’).

[0214] A aplicação adicional é apresentada na parte inferior da figura 28a. No canto superior esquerdo do corretor de fase (70’) a aplicação já descrita é mostrada para obter o sinal de correção temporária modificada (40’) das correções temporárias (40) e a média de erro de fase (105”). Além disso, o corretor de fase (70’) calcula em uma etapa de inicialização um sinal de correção temporária modificada (40”) adicional com uma primeira correção temporária de frequência otimizada por adicionar o meio dos derivativos de fases sobre a frequência (215), ponderada por um índice de sub-banda atual, para a fase do sinal de sub-banda com um índice de sub-banda maior em uma banda base (30) do sinal de áudio (55). Para esta etapa de inicialização, o interruptor (220a) está na posição esquerda. Para qualquer etapa de processamento posterior, o interruptor estará na outra posição formando uma conexão verticalmente direcionada.

[0215] Em uma aplicação adicional, a calculadora de derivação de fase de sinal de áudio (210) é configurada para calcular de um meio de derivativos de fases com a frequência (215) para uma pluralidade de sinal de sub-bandas compreendendo frequências maiores que o sinal de banda base (30) para detectar transientes no sinal de sub-banda (95). Nota-se que a correção de transientes é similar à correção de fase vertical do processador de áudio (50’) com a diferença que as frequências na banda base (30) não refletem as frequências altas de um transiente. Portanto, essas frequências devem ser levadas em consideração para a correção de fase de um transiente.

[0216] Após a etapa de inicialização, a correção de fase (70’) é configurada para atualização recursiva, com base na correção temporária de frequências (40), no sinal de correção temporária modificada (40”) adicional ao adicionar o meio dos derivativos de fases sobre a frequência (215), ponderado pelo índice de sub-banda da sub-banda atual (95), para a fase do sinal de sub-banda com o índice de sub-banda maior na correção temporária de frequência anterior. A aplicação preferida é uma combinação das aplicações previamente descritas, onde o corretor de fase (70’) calcula um meio ponderado do sinal de correção temporária modificada (40’) e o sinal de correção temporária modificada adicional (40”) para obter uma combinação de sinal de correção temporária modificada (40”’). Portanto, o corretor de fase (70’) atualiza recursivamente, com base na correção temporária de frequências (40), uma combinação de sinal de correção temporária modificada (40”’) ao adicionar o meio dos derivativos de fases com a frequência (215), ponderado pelo índice de sub-banda da subbanda atual (95) para a fase do sinal de sub-banda com o maior índice de sub-banda na correção temporária de frequência anterior aos sinais de correções temporárias modificadas combinadas (40”’). Para obter as correções temporárias modificadas combinadas (40a”’, 40b”’ etc.), o interruptor (220b) é deslocado para a próxima posição após cada recursividade, começando pela modificada combinada (48”’) para a etapa de inicialização, alternando para correção temporária modificada combinada (40b”’) após a primeira recursividade e assim por diante.

[0217] Além disso, o corretor de fase (70’) pode calcular um meio ponderado de um sinal de correção temporária (40’) e o sinal de correção temporária modificada (40”) utilizando um meio circular do sinal de correção temporária (40’) na atual correção temporária de frequência ponderada com uma primeira função de ponderação específica e o sinal de correção temporária modificada (40”) ia atual correção temporária de frequência ponderada com uma segunda função de ponderação específica.

[0218] A fim de fornecer uma Interoperabilidade entre o processador de áudio (50) e o processador de áudio (50’), o corretor de fase (70’) pode formar um vetor de derivativos de fases, em que os derivativos de fases são calculados utilizando um sinal de correção temporária modificada combinada (40”’) e o sinal de áudio (55).

[0219] A figura 28b ilustra as etapas da correção de fase a partir de outro ponto de vista. Para um primeiro período de tempo (75a), o sinal de correção temporária (40’) é derivado ao aplicar o primeiro modo de correção de fase nas correções temporárias do sinal de áudio (55). O sinal de correção temporária (40’) é usado na etapa de inicialização do segundo modo de correção para obter o sinal de correção temporária modificada (40”). A combinação do sinal de correção temporária (40’) e o sinal de correção temporária modificada (40”) resulta em um sinal de correção temporária modificada combinada (40”’).

[0220] O segundo modo de correção é, portanto, aplicado no sinal de correção temporária modificada combinada (40”’) para obter o sinal de correção temporária modificada (40”) para o segundo período de tempo (75b). Adicionalmente, o primeiro modo de correção é aplicado nas correções temporárias do sinal de áudio (55) no segundo período de tempo (75b) para obter o sinal de correção temporária (40’). Mais uma vez, uma combinação do sinal de correção temporária (40’) e o sinal de correção temporária modificada (40”) resulta no sinal de correção temporária modificada combinada (40”’). O esquema de processamento descrito para o segundo período de tempo é aplicado para o terceiro período de tempo (75c) e qualquer período de tempo adicional do sinal de áudio 55 consequentemente.

[0221] A figura 29 mostra um diagrama de blocos detalhado do determinador de medida de fase alvo (65’). De acordo com uma aplicação, o determinador de medida de fase alvo (65’) compreende um extrator de fluxo de dados (130’) para extrair uma posição de pico (230) e a frequência fundamental de posições de pico (235) em um período de tempo atual do sinal de áudio (55) a partir de um fluxo de dados (135). Alternativamente, o determinador de medida de fase alvo (65’) compreende um analisador de sinal de áudio (225) para analisar o sinal de áudio (55) no período de tempo atual para calcular uma posição de pico (230) e a frequência fundamental de posições de pico (235) no período de tempo atual. Adicionalmente, o determinador de medida de fase alvo compreende um gerador de espectro alvo (240) para estimar mais posições de pico no período de tempo atual utilizando a posição de pico (230) e a frequência fundamental de posições de pico (235).

[0222] A figura 30 ilustra um diagrama de blocos detalhado do gerador de espectro alvo (240) descrito em uma figura 29. O gerador de espectro alvo (240) compreende um gerador de pico (245) para gerar a trem de pulsos (265) ao longo do tempo. Um formador de sinal (250) ajusta a frequência do trem de pulsos de acordo com a frequência fundamental de posições de pico (235). Além disso, um posicionador de pulsos (255) ajusta a fase do trem de pulsos (265) de acordo com a posição de pico (230). Em outras palavras, o formador de sinal (250) altera a forma de uma frequência aleatória do trem de pulsos (265) de modo que a frequência do trem de pulsos seja igual à frequência fundamental das posições de pico do sinal de áudio (55). Além disso, o posicionador de pulsos (255) altera a fase do trem de pulsos de modo que um dos picos do trem de pulsos seja igual à posição de pico (230). Depois disso, um analisador de espectro (260) gera um espectro de fase do trem de pulsos ajustado, em que a espectro de fase do sinal de domínio de tempo seja a medida de fase alvo (85’).

[0223] A figura 31 mostra a diagrama de blocos esquemáticos de um decodificador (110’) para decodificação um sinal de áudio (55). O decodificador (110) compreende uma decodificação central (115) configurada para decodificar um sinal de áudio (25) em um período de tempo da banda base, e um corretor (120) para correção temporária de um conjunto de subbandas (95) da banda base decodificada, caracterizado pelo conjunto de sub-bandas formar uma correção temporária, para sub-bandas adicionais no período de tempo, adjacente a uma banda base, para obter um sinal de áudio (32) compreendendo frequências maiores que as frequências em uma banda base. Além disso, o decodificador (110’) compreende um processador de áudio (50’) para correção de fases das sub-bandas da correção temporária de acordo com uma medida de fase alvo.

[0224] De acordo com a aplicação adicional, o corretor (120) é configurado corrigir temporariamente o conjunto de sub-bandas (95) do sinal de áudio (25), caracterizado pelo conjunto de sub-bandas formar uma correção temporária adicional, para mais sub-bandas do período de tempo, adjacente a correção temporária, e em que o processador de áudio (50’) é configurado para correção de fases dentro das sub-bandas de mais correções temporárias. Alternativamente, o corretor (120) é configurado corrigir temporariamente a correção temporária corrigida para mais sub-bandas do período de tempo adjacente a correção temporária.

[0225] A aplicação adicional é relacionada a um decodificador para decodificar um sinal de áudio, compreendendo um transiente, caracterizado pelo processador de áudio (50’) ser configurado para corrigir a fase do transiente. O manuseio do transiente é descrito, em outras palavras, na seção 8.4. Portanto, o decodificador (110) compreende um processador de áudio adicional (50’) para receber um derivativo de fase adicional de uma frequência e corrigir transientes no sinal de áudio (32) utilizando a recebido derivativo de fase ou frequência. Além disso, nota-se que o decodificador (110’) da figura 31 é similar ao decodificador (110) da figura 19, de modo que a descrição sobre os principais elementos é mutualmente permutável naqueles casos não relacionados à diferença nos processadores de áudios (50 e 50’).

[0226] A figura 32 mostra um codificador (155’) para a codificação um sinal de áudio (55). O codificador (155’) compreende um codificador central (160), um analisador de frequência fundamental (175’), um extrator de parâmetro (165) e um formador de sinal de saída (170). O codificador central (160) é configurado para codificação central do sinal de áudio (55) para obter a sinal de áudio central codificado (145) que tem um número reduzido de sub-bandas em relação ao o sinal de áudio (55). O analisador de frequência fundamental (175’) analisa posições de pico (230) no sinal de áudio (55) ou uma versão de filtro passa baixa do sinal de áudio para obter uma estimativa de frequência fundamental de posições de pico (235) no sinal de áudio. Além disso, o extrator de parâmetro (165) extrai parâmetros (190) de sub-bandas do sinal de áudio (55) não incluído no sinal de áudio central codificado (145) e o formador de sinal de saída (170) formar um sinal de saída (135) compreendendo o sinal de áudio central codificado (145), os parâmetros (190), a frequência fundamental de posições de pico (235), e uma das posições de pico (230). De acordo com aplicações, o formador de sinal de saída (170) é configurado para modular o sinal de saída (135) em uma sequência de estruturas, em que cada estrutura compreende o sinal de áudio central codificado (145), os parâmetros (190), e em que somente cada nésima estrutura compreende a estimativa de frequência fundamental de posições de pico (235) e a posição de pico (230), em que n > 2.

[0227] A figura 33 mostra uma aplicação do sinal de áudio (135) compreendendo a sinal de áudio central codificado (145) compreendendo um número reduzido de sub-bandas em relação ao o sinal de áudio original (55), o parâmetro (190) representando sub-bandas do sinal de áudio não incluído no sinal de áudio central codificado, a estimativa de frequência fundamental de posições de pico (235), e uma estimativa de posição de pico (230) do sinal de áudio (55). Alternativamente, o sinal de áudio (135) é formado em uma sequência de estruturas, caracterizado por cada estrutura compreender o sinal de áudio central codificado (145), os parâmetros (190), e em que somente cada nésima estrutura compreende a estimativa de frequência fundamental de posições de pico (235) e a posição de pico (230), em que n > 2. A ideia já foi descrita descrito em relação a figura 22.

[0228] A figura 34 mostra a método (3400) para processar um sinal de áudio com um processador de áudio. O método (3400) compreende uma etapa (3405) “determinar medida de fase alvo para o sinal de áudio em um período de tempo com uma medida de fase alvo”, uma etapa (3410) “calcular um erro de fase com uma calculadora de erro de fase utilizando a fase do sinal de áudio no período de tempo e a medida de fase alvo”, e uma etapa (3415) “corrigir a fase do sinal de áudio no período de tempo com a fase corrigida utilizando o erro de fase”.

[0229] A figura 35 mostra a método (3500) para decodificação um sinal de áudio com um decodificador. O método (3500) compreende uma etapa (3505) “decodificar um sinal de áudio em um período de tempo da banda base com um decodificador central”, uma etapa (3510) “corrigir temporariamente um conjunto de sub-bandas da banda base decodificada com um corretor, caracterizado pelo conjunto de sub-bandas formar a correção temporária, para sub-bandas adicionais no período de tempo, adjacente a banda base, para obter um sinal de áudio, compreendendo frequências maiores que as frequências em uma banda base”, e uma etapa (3515) “corrigir fases com as sub-bandas da primeira correção temporária com um processador de áudio de acordo com uma medida de fase alvo”.

[0230] A figura 36 mostra a método (3600) para codificar um sinal de áudio com um codificador. O método (3600) compreende a etapa (3605) “codificação central do sinal de áudio com um codificador central para obter um sinal de áudio central codificado que tem um número reduzido de sub-bandas em relação ao sinal de áudio”, uma etapa (3610) “analisar o sinal de áudio ou um versão de filtro passa baixa do sinal de áudio com um analisador de frequência fundamental para obter uma estimativa de frequência fundamental de posições de pico no sinal de áudio”, uma etapa (3615) “extrair parâmetros de subbandas do sinal de áudio não incluído no sinal de áudio central codificado com um extrator de parâmetro”, e uma etapa (3620) “formar um sinal de saída com um formador de sinal de saída compreendendo o sinal de áudio central codificado, os parâmetros, a frequência fundamental de posições de pico, e a posição de pico”.

[0231] Em outras palavras, o algoritmo sugerido para a correção dos erros nas posições temporais das funções harmônicas do seguinte modo. Primeiro, a diferença entre o espectro de fase do sinal alvo e o sinal processado-SBR (Ztpha(k,n) e Zpha) é computado

que é apresentada na figura 37. A figura 37 mostra o erro no espectro de fase Dpha(k,n) do sinal de trombone no domínio QMF utilizando cópia direta SBR. Neste ponto, o espectro de fase alvo pode ser assumido como igual aquele do sinal de entrada

[0232] Posteriormente será apresentado como o espectro de fase alvo pode ser obtido com uma taxa de bits baixa.

[0233] A correção do derivativo de fase vertical é realizada utilizando dois métodos, e a o espectro de fase corrigida final é obtido como uma mistura delas.

[0234] Primeiro, pode-se ver que o erro é relativamente constante dentro da correção temporária de frequência, e o erro pula para um novo valor quando introduz uma nova correção temporária de frequência. Isso faz sentido, uma vez que a fase está mudando com um valor constante sobre a frequência em todas as frequências no sinal original. O erro é formado no cruzamento e o erro permanece constante dentro da correção temporária. Deste modo, um valor único é suficiente para a correção de um erro de fase para toda a correção temporária de frequência. Além disso, um erro de fase da maior correção temporária de frequências pode ser corrigido utilizando esse mesmo erro valor de erro depois da multiplicação com o número de índice da correção temporária de frequência.

[0235] Portanto, meio circular de um erro de fase é computado para a primeira correção temporária de frequência

[0236] O espectro de fase pode ser corrigido utilizando isso

[0237] Essa correção crua produz um resultado preciso se o PDF alvo, por exemplo, o derivativo de fase sobre a frequência %Pdf(k,n), for exatamente constante em todas as frequências. No entanto, como pode ser visto na figura 12, frequentemente há uma ligeira flutuação sobre a frequência no valor. Deste modo, melhores resultados podem ser obtidos ao utilizar processamento avançado nos cruzamentos a fim de evitar quaisquer descontinuidades no PDF produzido. Em outras palavras, essa correção produz valores de correção para o PDF na média, mas pode haver ligeiras descontinuidades nas frequências de cruzamento da correção temporária de frequências. A fim de evita-los, a correção método é aplicada. O espectro de fase corrigida final KCyha(k,n,i) é obtido como uma mistura de dois métodos de correção.

[0238] O outro método de correção começa ao informatizar um meio do PDF na banda base

[0239] O espectro de fase pode ser corrigido utilizando essa medida ao presumir que a fase está mudando com esse valor médio, por exemplo,

(24) caracterizado pelo KCyha ser o sinal de correção temporária combinado de dois métodos de correção.

[0240] Essa correção oferece boa qualidade nos cruzamentos, mas pode causar deriva no PDF em direção a maiores frequências. A fim de evitar isso, os dois métodos de correção são combinados ao informatizar um meio circular ponderado deles

onde c denota o método de correção

[0241] O espectro de fase resultante Y^^aÇk,n,í) não sofre nem de descontinuidades ou deriva. O erro comparado ao espectro original e o PDF do espectro de fase corrigida são retratados na figura 38. A figura 38a mostra o erro no espectro de fase D^aÇk,n) do sinal de trombone no domínio QMF utilizando a sinal SBR corrigida de fase, caracterizado pela figura 38b mostrar o derivativo de fase correspondente sobre a frequência Z^Çk, n). Pode-se ver que o erro é significativamente menor que sem a correção, e o PDF não sofre de graves descontinuidades. Há erros significantes em certas estruturas temporais, mas essas estruturas têm baixa energia (vide figura 4), então eles têm efeito perceptual insignificante. As estruturas temporais com energia significante são relativamente bem corrigidas. Pode-se notar os artefatos das SBR não corrigidas são significativamente mitigadas.

[0242] O espectro de fase corrigida Z^aÇk,n) é obtido ao concatenar a correção temporária de frequências corrigida Y^a(k,n,í). Para ser compatível com o modo correção-horizontal, a correção de fase vertical também pode ser apresentada utilizando uma matriz formadora (veja Equação 18)

8.3 ALTERNANDO ENTRE DIFERENTES FASES- MÉTODOS DE CORREÇÃO

[0250] As seções 8.1 e 8.2 mostraram que Erros de fase induzidos por SBR pode ser corrigido ao aplicar correção PDT ao violino e PDF de correção ao trombone. No entanto, não foi considerado como saber qual das correções deve ser aplicada a um sinal desconhecido, ou se qualquer uma delas deve ser aplicada. Essa seção propõe um método para selecionar automaticamente a direção da correção. A direção da correção (horizontal/vertical) é decidida com base na variação dos derivativos de fases do sinal de entrada.

[0251] Portanto, na figura 39, uma calculadora para determinar dados de correção de fase para um sinal de áudio (55) é mostrada. O determinador de variação (275) determina a variação de uma fase (45) do sinal de áudio (55) em um primeiro e um segundo modo de variação. O comparador de variação (280) compara a primeira variação (290a) determinada utilizando o primeiro modo de variação e a segunda variação (290b) determinada utilizando o segundo modo de variação e uma calculadora de dados de correção calcula os dados de correção de fase (295) de acordo com o primeiro modo de variação ou o segundo modo de variação com base em um resultado do comparador.

[0252] Além disso, o determinador de variação (275) pode ser configurado para determinar uma medida de desvio padrão de um derivativo de fase ao longo do tempo (PDT) para uma pluralidade de períodos de tempo do sinal de áudio (55) como a variação (290a) da fase no primeiro modo de variação e para determinar a medida de desvio padrão de um derivativo de fase com a frequência (PDF) for uma pluralidade de sub-bandas do sinal de áudio (55) como a variação (290b) da fase no segundo modo de variação. Portanto, o comparador de variação (280) compara a medida do derivativo de fase ao longo do tempo como a primeira variação (290a) e a medida do derivativo de fase sobre a frequência como uma segunda variação (290b) por períodos de tempo do sinal de áudio.

[0253] Aplicações mostram o determinador de variação (275) para determinar um desvio padrão circular de um derivativo de fase ao longo do tempo de uma corrente e uma pluralidade de prévias estruturas do sinal de áudio (55) como a medida de desvio padrão e para determinar um desvio padrão circular de um derivativo de fase ao longo do tempo de uma corrente e uma pluralidade de estruturas futuras do sinal de áudio (55) por um período de tempo atual como a medida de desvio padrão. Além disso, o determinador de variação (275) calcula, quando determinar a primeira variação (290a), um mínimo de ambos os desvios padrões circulares. Em uma aplicação adicional, o determinador de variação (275) calcula a variação (290a) no primeiro modo de variação como uma combinação de uma medida de desvio padrão para uma pluralidade de sub-bandas (95) em um período de tempo (75) para formar uma medida de desvio padrão média de uma frequência. O comparador de variação (280) é configurado para realizar a combinação das medidas de desvio padrão ao calcular um meio de energia-ponderado das medidas de desvio padrão da pluralidade de sub-bandas utilizando valores de magnitude do sinal de sub-banda (95) no período de tempo atual (75) como uma medida de energia.

[0254] Em uma aplicação preferida, o determinador de variação (275) suaviza a medida de desvio padrão média, quando determinar a primeira variação (290a), sobre a corrente, uma pluralidade de períodos de tempo prévios e futuros. A suavização como ponderada de acordo com uma energia calculada utilizando períodos de tempo correspondentes e uma função de janela. Além disso, o determinador de variação (275) é configurado para suavizar a medida de desvio padrão, quando determinar a segunda variação (290b) sobre a corrente, uma pluralidade prévia, e uma pluralidade futura de períodos de tempo (75), caracterizado pela suavização ser ponderada de acordo com a energia calculada utilizando períodos de tempo correspondentes (75) e a função de janela. Portanto, o comparador de variação (280) compara a medida de desvio padrão médio suavizada como a primeira variação (290a) determinada utilizando o primeiro modo de variação e compara a medida de desvio padrão suavizada como a segunda variação (290b) determinada utilizando o segundo modo de variação.

[0255] A aplicação preferida é apresentada na figura 40. De acordo com essa aplicação, o determinador de variação (275) compreende dois caminhos de processos para calcular a primeira e a segunda variação. Um primeiro processo de correção temporária compreende uma calculadora PDT (300a), para cálculo da medida de desvio padrão do derivativo de fase ao longo do tempo (305a) a partir do sinal de áudio (55) ou da fase do sinal de áudio. Uma calculadora de desvio padrão circular (310a) determina a primeiro desvio padrão circular (315a) e o segundo desvio padrão circular (315b) a partir da medida de desvio padrão de o derivativo de fase ao longo do tempo (305a). O primeiro e o segundo desvio padrão circular (315a e 315b) são comparados por um comparador (320). O comparador (320) calcula o mínimo (325) das duas medidas de desvio padrão circular (315a e 315b). Um combinador combina o mínimo (325) sobre a frequência para formar uma medida de desvio padrão média (335a). Um suavizador (340a) suaviza a medida de desvio padrão média (335a) para formar uma medida de desvio padrão média suave (345a).

[0256] O segundo caminho de processo compreende uma calculadora PDF (300b) para cálculo do derivativo de fase sobre a frequência (305b) a partir do sinal de áudio (55) ou uma fase do sinal de áudio. Uma calculadora de desvio padrão circular (310b) forma uma medida de desvio padrão (335b) do derivativo de fase sobre a frequência (305). A medida de desvio padrão (305) é suavizada por um suavizador (340b) para formar uma medida de desvio padrão suave (345b). A medida de desvio padrão média suavizada (345a) e a medida de desvio padrão suavizada (345b) são a primeira e a segunda variação, respectivamente. O comparador de variação (280) compara a primeira e a segunda variação e a calculadora de dados de correção (285) calcula os dados de correção de fase (295) com base na comparação da primeira e da segunda variação.

[0257] Aplicações adicionais mostram a calculadora (270) manipulando três modos diferentes de correção de fase. Um diagrama de blocos figurativo é mostrado na figura 41. A figura 41 mostra o determinador de variação (275) determinando ainda uma terceira variação (290c) da fase do sinal de áudio (55) em um terceiro modo de variação, caracterizado pelo terceiro modo de variação ser um modo de detecção de transiente. O comparador de variação (280) compara a primeira variação (290a), determinada utilizando o primeiro modo de variação, a segunda variação (290b), determinada utilizando o segundo modo de variação, e a terceira variação (290c), determinada utilizando a terceira variação. Portanto, a calculadora de dados de correção (285) calcula os dados de correção de fase (295) de acordo com o primeiro modo de correção, o segundo modo de correção, ou o terceiro modo de correção, com base em um resultado da comparação. Para calcular a terceira variação (290c) no terceiro modo de variação, o comparador de variação (280) pode ser configurado para calcular uma estimativa de energia instantânea do período de tempo atual e uma estimativa de energia média de tempo de uma pluralidade de períodos de tempo (75). Portanto, o comparador de variação (280) é configurado para calcular a taxa da estimativa de energia instantânea e da estimativa de energia média de tempo e é configurado para comparar a taxa com um limite definido para detectar transientes em um período de tempo (75).

[0258] O comparador de variação (280) tem que determine um modo de correção adequado com base em três variações. Com base nessa decisão, a calculadora de dados de correção (285) calcula os dados de correção de fase (295) de acordo com um terceiro modo de variação se um transiente for detectado. Além disso, a calculadora de dados de correção (85) calcula os dados de correção de fase (295) de acordo com o primeiro modo de variação, se uma ausência de um transiente for detectada, e se a primeira variação (290a), determinada no primeiro modo de variação, for menor ou igual a segunda variação (290b), determinada no segundo modo de variação. Consequentemente, os dados de correção de fase (295) são calculados de acordo com o segundo modo de variação, se uma ausência de um transiente for detectada e se a segunda variação (290b), determinada no segundo modo de variação, for menor que a primeira variação (290a), determinada no primeiro modo de variação.

[0259] A calculadora de dados de correção é mais configurada para calcular os dados de correção de fase (295) para a terceira variação (290c) para uma corrente, um ou mais período(s) de tempo prévio(s) e um ou mais futuro(s). Consequentemente, a calculadora de dados de correção (285) é configurada para calcular e os dados de correção de fase (295) pra o segundo modo de variação (290b) para uma corrente, um ou mais período(s) de tempo prévio(s) ou um ou mais período(s) de tempo futuro(s). Além disso, a calculadora de dados de correção (285) é configurada para calcular os dados de correção (295) para uma correção de fase horizontal e o primeiro modo de variação, calculando dados de correção (295) para uma correção de fase vertical no segundo modo de variação, e calculando dados de correção (295) for uma correção transiente no terceiro modo de variação.

[0260] A figura 42 mostra um método (4200) para determinar dados de correção de fase a partir de um sinal de áudio. O método (4200) compreende uma etapa (4205) “determinar a variação de uma fase do sinal de áudio com um determinador de variação em um primeiro e em um segundo modo de variação”, uma etapa (4210) “comparar a variação determinada utilizando o primeiro e o segundo modo de variação com um comparador de variação”, e uma etapa (4215) “calcular a correção de fase com a calculadora de dados de correção de acordo com o primeiro modo de variação ou o segundo modo de variação com base em um resultado da comparação”.

[0261] Em outras palavras, a PDT do violino é suave ao longo do tempo enquanto o PDF do trombone é suave com a frequência. Consequentemente, o desvio padrão (STD) dessas medidas como uma medida da variação pode ser usada para selecionar o método de correção apropriado. A STD do derivativo de fase ao longo do tempo pode ser computada como

e a STD do derivativo de fase com a frequência como

onde circstd{ } denota informação circular STD (o valor do ângulo poderia ser potencialmente ponderado pela energia a fim de evitar alto desvio STD as posições barulhentas de baixa energia, ou a informatização STD poderia ser restrita a posições com energia suficiente). Os STDs para o violino e o trombone são mostrados nas figuras 43a, 43b e figuras 43c, 43d, respectivamente. As figuras 43a e c mostram o desvio padrão do derivativo de fase ao longo do tempo Xstát(k,n) no domínio QMF, em que as figuras 43b e 43d mostram o desvio padrão correspondente com a frequência Xstdf(n) sem correção de fase. A cor gradiente indica valores do vermelho = 1 ao azul = 0. Pode-se ver que o STD da PDT é menor para o violino enquanto a STD do PDF é menor para o trombone (especialmente para porções de tempo de frequência que tem alta energia).

[0262] O método de correção usado para cada estrutura temporal é selecionado com base em qual dos STDs estiver menor. Para isso, Xstát(k,n) os valores devem ser combinados com a frequência. A fusão é realizada ao informatizar um meio de energia-ponderado para uma faixa de frequência predefinida

[0263] As estimativas de desvio são suavizadas ao longo do tempo a fim de ter uma alteração suave, e, deste modo, evitar possíveis artefatos. A suavização é realizada utilizando uma janela Hann e é ponderado por uma energia da estrutura temporal

onde WG) está a função de janela e Xmag(n) = ?£4=1Xmag(k,n) está a soma de Xmag (k,n) com a frequência. Uma equação correspondente é usada para suavizar Xstdf(n).

[0264] O método de correção de fase é determinado ao comparer

O método padrão é correção PDT (horizontal), e se

o PDF de correção (vertical) é aplicada para o intervalo [n —5,n + 5]. Se ambos os desvios forem grandes, por exemplo, maior que um valor previamente definido, nenhum dos métodos de correção são aplicados, e economia de taxa de bits poderia ser feita. 8.4. MANEJO DE TRANSIENTE - CORREÇÃO DE DERIVATIVO DE FASE PARA TRANSIENTES

[0268] O sinal do violino com uma palma adicionada ao meio é apresentado na figura 44. A magnitude Xmag(k,n) de um violino + sinal de palma no dominio QMF é mostrada na figura 44a, e no espectro de fase correspondente %Pha(k,n) na figura 44b. Com relação à figura 44a, a cor gradiente indica valores de magnitude do vermelho = 0 dB ao azul = -80 dB. Consequentemente, para a figura 44b, a fase gradiente indica valores e fase do vermelho = p ao azul = —p. Os derivativos de fases ao longo do tempo e sobre frequência são apresentados na figura 45. O derivativo de fase ao longo do tempo %Pdt(k,n) do violino + sinal de palma no domínio QMF é mostrado na figura 45a, e o derivativo de fase correspondente sobre frequência Xpàí(k,ri) na figura 45b. A cor gradiente indica valores de fase do vermelho = p ao azul = —p. Pode-se ver que a PDT é barulhenta para a palma, mas o PDF é um pouco suave, pelo menos, em altas frequências. Deste modo, o PDF de correção deve ser aplicada para a palma a fim de manter a agudez dela. No entanto, o método de correção sugerido na Seção 8.2 pode não funcionar adequadamente com esse sinal, porque o som do violino está perturbando os derivativos em baixas frequências. Como resultado, o espectro de fase de uma banda base não reflete as altas frequências, e deste modo a correção de fase da correção temporária de frequências utilizando um valor único pode não funcionar. Além disso, detectar os transientes com base na variação do valor do PDF (veja Seção 8.3) pode ser difícil devido aos valores de PDF barulhentos em baixas frequências.

[0269] A solução para o problema é evidente. Primeiro, os transientes são detectados, utilizando um simples método baseado em energia simples. A energia instantânea de frequências médias/altas é comparada com uma estimativa de energia suavizada. A energia instantânea frequências médias/altas é computada como

[0270] A suavização é realizada utilizando um filtro IIR de primeira ordem

[0271] Se X”aemh(n)/X”a8mh(n)>e, um transiente terá sido detectado. O limite ? pode ser bem-ajustado para detectar a quantidade desejada de transientes. Por exemplo, 0 = 2 pode ser usado. A estrutura detectada não é diretamente selecionada para ser a estrutura de transiente. Ao invés disso, o máximo de energia local é procurado ao seu redor. Na implementação atual o intervalo selecionado é [n —2,n + 7]. A estrutura temporal com o máximo de energia dentro desse intervalo é selecionada para ser o transiente.

[0272] Na teoria, o modo de correção vertical poderia também ser aplicado para transientes. No entanto, no caso de transientes, o espectro de fase de uma banda base frequentemente não reflete as frequências altas. Isso pode conduzir um pré- e um pós-eco no sinal processado. Deste modo, o processamento ligeiramente modificado é sugerido para os transientes.

[0273] A média do PDF do transiente em frequências altas é computada

[0274] O espectro de fase para a estrutura de transiente é sintetizada utilizando essa mudança de fase constante como na equação 24, mas

é substituída por

A mesma correção é aplicada as estruturas temporais dentro do intervalo gn - 2, n + 2i ( é adicionado o PDF das estruturas - 1 e + 1 devido aos as propriedades do QMF, (veja Seção 6). Essa correção já produz um transiente para uma posição adequada, mas o formato do transiente não é necessariamente como desejado, e lóbulos laterais significativos (isto é, transientes adicionais) podem ser presentes devido a sobreposição temporal considerável das estruturas QMF. Consequentemente, O ângulo de fase absoluto tem que ser corrigido também. O angulo absoluto é corrigido ao informatizar o meio erro entre o espectro de fase sintetizado e o original. A correção é realizada separadamente para cada estrutura temporal do transiente.

[0275] O resultado da correção do transiente é apresentado na figura 46. O derivativo de fase ao longo do tempo %Pdt(k,n) do violino + sinal de palma no domínio QMF utilizando a correção de fase da SBR é mostrada. A figura 47b mostra o derivativo de fase sobre frequência correspondente XPàí(k,n). Mais uma vez, a cor gradiente indica valores de fase do vermelho = p ao azul = —p. Pode ser percebido que a palma corrigida de fase tem uma mesma agudez como o sinal original, embora a diferença comparada a cópia direta não é grande. Consequentemente, a correção do transiente não é necessariamente requisitada em todos os casos quando somente a cópia direta estiver habilitada. Pelo contrário, se a correção da PDT estiver habilitada, é importante ter o manuseio do transiente, como a correção da PDT iria de outra forma manchar severamente os transientes. 9. COMPRESSÃO DA CORREÇÃO DE DADOS

[0276] A Seção 8 mostrou que os erros de fase podem ser corrigidos, mas a taxa de bits adequada para a correção não foi considerada. Essa seção sugere métodos como representar aos dados de correção com baixa taxa de bits. 9.1. COMPRESSÃO DOS DADOS DE CORREÇÃO DA PDT — CRIAR O ESPECTRO ALVO PARA A CORREÇÃO HORIZONTAL

[0277] Há muitos parâmetros possíveis que poderiam ser transmitidos para habilitar a correção da PDT. No entanto, uma vez que D^Çk,n) é suavizada ao longo do tempo, é um possível candidato para transmissão de taxa de bits baixa.

[0278] Primeiro, uma taxa de atualização adequada para os parâmetros é discutida. O valor for atualizado somente para cada N estruturas e linearmente interpolada entre elas. O intervalo de atualização para boa qualidade é cerca de 40 ms. Para certos sinais um pouco menos é vantajoso e para outros um pouco mais. Testes de escuta formal seriam úteis para avaliar uma taxa de atualização ideal. Mesmo assim, um intervalo de atualização relativamente longo parece ser aceitável.

[0279] Uma precisão angular adequada para D^Çk,n) também foi estudada. 6 bits (64 valores de ângulos possíveis) é suficiente para qualidade perceptivamente boa. Além disso, transmitir somente a mudança no valor foi testado. Frequentemente os valores parecem mudar somente um pouco, quantização tão desigual pode ser aplicada para ter mais precisão para pequenas mudanças, utilizando essa abordagem, 4 bits (16 valores de ângulos possíveis) foi encontrado para oferecer boa qualidade.

[0280] A última coisa para considerar é uma precisão espectral adequada. Como pode ser visto na figura 17, muitas bandas de frequência parecem compartilhar aproximadamente o mesmo valor. Deste modo, um valor poderia provavelmente ser usado para representar diversas bandas de frequência. Além disso, em altas frequências há múltiplas harmônicas dentro de uma banda de frequência, portanto menos precisão é provavelmente necessária. Mesmo assim, outra, potencialmente melhor, abordagem foi encontrada, assim essas opções não foram cuidadosamente investigadas. A sugerida, mais efetiva, abordagem é discutido na sequência. 9.1.1. USO DE ESTIMATIVA DE FREQUÊNCIA PARA COMPRESSÃO DE DADOS DE CORREÇÃO DA PDT

[0281] Como discutido na Seção 5, o derivativo de fase ao longo do tempo significa basicamente a frequência do sinusoide produzido. As PDTs do aplicado complexo QMF de 64 bandas pode ser transformado em frequências utilizando a seguinte equação

[0282] As frequências produzidas estão dentro do intervalo /inter(^) - [/c(X) “ZBWJCW +/BWL onde fc(k) é a frequência central de uma banda de frequência k e /BW é 375 Hz. O resultado é mostrado na figura 47 em uma representação de frequência de tempo das frequências das bandas QMF Xfreq(k, n) para o sinal de violino. Pode-se ver que as frequências parecem seguir as múltiplas da frequência fundamental do tom, e as harmônicas são, deste modo, espaçadas em frequência por uma frequência fundamental. Além disso, vibrato parecem causar modulação de frequência.

[0283] O mesmo gráfico pode ser aplicado a cópia direta Zíreq(k,rí) e a SBR corrigida Z^q(k,n) (vide figura 48a e a figura 48b, respectivamente). A figura 48a mostra a representação de frequência de tempo das frequências das bandas QMF do sinal SBR da cópia direta Zíreq(k,ri) comparado ao sinal original Xíreq(k,rí), mostrado na figura 47. A figura 48b mostra o gráfico correspondente para o sinal de SBR corrigido Z'^k.n). Nos gráficos da figura 48a e A figura 48b, o sinal original é desenhado em uma cor azul, caracterizado pela cópia direta da SBR, e os sinais SBR corrigidos são desenhados em vermelho. Os níveis não harmônicos da cópia direta do SBR podem ser vistos na figura, especialmente no começo e no final do exemplo. Além disso, pode-se ver que a profundidade da modulação de frequência é claramente menor que do sinal original. Pelo contrário, no caso da SBR corrigida, as frequências das harmônicas parecem seguir as frequências do sinal original. Além disso, a profundidade de modulação aparece para ser conectada. Deste modo, o gráfico parece confirmar a validade do sugerido método de correção. Portanto, é concentrado na compressão atual dos dados de correção a seguir.

[0284] Uma vez que as frequências de Xíreq(k,rí) estão espaçadas pela mesma quantidade, as frequências de todas as bandas de frequência podem ser aproximadas se o espaçamento entre a frequências for estimado e transmitido. No caso dos sinais de harmônica, o espaçamento deve ser igual a frequência fundamental do tom. Deste modo, somente um valor único tem que ser transmitido para representar todas as bandas de frequência. No caso de mais sinais irregulares, mais valores são necessários para descrever o comportamento da harmônica. Por exemplo, o espaçamento dos harmônicos aumenta ligeiramente no caso de um tom de piano [14]. Pela simplicidade, pressupõem- se a seguir que as harmônicas são espaçadas pela mesma quantidade. No entanto, isso não limita a generalidade do processamento de áudio descrito.

[0285] Deste modo, a frequência fundamental do tom é estimada para estimar as frequências das harmônicas. A estimação de frequência fundamental é um tópico estudado amplamente (por exemplo, veja [14]). Portanto, um método de estimação simples foi implementado para gerar dados usados etapas de processamentos adicionais. O método computa basicamente os espaçamentos das harmônicas, e combines o resultado de acordo com algumas heurísticas (quanto de energia, quão estável é o valor com a frequência e tempo etc.). Em qualquer caso, o resultado é uma estimativa de frequência fundamental para cada estrutura temporal Xf°(n). Em outras palavras, o derivativo de fase ao longo do tempo relaciona-se a frequência da posição QMF correspondente. Além disso, os artefatos relacionados aos erros na PDT são perceptíveis, principalmente com sinais de harmônica. Deste modo, é sugerido que o PDT alvo (veja Equação 16a) pode ser estimado utilizando a estimativa de uma frequência fundamental f0. A estimativa de uma frequência fundamental é um tópico estudado amplamente, e há muitos métodos robustos disponíveis para obter estimativas confiáveis de uma frequência fundamental.

[0286] Aqui, a frequência fundamental Xf°(n), como conhecida para o decodificador anterior para realizar BWE e empregando a invenção da correção de fase dentro do BWE é pressuposto. Portanto, é vantajoso que o estágio de codificação transmita a estimada frequência fundamental Xf°(n). Além disso, para eficiência da codificação melhorada, o valor pode ser atualizado somente para, por exemplo, cada 20a estrutura temporal (correspondente a um intervalo de -27 ms), e interpolado em entre elas.

[0287] Alternativamente, a frequência fundamental poderia ser estimada no estágio de decodificação, e nenhuma informação tem que ser transmitida. No entanto, melhores estimativas podem ser esperadas se a estimativa for realizada com o sinal original no estágio de codificação.

[0288] O processo de decodificação começa ao obter uma estimativa de frequência fundamental Xf°(n) para cada estrutura temporal.

[0289] As frequências das harmônicas podem ser obtidas ao multiplicá-las com um vetor de índice

[0290] O resultado é apresentado na figura 49. A figura 49 mostra uma representação de frequência de tempo das estimadas frequências das harmônicas Xharm(_K,n) comparadas as frequências das bandas QMF do sinal original Xfreq(k,n). Mais uma vez, o azul indica o sinal original e o vermelho o sinal estimado. As frequências das estimadas harmônicas correspondem muito bem ao sinal original. Essas frequências podem ser pensadas como frequências “autorizadas”. Se o algoritmo produz essas frequências, os níveis não harmônicos relacionados aos artefatos devem ser evitados.

[0291] O parâmetro transmitido do algoritmo é a frequência fundamental Xf°(n). Para eficiência de codificação melhorada, o valor é atualizado somente a cada 20ésima estrutura temporal (isto é, a cada 27 ms). Esse valor parece fornecer um bom percentual de qualidade com base em escuta informal. No entanto, testes de escuta formal são úteis para avaliar o valor mais ideal para taxa de atualização.

[0292] A próxima etapa do algoritmo é encontrar um valor adequado para cada banda de frequência. Isso é realizado ao selecionar o valor de Xharm(_K,n) que é o mais perto da frequência central de cada banda fc(,k~) para refletir aquela banda. Se o valor mais próximo está fora dos possíveis valores de uma banda de frequência (/interim)) , a fronteira de valor da banda é usada. A matriz resultante X^q(k,n) contém uma frequência para cada porção de frequência de tempo.

[0293] A etapa final do algoritmo de compressão de dados de correção é converter os dados de frequência de volta aos dados da PDT

onde mod() denota o módulo operador. O algoritmo de correção atual funciona como apresentada na Seção Q "1 7^^ frf? P m f? if? f 1 ? A oil u ci t i +¦ 11 -f fl d id fi f ( ]s fy f fi tn fi fi 8.1. th v*t, /tj na equação i6a é subsi—itu _i_ da por zt uj como o PDT alvo, e equações 17-19 são usadas como na Seção 8.1. O resuliado do algoriimo de correção com dados de correção comprimidos é mosirada na figura 50. A figura 50 mosira o erro na PDT D^(k,n) do sinal do violino no domínio QMF da SBR corrigida com dados de correção comprimidos. A figura 50b mosira o derivaiivo de fase ao longo do iempo correspondenie Z^(k,n). As cores gradientes indicam valores do vermelho = p ao azul = —p. Os valores de PDT seguem os valores de PDT do sinal original com similar precisão como o método de correção sem os dados comprimidos (vide figura 18). Deste modo, o algoritmo de compressão é valido. A qualidade percebida com ou sem a compressão da correção de dados é similar.

[0294] As aplicações usam mais precisão para baixas frequências e menos para altas frequências, utilizando o total de 12 bits para cada valor. A taxa de bit resultante é cerca de 0,5 kbps (sem qualquer compressão, tal como codificação de entropia). Essa precisão produz igual qualidade percebida como nenhuma quantização. No entanto, taxa de bit significativamente menor pode provavelmente ser usada em muitos casos produzindo boa qualidade percebida.

[0295] Uma opção para esquemas de taxa de bit baixa é estimar a frequência fundamental na fase de decodificação utilizando o sinal transmitido. Nesse caso nenhum valor tem que ser transmitido. Outra opção é estimar a frequência fundamental utilizando o sinal transmitido, compare isso ao estimado obtido utilizando o sinal de banda larga, e para transmitir somente a diferença. Isso pode ser presumido que essa diferença poderia ser representada utilizando taxa de bits muito baixa. 9.2. COMPRESSÃO DO PDF DOS DADOS DE CORREÇÃO

[0297] Como discutido na Seção 8.2, os dados adequados para o PDF de correção é o erro de fase médio da primeira C<-,rá r - a Fri lonr'1'! 3 r-. phcl z*„ "X -r, 10 TX ri o c; o v' oo r r e (ç ct oo t *e m L oo rd r —L ca ^d >e f r *e ^q iu'._. n n c^ —L ^a V.^ * ^A *o r r *e *ç *o *o ^d *e *e r realizada para todas as correções temporárias de frequências col o conhecilento desse valor, então a translissão de solente ule valor para cada estrutura telporal é requisitada. No entanto, translitir leslo ul valor único para cada estrutura telporal pode render ula taxa de bits luito alta.

[0298] Inspecionando a figura 12 para o trolbone, pode-se ver que o PDF tel ul valor relativalente constante col a frequência, e o leslo valor é apresentado par poucas estruturas telporais. O valor é constante ao longo do telpo, contanto que o leslo transiente esteja dolinando a energia da janela de análise QMF. Quando ul novo transiente coleça a ser dolinante, ul novo valor está presente. A ludança de ângulo entre esses valores de PDF parecel ser a lesla de ul transiente para outro. Isso faz sentido, ula vez que o PDF está controlando o local telporal do transiente, e se o sinal tel ula frequência fundalental constante, o espaçalento entre os transientes deve ser constante.

[0299] Consequentelente, o PDF (ou o local de ul transiente) pode ser translitido solente escassalente no telpo, e o colportalento do PDF entre esses instantes de telpo poderia ser estimado utilizando o conhecimento de uma da frequência fundamental. A correção de PDF pode ser realizada utilizando essa informação. Essa ideia é, na verdade, dual a correção de PDT correção, onde a frequências das harmônicas são pressupostas para serem igualmente espaçadas. Aqui, a mesma ideia é usada, mas, ao invés disso, as localizações temporais dos transientes são pressupostas para serem igualmente espaçadas. Um método é sugerido a seguir que se baseia em detectar as posições de picos na forma de onda, e utilizando essa informação, um espectro de referência é criado para correção de fase. 9.2.1. USO DO PICO DE DETENÇÃO PARA COMPRIMIR DADOS DE CORREÇÃO DE PDF — CRIAR O ESPECTRO ALVO PARA A CORREÇÃO VERTICAL

[0300] As posições dos picos têm que ser estimadas para realizar correções de PDF com sucesso. Uma solução seria computar as posições dos picos utilizando o valor de PDF, similarmente a equação 34, e estimar as posições dos picos dentro utilizando a estimada frequência fundamental. No entanto, essa abordagem requisitaria uma estimativa de frequência fundamental relativamente estável. As aplicações mostram um simples, rápido de implementar, método alternativo, que mostra que a abordagem de compressão sugerida é possível.

[0301] Uma representação de domínio de tempo do sinal de trombone é mostrada na figura 51. A figura 51a mostra a forma da onda do sinal de trombone em uma representação de domínio de tempo. A figura 51b mostra o sinal de domínio de tempo correspondente que contém somente os picos estimados, em que as posições foram obtidas utilizando os metadados transmitidos. O sinal na figura 51b é o trem de pulsos (265) descrito, por exemplo, em relação a figura 30. O algoritmo começa ao analisar as posições dos picos na forma de onda. Isso é realizado ao procurar para máximos locais. Para cada 27 ms (isto é, para cada 20 estruturas QMF), a localização do pico mais perto do ponto central da estrutura é transmitida. Entre as localizações de pico transmitidas, os picos são pressupostos para serem espaçados igualmente em tempo. Deste modo, ao saber a frequência fundamental, as localizações dos picos podem ser estimadas. Nesta aplicação, o número de picos detectados é transmitido (deve ser notado que isso requer detenção de sucesso de todos os picos; frequência fundamental com base em estimativa iria provavelmente render mais resultados robustos). A taxa de bits resultante é cerca de 0.5 kbps (sem qualquer compressão, tal como codificação de entropia), que consiste em transmitir a localização do pico para cada 27 ms utilizando 9 bits e transmitindo o número de transientes dentro utilizando 4 bits. Essa precisão foi achada para produzir igual qualidade percebida como nenhuma quantização. No entanto, uma taxa de bits significativamente menor pode provavelmente ser usada em muitos casos produzindo qualidade suficiente percebida.

[0302] Utilizando os metadados transmitidos, um sinal de domínio de tempo é criado, que consiste em impulsos nas posições dos picos estimados (vide figura 51b). Análise QMF é realizada para esse sinal, e o espectro de fase X^aÇk,n) é computado. A atual correção de PDF é realizada de outra forma como sugerido na Seção 8.2, mas Zt^ha(k, rí) na equação 20a é substituída por X^aÇk,n).

[0303] A forma de onda de sinais que tem fase vertical coerente é tipicamente fraca e remanescente de um trem de pulsos. Deste modo, é sugerido que o espectro de fase alvo para a correção vertical correção pode ser estimada ao modelar como o espectro de fase de um trem de pulsos que tem picos nas posições correspondentes e a frequência fundamental correspondente.

[0304] A position mais perto do centro de uma estrutura temporal é transmitida para, por exemplo, cada 20ésima estrutura temporal (correspondente a um intervalo de -27 ms). A frequência fundamental estimada, que é transmitida com taxa igual rate, é usado para interpolar as posições de pico entre as posições transmitidas.

[0305] Alternativamente, a frequência fundamental e as posições de pico poderiam ser estimadas no estágio de decodificação, e nenhuma informação tem que ser transmitida. No entanto, melhores estimativas podem ser esperadas se a estimativa for realizada com o sinal original no estágio de codificação.

[0306] O processamento de decodificação começa ao obter uma estimativa de frequência fundamental Xf°(n) para cada estrutura temporal e, além disso, as posições de pico na forma de onda são estimadas. As posições de pico são usadas para criar um sinal de domínio de tempo que consiste em impulsos nessas posições. Análise QMF é usada para criar o espectro de fase correspondente X^aÇk,n). Esse estimado espectro de fase pode ser usado na equação 20a como o espectro de fase alvo

[0307] O método sugerido usa o estágio de codificação para transmitir somete as posições de pico estimadas e as frequências fundamentais com a taxa de atualização de, por exemplo, 27 ms. Além disso, deve ser notado que os erros no derivativo de fase vertical são perceptíveis somente quando a frequência fundamental for relativamente baixa. Deste modo, a frequência fundamental pode ser transmitida com a taxa de bits relativamente baixa.

[0308] O resultado do algoritmo de correção com dados de correção comprimidos é mostrado na figura 52. A figura 52a mostra o erro no espectro de fase D^aÇk,n)do sinal de trombone no domínio QMF com SBR corrigido e dados de correção comprimidos. Consequentemente, a figura 52b mostra o derivativo de fase correspondente com a frequência Z^fÇk,n). A cor gradiente indica valores do vermelho = p ao azul = —p. Os valores de PDF seguem os valores de PDF do sinal original com similar precisão como o método de correção sem os dados de compressão (vide figura 13). Deste modo, o algoritmo de compressão é válido. A qualidade percebida com e sem a compressão da correção de dados é similar. 9.3. COMPRESSÃO DOS DADOS DE MANEJO DO TRANSIENTE

[0309] Como transientes podem ser presumidos como relativamente escasso, pode-se pressupor que esses dados poderiam ser diretamente transmitidos. As aplicações mostram a transmissão de seis valores por transiente: um valor pela média de PDF, e cinco valores pelos erros no ângulo de fase absoluto (um valor por cada estrutura temporal dentro do intervalo [n — 2, n + 2]) . Uma alternativa é transmitir a posição do transiente (isto é, um valor) e estimar o espectro de fase alvo Xf^aÇk,n) como no caso da correção vertical.

[0310] Se a taxa de bits necessária precisar ser comprimida para os transientes, abordagem similar poderia ser usada como para a correção de PDF (veja Seção 9.2). Simplesmente a posição do transiente poderia ser transmitida, isto é, um valor único. O espectro de fase alvo e o PDF alvo poderiam ser obtidos utilizando esse valor de localização como na Seção 9.2.

[0311] Alternativamente, a posição do transiente poderia ser estimada no estágio de decodificação e nenhuma informação tem que ser transmitida. No entanto, melhores estimativas podem ser esperadas se a estimativa for realizada com o sinal original no estágio de codificação.

[0312] Toas as aplicações descritas previamente podem ser vistas separadamente de outras aplicações ou em uma combinação de aplicações. Portanto, as figuras 53 a 57 apresentam um codificador e a decodificador combinando algumas das aplicações descritas anteriormente.

[0313] A figura 53 mostra um decodificador 110” para decodificar um sinal de áudio. O decodificador (110”) compreende o primeiro gerador de espectro alvo (65a), o primeiro corretor de fase (70a) e uma calculadora do sinal de áudio de sub-banda (350). O primeiro gerador de espectro alvo (65a), também referido como determinador de medida de fase alvo, gera um espectro alvo (85a”) para um primeiro período de tempo de um sinal de sub-banda do sinal de áudio (32) utilizando dados de correção primários (295a). O primeiro corretor de fase (70a) corrigi a fase (45) do sinal de subbanda no primeiro período de tempo do sinal de áudio (32) determinado com um algoritmo de correção de fase, caracterizado pela correção ser realizada ao reduzir a diferença entre a medida do sinal de sub-banda no primeiro período de tempo do sinal de áudio (32) e o espectro alvo (85”). A calculadora do sinal de áudio de sub-banda (350) calcula o sinal de áudio de sub-banda (355) para o primeiro período de tempo utilizando a fase corrigida (91a) para o período de tempo. Alternativamente, a calculadora do sinal de áudio de sub-banda (350) calcula sinal de áudio de sub-banda (355) por um segundo período de tempo diferente do primeiro período de tempo utilizando a medida do sinal de sub-banda (85a”) no segundo período de tempo ou utilizando um cálculo de fase corrigida de acordo com um algoritmo de correção de fase adicional diferente do algoritmo de correção de fase. A figura 53 mostra ainda um analisador (360) que analisa opcionalmente o sinal de áudio (32) em relação a uma magnitude (47) e uma fase (45). O algoritmo de correção de fase adicional pode ser realizado em um segundo corretor de fase (70b) ou em um terceiro corretor de fase (70c). Esses corretores de fases adicionais serão ilustrados em relação a figura 54. Uma calculadora do sinal de áudio de sub-banda (250) calcula o sinal de áudio de sub-banda para o primeiro período de tempo utilizando a fase corrigida (91) para o primeiro período de tempo e o valor de magnitude (47) do sinal de áudio de sub-banda do primeiro período de tempo, em que o valor de magnitude (47) é uma magnitude do sinal de áudio (32), no primeiro período de tempo ou uma magnitude processada do sinal de áudio (35) no primeiro período de tempo.

[0314] A figura 54 mostra a aplicação adicional do decodificador (110”). Portanto, o decodificador (110”) compreende um segundo gerador de espectro alvo (65b), caracterizado pelo segundo gerador de espectro alvo (65b) gerar um espectro alvo (85b”) para o segundo período de tempo da sub-banda do sinal de áudio (32) utilizando dados de correção secundários (295b). O detector (110”) compreende adicionalmente um segundo corretor de fase (70b) para correção da fase (45) da sub-banda no período de tempo do sinal de áudio (32) determinado com um segundo algoritmo de correção de fase, em que a correção é realizada ao reduzir a diferença entre a medida do período de tempo da sub-banda do sinal de áudio e o espectro alvo (85b”).

[0315] Consequentemente, o decodificador (110”) compreende um terceiro gerador de espectro alvo (65c), caracterizado pelo terceiro gerador de espectro alvo (65c) gerar um espectro alvo para um terceiro período de tempo da sub-banda do sinal de áudio (32) utilizando dados de correção terciários (295c). Além disso, o decodificador (110”) compreende um terceiro corretor de fase (70c) para correção da fase (45) do sinal de sub-banda e o período de tempo do sinal de áudio (32) determinado com um terceiro algoritmo de correção de fase, em que a correção é realizada ao reduzir a diferença entre a medida do período de tempo da sub-banda do sinal de áudio e o espectro alvo (85c). A calculadora do sinal de áudio de sub-banda (350) pode calcular o sinal de áudio de sub-banda para um terceiro período de tempo diferente do primeiro, e o segundo período de tempo utilizando a correção de fase do terceiro corretor de fase.

[0316] De acordo com uma aplicação, o primeiro corretor de fase (70a) é configurado para armazenar um sinal de sub-banda de corretor de fase (91a) de um prévio período de tempo do sinal de áudio ou para receber um sinal de sub-banda corrigido de fase do período de tempo prévio (375) ao sinal de áudio de um segundo corretor de fase (70b) do terceiro corretor de fase (70c). Além disso, o primeiro corretor de fase (70a) corrige a fase (45) do sinal de áudio (32) em um período de tempo atual do sinal de sub-banda de áudio com base no armazenado ou o sinal de sub-banda corrigido de fase do período de tempo prévio (91a, 375).

[0317] Aplicações adicionais mostram o primeiro corretor de fase (70a) realizando uma correção de fase horizontal, o segundo corretor de fase (70b) realizando uma correção de fase vertical, e o terceiro corretor de fase (70c) realizando uma correção de fase para transientes.

[0318] Para outro ponto de vista, a figura 54 mostra um diagrama de blocos do estágio de decodificação no algoritmo de correção de fase. A entrada para processamento é o sinal BWE no domínio de frequência de tempo e os metadados. Mais uma vez, em aplicações práticas, a correção do derivativo de fase inovadora é preferida para couso do banco de filtro ou para transformar um esquema BWE existente. Nos exemplos atuais, isso é um domínio QMF como usado em SBR. O primeiro demultiplexador (não representado) extrai os dados da correção do derivativo de fase correção do fluxo de bits do codec perceptivo equipado BWE que está sendo reforçada pela correção inovadora.

[0319] O segundo demultiplexador (130) (DEMUX) primeiro divide os metadados recebidos (135) em dados de ativação (365) e dados de correção (295a-c) para o diferente modo de correção. Com base nos dados de ativação, a computação do espectro alvo é ativada para o modo correto de correção (outros pode ser ociosos), utilizando o espectro alvo, a correção de fase é realizada para receber o sinal BWE utilizando o modo de correção desejado. Deve ser notado que como a correção horizontal (70a) é realizada recursivamente (em outras palavras: dependendo das prévias estruturas de sinal), ela recebe a as matrizes de correção anteriores também de outros modos de correções (70b, c). Finalmente, o sinal corrigido, ou não processado, está definido para uma saída com base nos dados de ativação.

[0320] Após ter corrigido os dados da fase, a síntese BWE subjacente adicional à jusante é continuada, no caso do exemplo atual de síntese. Variações podem existir onde a correção de fase é exatamente inserida no fluxo de sinal da síntese BWE. De preferência, uma correção do derivativo de fase é feita como um ajuste inicial correções temporárias no espectro cru que tem fases Zpfia(k,ri) e todos os processos BWE adicionais ou etapas de ajuste (em SBR esse pode ser adição barulhenta, filtragem inversa, sinusoides ausentes, etc.) são executados adicionais à jusante em uma fase corrigidas Z^\k,n).

[0321] A figura 55 mostra uma aplicação adicional do decodificador (110”). De acordo com essa aplicação, o decodificador (110”) compreende um decodificador central (115), um corretor (120), sintetizador (100) e p bloco A, que é o decodificador (110”) de acordo com as prévias aplicações mostradas na figura 54. O decodificador central (115) é configurado para decodificar o sinal de áudio (25) em um período de tempo com um número reduzido de sub-bandas em relação ao sinal de áudio (55). O corretor (120) corrige temporariamente um conjunto de sub-bandas do sinal de áudio central decodificado (25) com um número reduzido de sub-bandas, caracterizado pelo conjunto de sub-bandas formar uma primeira correção, para sub-bandas adicionais no período de tempo, adjacente ao número reduzido de sub-bandas, para obter um sinal de áudio (32) com um número regular de sub-bandas. O processador de magnitude (125’) processa valores de magnitude do sinal de áudio de sub-banda (355) no período de tempo. De acordo com os decodificadores prévios (110 e 110’), o processador de magnitude pode ser o aplicador de parâmetro de extensão da largura de banda (125).

[0322] Muitas outras aplicações podem ser pensadas onde o sinal processor de blocos são alterados. Por exemplo, o processador de magnitude (125’) e o bloco A podem ser trocados. Portanto, o bloco A funciona no sinal de áudio (35) reconstruído, onde os valores de magnitude de correções temporárias já foram corrigidos. Alternativamente, uma calculadora do sinal de áudio de sub-banda (350) pode ser localizada após um processador de magnitude (125’) a fim de modular o sinal de áudio corrigido (355) de uma correção de fase e da parte corrigida da magnitude do sinal de áudio.

[0323] Além disso, o decodificador (110”) compreende a sintetizador (100) para sintetizar a fase e o sinal de áudio corrigido da magnitude para obter o sinal de áudio processado combinado de frequência 90. Opcionalmente, uma vez que nem a magnitude ou a correção de fase é aplicada no sinal de áudio central decodificado (25), o referido sinal de áudio pode ser transmitido diretamente ao sintetizador (100). Qualquer bloco de processamento opcional aplicado em um dos decodificadores (110 ou 110’) previamente descritos pode ser aplicado no decodificador (110”) também.

[0324] A figura 56 mostra um codificador (155”) para codificar um sinal de áudio (55). O codificador (155”) compreende um determinador de fase (380) conectado a uma calculadora (270), um codificador central (160), um extrator de parâmetro (165), e um formador de sinal de saída (170). O determinador de fase (380) determina a fase (45) do sinal de áudio (55) caracterizada pela calculadora (270) determinar os dados de correção de fase (295) para o sinal de áudio (55) com base na fase determinada (45) do sinal de áudio (55). O codificador central (160) codifica o centro do sinal de áudio (55) para obter um sinal de áudio central codificado (145) que tem um número reduzido de sub-bandas em relação ao sinal de áudio (55). O extrator de parâmetro (165) extrai parâmetros (190) do sinal de áudio (55) para obter a representação de parâmetro de baixa resolução para um segundo conjunto de subbandas não incluído no sinal de áudio central codificado. O formador de sinal de saída (170) forma o sinal de saída (135) compreendendo os parâmetros (190), o sinal de áudio central codificado (145) e os dados de correção de fase (295’). Opcionalmente, o codificador (155”) compreende um filtro passa baixa (180) anterior a codificação central do sinal de áudio (55) e um filtro passa-alta (185) anterior a extração dos parâmetros (190) do sinal de áudio (55). Alternativamente, ao invés dos filtros de passa baixa e passa alta, o sinal de áudio (55), um algoritmo de preenchimento de espaço pode ser usado, em que o codificador central (160) core codifica um número reduzido de sub-bandas, em que, pelo menos, uma sub-banda dentro do conjunto de sub-bandas não é codificado no centro. Além disso, o extrator de parâmetro extrai parâmetros (190) de, pelo menos, uma sub-banda não codificada o codificador central (160).

[0325] De acordo com aplicações, a calculadora (270) compreende um conjunto de calculadora de dados de correções (285a-c) para correção da correção de fase de acordo com um primeiro modo de variação, um segundo modo de variação, ou um terceiro modo de variação. Além disso, a calculadora (270) determina dados de ativação (365) para ativar uma calculadora de dados de correção do conjunto de calculadora de dados de correções (285a-c). O formador de sinal de saída (170) forma o sinal de saída compreendendo os dados de ativação, os parâmetros, o sinal de áudio central codificado, e os dados de correção de fase.

[0326] A figura 57 mostra uma implementação alternativa da calculadora (270) que pode ser usada no codificador (155”) mostrado na figura 56. A calculadora de modo de correção (385) compreende o determinador de variação (275) e o comparador de variação (280). Os dados de ativação (365) são o resultado da comparação de diferentes variações. Além disso, os dados de ativação (365) ativa uma das calculadoras de dados de correção (185a-c) de acordo com a determinada variação. Os dados de correção calculados (295a), (295b, ou 295c) podem ser a entrada da saída do formador de sinal (170) do codificador (155”) e, portanto, parte do sinal de saída (135).

[0327] As aplicações mostram a calculadora (270) compreendendo um formador de metadados (390), que forma um metafluxo de dados (295’) compreendendo os dados de correção calculados (295a, 295b, ou 295c) e os dados de ativação (365). Os dados de ativação (365) podem ser transmitidos para o decodificador se os próprios dados de correção não compreenderem informação suficientes do modo de correção atual. Informação suficiente pode ser, por exemplo, um número de bits usados para representar os dados de correção, que é diferente para os dados de correção (295a), os dados de correção (295b), e os dados de correção (295c). Além disso, o formador de sinal de saída (170) pode adicionalmente usar os dados de ativação (365), de modo que o formador de metadados (390) possa ser de ser negligenciado.

[0328] A partir de outro ponto de vista, o diagrama de blocos da figura 57 mostra o estágio codificado no algoritmo de correção de fase. A entrada para o processamento é o sinal de áudio original (55) e o domínio de frequência de tempo. Em aplicações reais, a inovadora correção do derivativo de fase é preferida para couso do banco de filtro ou transformar um esquema BWE existente. No exemplo atual, esse é um domínio QMF usado em SBR.

[0329] O bloco de computação do modo de correção primeiro computa o modo de correção que é aplicado para cada estrutura temporal. Com base nos dados de ativação (365), dados de correção (295a-c) computação é ativado no moo correto de correção (outros podem ser ociosos). Finalmente, multiplexador (MUX) combina os dados de ativação e os dados de correção de diferentes modos de correção.

[0330] Um multiplexador adicional (não representado) funde dados de correção de dados derivativo de fase no fluxo de bits do BWE e o codificador perceptivo que está sendo reforçado pela inovação da correção.

[0331] A figura 58 mostra a método (5800) para decodificar um sinal de áudio. O método (5800) compreende uma etapa (5805) “gerar um espectro alvo para um primeiro período de tempo de um sinal de sub-banda do sinal de áudio com um primeiro gerador de espectro alvo utilizando dados de correção primários”, uma etapa (5810) “corrigir uma fase do sinal de sub-banda no primeiro período de tempo do sinal de áudio com um primeiro corretor de fase determinado com um algoritmo de correção de fase, caracterizado pela correção ser realizada ao reduzir uma diferença entre a medida do sinal de sub-banda no primeiro período de tempo do sinal de áudio e o espectro alvo, e uma etapa (5815) “calcular o sinal de áudio de sub-banda para o primeiro período de tempo com uma calculadora do sinal de áudio de sub-banda utilizando a fase corrigida do período de tempo e para cálculo de sinais de áudio de sub-banda para um segundo período de tempo diferente do primeiro período de tempo utilizando a medida do sinal de sub-banda no segundo período de tempo ou utilizando um cálculo de fase corrigida de acordo com um algoritmo de correção de fase adicional diferente do algoritmo de correção de fase”.

[0332] A figura 59 mostra um método (5900) para codificar um sinal de áudio. O método (5900) compreende uma etapa (5905) “determinar uma fase do sinal de áudio com um determinador de fase”, uma etapa (5910) “determinar dados de correção de fase para um sinal de áudio com uma calculadora com base na fase determinada do sinal de áudio”, uma etapa (5915) “codificar o centro do sinal de áudio com um codificador central para obter um sinal de áudio central codificado que tem um número reduzido de sub-bandas em relação ao sinal de áudio”, uma etapa (5920) “extraindo parâmetros do sinal de áudio com um extrator de parâmetro para obter uma representação de parâmetro de baixa resolução para o segundo conjunto de sub-bandas não incluído no sinal de áudio central codificado”, e uma etapa (5925) “formar um sinal de saída com um formador de sinal de saída compreendendo os parâmetros, o sinal de áudio central codificado, e os dados de correção de fase”.

[0333] Os métodos (5800 e 5900) assim como os métodos descritos previamente (2300, 2400, 2500, 3400, 3500, 3600 e 4200), podem ser implementados em um programa de computador a ser realizado em um computador.

[0334] Deve-se notar que o sinal de áudio (55) é usado como um termo geral para um sinal de áudio, especialmente para o original, isto é, um sinal de áudio processado, da parte transmitida do sinal de áudio Xtrans(k,rí) 25, um sinal de banda base Xbase(k,rí) 30, o sinal de áudio processado compreendendo frequências maiores (32) quando comparado ao sinal de áudio original, o sinal de áudio reconstruído (35), a correção temporária de frequência corrigida da magnitude Y(k,n,i) 40, a fase (45) do sinal de áudio, ou a magnitude (47) do sinal de áudio. Portanto, o sinal diferente de áudios pode ser mutualmente trocado devido ao contexto da aplicação.

[0335] Aplicações alternativas referem-se a bancos de filtro diferentes ou domínios de transformada utilizados para o processamento de tempo-frequência inventivo, por exemplo, um domínio da Transformação de Fourier de Curta Duração (STFT | Short-Term Fourier Transform) , Transformada de Cosseno Discreta Modificada Complexa (CMDCT | Complex Modified Discrete Cosine Transform) ou Transformada de Fourier Discreta (DFT | Discrete Fourier Transform). Portanto, propriedades de fases específicas relacionadas a transformação podem ser levadas em consideração. Em detalhes, se, por exemplo, os coeficientes de cópia forem copiados de um número par para um número ímpar ou vice-versa, isto é a segunda sub-banda do sinal de áudio original é copiado para a nona sub-banda ao invés da oitava sub-banda como descrito nas aplicações, o complexo conjugado da correção temporária pode ser usado para o processamento. O mesmo se aplica ao espelhamento das correções temporárias ao invés de utilizar, por exemplo, o algoritmo de cópia, para superar a ordem inversa do ângulo de fases dentro de uma correção temporária.

[0336] Outras aplicações podem renunciar às informações do codificador e estimar alguns ou todos os parâmetros de correção necessários no site do decodificador. Aplicações adicionais podem ter outros BWE subjacentes de esquemas de correção temporária que, por exemplo, use diferente partes da banda base, um número diferente ou tamanho de correções temporárias ou diferentes técnicas de transposição, por exemplo, espelhamento espectral ou modulação de banda lateral única (SSB | Single Side Band Modulation). Variações também podem existir onde a correção de fase está exatamente concertada no fluxo de sinal de síntese de BWE. Além disso, a suavização é realizada utilizando uma janela deslizante Hann, que pode ser substituída para melhor eficiência computacional por, por exemplo, uma primeira ordem IIR.

[0337] O uso do estado da arte de codecs de áudio perceptivos frequentemente prejudica a coerência da fase dos componentes espectrais de um sinal de áudio, especialmente a taxas de bits baixas, onde as técnicas de codificação paramétrica como extensão de largura de banda são aplicadas. Isso conduz a uma alteração do derivativo de fase do sinal de áudio. No entanto, em certos tipos de sinais a preservação do derivativo de fase é importante. Como resultado, a qualidade perceptiva de tais sons é prejudicada. A presente invenção reajusta o derivativo de fase com uma frequência (“vertical”) ou ao longo do tempo (“horizontal”) de tais sinais se uma restauração do derivativo de fase for perceptivamente beneficial. Adicionalmente, uma decisão é tomada se o ajuste da vertical ou horizontal derivação de fase é perceptivamente preferível. A transmissão de informação de somente um lado compacto é necessário para controlar o processamento de correção de derivação de fase. Assim, a invenção melhora a qualidade de som dos codificadores de áudio perceptivos a custos de informação secundários moderados.

[0338] Em outras palavras, a replicação de banda espectral (SBR | Spectral Band Replication) pode causar cause erros no espectro de fase. A percepção humana desses erros foi estudada revelando dois efeitos perceptivelmente significativos: diferenças nas frequências e nas posições temporais das harmônicas. A frequência dos erros parece ser perceptível somente quando uma frequência fundamental é alta o suficiente que há somente uma harmônica dentro de uma banda ERB. Correspondentemente, os erros de posição temporal aparecem para ser perceptíveis somente se a frequência fundamental estiver baixa e se a fases das harmônicas estiverem alinhadas com a frequência.

[0339] A frequência de erros pode ser detectada para informatizar o derivativo de fase ao longo do tempo (PDT). Se os valores de PDT são estáveis ao longo do tempo, diferenças neles entre o SBR-processado e os sinais originais devem ser corrigidos. Isso corrige efetivamente as frequências das harmônicas, e, deste modo, a percepção da inarmonia é evitada.

[0340] Os erros de posição temporal podem ser detectados ao informatizar os derivativos de fase com a frequência (PDF). Se os valores de PDF valores são estáveis com a frequência, diferenças nelas entre o SBR-processado e os sinais originais devem ser corrigidos. Isso corrige efetivamente as posições temporais das harmônicas, e, deste modo, a percepção de barulhos formadores no cruzamento das frequências é evitada.

[0341] Embora a presente invenção tenha sido descrita no contexto de diagramas em blocos, em que os blocos representam componentes de hardware reais ou lógicos, a presente invenção também pode ser implementada por um método implementado por computador. Neste último caso, os blocos representam etapas do método correspondentes onde estas etapas representam as funcionalidades executadas pelos blocos de hardware lógico ou físico correspondentes.

[0342] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é evidente que estes aspectos também representam uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa do método ou característica de uma etapa do método. De forma análoga, aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item ou característica correspondente de um aparelho correspondente. Algumas ou todas as etapas do método podem ser executadas por (ou utilizando) um aparelho de hardware, tal como, por exemplo, um microprocessador, um computador programável ou um circuito eletrônico. Em algumas aplicações, uma ou mais da(s) etapa(s) mais importante(s) do método pode(m) ser executada(s) pelo referido aparelho.

[0343] O sinal codificado ou transmitido inventivo pode ser armazenado em um meio de armazenamento digital ou pode ser transmitido por um meio de transmissão, tal como um meio de transmissão sem frio ou um meio de transmissão cabeado, tal como a internet.

[0344] Dependendo de certas exigências de implementação, as aplicações da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando um meio de armazenamento digital, por exemplo, um disquete, um DVD, um Blu-Ray, um CD, uma memória ROM, uma PROM, uma EPROM, uma EEPROM ou a memória flash, tendo sinais de controle eletronicamente legíveis armazenados nele, que cooperam (ou podem cooperar) com um sistema de computador programável, de modo que o respectivo método seja realizado. Assim, o meio de armazenamento digital pode ser legível por computador.

[0345] Algumas aplicações de acordo com a invenção compreendem um transportador de dados, tendo sinais de controle eletronicamente legíveis, que podem cooperar com um sistema de computador programável, de modo que um dos métodos descritos aqui seja realizado.

[0346] Geralmente, as aplicações da presente invenção podem ser implementadas como um produto do programa de computador com um código de programa, o código de programa sendo operativo para realizar um dos métodos quando o produto do programa de computador é executado em um computador. O código de programa pode, por exemplo, ser armazenado em um transportador legível por máquina.

[0347] Outras aplicações compreendem o programa de computador para realizar um dos métodos descritos aqui, armazenado em um transportador legível por máquina.

[0348] Em outras palavras, uma aplicação do método inventivo é, portanto, um programa de computador tendo um código de programa para realizar um dos métodos descritos aqui, quando o programa de computador for executado em um computador.

[0349] Outra aplicação do método inventivos é, portanto, um transportador de dados (ou um meio de armazenamento não transitório, tal como um meio de armazenamento digital ou um meio legível por computador) compreendendo, gravado nele, o programa de computador para realizar um dos métodos descritos aqui. O transportador de dados, o meio de armazenamento digital ou o meio gravado são tipicamente tangíveis e/ou não transitórios.

[0350] Outra aplicação do método inventivo é, portanto, um fluxo de dados ou uma sequência de sinais representando o programa de computador para realizar um dos métodos descritos aqui. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido através de uma conexão de comunicação de dados, por exemplo, através da Internet.

[0351] Outra aplicação compreende um meio de processamento, por exemplo, um computador ou um dispositivo de lógica programável, configurado para ou adaptado para realizar um dos métodos descritos aqui.

[0352] Outra aplicação compreende um computador, tendo instalado nele o programa de computador para realizar um dos métodos descrito aqui.

[0353] Outra aplicação, de acordo com a invenção, compreende um aparelho ou um sistema configurado para transferir (por exemplo, eletrônica ou opticamente) um programa de computador para realizar um dos métodos descritos aqui a um receptor. O receptor pode, por exemplo, ser um computador, um dispositivo móvel, um dispositivo de memória ou semelhante. O aparelho ou sistema pode, por exemplo, compreender um servidor de arquivo para transferir o programa de computador ao receptor.

[0354] Em algumas aplicações, um dispositivo de lógica programável (por exemplo, um arranjo de portas programáveis de campo) pode ser utilizado para realizar algumas ou todas as funcionalidades dos métodos descritos aqui. Em algumas aplicações, um arranjo de portas programáveis de campo pode cooperar com um microprocessador, a fim de realizar um dos métodos descritos aqui. Geralmente, os métodos são preferivelmente realizados por qualquer aparelho de hardware.

[0355] As aplicações descritas acima são meramente ilustrativas para os princípios da presente invenção. Entende- se que modificações e variações das disposições e os detalhes descritos serão evidentes a outros especialistas na técnica. É intenção, portanto, ser limitada apenas pelo escopo das reivindicações de patente iminentes e não pelos detalhes específicos apresentados em forma de descrição e explicação das aplicações neste documento. REFERÊNCIAS

[0356] [1] Painter, T.: Spanias, A. Perceptual coding of digital audio, Proceedings of the IEEE, 88(4), 2000; pp. 451-513.

[0357] [2] Larsen, E.; Aarts, R. Audio Bandwidth Extension: Application of psychoacoustics, signal processing and loudspeaker design, John Wiley and Sons Ltd, 2004, Chapters 5, 6.

[0358] [3] Dietz, M.; Liljeryd, L.; Kjorling, K.; Kunz, 0. Spectral Band Replication, a Novel Approach in Audio Coding, 112th AES Convention, April 2002, Preprint 5553.

[0359] [4] Nagel, F.; Disch, S.; Rettelbach, N. A Phase Vocoder Driven Bandwidth Extension Method with Novel Transient Handling for Audio Codecs, 126th AES Convention, 2009.

[0360] [5] D. Griesinger 'The Relationship between Audience Engagement and the ability to Perceive Pitch, Timbre, Azimuth and Envelopment of Multiple Sources' Tonmeister Tagung 2010.

[0361] [6] D. Dorran and R. Lawlor, “Time-scale modification of music using a synchronized subband/time domain approach,” IEEE International Conference on Acoustics, Speech and Signal Processing, pp. IV 225 - IV 228, Montreal, May 2004.

[0362] [7] J. Laroche, “Frequency-domain techniques for high quality voice modification,” Proceedings of the International Conference on Digital Audio Effects, pp. 328322, 2003.

[0363] [8] Laroche, J.; Dolson, M.; , “Phase-vocoder: about this phasiness business,” Applications of Signal Processing to Audio and Acoustics, 1997. 1997 IEEE ASSP Workshop on, vol., no., pp.4 pp., 19-22, Oct 1997

[0364] [9] M. Dietz, L. Liljeryd, K. Kjorling, and O. Kunz, “Spectral band replication, a novel approach in audio coding,” in AES 112th Convention, (Munich, Germany), May 2002.

[0365] [10] P. Ekstrand, “Bandwidth extension of audio signals by spectral band replication,” in IEEE Benelux Workshop on Model based Processing and Coding of Audio, (Leuven, Belgium), November 2002.

[0366] [11] B. C. J. Moore and B. R. Glasberg, “Suggested formulae for calculating auditory-filter bandwidths and excitation patterns,” J. Acoust. Soc. Am., vol. 74, pp. 750-753, September 1983.

[0367] [12] T. M. Shackleton and R. P. Carlyon, “The role of resolved and unresolved harmonics in pitch perception and frequency modulation discrimination,” J. Acoust. Soc. Am., vol. 95, pp. 3529-3540, June 1994.

[0368] [13] M.-V. Laitinen, S. Disch, and V. Pulkki, “Sensitivity of human hearing to changes in phase spectrum,” J. Audio Eng. Soc., vol. 61, pp. 860{877, November 2013.

[0369] [14] A. Klapuri, “Multiple fundamental frequency estimation based on harmonicity and spectral smoothness,” IEEE Transactions on Speech and Audio Processing, vol. 11, November 2003.

Claims

1. Um processador de áudio (50) para processamento de um sinal de áudio (55), caracterizado por compreender: uma calculadora de medição de fase do sinal de áudio (60) configurada para calcular uma medição de fase (80) de um sinal de áudio por um período de tempo (75a); um determinador de medição de fase alvo (65) para determinação de uma medição de fase alvo (85) para o referido período de tempo (75a); um corretor de fase (70) configurado para correção de fases (45) do sinal de áudio (55) para o período de tempo (75a), utilizando a medição de fase calculada (80) e a medição de fase alvo (85) para obter um sinal de áudio processado (90).

2. O processador de áudio (50) de acordo com a reivindicação 1, caracterizado pelo sinal de áudio (55) compreender uma pluralidade de sinais de sub-banda (95a,b) para o período de tempo (75a); em que o determinador de medição de fase alvo é configurado para determinação de uma primeira medição de fase alvo (85a) para um primeiro sinal de subbanda (95a) e uma segunda medição de fase alvo (85b) para um segundo sinal de sub-banda (95b); em que a calculadora de medição de fase do sinal de áudio (60) é configurada para determinação de uma primeira medição de fase (80a) para o primeiro sinal de sub-banda (95a) e uma segunda medição de fase (80b) para o segundo sinal de sub-banda (95b); em que o corretor de fase (70) é configurado para correção de uma primeira fase (45a) do primeiro sinal de sub-banda (95a), utilizando a primeira medição de fase (80a) do sinal de áudio (55) e a primeira medição de fase alvo (85) para obter um primeiro sinal de sub-banda processado (90a) e para corrigir uma segunda fase (45b) do segundo sinal de sub-banda (95b), utilizando a segunda medição de fase (80b) do sinal de áudio (55) e a segunda medição de fase alvo (85b) para obter um segundo sinal de sub-banda processado (90b); e um sintetizador do sinal de áudio (100) para sintetização do sinal de áudio processado (90) utilizando o primeiro sinal de sub-banda processado (90a) e o segundo sinal de sub-banda processado (90b).

3. O processador de áudio (50) de acordo com uma das reivindicações 1 ou 2, caracterizado pela medição de fase (80) ser um derivativo de fase ao longo do tempo; em que a calculadora de medição de fase do sinal de áudio (60) é configurada para cálculo, para cada sub-banda (95) de uma pluralidade de sub-bandas, do derivativo de fase de um valor de fase de um período de tempo atual (75b) e um valor de fase de um período de tempo futuro (75c); em que o corretor de fase (70) é configurado para cálculo, para cada sub-banda (95) da pluralidade de sub-bandas do período de tempo atual (75b), de um desvio (105) entre o derivativo de fase alvo (85) e o derivativo de fase ao longo do tempo (80); em que uma correção realizada pelo corretor de fase (70) é realizada utilizando o desvio.

4. O processador de áudio (50) de acordo com uma das reivindicações de 1 a 3, caracterizado pelo corretor de fase (70) ser configurado para correção dos sinais de sub-banda (95) de diferentes sub-bandas do sinal de áudio (55) dentro do período de tempo (75), de modo que as frequências dos sinais de sub-banda corrigidos (90a,b) tenham valores de frequência sendo harmonicamente alocados a uma frequência fundamental do sinal de áudio (55).

5. O processador de áudio (50) de acordo com uma das reivindicações de 1 a 4, caracterizado pelo corretor de fase (70) ser configurado para suavização do desvio (105) para cada sub-banda (95) da pluralidade de sub-bandas por um período de tempo anterior (75a), atual (75b) e futuro (75c) e ser configurado para redução de rápidas mudanças do desvio (105) dentro de uma sub-banda (95).

6. O processador de áudio (50) de acordo com a reivindicação 5, caracterizado pela suavização ser uma média ponderada; em que o corretor de fase (70) é configurado para cálculo da média ponderada pelo período de tempo anterior (75a), atual (75b) e futuro (75c), ponderada por uma magnitude (47) do sinal de áudio (55) no período de tempo anterior (75a), atual (75b) e futuro (75c).

7. O processador de áudio (50) de acordo com uma das reivindicações de 1 a 6, caracterizado pelo corretor de fase (70) ser configurado para formação de um vetor de desvios (105), em que um primeiro elemento do vetor se refere a um primeiro desvio (105a) para a primeira sub-banda (95a) da pluralidade de sub-bandas e um segundo elemento do vetor se refere a um segundo desvio (105b) para a segunda sub-banda (95b) da pluralidade de sub-bandas a partir de um período de tempo anterior (75a) até um período de tempo atual (75b); em que o corretor de fase (70) é configurado para aplicar o vetor de desvios (105) às fases (45) do sinal de áudio, em que o primeiro elemento do vetor é aplicado em uma fase (45a) do sinal de áudio (55) em uma primeira sub-banda (95a) de uma pluralidade de sub-bandas do sinal de áudio (55) e o segundo elemento do vetor é aplicado em uma fase (45b) do sinal de áudio (55) em uma segunda sub-banda (95b) da pluralidade de sub-bandas do sinal de áudio (55).

8. O processador de áudio (50) de acordo com uma das reivindicações de 1 a 7, caracterizado pelo determinador de medição de fase alvo (65) ser configurado para obter uma estimativa de frequência fundamental (85) para um período de tempo (75); em que o determinador de medição de fase alvo (65) é configurado para cálculo de uma estimativa de frequência (85) para cada sub-banda (95) da pluralidade de sub-bandas do período de tempo (75), utilizando a frequência fundamental para o período de tempo (75).

9. O processador de áudio (50) de acordo com a reivindicação 8, caracterizado pelo determinador de medição de fase alvo (65) ser configurado para conversão da estimativa de frequências (85) para cada sub-banda (95) da pluralidade de sub-bandas em um derivativo de fase ao longo do tempo (85) utilizando um número total de sub-bandas (95) e uma frequência de amostragem do sinal de áudio (55).

10. O processador de áudio (50) de acordo com a reivindicação 8 ou 9, caracterizado pelo determinador de medição de fase alvo (65) ser configurado para formação de um vetor de estimativa de frequências (85) para cada sub-banda (95) da pluralidade de sub-bandas, em que o primeiro elemento do vetor se refere a uma estimativa de frequência (85a) para uma primeira sub-banda (95a) e um segundo elemento do vetor se refere a uma estimativa de frequência (85b) para uma segunda sub-banda (95b); em que o determinador de medição de fase alvo (65) é configurado para cálculo da estimativa de frequência (85) utilizando múltiplos da frequência fundamental, em que a estimativa de frequência (85) da sub banda atual (95) é este múltiplo da frequência fundamental que está mais próximo ao centro da sub-banda (95), ou em que a estimativa de frequência (85) da sub-banda atual (95) é uma frequência limite da sub-banda atual (95) se nenhum dos múltiplos da frequência fundamental estiverem dentro da sub-banda atual (95).

11. Um decodificador (110) para decodificação de um sinal de áudio (55), o decodificador (110) caracterizado por compreender: um processador de áudio (50), de acordo com uma das reivindicações de 1 a 10; um decodificador central (115) configurado para decodificação central de um sinal de áudio (25) em um período de tempo (75) com um número reduzido de sub-bandas em relação ao sinal de áudio (55); um corretor temporário (120) configurado para correção temporária de um conjunto de sub-bandas (95) do sinal de áudio decodificado central (25) com o número reduzido de sub-bandas, em que o conjunto de sub-bandas forma uma primeira correção temporária (30a), para subbandas adicionais no período de tempo (75), adjacente ao número reduzido de sub-bandas, para obter um sinal de áudio (55) com um número regular de sub-bandas; em que o processador de áudio (50) é configurado para correção das fases (45) dentro das subbandas da primeira correção temporária (30a) de acordo com uma função alvo (85).

12. O decodificador (110) de acordo com a reivindicação 11, caracterizado pelo corretor temporário (120) ser configurado para correção temporária do conjunto de sub-bandas (95) do sinal de áudio (25), em que o conjunto de sub-bandas forma uma segunda correção temporária, para sub-bandas adicionais do período de tempo (75), adjacente à primeira correção temporária; e em que o processador de áudio (50) é configurado para correção das fases (45) dentro das subbandas (95) da segunda correção temporária; ou em que o corretor temporário (120) é configurado para correção temporária da primeira correção temporária corrigida para sub-bandas adicionais do período de tempo, adjacente à primeira correção temporária.

13. O decodificador (110) de acordo com a reivindicação 11 ou 12, o decodificador caracterizado por compreender: um extrator de fluxo de dados (130) configurado para extração de uma frequência fundamental (140) do período de tempo atual (75) do sinal de áudio (55) de um fluxo de dados (135), em que o fluxo de dados compreende, ainda, o sinal de áudio codificado (145) com o número reduzido de sub-bandas; ou um analisador de frequência fundamental (150) configurado para análise do sinal de áudio decodificado central (25) a fim de calcular uma frequência fundamental (140).

14. Codificador (155) para codificação de um sinal de áudio (55), o codificador (155) caracterizado por compreender: um codificador central (160) configurado para codificação central do sinal de áudio (55) para obter um sinal de áudio codificado central (145), tendo um número reduzido de sub-bandas em relação ao sinal de áudio (55); um analisador de frequência fundamental (175) para análise do sinal de áudio (55) ou uma versão do filtro passa baixa do sinal de áudio para obtenção de uma estimativa de frequência fundamental (140) do sinal de áudio (155); um extrator de parâmetro (165) configurado para extração de parâmetros de sub-bandas do sinal de áudio (55) não incluídos no sinal de áudio codificado central (145); um formador do sinal de saída (170) configurado para formação de um sinal de saída (135), compreendendo o sinal de áudio codificado central (145), os parâmetros (190) e a estimativa de frequência fundamental (140).

15. Codificador (155) de acordo com a reivindicação 14, caracterizado pelo formador do sinal de saída (170) ser configurado para formar o sinal de saída (135) em uma sequência de estruturas, em que cada estrutura compreende o sinal de áudio codificado central (145), os parâmetros (190), e em que apenas cada Nésima estrutura compreende a estimativa de frequência fundamental (140), em que N é maior ou igual a 2.

16. Método (2300) para processamento de um sinal de áudio (55), o método caracterizado por compreender as seguintes etapas: cálculo de uma medição de fase de um sinal de áudio (55) para um período de tempo com uma calculadora de medição de fase do sinal de áudio (60); determinação de uma medição de fase alvo para o referido período de tempo com um determinador de medição de fase alvo (65); correção das fases do sinal de áudio (55) para o período de tempo com um corretor de fase (70) que utiliza a medição de fase calculada e a medição de fase alvo para obter um sinal de áudio processado (90).

17. Método (2400) para decodificação de um sinal de áudio (55), o método caracterizado por compreender as seguintes etapas: decodificação de um sinal de áudio (25) em um período de tempo com um número reduzido de sub-bandas em relação ao sinal de áudio (55); correção temporária de um conjunto de sub-bandas do sinal de áudio decodificado (25) com o número reduzido de sub-bandas, em que o conjunto de sub-bandas forma uma primeira correção temporária, para sub-bandas adicionais no período de tempo, adjacente ao número reduzido de sub-bandas, para obter um sinal de áudio (55) com um número regular de sub-bandas; correção das fases dentro das sub-bandas da primeira correção temporária de acordo com uma função alvo com o método de acordo com a reivindicação 16..

18. Método para codificação de um sinal de áudio (55), o método caracterizado por compreender as seguintes etapas: codificação central do sinal de áudio com um codificador central (160) para obter um sinal de áudio codificado central tendo um número reduzido de sub-bandas em relação ao sinal de áudio (55); análise do sinal de áudio (55) ou de uma versão do filtro passa baixa do sinal de áudio com um analisador de frequência fundamental para obter uma estimativa de frequência fundamental (140) do sinal de áudio; extração dos parâmetros de sub-bandas do sinal de áudio (55) não incluídos no sinal de áudio codificado central (145) com um extrator de parâmetro (165); formação de um sinal de saída (135) compreendendo o sinal de áudio codificado central (145), os parâmetros (190) e a estimativa de frequência fundamental (140) com um formador do sinal de saída (170).

19. Sinal de áudio (135), caracterizado por compreender: um sinal de áudio codificado central (145), tendo um número reduzido de sub-bandas em relação a um sinal de áudio original (55); um parâmetro (190) que representa as subbandas do sinal de áudio não incluídas no sinal de áudio codificado central (145); uma estimativa de frequência fundamental (140) do sinal de áudio (135) ou do sinal de áudio original (55).

20. Sinal de áudio (135) de acordo com a reivindicação 19, caracterizado pelo sinal de áudio (135) ser formado em uma sequência de estruturas, em que cada estrutura compreende o sinal de áudio codificado central (145), os parâmetros (190) e em que apenas cada Nésima estrutura compreende a estimativa de frequência fundamental (140), em que N é maior ou igual a 2.