BR112017018145B1

BR112017018145B1 - Aparelho e método para processamento de um sinal de áudio para obter um sinal de áudio processado utilizando um envelope de domínio de tempo alvo

Info

Publication number: BR112017018145B1
Application number: BR112017018145-2A
Authority: BR
Inventors: Dittmar Christian; Müller Meinard; Disch Sascha
Original assignee: Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V
Priority date: 2015-02-26
Filing date: 2016-02-23
Publication date: 2023-11-28
Also published as: CN107517593A; ES2837107T3; US10373623B2; KR102125410B1; KR20170125058A; US20170345433A1; EP3262639A1; EP3262639B1; JP2018510374A; CA2976864A1; WO2016135132A1; BR112017018145A2; MX2017010593A; CN107517593B; JP6668372B2; RU2679254C1; CA2976864C

Abstract

APARELHO E MÉTODO PARA PROCESSAMENTO DE UM SINAL DE ÁUDIO PARA OBTER UM SINAL DE ÁUDIO PROCESSADO UTILIZANDO UM ENVELOPE DE DOMÍNIO DE TEMPO ALVO. O assunto da presente invenção é um aparelho 2, descrito por um diagrama de blocos esquemático, para processamento de um sinal de áudio 4 para obter um sinal de áudio processado 6. O aparelho 2 compreende um calculador de fase 8 para calcular valores de fase 10 para valores espectrais de uma sequência de estruturas de domínio de frequência 12, representando estruturas sobrepostas do sinal de áudio 4. Além disso, o calculador de fase 8 é configurado para calcular os valores de fase 10 com base em informações em um envelope de domínio de tempo alvo 14 relacionadas ao sinal de áudio processado 6, de modo que o sinal de áudio processado 6 tenha, pelo menos em uma aproximação, o envelope de domínio de tempo alvo 14 e um envelope espectral determinado pela sequência de estruturas de domínio de frequência 12.

Description

RELATÓRIO DESCRITIVO

[0001] A presente invenção refere-se a um aparelho e a um método para processamento de um sinal de áudio para obter um sinal de áudio processado. As aplicações mostram, ainda, um decodificador de áudio, compreendendo o aparelho e um codificador de áudio correspondente, um processador de separação de fonte de áudio e um processador de reforço de largura de banda, ambos compreendendo o aparelho. De acordo com aplicações adicionais, a restauração transiente na reconstrução do sinal e a restauração transiente na decomposição de áudio obtida por pontuação são mostradas.

[0002] A tarefa de separação de uma mistura de fontes de áudio sobrepostas em seus componentes constituintes ganhou importância no processamento de sinal de áudio digital. No processamento de fala, esses componentes geralmente são os enunciados dos alto-falantes alvo interferidos por barulho ou por pessoas falando ao mesmo tempo. Na música, esses componentes podem ser instrumentos individuais ou melodias vocais, instrumentos de percussão ou mesmo eventos de notas individuais. Tópicos relevantes são a preservação transiente e a reconstrução do sinal, além da composição do áudio obtida por pontuação (ou seja, a separação da fonte).

[0003] A separação da fonte musical visa decompor uma gravação musical multitimbre e polifônica em sinais componentes, tais como voz cantando, melodias instrumentais, instrumentos de percussão ou eventos de notas individuais que ocorrem em um sinal de mistura. Além de ser uma etapa importante em muitas tarefas de recuperação e análise musical, a separação da fonte musical também é um pré-requisito fundamental para aplicações, tais como restauração, mistura e amplificação [upmixing] e remixagem musical. Com estes objetivos, uma alta fidelidade em termos de qualidade perceptual dos componentes separados é desejável. A maioria das técnicas de separação existente funciona em uma representação de tempo-frequência (TF | time-frequency) do sinal de mistura, muitas vezes a Transformada de Fourier de Curta Duração (STFT | Short-Time Fourier Transform). Os sinais do componente alvo são geralmente reconstruídos utilizando uma transformada inversa apropriada que, por sua vez, pode introduzir perturbações audíveis, tais como ruído musical, transientes indistintos ou pré-ecos. As abordagens existentes sofrem com perturbações audíveis na forma de ruído musical, interferência de fase e pré-ecos. Essas perturbações são, muitas vezes, bastante perturbadoras para o ouvinte humano.

[0004] Há uma série de artigos recentes sobre separação da fonte musical. Na maioria das abordagens, a separação é efetuada no domínio de tempo-frequência (TF), modificando o espectrograma de magnitude. Os sinais de domínio de tempo correspondentes dos componentes separados são derivados, utilizando a informação de fase original e aplicando transformadas inversas adequadas. Ao tentar alcançar uma boa qualidade perceptual dos sinais individuais separados, muitos autores se voltam a técnicas de decomposição obtidas por pontuação. Estas possuem a vantagem de a separação poder ser guiada por informações sobre a localização aproximada dos sinais componentes no tempo (início, deslocamento) e frequência (tom, timbre). Poucas publicações lidam com a separação da fonte de sinais transientes, tais como baterias. Outras têm se centrado na separação de componentes harmônicos versus componentes percussivos [5].

[0005] Além disso, o problema de pré-ecos tem sido abordado no campo da codificação perceptual de áudio, onde os pré-ecos normalmente são causados pelo uso de uma análise relativamente longa e janela de síntese, em conjunto com uma manipulação intermediária das posições de TF, como quantização de magnitudes espectrais, de acordo com um modelo psicoacústico. Pode ser considerado inovador utilizar um bloco de comutação nas proximidades de eventos transientes [6]. Uma abordagem interessante foi proposta em [13], onde coeficientes espectrais são codificados por previsão linear ao longo do eixo de frequência, reduzindo automaticamente os pré-ecos. Trabalhos posteriores propuseram a decomposição do sinal em transientes e componentes residuais e o uso de parâmetros otimizados de codificação para cada fluxo [3]. A preservação dos transientes também foi investigada no contexto dos métodos de modificação da escala de tempo com base no vocoder de fase. Além do tratamento otimizado dos componentes transientes, vários autores seguem o princípio do travamento da fase ou reinicialização da fase em estruturas transientes [8].

[0006] O problema da reconstrução do sinal, também conhecida como estimativa de fase ou inversão de espectrograma de magnitude, é um tópico bem pesquisado. Em seu artigo clássico [1], Griffin e Lim propuseram o chamado algoritmo LSEE-MSTFTM para reconstrução iterativa do sinal cego a partir de espectrogramas de magnitude da STFT modificada (MSTFTM | modified STFT magnitude). Em [2], Le Roux et al. desenvolveram uma visão diferente sobre este método, descrevendo-o utilizando um critério de consistência de TF. Mantendo as operações necessárias inteiramente no domínio de TF, várias simplificações e aproximações poderiam ser introduzidas, as quais diminuiriam a carga computacional em comparação com o procedimento original. Uma vez que as estimativas de fase obtidas utilizando a LSEE-MSTFTM só podem convergir para um ótimo local, diversas publicações se preocuparam em encontrar uma boa estimativa inicial para a informação de fase [3, 4]. Sturmel e Daudet [5] forneceram uma revisão em profundidade dos métodos de reconstrução de sinal e apontam para problemas não resolvidos. Uma extensão da LSEE-MSTFTM com relação à velocidade de convergência foi proposta em [6]. Outros autores tentaram formular o problema de estimativa de fase como um esquema de otimização convexa e chegaram a resultados promissores, dificultados pela alta complexidade computacional [7]. Outro trabalho [8] preocupou-se com a aplicação da estrutura de consistência do espectrograma para reconstrução do sinal a partir de espectrogramas de magnitude com base em ondeletas.

[0007] No entanto, as abordagens descritas para reconstrução do sinal compartilham o problema de que uma rápida mudança do sinal de áudio, que se dá tipicamente, por exemplo, para transientes, pode sofrer com as perturbações descritas anteriormente, como, por exemplo, pré-ecos.

[0008] Portanto, há a necessidade de uma abordagem melhorada.

[0009] É um objeto da presente invenção fornecer um conceito melhorado para processamento de um sinal de áudio. Este objeto é resolvido pelo assunto das reivindicações independentes.

[0010] A presente invenção baseia-se na constatação de que um envelope de amplitude de domínio de tempo alvo pode ser aplicado aos valores espectrais da sequência de estruturas de domínio de frequência no domínio de tempo ou de frequência. Em outras palavras, uma fase de um sinal pode ser corrigida após o processamento do sinal, utilizando a conversão de tempo- frequência e frequência-tempo, onde uma amplitude ou uma magnitude deste sinal ainda é conservada ou mantida (inalterada). A fase pode ser restaurada utilizando, por exemplo, um algoritmo iterativo, como o algoritmo proposto por Griffin e Lim. No entanto, o uso do envelope de domínio de tempo alvo melhora significativamente a qualidade da restauração de fase, o que resulta em um número reduzido de iterações se o algoritmo iterativo for utilizado. O envelope de domínio de tempo alvo pode ser calculado ou aproximado.

[0011] As aplicações mostram um aparelho para processamento de um sinal de áudio para obter um sinal de áudio processado. O aparelho pode incluir um calculador de fase para calcular os valores de fase para valores espectrais de uma sequência de estruturas de domínio de frequência, representando estruturas sobrepostas do sinal de áudio. O calculador de fase pode ser configurado para calcular os valores de fase com base em informações em um envelope de domínio de tempo alvo relacionado ao sinal de áudio transformado, de forma que o sinal de áudio processado tenha, pelo menos em uma aproximação, o envelope de domínio de tempo alvo e um envelope de domínio espectral determinado pela sequência de estruturas de domínio de frequência. As informações no envelope de amplitude no domínio do tempo alvo podem ser aplicadas à sequência de estruturas de domínio de frequência no domínio de tempo ou de frequência.

[0012] Para superar as limitações das abordagens conhecidas mencionadas acima, as aplicações mostram uma técnica, método ou um aparelho para melhor preservar os componentes transientes nos sinais da fonte reconstruídos. Em particular, um objetivo pode ser atenuar os pré-ecos que deterioram a clareza do aparecimento de eventos de notas a partir da bateria e da percussão, bem como do piano e da guitarra.

[0013] As aplicações também mostram uma extensão ou uma melhoria para o processo de reconstrução de sinal, de acordo com [1] de Griffin e Lim, que, por exemplo, preserva melhor os componentes do sinal transiente. O método original estima iterativamente a informação de fase necessária para reconstrução do domínio de tempo a partir de uma magnitude da STFT (STFTM) indo e voltando entre a STFT e o sinal do domínio de tempo, atualizando apenas as informações de fase, enquanto mantém a STFTM fixada. A proposta de extensão ou melhoria manipula as reconstruções de domínio de tempo intermediárias, a fim de atenuar os pró-ecos que potencialmente precedem os transientes.

[0014] De acordo com uma primeira aplicação, as informações no envelope do domínio de tempo alvo são aplicadas à sequência de estruturas de domínio de frequência no domínio de tempo. Portanto, uma Transformada de Fourier de Curta Duração (MSTFT) modificada pode ser derivada de uma sequência de estruturas de domínio de frequência. Com base na Transformada de Fourier de Curta Duração modificada, uma Transformada de Fourier de Curta Duração inversa pode ser executada. Uma vez que a Transformada de Fourier de Curta Duração Inversa (ISTFT | Inverse Short-Time Fourier Transform) realiza um procedimento de sobreposição-e-adição, os valores de magnitude e os valores de fase da MSTFT inicial são alterados (atualizados, adaptados ou ajustados). Isto leva a uma reconstrução de domínio de tempo intermediária do sinal de áudio. Além disso, um envelope de domínio de tempo alvo pode ser aplicado para reconstrução intermediária do domínio do tempo. Isso pode, por exemplo, ser realizado pela convolução de um sinal de domínio de tempo por uma resposta de impulso ou multiplicando-se um espectro por uma função de transferência. A reconstrução de domínio de tempo intermediária do sinal de áudio, tendo (uma aproximação do) o envelope de domínio de tempo alvo, pode ser convertida de tempo-para-frequência utilizando uma Transformada de Fourier de Curta Duração (STFT). Portanto, análises sobrepostas e/ou janelas de síntese podem ser utilizadas.

[0015] Mesmo se a modulação do envelope de domínio de tempo alvo não for aplicada, a STFT da representação de domínio de tempo intermediária do sinal de áudio seria diferente da MSTFT anterior devido ao processo de sobreposição e adição da ISTFT e da STFT. Isso pode ser realizado em um algoritmo iterativo, onde, para uma MSTFT atualizada, o valor de fase da operação da STFT anterior é utilizado, e o valor de amplitude ou magnitude correspondente é descartado. Em vez disso, como um valor de amplitude ou magnitude para a MSTFT atualizada, os valores de magnitude iniciais podem ser utilizados, uma vez que se presume que o valor de amplitude (ou magnitude) é (perfeitamente) reconstruído tendo apenas informações de fase erradas. Portanto, em cada etapa da iteração, os valores de fase são adaptados para os valores de fase corretos (ou originais).

[0016] De acordo com uma segunda aplicação, o envelope de domínio de tempo alvo pode ser aplicado à sequência de estruturas de domínio de frequência no domínio da frequência. Portanto, as etapas executadas anteriormente no domínio de tempo podem ser transferidas (transformadas, aplicadas ou convertidas) ao domínio de frequência. Em detalhe, esta pode ser uma transformada de tempo-frequência da janela de síntese da ISTFT e da janela de análise da STFT. Isto leva a uma representação da frequência das estruturas vizinhas que se sobreporiam à estrutura atual após a ISTFT e a STFT terem sido transformadas no domínio de tempo. No entanto, esta seção é deslocada para uma posição correta dentro da estrutura atual, e uma adição é realizada para derivar uma representação de domínio de frequência intermediária do sinal de áudio. Além disso, o envelope de domínio de tempo alvo pode ser transformado para o domínio de frequência, por exemplo, utilizando uma STFT, tal que a representação da frequência do envelope de domínio de tempo alvo pode ser aplicada para a representação do domínio de frequência intermediária. Novamente, este procedimento pode ser realizado utilizando iterativamente a fase atualizada da representação de frequência de domínio intermediária tendo (em uma aproximação) o envelope do envelope de domínio de tempo alvo. Além disso, a magnitude inicial da MSTFT é usada, uma vez que se presume que a magnitude já está perfeitamente reconstruída.

[0017] Utilizando os aparelhos mencionados acima, várias outras aplicações podem ser consideradas como tendo diferentes possibilidades para derivar o envelope de domínio de tempo alvo. As aplicações mostram um decodificador de áudio que inclui os aparelhos mencionados acima. O decodificador de áudio pode receber o sinal de áudio a partir de um codificador de áudio (associado). O codificador de áudio pode analisar o sinal de áudio para derivar um envelope de domínio de tempo alvo, por exemplo, para cada período de tempo do sinal de áudio. O envelope do domínio de tempo alvo derivado pode ser comparado a uma lista predeterminada de envelopes de domínio de tempo alvo exemplares. O envelope de domínio de tempo alvo predeterminado que for mais próximo ao envelope de domínio de tempo alvo calculado do sinal de áudio poderá ser associado a uma certa sequência de bits, por exemplo, uma sequência de quatro bits, para alocar 16 envelopes de domínio de tempo alvo diferentes. O decodificador de áudio pode compreender os mesmos envelopes de domínio de tempo alvo predeterminados, por exemplo, um livro de códigos ou uma tabela de consulta, e ser capaz de determinar (ler, computar ou calcular) o envelope de domínio de tempo alvo (codificado) predeterminado pela sequência de bits transmitida a partir do codificador.

[0018] De acordo com aplicações adicionais, o aparelho mencionado acima pode ser parte de um processador de separação de fonte de áudio. Um processador de separação de fonte de áudio utiliza uma aproximação rudimentar do envelope de domínio de tempo alvo, uma vez que um sinal de áudio original, tendo apenas uma fonte de múltiplas fontes do sinal de áudio, (geralmente) não está disponível. Portanto, especialmente para a restauração transiente, uma parte de uma estrutura atual, até uma posição inicial do transiente, pode ser forçada a ser zero. Isto pode efetivamente reduzir os pré- ecos na frente de um transiente, incorporado geralmente devido ao algoritmo de processamento de sinal. Além disso, um início comum pode ser utilizado como uma aproximação para o envelope de domínio de tempo alvo, por exemplo, o mesmo início de cada estrutura. De acordo com uma aplicação adicional, um início diferente pode ser utilizado para diferentes componentes do sinal de áudio, por exemplo, derivados de uma lista pré- determinada de inícios. Por exemplo, um envelope de domínio de tempo alvo ou um início de um piano pode diferir de um envelope de domínio de tempo alvo ou do início de uma guitarra, um chimbau ou um discurso. Portanto, a fonte ou componente atual para o sinal de áudio pode ser analisada, por exemplo, para detectar o tipo de informações de áudio (instrumento, discurso etc.) para se determinar (teoricamente) a aproximação mais apropriada do envelope do domínio de tempo alvo. De acordo com aplicações adicionais, o tipo de informações de áudio pode ser pré-ajustado (por um usuário), se a separação da fonte de áudio, por exemplo, destinar-se a separar um ou mais instrumento(s) (por exemplo, guitarra, chimbau, flauta ou piano) ou discurso a partir de uma parte restante do sinal de áudio. Com base no predeterminado, um início correspondente para a faixa de áudio, separado ou isolado, pode ser escolhido.

[0019] De acordo com aplicações adicionais, um processador de reforço de largura de banda pode utilizar o aparelho mencionado acima. O processador de reforço de largura de banda usa um codificador de núcleo para codificar uma representação de alta resolução de uma ou mais banda(s) do sinal de áudio. Além disso, as bandas que não são codificadas utilizando o codificador de núcleo podem ser aproximadas em um decodificador de reforço de largura de banda utilizando um parâmetro do codificador de reforço de largura de banda. O envelope de domínio de tempo alvo pode ser transmitido, por exemplo, como um parâmetro, pelo codificador. No entanto, de acordo com uma aplicação preferencial, o envelope de domínio de tempo alvo não é transmitido (como um parâmetro) pelo codificador. Portanto, o envelope de domínio de tempo alvo pode ser derivado diretamente da parte decodificada do núcleo ou banda(s) de frequência do sinal de áudio. A forma ou o envelope da parte decodificada do núcleo do sinal de áudio é uma boa aproximação para o envelope de domínio de tempo alvo do sinal de áudio original. No entanto, componentes de alta frequência podem estar ausentes na parte decodificada do núcleo do sinal de áudio, levando a um envelope de domínio de tempo alvo que pode ser menos acentuado quando comparado ao envelope original. Por exemplo, o envelope de domínio de tempo alvo pode ser semelhante a uma versão filtrada passa-baixa do sinal de áudio ou uma parte do sinal de áudio. No entanto, a aproximação do envelope de domínio de tempo alvo a partir do sinal de áudio decodificado do núcleo pode ser (em média) mais precisa em comparação com, por exemplo, a usada em um livro de códigos onde as informações do envelope de domínio do tempo alvo podem ser transmitidas a partir de um codificador de reforço de largura de banda para o decodificador de reforço de largura de banda.

[0020] De acordo com aplicações adicionais, é mostrada uma extensão eficaz do algoritmo de reconstrução do sinal iterativo proposto por Griffin e Lim. A extensão mostra uma etapa intermediária dentro da reconstrução iterativa utilizando uma Transformada de Fourier de Curta Duração modificada. A etapa intermediária pode impor uma forma desejada ou predeterminada do sinal que deve ser reconstruído. Portanto, um envelope predeterminado pode ser aplicado no sinal reconstruído (domínio do tempo), por exemplo, utilizando modulação em amplitude dentro de cada etapa de iteração. Alternativamente, o envelope pode ser aplicado no sinal reconstruído utilizando uma convolução da STFT e o envelope no domínio de tempo-frequência. A segunda abordagem pode ser vantajosa ou mais eficaz, uma vez que a STFT inversa e a STFT podem ser emuladas (realizadas, transformadas ou transferidas) no domínio de tempo-frequência e, portanto, essas etapas não precisam ser executadas explicitamente. Além disso, outras simplificações, tais como, por exemplo, um processamento seletivo-sequencial, podem ser realizadas. Além disso, uma inicialização das fases (da primeira etapa da MSTFT), tendo valores significativos, é vantajosa, uma vez que uma conversão mais rápida é alcançada.

[0021] Antes de as aplicações serem descritas detalhadamente utilizando os desenhos anexos, deve-se salientar que os elementos funcionalmente iguais ou idênticos recebem os mesmos números de referência nas figuras e que uma descrição repetida para os elementos fornecidos com os mesmos números de referência é apresentada. Por conseguinte, as descrições fornecidas para elementos tendo os mesmos números de referência serão mutuamente intercambiáveis.

[0022] As aplicações da presente invenção serão discutidas a seguir com relação aos seus desenhos anexos, caracterizado pela:

[0023] Fig. 1 mostrar um diagrama de blocos esquemático de um aparelho para processamento de um sinal de áudio para obter um sinal de áudio processado;

[0024] Fig. 2 mostrar um diagrama de blocos esquemático do aparelho, de acordo com uma aplicação adicional, utilizando um processamento de domínio de tempo-frequência ou de domínio de frequência;

[0025] Fig. 3 mostrar o aparelho, de acordo com uma aplicação adicional, em um diagrama de blocos esquemático utilizando um processamento de domínio de tempo-frequência;

[0026] Fig. 4 mostrar um diagrama de blocos esquemático do aparelho, de acordo com uma aplicação, utilizando um processamento de domínio de frequência;

[0027] Fig. 5 mostrar um diagrama de blocos esquemático do aparelho, de acordo com uma aplicação adicional, utilizando um processamento de domínio de tempo-frequência;

[0028] Figs. 6a-d mostrarem um gráfico esquemático de restauração transiente de acordo com uma aplicação;

[0029] Fig. 7 mostrar um diagrama de blocos esquemático do aparelho, de acordo com uma aplicação adicional, utilizando um processamento de domínio de frequência;

[0030] Fig. 8 mostrar um diagrama esquemático de domínio de tempo ilustrando um segmento de um sinal de áudio;

[0031] Figs. 9a-c ilustrarem diagramas esquemáticos de sinais dos componentes diferentes de um chimbau, separados de um loop de bateria exemplar;

[0032] Figs. 10a-b mostram uma ilustração esquemática de uma mistura de sinal de percussão contendo três instrumentos como fontes para a separação de fontes dos loops de bateria;

[0033] Fig. 11a mostrar uma evolução da medida de inconsistência normalizada versus o número de iterações;

[0034] Fig. 11b mostrar a evolução da energia pré-eco versus o número de iterações;

[0035] Fig. 12a mostrar um diagrama esquemático de uma evolução da medida de inconsistência normalizada versus o número de iterações;

[0036] Fig. 12b mostrar a evolução da energia pré-eco versus o número de iterações;

[0037] Fig. 13 mostrar um diagrama esquemático de um resultado típico de decomposição do NMF, ilustrando os modelos extraídos (os três gráficos mais à esquerda) que, de fato, se assemelham às versões protótipo dos eventos de início em V (gráfico inferior à direita).

[0038] Fig. 14a mostrar um diagrama esquemático de uma evolução da medida de consistência normalizada versus o número de iterações;

[0039] Fig. 14b mostrar um diagrama esquemático de uma evolução da energia pré-eco versus o número de iterações;;

[0040] Fig, de áudio de acordo com uma aplicação;

[0041] Fig. 1. 15 mostrar um codificador de áudio para codificação de um sinal 6 mostrar um decodificador de áudio, compreendendo o aparelho e uma interface de entrada;

[0042] Fig. 17 mostra um sinal de áudio, compreendendo uma representação de uma sequência de estruturas de domínio de frequência e uma representação de um envelope de domínio de tempo alvo;

[0043] Fig. 18 mostrar um diagrama de blocos esquemático de um processador de separação de fonte de áudio, de acordo com uma aplicação;

[0044] Fig. 19 mostrar um diagrama de blocos esquemático de um processador de reforço de largura de banda, de acordo com uma aplicação;

[0045] Fig. 20 mostrar um diagrama esquemático do domínio de frequência, ilustrando o reforço da largura de banda;

[0046] Fig. 21 mostrar uma representação esquemática da reconstrução do domínio de tempo (intermediária);

[0047] Fig. 22 mostrar um diagrama de blocos esquemático de um método para processamento de um sinal de áudio para obter um sinal de áudio processado;

[0048] Fig. 23 mostrar um diagrama de blocos esquemático de um método de decodificação de áudio;

[0049] Fig. 24 mostrar um diagrama de blocos esquemático de um método de separação da fonte de áudio;

[0050] Fig. 25 mostrar um diagrama de blocos esquemático de um método de reforço da largura de banda de um sinal de áudio codificado;

[0051] Fig. 26 mostrar um diagrama de blocos esquemático de um método de codificação de áudio.

[0052] A seguir, as aplicações da invenção serão descritas em maiores detalhes. Os elementos mostrados nas respectivas figuras, tendo uma funcionalidade igual ou semelhante, serão associados os mesmos sinais de referência.

[0053] A Fig. 1 mostra um diagrama de blocos esquemático do aparelho 2 para processamento de um sinal de áudio 4 para obter um sinal de áudio processado 6. O aparelho 2 inclui um calculador de fase 8 para calcular os valores de fase 10 para os valores espectrais de uma sequência de estruturas de domínio de frequência 12, representando estruturas sobrepostas do sinal de áudio 4. Além disso, o calculador de fase 8 é configurado para calcular os valores de fase 10 com base em informações em um envelope de domínio de tempo alvo 14, relacionadas com o sinal de áudio processado 6, de modo que o sinal de áudio processado 6 tenha, pelo menos em uma aproximação, o envelope de amplitude do domínio de tempo alvo 14 e um envelope espectral determinado pela sequência de estruturas de domínio de frequência 12. Portanto, o calculador de fase 8 pode ser configurado para receber as informações no envelope de domínio de tempo alvo ou extrair as informações no envelope de domínio de tempo alvo a partir do (uma representação do) envelope de domínio de tempo alvo.

[0054] Os valores espectrais da sequência de estruturas do domínio de frequência 10 podem ser calculados utilizando uma Transformada de Fourier de Curta Duração (STFT) do sinal de áudio 4. Portanto, a STFT pode utilizar janelas de análise tendo um intervalo sobreposto de, por exemplo, 50%, 67%, 75% ou mais. Em outras palavras, a STFT pode utilizar um tamanho de salto de, por exemplo, metade, um terço ou um quarto do comprimento da janela de análise.

[0055] As informações no envelope de domínio de tempo alvo 14 podem ser derivadas utilizando abordagens diferentes ou variáveis relacionadas com a aplicação atual ou utilizada. Em um ambiente de codificação, por exemplo, um codificador pode analisar o sinal de áudio (original) (antes da codificação) e transmitir, por exemplo, um índice de um livro de códigos ou tabela de consulta para o decodificador representando um envelope de domínio alvo predefinido, perto do envelope de domínio alvo calculado. O decodificador, tendo o mesmo livro de códigos ou tabela de consulta que codificador, pode derivar o envelope de domínio de tempo alvo utilizando o índice do livro de códigos recebido.

[0056] Em um ambiente de reforço de largura de banda, o envelope da representação decodificada no núcleo do sinal de áudio pode ser uma boa aproximação para o envelope de domínio de tempo alvo original.

[0057] O reforço da largura de banda abrange qualquer forma que reforce uma largura de banda de um sinal processado em comparação com a largura de banda de um sinal de entrada antes do processamento. Uma forma de reforço da largura de banda é uma implementação de preenchimento de lacuna, tais como o Preenchimento de Lacuna Inteligente divulgado, por exemplo, no documento WO2015010948, ou o preenchimento de lacuna semiparamétrico, onde lacunas espectrais em um sinal de entrada são preenchidas ou “reforçadas” por outras porções espectrais do sinal de entrada, com ou sem a ajuda de informações paramétricas transmitidas. Uma maneira adicional de reforço da largura de banda é a replicação de banda espectral (SBR | spectral band replication), conforme utilizado em HE-AAC (MPEG 4) ou procedimentos relacionados, onde uma banda acima de uma frequência cruzada é gerada pelo processamento. Em contraste com a implementação do preenchimento de lacuna, a largura de banda do sinal do núcleo na SBR é limitada, enquanto implementações de preenchimento de lacuna têm um sinal de núcleo de banda completo. Então, o reforço da largura de banda representa uma extensão de largura de banda para frequências mais altas do que uma frequência cruzada ou uma extensão de largura de banda para lacunas espectrais localizadas, em relação a frequência abaixo de uma frequência máxima do sinal do núcleo.

[0058] Além disso, em um ambiente de separação da fonte, o envelope de domínio de tempo alvo pode ser aproximado. Ele pode ser zero e ser preenchido até uma posição inicial de um transiente ou utilizando inícios (diferentes) como uma aproximação ou uma estimativa aproximada do envelope de domínio de tempo alvo. Em outras palavras, um envelope de domínio de tempo alvo aproximado pode ser derivado a partir do envelope de domínio de tempo atual do sinal de domínio de tempo intermediário, forçando o envelope de domínio de tempo atual a ser zero desde o início da estrutura, ou de parte do sinal de áudio, até a posição inicial de um transiente. De acordo com aplicações adicionais, o envelope de domínio de tempo atual é (amplitude) modulado por um ou mais início(s) (predefinido(s)). O início pode ser fixado para processamento (inteiro) do sinal de áudio ou, em outras palavras, escolhido antes de (ou para) processar a primeira estrutura (tempo) ou a parte do sinal de áudio.

[0059] A (aproximação ou estimativa) do envelope de domínio de tempo alvo pode ser utilizada para criar uma forma do sinal de áudio transformado, por exemplo, utilizando modulação em amplitude ou multiplicação, tal que o sinal de áudio processado tenha, pelo menos, uma aproximação do envelope de domínio de tempo alvo. No entanto, o envelope espectral do sinal de áudio processado é determinado pela sequência de estruturas de domínio de frequência, uma vez que o envelope de domínio de tempo alvo compreende, principalmente, componentes de baixa frequência quando comparado com o espectro da sequência de estruturas de domínio de frequência, tal que a maioria das frequências permanece inalterada.

[0060] A Fig. 2 mostra um diagrama de blocos esquemático do aparelho 2, de acordo com uma aplicação adicional. O aparelho da Fig. 2 mostra um calculador de fase 8, compreendendo um processador de iteração 16 para a execução de um algoritmo iterativo para calcular, a partir de valores de fase 18 iniciais, os valores de fase 10 para os valores espectrais, utilizando um alvo de otimização precisando de consistência de sobreposição de blocos na faixa de sobreposição. Além disso, o processador de iteração 16 é configurado para utilizar, em uma etapa adicional de iteração, uma estimativa de fase atualizada 20, dependendo do envelope de domínio de tempo alvo. Em outras palavras, o cálculo dos valores de fase 10 pode ser realizado utilizando um algoritmo iterativo realizado pelo processador de iteração 16. Portanto, os valores de magnitude da sequência de estruturas de domínio de frequência podem ser conhecidos e permanecem inalterados. A partir do valor de fase inicial 18, o processador de iteração pode iterativamente atualizar os valores de fase para os valores espectrais utilizando, após cada iteração, uma estimativa de fase atualizada 20 para realizar as iterações.

[0061] O alvo de otimização pode ser, por exemplo, um número de iterações. De acordo com aplicações adicionais, o alvo de otimização pode ser um limite, onde os valores de fase são atualizados somente para uma extensão menor quando comparados com os valores de fase de uma etapa da iteração anterior, ou o alvo de otimização pode ser uma diferença da magnitude constante (inicial) da sequência de estruturas de domínio de frequência quando comparado à magnitude dos valores espectrais após um processo de iteração. Portanto, os valores de fase podem ser melhorados ou atualizados, tais que um espectro de frequência individual das partes das estruturas do sinal de áudio é igual, ou, pelo menos, difere apenas em um menor grau. Em outras palavras, todas as porções de estrutura das estruturas de sobreposição do sinal de áudio que se sobrepõem umas às outras devem ter uma representação de frequência igual ou semelhante.

[0062] De acordo com aplicações, o calculador de fase é configurado para executar o algoritmo iterativo em conformidade com o processo de reconstrução de sinal iterativo de Griffin e Lim. Aplicações adicionais (mais detalhadas) são mostradas com relação às figuras a seguir. Nelas, o processador de iteração será subdividido ou substituído por uma sequência de blocos de processamento, o conversor de frequência-tempo 22, o modulador de amplitude 24 e o conversor de tempo- frequência 26. Para conveniência, o processador de iteração 16 é geralmente (não explicitamente) destacado nas figuras adicionais; no entanto, os blocos de processamento mencionados acima executam as mesmas operações que o processador de iteração 16 ou o processador de iteração supervisiona ou monitora a condição de terminação (ou condição de saída) do processamento iterativo, tais como, por exemplo, o alvo de otimização. Além disso, o processador de iteração pode realizar as operações de acordo com um processamento de domínio de frequência demonstrado, por exemplo, com relação à Fig. 4 e Fig. 7.

[0063] A Fig. 3 mostra o aparelho 2, de acordo com uma aplicação adicional, em um diagrama de blocos esquemático. O aparelho 2 compreende um conversor de frequência-tempo 22, um modulador de amplitude 24 e um conversor de tempo-frequência 26, caracterizado pela conversão de frequência-tempo e/ou a conversão de tempo-frequência poder executar um procedimento de sobreposição-e-adição. O conversor de frequência-tempos 22 pode calcular uma reconstrução de domínio de tempo intermediária 28 do sinal de áudio 4 da sequência de estruturas de domínio de frequência 12 e uma estimativa de valor de fase inicial 18 ou estimativas de valor de fase 10 de uma etapa de iteração anterior. O modulador de amplitude 24 pode modular a reconstrução de domínio de tempo intermediária 28 utilizando (informações sobre) o envelope de domínio de tempo alvo 14 para obter uma amplitude modulada 30 do sinal de áudio. Além disso, o conversor de tempo-frequência é configurado para converter o sinal modulado de amplitude 30 em uma sequência adicional de estruturas de domínio de frequência 32 tendo os valores de fase 10. Portanto, o calculador de fase 8 é configurado para utilizar, para uma próxima etapa da iteração, os valores de fase 10 (da sequência adicional de estruturas de domínio de frequência) e os valores espectrais da sequência de estruturas de domínio de frequência (que não é a sequência adicional de estruturas de domínio de frequência). Em outras palavras, o calculador de fase utiliza valores de fase atualizados da sequência adicional de estruturas de domínio de frequência 32 após cada etapa da iteração. Os valores da magnitude da sequência adicional de estruturas de domínio de frequência podem ser descartados ou não utilizados para processamento adicional. Além disso, o calculador de fase 8 utiliza valores de magnitude da sequência (inicial) de estruturas de domínio de frequência 12, uma vez que se assume que os valores de magnitude já foram (perfeitamente) reconstruídos.

[0064] De forma mais em geral, o calculador de fase 8 é configurado para aplicar uma modulação de amplitude, por exemplo, no modulador de amplitude 22, para uma reconstrução de domínio de tempo intermediária 28 do sinal de áudio 4, com base no envelope de domínio de tempo alvo 14. A modulação de amplitude pode ser realizada utilizando uma modulação de banda lateral única, modulação de banda lateral dupla com ou sem transmissão de transportador suprimido ou utilizar uma multiplicação do envelope de domínio de tempo alvo com a reconstrução de domínio de tempo intermediária do sinal de áudio. A estimativa do valor de fase inicial pode ser um valor de fase do sinal de áudio, um valor escolhido (arbitrário) como, por exemplo, zero, um valor aleatório ou uma estimativa de uma fase de uma faixa de frequência do sinal de áudio, ou uma fase de uma fonte de sinal de áudio, por exemplo, quando utilizando a separação da fonte de áudio.

[0065] De acordo com aplicações adicionais, o calculador de fase 8 é configurado para emitir a reconstrução de domínio de tempo intermediária 28 do sinal de áudio 4 como o sinal de áudio processado 6, quando uma condição de determinação de iteração (por exemplo, uma condição de encerramento de iteração) for preenchida. A condição de determinação de iteração pode estar intimamente relacionada com o alvo de otimização e pode definir um desvio máximo do alvo de otimização para um valor atual de otimização. Além disso, a condição de determinação de iteração pode ser um número (máximo) de iterações, um desvio (máximo) de magnitude da sequência de estruturas de domínio de frequência 32 quando comparado à magnitude da sequência de estruturas de domínio de frequência 12, ou um esforço de atualização (máximo) dos valores de fase 10 entre uma estrutura atual e uma anterior.

[0066] A Fig. 4 mostra um diagrama de blocos esquemático do aparelho 2, de acordo com uma aplicação, podendo ser uma aplicação alternativa quando comparado à aplicação da Fig. 3. O calculador de fase 8 é configurado para aplicar uma convolução 34 de uma representação espectral 14’ de, pelo menos, um envelope de domínio de tempo alvo 14 e, pelo menos, uma reconstrução de domínio de frequência intermediária ou partes ou bandas selecionadas ou apenas uma porção de passa- alta ou apenas várias porções de passa-banda de, pelo menos, um envelope de domínio de tempo alvo 14 ou, pelo menos, uma reconstrução de domínio de frequência intermediária 28’ do sinal de áudio 4. Em outras palavras, o processamento da Fig. 3 pode ser realizado no domínio de frequência em vez do domínio de tempo. Portanto, o envelope de domínio de tempo alvo 14, mais especificamente, uma representação de frequência 14’ respectiva, pode ser aplicado para a representação de domínio de frequência intermediária 28’ utilizando a convolução em vez de modulação de amplitude. No entanto, a ideia é, novamente, utilizar a magnitude (original) da sequência de estruturas de domínio de frequência para cada iteração, e, além disso, após utilizar o valor de fase inicial 18 em uma primeira etapa da iteração, usar estimativas de valor de fase atualizadas 10 para cada etapa da iteração. Em outras palavras, o calculador de fase é configurado para utilizar valores de fase 10 obtidos pela convolução 34, como estimativas de fase atualizadas para a próxima etapa de iteração. Além disso, o aparelho pode incluir um conversor de envelope alvo 36 para converter o envelope de domínio de tempo alvo no domínio espectral. Além disso, o aparelho 2 pode incluir um conversor de tempo- frequência 38 para calcular a reconstrução do domínio de tempo 28 a partir da reconstrução de domínio de frequência intermediária 28’, utilizando as estimativas de valor de fase 10 obtidas de uma etapa mais recente de iteração e a sequência de estruturas de domínio de frequência 12. Em outras palavras, a representação de domínio de frequência intermediária 28’ pode compreender valores de magnitude da sequência de estruturas de domínio de frequência e um valor de fase 10 das estimativas de valor de fase atualizadas. A reconstrução de domínio de tempo 28 pode ser o sinal de áudio processado 6 ou, pelo menos, uma porção do sinal de áudio processado 6. A porção pode referir-se, por exemplo, a um número reduzido de bandas de frequência quando comparado com um número total de bandas de frequência do sinal de áudio processado ou do sinal de áudio 4.

[0067] De acordo com aplicações adicionais, o calculador de fase 8 inclui um processador de convolução 40. O processador de convolução 40 pode aplicar um núcleo de convolução, um núcleo de alteração e/ou uma operação de adição- ao-centro da estrutura para obter a representação do domínio de frequência intermediária 28’ do sinal de áudio 4. Em outras palavras, o processador de convolução pode processar a sequência de estruturas de domínio de frequência 12, caracterizado pelo processador de convolução 40 poder ser configurado para aplicar um equivalente de domínio de frequência de um procedimento de sobreposição-e-adição de domínio de tempo na sequência de estrutura de domínio de frequência 12 no domínio da frequência para determinar a reconstrução de domínio de frequência intermediária. De acordo com aplicações adicionais, o processador de convolução é configurado para determinar, com base em um quadro de domínio de frequência atual, uma porção de estruturas de domínio de frequência adjacente que contribua para a atual estrutura de domínio de frequência após a sobreposição-e-adição de domínio de tempo ser executada no domínio de frequência. Além disso, o processador de convolução 40 pode, ainda, determinar uma posição de sobreposição da porção da estrutura de domínio de frequência adjacente dentro da atual estrutura de domínio de frequência e executar uma adição das posições das estruturas de domínio de frequência adjacente com a estrutura de domínio de frequência atual na posição sobreposta. De acordo com uma aplicação adicional, o processador de convolução 40 é configurado para transformar por tempo-frequência uma síntese do domínio de tempo e uma janela de análise de domínio de tempo para determinar uma porção de uma estrutura de domínio de frequência adjacente que contribua para a estrutura de domínio de frequência atual após a sobreposição-e-adição do domínio do tempo ser executada no domínio da frequência. Além disso, o processador de convolução também é configurado para mudar a porção da estrutura de domínio de frequência adjacente para uma posição de sobreposição dentro da estrutura de domínio de frequência atual e aplicar a porção da estrutura de domínio de frequência adjacente na estrutura atual na posição sobreposta.

[0068] Em outras palavras, o procedimento de domínio de tempo mostrado na Fig. 3 pode ser transmitido (transformado, aplicado ou convertido) para o domínio de frequência. Portanto, as janelas de síntese e análise do conversor de frequência- tempos 22 e do conversor de tempo-frequência 26 podem ser transferidas (transformadas, aplicadas ou convertidas) para o domínio da frequência. A representação do domínio de frequência (resultante) das janelas de análise e síntese determina (ou corta) porções das estruturas adjacentes de uma estrutura atual que tenha sido sobreposta em um procedimento de sobreposição e adição no domínio de tempo. Além disso, as porções cortadas são alteradas para uma posição correta dentro da estrutura atual e adicionadas à estrutura atual, de modo que a transformação de frequência-tempo do domínio de tempo e a transformação de tempos-frequência são realizadas no domínio da frequência. Isso é uma vantagem, pois uma transformação explícita do sinal pode ser negligenciada ou não executada, o que pode aumentar a eficiência computacional do calculador de fase 8 e do aparelho 2.

[0069] A Fig. 5 mostra um diagrama de blocos esquemático do aparelho 2, de acordo com uma aplicação adicional, centrando-se na reconstrução de sinal dos canais separados ou bandas de sinal de áudio 4. Portanto, o sinal de áudio 4 no domínio de tempo pode ser transformado para a sequência de estruturas de domínio de frequência 12 representando estruturas sobrepostas do sinal de áudio 4 utilizando um conversor tempo-frequência, por exemplo, uma STFT 42. Respectivamente, um estimador de magnitude modificado 44’ pode derivar uma magnitude 44 da sequência de estruturas de domínio de frequência ou componentes ou sinais de componentes da sequência de estruturas de domínio de frequência. Além disso, uma estimativa de fase inicial 18 pode ser calculada a partir da sequência de estruturas de domínio de frequência 12 utilizando um estimador de fase inicial 18’ ou o estimador de fase inicial 18’ pode escolher, por exemplo, um estimador de fase arbitrária 18, que não é derivada da sequência de estruturas de domínio de frequência 12. Com base na magnitude 44 da sequência de estruturas de domínio de frequência 12 e na estimativa de fase inicial 18, uma MSTFT 12’ pode ser calculada como uma sequência inicial de estruturas de domínio de frequência 12’ tendo uma magnitude (perfeitamente) reconstruída 44, que permanece inalterada em outro processamento, e apenas uma estimativa de fase inicial 18. A estimativa de fase inicial 18 é atualizada utilizando o calculador de fase 8.

[0070] Em uma etapa adicional, o conversor de frequência-tempo 22, por exemplo, uma STFT inversa (ISTFT), pode calcular a reconstrução de domínio de tempo intermediária 28 da sequência (inicial) de estruturas de domínio de frequência 12’. A reconstrução de domínio de tempo intermediária 28 pode ser modulada por amplitude, por exemplo, multiplicada, com um envelope alvo, ou, mais precisamente, o envelope de domínio de tempo alvo 14. O conversor de frequência-tempo 26, por exemplo, uma STFT, pode calcular a sequência adicional de estruturas de domínio de frequência 32 tendo valores de fase 10. A MSTFT 12’ pode utilizar o estimador de fase atualizado 10 e a magnitude 44 da sequência de estruturas de domínio de frequência 12 em uma sequência de atualização de estruturas de domínio de frequência. Este algoritmo iterativo pode ser realizado ou repetido L vezes dentro, por exemplo, do processador de iteração 16, que pode executar as etapas de processamento mencionadas acima do calculador de fase 8. Por exemplo, depois de concluído o processo de iteração, a reconstrução de domínio de tempo 28’ é derivada da reconstrução de domínio de tempo intermediária 28.

[0071] Em outras palavras, a seguir, o modelo de notação e de sinal mostrado e o método de reconstrução de sinal empregado é descrito. Depois disso, uma extensão para preservação do transiente no método da LSEE-MSTFTM é mostrada no contexto de um exemplo ilustrativo.

[0072] O valor real do sinal de domínio de tempo Discrete é considerado uma mistura de sinais dos componentes simultâneos. Um objetivo é decompor em um sinal transientee um sinal de componente residualtal que

[0073] Note que a decomposição é representada como uma aproximação, uma vez que o foco se dá na melhoria da qualidade perceptual do sinal transiente e aceita-se que a superposição de não pode produzir o original. No momento, presume-se que contém exatamente um transiente, cuja posição temporalé conhecida. Assume-se quecomseja um bin de TF de valor complexo na estrutura de tempoe o coeficiente spectralde uma Transformada de Fourier de Curta Duração (STFT). O coeficiente é calculado por onde e uma função de janela apropriada do tamanho do bloco é o parâmetro de tamanho de salto. Para manter a simplicidade, ele pode ser também escrito A partir de, o espectrograma de magnitude e o espectrograma de fase são derivados como: com, Presume-se que, através de algum procedimento de separação de fonte apropriado, seja possível estimar uma STFT modificada (MSTFT) que represente o sinal de componente do transiente. Mais especificamente, é definido, onde são estimativas de magnitude, espectrograma de fase resp., e o operador denota a multiplicação inteligente de elemento. A reconstrução do domínio de tempo é conseguida, primeiramente, pela aplicação da Transformada Discreta de Fourier (DFT | Discrete Fourier Transform) inversa para cada estrutura espectral, produzindo um conjunto de sinais de tempo intermediário definido por: por e para. Segundo, o método de reconstrução de erro dos minimos quadrados como

[0074] é aplicado, onde a janela de análise w é reutilizada como uma janela de sintese. Para simplificar, este procedimento é denotado como (referido como LSEE-MSTFT em [8]).

[0075] Uma vez que a estimativa paraé obtida no dominio de TF (tempo-frequência) , não se pode assumir que seja um sinal consistente. Na prática, é provável encontrar manchas de transientes e pré-ecos em . Isto é especialmente verdadeiro para N grandes. Para resolver esse problema, uma refinação iterativamente de pelo procedimento a seguir é proposta, onde o índice de rteraçao e introduzida e um determinado local de transiente no é utilizado. Dados , a estimativa da MSTFT inicial do componente do sinal de transiente é introduzida como e as etapas a seguir são repetidas para 1. 2. Reforça 3. 4.

[0076] A aplicação da Fig. 5 pode ser descrita mais generalizada utilizando sinais de componente indicados comem vez dos sinais de transiente descritos anteriormente, indicados com . No geral, com relação à todas as aplicações descritas, os sinais indicados por um subscrito c podem ser substituídos pelo sinal do sinal correspondente indicado por um expoente t, assim como o contrário. O subscrito c denota um sinal de componente onde o sobrescrito t denota um sinal de transiente, podendo ser um sinal de componente. Não obstante, um sinal tendo o sobrescrito t também pode ser substituído pelo (o mais geral) sinal tendo o subscrito c. As aplicações descritas em relação aos sinais dos transientes não estão limitadas ao sinal do transiente e podem, portanto, ser aplicadas a qualquer outro sinal de componente. Por exemplo pode ser substituída por e vice-versa.

[0077] Portanto, o sinal de domínio de tempo discreto de valor realé considerado ser um sinal de componente de uma mistura linear correspondendo às fontes individuais (por exemplo, os instrumentos). Como mostrado na Fig. 10a, cada sinal de componente contém, pelo menos, um evento de áudio transiente produzido pelo instrumento correspondente (no caso exemplar presente, o bater em um tambor). Além disso, presume-se que uma transcrição simbólica está disponível, especificando o tempo de início (ou seja, a posição do transiente) e o tipo de instrumento para cada um dos eventos de áudio. A partir da transcrição, o número total de eventos de início S é derivado, bem como o número de instrumentos exclusivos C. O objetivo é extrair os sinais de componentes individuais da mistura , conforme mostrado na Fig. 10. Para fins de avaliação, supõe-se ter disponível os sinais do componente “oracle” (ou seja, verdadeiro) . é decomposto no domínio de TF, para este efeito, a STFT é empregada conforme segue. Tomemos como sendo um coeficiente de TF de valores complexos na estrutura de tempo mésima e a posição espectral késima. O coeficiente é calculado por: onde é uma função de janela apropriada do tamanho do bloco é o parâmetro de tamanho de salto. O número de compartimentos de frequência é e o número de estruturas espectrais é determinado por amostras do sinal disponível. Para manter a simplicidade, ele pode ser escrito A seguir [2], é chamado de STFT consistente, já que é um conjunto de números complexos que foi obtido a partir do sinal de domínio de tempo real via (1). Em contraste, uma STFT inconsistente é um conjunto de números complexos que não foi obtido a partir de um sinal de domínio de tempo real. A partir de , o espectrograma de magnitude e o espectrograma de fase são derivados como: com

[0078] Tomemoscomo uma matriz não negativa mantendo uma versão transposta do espectrograma de magnitude da mistura . Um objetivo é decompor V em espectrogramas de magnitude do componente Vc que correspondam aos instrumentos distintos, conforme mostrado na Fig. 10b. No momento, presume-se que um estimador oracle extraia o desejado. Uma abordagem possível para estimar as magnitudes de componentes utilizando uma técnica de decomposição inovadora será descrita mais tarde. Para reconstruir um sinal de componente específico podemos definir onde e é uma estimativa de espectrograma de fase do componente. É prática comum utilizar a informação de fase da mistura como uma estimativa para e para inverter a MSTFT resultante através do método de reconstrução da LSEE-MSTFT a partir de [1]. O método aplica primeiramente a Transformada Discreta de Fourier (DFT) inversa para cada estrutura espectral em , produzindo um conjunto de sinais de tempo intermediário ym, com definido por: Para Em segundo lugar, a reconstrução de erro de mínimos quadrados é conseguida por: , onde a janela de análise w é reutilizada como janela de síntese. Para simplificar, este procedimento é denotado como (referido como LSEE-MSTFT em [1]).

[0079] Uma vez que a MSTFTé construída no domínio de TF, deve presumir-se que ela pode ser uma STFT inconsistente, ou seja, não pode existir um sinal de domínio de tempo real preenchendo. Intuitivamente falando, a interação complexa entre a magnitude e a fase provavelmente é corrompida, assim como a magnitude em determinadas posições de TF é modificada. Na prática, essa inconsistência pode levar a manchas dos transientes e pré-ecos em , especialmente para grandes.

[0080] Para resolver esse problema, propõe-se minimizar iterativamente a inconsistência depela seguinte extensão do procedimento LSEE-MSTFTM [1]. No momento, pode considerar-se que contém precisamente um evento de início do transiente, cuja localização exata no tempo ,/2<) é conhecida. Agora, o índice de iteração é introduzido. Dado o Ac e algumas estimativas da fase inicial , a estimativa inicial da STFT do sinal do componente alvo é introduzida e as próximas etapas são repetidas por

[0081] De acordo com as aplicações, um ponto vantajoso dos métodos, codificador ou decodificador descritos é a etapa intermediária 2, que impõe restrições de transientes no procedimento da LSEE-MSTFTM.

[0082] As Figs. 6a-d mostram um gráfico esquemático da restauração transiente, de acordo com uma aplicação, indicando um sinal de domínio de tempo 46, um envelope de sinal analítico 48 e um local transiente 50. A Fig. 6 ilustra o método ou aparelho proposto com o sinal de componente alvo 46, sobreposto com o envelope de seu sinal analítico 48 na Fig. 6a. O sinal de exemplo exibe um comportamento transiente ou um componente do sinal transiente em torno de n0 50, quando a forma de onda muda do silêncio para uma onda senoidal ou sinusoidal exponencialmente decadente. A Fig. 6b mostra a reconstrução de domínio do tempo obtida a partir da iSTFT com(ou seja, fase zero para todas posições de TF) . Através da interferência destrutiva da sobreposição de estruturas, o transiente é completamente destruído, a amplitude da onda senoidal é fortemente diminuída e o envelope parece quase plano. A Fig. 6c mostra a reconstrução com o transiente pronunciado indistinto após as iterações da LSEE- MSTFTM de L = 200. A Figura 6d mostra que o transiente restaurado após as iterações de L = 200 do método proposto é muito mais próximo ao sinal original. Pequenas ondulações são visíveis no envelope antes de no, mas, no geral, a restauração é muito próxima do sinal original. Nas gravações do mundo real, normalmente existem vários eventos de início transiente em todo o sinal. Neste caso, pode-se aplicar o método proposto para sinalizar os trechos localizados entre transientes consecutivos (inícios de resp.), conforme mostrado na Fig. 9.

[0083] A Fig. 7 mostra um diagrama de blocos esquemático do aparelho 2, de acordo com uma nova aplicação. Semelhante à Fig. 4, o calculador de fase realiza o cálculo de fase de domínio da frequência. O processamento de domínio de frequência pode ser igual ao processamento de domínio de tempo descrito em relação à aplicação mostrada na Fig. 5. Novamente, o sinal de domínio de tempo 4 pode ser transformado por tempo- frequência utilizando a STFT (executora) 42 para derivar a sequência de estruturas de domínio de frequência 12. Respectivamente, um estimador de magnitude modificada 44’ pode derivar a magnitude modificada 44 a partir da sequência de estruturas de domínio de frequência 12. O estimador de fase inicial 18’ pode derivar a sequência de estruturas de domínio de frequência a partir da estimativa de fase inicial 18 ou pode fornecer, por exemplo, uma estimativa de fase inicial arbitrária. Ao utilizar a estimativa de magnitude modificada e a estimativa da fase inicial, a MSTFT 12’ calcula ou determina a sequência inicial das estruturas de domínio de frequência 12’ que receberão os valores de fase atualizados após cada etapa da iteração. Diferente das aplicações da Fig. 5 é a sequência (inicial) de estruturas de domínio de frequência 12’ do calculador de fase 8. Com base na síntese de domínio de tempo e na janela de análise, por exemplo, a síntese e a janela de análise utilizadas na ISTFT 22 ou na STFT 26 na Fig. 5, um calculador de núcleo de convolução 52’ pode calcular o núcleo de convolução 52 utilizando uma representação de domínio de frequência das janelas de análise e da síntese. O núcleo de convolução corta (fatia ou utiliza) partes de estruturas vizinhas ou adjacentes de uma estrutura de domínio de frequência atual que se sobreporia à estrutura atual utilizando sobreposição-e-adição na ISTFT 22. Um calculador de alteração do núcleo 54’ pode calcular um núcleo de alteração 52 e aplicar o núcleo de alteração 52 nas partes das estruturas de domínio de frequência adjacentes para alterar as partes para uma posição de sobreposição correta de uma estrutura de domínio de frequência atual. Isto pode emular a operação de sobreposição do processo de sobreposição-e-adição da ISTFT 22. Além disso, o bloco 56 executa a adição do processo de sobreposição-e-adição e adiciona as partes sobrepostas das estruturas adjacentes ao período da estrutura central. O cálculo e a aplicação do núcleo de convolução, o cálculo e a aplicação do núcleo de alteração, e a adição no bloco 56 podem ser realizados no processador de convolução 40. A emissão do processador de convolução 40 pode ser uma reconstrução de domínio de frequência intermediária 28’ da sequência de estruturas de domínio de frequência 12 ou a sequência inicial de estruturas de domínio de frequência 12’. A reconstrução do domínio de frequência intermediária 28’ pode ser convolvida (inteligente de estrutura) com uma representação de domínio de frequência do envelope alvo 14 utilizando a convolução 34. A emissão da convolução 34 pode ser a sequência adicional de estruturas de domínio de frequência 32’ tendo os valores de fase 10. Os valores de fase 10 substituem a estimativa da fase inicial 18 na MSTFT 12’ na etapa de iteração adicional. A iteração pode ser executada L vezes utilizando o processador de iteração 15. Após o processo de iteração ser interrompido, ou a um certo ponto do tempo dentro do processo de iteração, uma reconstrução de domínio de frequência final 28’’’ pode ser derivado do processador de convolução 40. A reconstrução de domínio de frequência final 28’’’ pode ser a reconstrução do domínio de frequência intermediária 28’ de uma etapa de iteração mais recente. Utilizando um conversor de frequência- tempo 38, uma ISTFT, por exemplo, a reconstrução de domínio de tempo 28’, pode ser obtida, podendo ser o sinal de áudio processado 6.

[0084] Em outras palavras, é vantajoso aplicar uma etapa intermediária na iteração da LSEE-MSTFTM. Isso pode impor todas as amostras à frente do transiente para zero antes de computar a STFT novamente para obter uma estimativa atualizada JH1) das fases Essa restrição também pode ser aplicada diretamente no domínio de TF. Portanto, definir alguns pré- requisitos pode ser vantajoso. Primeiramente, a normalização para a soma das funções de janela de tempo alterado e ao quadrado, no denominador de (6) pode ser omitida pela imposição de determinadas condições em W e (por exemplo, utilizando uma janela de Hann simétrica e exigindo que a redundância seja a base 4 [2]). O número de posições espectrais (até a conjugação) único por estrutura ée o argumento de frequência é avaliado por Concentrando-se agora em uma única estrutura espectral, a operação de aplicação sucessiva da iSTFT e da STFT pode ser novamente expressa no domínio de TF como uma superposição de contribuições espectrais ponderadas de estruturas anteriores e posteriores. Somente estruturas que se sobrepõem com as centrais precisam ser consideradas. Isso é expresso por um índice de estruturas vizinhas Dois núcl eos de TF são construídos, o primeiro deles sendo um núcleo de convolução que captura a DFT do produto inteligente de elemento da janela de síntese com uma versão de tempo deslocada e truncada da janela de análise. O segundo núcleo é um multiplicative necessário para mudar a contribuição a partir de estruturas para a posição correta dentro da estrutura central. Os núcleos são aplicados a cada bin de TF em sucessão

[0085] Agora, a restauração transiente proposta pode ser incluída de forma direta por uma segunda operação de convolução que só precisa ser aplicada às estruturas em que ^0 está localizada. Os núcleos de convolução correspondentes podem ser tomados de forma inteligente de estrutura a partir da STFT de uma função de Heaviside apropriadamente deslocada

[0086] Note que, além de usar esta função formada da etapa, propõe-se utilizar a STFT de sinais de envelope de amplitude de domínio de tempo de envelope arbitrariamente formados. Afirma-se que uma vasta gama de restrições de reconstrução possa ser instituída através de modulação de sinal adequada na convolução respectiva de domínio de tempo no domínio de TF.

[0087] Conforme mostrado em [4], a carga computacional de aplicação dos operadores de domínio de frequência pode ser reduzida truncando o núcleo de convolução por um número menor de coeficientes centrais. Isto é heuristicamente motivado pela observação, que os coeficientes mais pronunciados estão localizados ao redor de Experimentos têm mostrado que a reconstrução de TF está, ainda, muito perto da reconstrução de domínio de tempo se for truncado no sentido de frequência paraAlém disso,é Hermitiano, se as funções de janela forem adequadamente escolhidas. Com base nestas simetrias complexas conjugadas, as multiplicações complexas e, portanto, o poder de processamento, serão poupados. Além disso, não é necessário considerar uma atualização de fase de cada bin de frequência.Em vez disso, pode-se selecionar uma fração das posições que apresentam a maior magnitude e aplicar (9’) apenas para aqueles, uma vez que eles vão dominar a reconstrução. Conforme será mostrado, um primeiro palpite razoável para a informação de fase também irá ajudar a acelerar a convergência da reconstrução.

[0088] Para a avaliação, a reconstrução da LSEE- MSTFTM (denotada como GL) convencional é comparada com o método proposto (denotado como TR) sob duas estratégias de inicialização diferentes para. A seguir, o conjunto de dados utilizado, a geração do item de teste e as métricas de avaliação utilizadas são descritas.

[0089] Em todos os experimentos, um conjunto de dados “IDMT-SMT-Drums” publicamente disponível é utilizado. No subconjunto “WaveDrum02”, existem 60 loops de bateria, cada qual fornecido como gravações de faixas únicas perfeitamente isoladas (ou seja, sinais de componentes Oracle) dos três instrumentos: bumbo, caixa e chimbau. Todas as gravações de 3x60 são no formato PCM WAV descompactado com taxa de amostragem de 44:1 kHz, 16 Bit, mono. Ao misturar todas as três faixas únicas juntas obtêm-se 60 sinais de mistura. Além disso, os tempos de início e, portanto, o n0 aproximado de todos os inícios estão disponíveis por instrumento individual. Utilizando esta informação, um conjunto de testes de 4421 eventos de início de bateria é construído tomando trechos de misturas, cada qual localizado entre os inícios consecutivos do instrumento alvo. Ao fazer isso, as amostras N à frente de cada trecho têm zero preenchimento. A fundamentação é deliberadamente preceder uma seção de silêncio na frente da posição do transiente local. Dentro dessa seção, a influência de degradação do início das notas anteriores pode ser descartada e os pré-ecos potencialmente ocorrendo podem ser medidos. Por sua vez, isto leva a uma alteração virtual da localização do transiente local para n0 + N (que é indicado, novamente, como n0 para conveniência notacional).

[0090] A Fig. 8 mostra um diagrama esquemático do domínio de tempo ilustrando um segmento ou estrutura de um sinal de áudio ou um item de teste. A Fig. 8 mostra o sinal de mistura 61a, o sinal de chimbau alvo 61b, a reconstrução utilizando a LSEE-MSTFTM 61c em comparação com a restauração transiente 61d, ambas obtidas após 200 iterações aplicadas por trecho de início 60, que é, por exemplo, o trecho entre as linhas tracejadas 60’ e 60’’. O sinal de mistura 61a exibe claramente a influência do bumbo e da caixa para o sinal do chimbau alvo 61b.

[0091] As Figs. 9a-c ilustram diagramas esquemáticos de diferentes sinais de componentes do chimbau de um loop de bateria exemplar. A posição do transiente n0 62 é indicada por uma linha sólida, caracterizada pelos limites do trecho 60’ e 60’’ serem indicados pelas linhas tracejadas. A Fig. 9a mostra um sinal de mistura na parte superior versus um sinal de chimbau Oracle na parte inferior. A Fig. 9b mostra um sinal de chimbau obtido a partir de uma inicialização com a magnitude da Oracle e o período de fase zero. A reconstrução depois de L, igualada a 200 iterações de GL, é mostrada na parte superior da Fig. 9b versus a TR na parte inferior da Fig. 9b. A Fig. 9c mostra um sinal de chimbau obtido a partir da inicialização com magnitude com base na NMFD em fase zero, o processamento com base na NMFD será descrito em relação às (a especificação de) Figs. de 12 a 14. A reconstrução depois de L, igualada a 200 iterações de GL, é apresentada na parte superior da Fig. 9c e a TR na parte inferior da Fig. 9c. Uma vez que a decomposição funciona muito bem para o loop de bateria exemplar, não há quase nenhuma diferença visual perceptível entre a Fig. 9b e a Fig. 9c.

[0092] A Fig. 10 mostra uma ilustração esquemática do sinal. A Fig. 10a indica o sinal de mistura x 64a como a soma de sinais do componente xc c = 3, cada um contendo sequências de amostras de som de baterias sintéticas, por exemplo, a partir de uma máquina Roland TR808. x1 64a’’’ indica um bumbo, x2 64a’’ indica uma caixa e x3 64a’ indica um chimbau. A Fig. 10b mostra uma representação de tempo-frequência do espectrograma de magnitude da mistura V e dos espectrogramas de magnitude dos componentes c = 3 Vc. Para melhor visibilidade, o eixo de frequência é criado para o espaçamento logarítmico e as magnitudes foram comprimidas logaritmicamente. Além disso, as representações de tempo- frequência dos sinais 64a são indicadas com o sinal de referência 64b. Além disso, na Fig. 9, os limites de trecho ajustados são visualizados por linhas tracejadas e o n0 virtualmente alterado pela linha sólida. Uma vez que os loops de bateria são ritmos realistas, os trechos apresentam graus variados de superposição com os instrumentos de percussão restantes tocados simultaneamente. Na Fig. 9a, a mistura (para superior) exibe uma influência pronunciada do bumbo em comparação com o sinal isolado do chimbau (parte inferior). Para comparação, os dois gráficos superiores na Fig. 10a mostram uma versão ampliada da mistura x e o componente de chimbau x3 do sinal utilizado como exemplo. No gráfico inferior, pode-se ver o bumbo x1 em isolamento. Isso é amostrado a partir de, por exemplo, um computador de percussão Roland TR 808 e se assemelha a uma onda senoidal decaindo.

[0093] A seguir, figuras de avaliação serão mostradas para cenários de teste diferentes, onde dois casos de testes são utilizados para inicializar a MSTFT. O caso 1 utiliza a estimativa da fase inicial e a estimativa de 4 4 Oracle magnitude fixa . De acordo com a notação do transiente, o caso 1 utiliza a estimativa de fase inicial , e a estimativa de magnitude fixa Em outras palavras, a informação de fase do sinal separado ou do sinal parcial é retirada da fase do sinal de áudio da mistura, em vez de, por exemplo, uma fase do sinal separado ou do sinal parcial. Além disso, o caso 2 utiliza a estimativa de fase inicial e a estimativa de magnitude fixa . De acordo com a notação do transiente, o caso 2 é como a estimativa da fase inicial e a estimativa de magnitude fixa Neste documento, a estimativa da fase inicial é inicializada utilizando o valor (arbitrário) 0, mesmo que possa ser obtido um efeito como o mostrado na Fig. 6b. Além disso, ambos os casos de teste utilizam valores de amplitude do sinal separado ou parcial do sinal de áudio. Novamente, pode ser visto que a notação é mutuamente aplicável.

[0094]é introduzido para denotar a aplicação sucessiva da iSTFT e STFT (núcleo ao algoritmo da LSEE-MSTFTM) na Na sequência [10], em cada iteração l, a medida de consistência normalizada (NCM | normalized consistency measure) é calculada como

[0095] para ambos os casos de testes. Como uma medida mais dedicada para a restauração transiente, a energia do pré- eco é computada como:

[0096] a partir da seção entre o início do trecho e o local transiente nas reconstruções do sinal do componente de,domínio de tempo intermediárias para ambos os casos de testes.

[0097] A Fig. 11a mostra uma evolução da medida de consistência normalizada versus o número de iterações. A Fig. 11b mostra a evolução da energia de pré-eco versus o número de iterações. As curvas mostram os trechos médios de testes no geral. Além disso, resultados derivados utilizando o algoritmo de GL são indicados por linhas tracejadas, caracterizado pelos resultados derivados do algoritmo de TR serem indicados utilizando linhas sólidas. Além disso, a inicialização do caso 1 é indicada com o número de referência 66a, 66a’, em que as curvas derivadas utilizando a inicialização do caso 2 são indicadas com o sinal de referência 66b, 66b’. As curvas da Fig. 11 são derivadas calculando a STFT de cada trecho de mistura através de (1), com h = 1024 e n = 4096 e são denotadas como. Como um alvo de referência, o mesmo trecho é retirado, e o mesmo preenchimento zero é aplicado, dessa vez a partir da faixa única de cada instrumento de percussão individual, denotando a STFT resultante como . O sinal do componente correspondente é . As iterações de L = 200, tanto da LSEE-MSTFTM (GL) quanto do método ou aparelho (TR) proposto, são utilizadas.

[0098] A evolução de ambas as medidas de qualidade a partir de (11) e (12), com relação à i é mostrada na Fig. 11. O diagrama (a) indica que, em média, o método proposto (TR) é executado tão bem quanto o da LSEE-MSTFTM (GL) em termos de redução de inconsistência. Em ambos os casos de teste, pode ser observado o mesmo comportamento relativo das medidas de TR (linha contínua) e GL (linha tracejada). Conforme esperado, as curvas 66a, 66a’ (Caso 1) iniciam em uma inconsistência inicial muito menor do que as curvas 66b, 66b’ (Caso 2), claramente devido à inicialização com a fase de mistura ^Mix • O diagrama 11b mostra o benefício de TR para redução do pré-eco. Em ambos os casos de teste, a medida de TR 66a 66b (linhas sólidas) exibem cerca de 20 dB menos de energia de pré-eco em comparação com as medidas de GL (linha tracejada). Novamente, a inicial mais consistente do caso 1 66a, 66a’ pode apresentar um considerável avanço em termos de redução do pré-eco em relação ao caso 2 66b, 66b’. Surpreendentemente, o processamento de TR proposto aplicado ao caso 2 supera ligeiramente ao de GL aplicado ao caso 1 em termos de redução do pré-eco para L > 100. A partir desses resultados, pode deduzir-se que é suficiente aplicar somente algumas iterações (por exemplo, L < 20) do método proposto em cenários onde uma estimativa razoável de fase e magnitude inicial esteja disponível. No entanto, pode haver mais aplicações de iterações (por exemplo, L < 200) no caso de uma boa estimativa de magnitude em conjunto com uma estimativa de fase fraca e vice-versa estar disponível. Na Fig. 8, são mostradas diferentes versões de um segmento de um item de teste do caso e de teste. A reconstrução de TR 61d exibe claramente os pré-ecos reduzidos em comparação com a reconstrução com LSEE-MSTFTM 61c. O sinal de referência do chimbau 61b e o sinal de mistura 61a são mostrados acima.

[0099] No entanto, as figuras a seguir são derivadas utilizando um tamanho de salto diferente e um comprimento de janela diferente, conforme descrito abaixo.

[0100] Para cada trecho de mistura, a STFT é calculada através de (1) com H = 512 e N = 2048 e denotada como. Uma vez que todos os itens de teste têm uma taxa de amostragem de 44:1 kHz, a resolução de frequência é de, aproximadamente, 21,5 Hz, e a resolução temporal é de, aproximadamente, 11,6 ms. Uma janela Hann simétrica de tamanho N é usada para w. Como um alvo de referência, os mesmos limites do trecho são tomados, é aplicado o mesmo preenchimento zero, mas desta vez a partir da faixa única de cada instrumento de percussão individual, a STFT resultante é denotada como Posteriormente, dois casos diferentes para a inicialização de são definidos conforme detalhado acima. Utilizando essas configurações, a inconsistência do resultante deverá ser inferior no caso 1 em relação ao caso 2. Sabendo que existe umconsistente, as iterações de L = 200, tanto da LSEE- MSTFTM (GL) quanto do método e aparelho propostos (TR), são passadas.

[0101] A Fig. 12a mostra um diagrama esquemático de uma evolução da medida de consistência normalizada versus o número de iterações. A Fig. 12b mostra a evolução da energia pré-eco versus o número de iterações. As curvas mostram a média de todos os trechos de teste. Em outras palavras, a Fig. 12 mostra a evolução das medidas de qualidade de (6) e (7) no que diz respeito à . A Fig. 12a indica que, em média, o método proposto (TR) realiza é executado tão bem quanto a LSEE-MSTFTM (GL) em termos de redução de inconsistência. Em ambos os casos de teste, as curvas para TR (linha contínua) e GL (linha tracejada) são quase indistinguíveis, o que indica que a nova abordagem, ou seja, o método ou aparelho, mostra propriedades semelhantes de convergência, assim como no método original. Conforme esperado, as curvas 66a, 66a’ (Caso 1) iniciam em uma inconsistência inicial muito menor do que as curvas 66b, 66b’ (Caso 2), claramente devido à inicialização com a fase de mistura. A Fig. 12b mostra o benefício de TR para redução do pré-eco. Em ambos os casos de teste, a energia de pré-eco para TR (linhas contínuas) é mais baixa em torno de 15 dB, e mostra uma diminuição mais acentuada durante as poucas primeiras iterações em comparação com GL (linha tracejada). Novamente, a inicial mais consistente do Caso 1 66a, 66a’ exibem um considerável avanço em termos de redução do pré-eco em relação ao Caso 2 66b, 66b’. Nesses resultados, infere-se que é suficiente aplicar somente algumas iterações (por exemplo, L < 20) do método proposto em cenários onde uma estimativa razoável de fase inicial e magnitude está disponível. No entanto, aplicar mais iterações (por exemplo, L < 200) pode ser vantajoso no caso de uma boa magnitude estimada em conjunto com uma estimativa de fase fraca e vice- versa estar presente.

[0102] A seguir, serão descritas aplicações de como aplicar o método ou o aparelho de restauração transiente proposto em um cenário de decomposição de áudio obtida por pontuação. Um objetivo é a extração de sons isolados de bateria a partir de gravações polifônicas de baterias com uma preservação reforçada de transientes. Em contraste com as condições laboratoriais idealizadas utilizadas antes, os espectrogramas de amplitude dos sinais de componente a partir da mistura são estimados. Para este fim, uma NMFD (Non-Negative Matrix Factor Deconvolution | Deconvolução do Fator Matriz Não Negativo) [3, 4] pode ser empregada como técnica de decomposição. As aplicações descrevem uma estratégia para impor restrições obtidas por pontuação na NMFD. Finalmente, as experiências se repetem nestas condições mais realistas e as observações são discutidas.

[0103] A seguir, o método de NMFD empregado para decompor a representação de TF é brevemente descrito. Como já indicado, existe uma grande variedade de abordagens alternativas de separação. Trabalhos anteriores [3, 4] aplicaram com sucesso a NMFD, uma versão convolutiva de NMF, para separação de som da bateria. Intuitivamente falando, o modelo convolutivo ou de convolução subjacente assume que todos os eventos de áudio em um dos sinais do componente podem ser explicados por um evento protótipo que atua como uma resposta de impulso para algumas ativações relacionadas ao início (por exemplo, o bater em uma bateria em especial). Na Fig. 10b pode- se ver este tipo de comportamento no componente do chimbau V3. Lá, todas as instâncias dos eventos de início 8 parecem mais ou menos cópias uns dos outros, o que pode ser explicado através da inserção de um evento protótipo em cada posição de início.

[0104] O NMF pode ser utilizado para calcular uma fatoraçãoonde as colunas representam funções de base espectrais (também chamadas de modelos) e as linhas de contêm diferentes ganhos de tempo (também chamados de ativações). A NMFD estende este modelo para o caso de um caso convolutivo utilizando modelos bidimensionais de forma que cada uma das bases espectrais C possa ser interpretada como um trecho de espectrograma de magnitude consistindo de estrutura espectrais espectral frames. Para este fim, a aproximação convolutiva de espectrograma é modelada como:

[0105] onde

[0106]denota um operador de alteração de estrutura. Como antes, cada coluna em representa a base espectral de um determinado componente, mas desta vez, versões diferentes do estão disponíveis. Concatenando uma coluna específica a partir de todas as versões de W -, pode-se obter um espectrograma de magnitude protótipo, conforme mostrado na Figura 13. A NMFD normalmente começa com uma inicialização apropriada de matrizes . Posteriormente, estas matrizes são iterativamente atualizadas para minimizar uma medida de distância adequada entre a aproximação convolutiva .

[0107] A Fig. 13 mostra modelos da NMFD e ativações calculadas para a gravação de bateria exemplar da Fig. 10. O espectrograma de magnitude V é mostrado no gráfico inferior à direita. Os três à esquerda desses gráficos são modelos espectrais em que foram extraídos através da NMFD. Suas ativações correspondentes 78 e a inicialização obtida por pontuação 70bsão mostradas nos três gráficos superiores.

[0108] A inicialização adequada de e é um meio eficaz para restringir os graus de liberdade nas iterações da NMFD e impor a convergência para uma solução desejada, musicalmente significativa. Uma possibilidade é impor restrições obtidas por pontuação, derivadas de uma transcrição simbólica alinhada ao tempo. Para este fim, as linhas individuais desão inicializadas conforme segue: cada estrutura correspondente a um início do instrumento de precursão respectivo é inicializada com um impulso de amplitude de unidade, todos as estruturas restantes com uma constância pequena. Depois disso, um filtro médio não-linear móvel exponencialmente é aplicado para modelar o decaimento curto típico de um evento da bateria. O resultado 70 dessa inicialização é mostrado como a curva 70b nos três gráficos superiores da Figura 13.

[0109] Melhores resultados de separação podem ser obtidos pela inicialização obtida por pontuação, tanto dos modelos quanto das ativações. Para a separação de instrumentos afinados (por exemplo, o piano), séries prototípicas de sobretons podem ser construídos em. Para a bateria, é mais difícil modelar as bases espectrais de protótipo. Assim, foi proposto inicializar as bases com espectrogramas médios ou fatorizados de sons isolados de bateria [21, 22, 4]. No entanto, uma alternativa simples é utilizada ao se computar, primeiramente, um NMF convencional cujas ativações H e os modelos W sejam inicializados pelo obtido por pontuação e pelas configurações de

[0110] Com essas configurações, os modelos de fatoração resultantes são geralmente uma aproximação bastante decente do espectro médio de cada instrumento de percussão envolvido. Simplesmente replicar esses espectros para todos osserve como uma boa inicialização para os espectrogramas do modelo. Após algumas iterações da NMFD, cada espectrograma do modelo corresponde, tipicamente, ao espectrograma protótipo dos instrumentos de percussão correspondentes, e cada função de ativação corresponde à ativação deconvolvida de todas as ocorrências desse instrumento de percussão em particular durante a gravação. Um resultado de decomposição típico é mostrado na Fig. 13, onde se pode ver que os modelos extraídos (os três gráficos mais à esquerda) assemelham-se a versões protótipo dos eventos de início em V (gráfico inferior direito). Além disso, a localização dos impulsos no H extraído 70a (os três gráficos mais ao topo) está muito próxima da máxima da inicialização obtida por pontuação.

[0111] A seguir, é descrito como processar os resultados da NMFD, a fim de extrair os componentes desejados. Tomemoscomo sendo a matriz de ativação aprendida pela IT z- πjCxM NMFD. Então, para cada a matriz é definida ajustando todos os elementos para zero, exceto para a linha césima que contém as ativações desejadas encontradas anteriormente via NMFD. O espectrograma de magnitude do componente césimo é aproximado por . Uma vez que o modelo da NMFD produz apenas uma aproximação de baixa classificação de V, as nuances espectrais não podem ser bem capturas. Para resolver esse problema, é prática comum calcular máscaras macias que podem ser interpretadas como uma matriz de ponderação, refletindo a contribuição de para a mistura V. A máscara correspondente ao componente desejado pode ser computada como onde denota a divisão inteligente de elemento e é uma constante positiva pequena para evitar a divisão por zero. A estimativa com base no mascaramento do espectrograma de magnitude do componente é obtida como com denotando a multiplicação inteligente de elemento. Este procedimento também é, muitas vezes, referido como filtragem de Wiener.

[0112] A seguir, a experiência anterior da Fig. 12a e b é basicamente repetida. Os mesmos parâmetros da STFT e limites do trecho são mantidos conforme utilizado nos exemplos anteriores. Desta vez, contudo, os espectrogramas de magnitude do componente não são derivados dos sinais de componentes oracle, mas extraídos da mistura utilizando 30 iterações da NMFD. Por conseguinte, dois novos casos de teste são introduzidos. O Caso de teste 3 66c, 66c’ utiliza a estimativa de fase iniciale a estimativa de magnitude fixa , caracterizado pelo caso de teste 4 66d utilizar a estimativa de fase inicial e a estimativa de magnitude fixa.

[0113] A Fig. 14a mostra uma evolução da medida de consistência normalizada versus o número de iterações. A Fig. 14b mostra uma evolução da energia pré-eco versus o número de iterações. As curvas mostram os trechos médios dos testes em geral, os limites de eixo sendo os mesmos como na Fig. 12. Além disso, na Fig. 14a, a redução de inconsistência obtida utilizando a reconstrução TR 66c, 66d (linhas sólidas) é indistinguível do método GL c 66’, 66d’ (linhas tracejadas). As melhorias são menos significativas, em comparação com os números que podem ser obtidos ao utilizar estimativas de magnitude do Oracle (compare na Fig. 12a). Em média, as -Mix reconstruções no caso 3 c 66c, 66c’ (inicializado com parecem rapidamente ficar presas em um local ideal. Presumivelmente, isso é devido à decomposição da NMFD imperfeito das estruturas de espectrograma relacionadas ao início, onde todos os instrumentos apresentam uma distribuição mais ou menos plana de magnitude e, assim, mostram uma sobreposição espectral maior.

[0114] Na Fig. 14b, a redução de pré-eco com as estimativas de magnitude com base na NMFD e fase zero (Caso 4, gráfico 66d e 66d’) funcionam um pouco pior do que no Caso 2 (vide a Fig. 12b). Isso dá suporte às conclusões anteriores, onde estimativas de fase inicial fracas se beneficiam ao máximo da aplicação de muitas iterações do método proposto. Uma reconstrução de GL utilizando (Caso 3, gráfico 66c, 66c’) aumenta ligeiramente a energia pré-eco sobre as iterações. Em contraste, aplicar a reconstrução de TR rende uma boa melhoria.

[0115] Na Fig. 9, diferentes reconstruções de um início de chimbau selecionado a partir do loop de bateria exemplar é mostrado em detalhes. Independentemente da magnitude estimada utilizada (Oracle na Fig. 9b ou com base na NMFD na Fig. 9c), a reconstrução de TR proposta (inferior) claramente exibe pré-ecos reduzidos em comparação com a reconstrução de GL convencional (superior). Pelos testes de audição informais (de preferência utilizando fones de ouvido), pode-se detectar claramente as diferenças na clareza de início que pode ser conseguida com diferentes combinações de métodos de reconstrução e inicializações da MSTFT. Mesmo em casos onde uma decomposição de magnitude imperfeita leva a perturbações indesejados de conversas cruzadas nos sinais de componentes únicos, o método de TR, de acordo com as aplicações, preserva melhor as características do transiente do que a reconstrução de GL convencional. Além disso, a utilização da fase de mistura para a inicialização da MSTFT parece ser uma boa escolha, uma vez que se pode frequentemente notar as diferenças sutis na reconstrução da fase de decadência dos eventos da bateria em comparação com os sinais de Oracle. No entanto, as diferenças de timbre causadas por uma decomposição de magnitude imperfeita são muito mais pronunciadas.

[0116] As aplicações mostram uma extensão eficaz para o procedimento da LSEE-MSTFTM iterativa de Griffin e Lim para restauração melhorada dos componentes do sinal transiente na separação da fonte musical. O aparelho, codificador, decodificador ou o método utiliza informações secundárias adicionais sobre a localização dos transientes, podendo ser dadas em um cenário de separação da fonte informada.

[0117] De acordo com aplicações adicionais, é mostrada uma extensão eficaz para o procedimento da LSEE-MSTFTM iterativa de Griffin e Lim para restauração melhorada dos componentes do sinal transiente na separação da fonte musical. O método ou aparelho utiliza informações secundárias adicionais sobre a localização dos transientes, que são consideradas como dados em um cenário de separação da fonte informada. Dois experimentos com o conjunto de dados “IDMTSMT- Drums” publicamente disponível mostram que o método, codificador ou decodificador, de acordo com as aplicações, é benéfico na redução de pré-ecos, tanto em condições laboratoriais como para sinais de componentes obtidos pela utilização de uma técnica de separação da fonte inovadora.

[0118] De acordo com as aplicações, é melhorada a qualidade perceptual dos componentes de sinal dos transiente extraídos no contexto da separação da fonte musical. Muitas técnicas inovadoras baseiam-se na aplicação de uma decomposição adequada à Transformada de Fourier de Curta Duração (STFT) da magnitude do sinal de mistura. A informação de fase usada para reconstrução de sinais de componentes individuais é geralmente tomada da mistura, resultando em uma STFT modificada valorizada complexa (MSTFT). Existem diferentes métodos para reconstruir um sinal de domínio de tempo cuja STFT aproxima-se da MSTFT alvo. Devido a inconsistências de fase, estes sinais reconstruídos são susceptíveis de conter perturbações como pré-ecos anteriores aos componentes transientes. Aplicações mostram uma extensão do processo de reconstrução de sinal iterativo por Griffin e Lim para sanar esse problema. Uma experiência cuidadosamente elaborada utilizando um conjunto de testes publicamente disponível mostra que o método ou aparelho atenua consideravelmente os pré-ecos enquanto ainda mostra propriedades semelhantes de convergência como a abordagem original.

[0119] Em um experimento adicional, é mostrado que o método ou o aparelho atenua consideravelmente os pré-ecos enquanto ainda mostra propriedades semelhantes de convergência como a abordagem original por Griffin e Lim. Um terceiro experimento envolvendo uma decomposição de áudio obtida por pontuação também mostra melhorias.

[0120] As figuras a seguir se relacionam a aplicações adicionais em conexão com o aparelho 2.

[0121] A Fig. 15 mostra um codificador de áudio 100 para codificação de um sinal de áudio 4. O codificador de áudio compreende um processador de sinal de áudio e um determinador de envelope. O processador de sinal de áudio 102 é configurado para codificação de um sinal de áudio de domínio de tempo de forma que o sinal de áudio codificado 108 compreenda uma representação de uma sequência ou estruturas de domínio de frequência do sinal de áudio de domínio de tempo e uma representação de um envelope de domínio de tempo alvo 106. O determinador de envelope é configurado para determinar um envelope a partir do sinal de áudio de domínio de tempo, caracterizado pelo determinador de envelope ser configurado, ainda, para comparar o envelope a um conjunto de envelopes predeterminado para determinar uma representação de envelope de domínio de tempo alvo com base na comparação. O envelope pode ser um envelope de domínio de tempo de uma parte do sinal de áudio, por exemplo, e o envelope de uma estrutura ou uma porção adicional do sinal de áudio. Além disso, o envelope pode ser fornecido para o processador de sinal de áudio que pode ser configurado para incluir o envelope no sinal de áudio codificado.

[0122] Em outras palavras, um codificador de áudio (padrão) pode ser estendido para o codificador de áudio 100 determinando um envelope, por exemplo, um envelope de domínio de tempo de uma porção, por exemplo, uma estrutura do sinal de áudio. O envelope derivado pode ser comparado a um conjunto ou a um número de envelopes de domínio de tempo predeterminado em um livro de códigos ou uma tabela de consulta. A posição do envelope predeterminado mais apropriado pode ser codificada utilizando, por exemplo, um número de bits. Portanto, podem ser utilizados quatro bits para abordar, por exemplo, 16 envelopes de domínio de tempo diferentes predeterminados, 5 bits para abordar, por exemplo, 32 envelopes de domínio de tempo diferentes predeterminados, ou qualquer número maior de bits, dependendo do número de envelopes de domínio de tempo diferentes predeterminados.

[0123] A Fig. 16 mostra um decodificador de áudio 110, compreendendo o aparelho 2 e uma interface de entrada 112. A interface de entrada 112 pode receber um sinal de áudio codificado. O sinal de áudio codificado pode incluir uma representação de sequência de estruturas de domínio de frequência e uma representação do envelope de domínio de tempo alvo.

[0124] Em outras palavras, o decodificador 110 pode receber o sinal de áudio codificado, por exemplo, a partir do codificador 100. A interface de entrada 112 ou o aparelho 2 ou um meio adicional pode extrair o envelope de domínio de tempo alvo 14 ou uma representação respectiva, por exemplo, uma sequência de bits que indica uma posição do envelope de domínio de tempo alvo em uma tabela de pesquisa ou em um livro de códigos. Além disso, o aparelho 2 pode decodificar o sinal de áudio codificado 108, por exemplo, ajustando fases corrompidas do sinal de áudio codificado tendo, ainda, valores de magnitude não corrompidos, ou o aparelho pode corrigir valores de fase de um sinal de áudio decodificado, por exemplo, a partir de uma unidade de decodificação que decodifique suficiente, ou mesmo perfeitamente, a amplitude espectral do sinal de áudio codificado, o aparelho ajustando, ainda, a fase do sinal de áudio decodificado que pode ser corrompida pela unidade de decodificação.

[0125] A Fig. 17 mostra um sinal de áudio 114, compreendendo uma representação de uma sequência de estruturas de domínio de frequência 12 e uma representação de um envelope de domínio de tempo alvo 14. A representação de uma sequência de estruturas de domínio de frequência do sinal de áudio de domínio de tempo 12 pode ser um sinal de áudio codificado de acordo com um esquema de codificação de áudio padrão. Além disso, a representação de um envelope de domínio de tempo alvo 14 pode ser uma representação de bit do envelope de domínio de tempo alvo. A representação de bit pode ser derivada, por exemplo, utilizando amostragem e quantização do envelope de domínio de tempo alvo ou por um método de digitalização adicional. Além disso, a representação do envelope de domínio de tempo alvo 14 pode ser um índice de, por exemplo, um livro de códigos ou uma tabela de consulta indicada ou codificada com um número de bits.

[0126] A Fig. 18 mostra um diagrama de blocos esquemático de um processador de separação de fonte de áudio 116, de acordo com uma aplicação. O processador de separação de fonte de áudio compreende o aparelho 2 e um mascarador espectral 118. O mascarador espectral pode mascarar um espectro do sinal de áudio original 4 para derivar um sinal de áudio modificado 120. Comparado ao sinal de áudio original 4, o sinal de áudio modificado 120 pode compreender um número reduzido de bandas de frequência ou posições de frequência de tempo. Além disso, o sinal de áudio modificado pode compreender apenas uma fonte ou um instrumento ou um falante (humano) do sinal de áudio 4, caracterizado pelas contribuições de frequência de outras fontes, falantes ou instrumentos serem escondidas ou mascaradas para fora. No entanto, uma vez que os valores de amplitude do sinal de áudio modificado 120 podem corresponder aos valores de amplitude do sinal áudio processado (desejado) 6, os valores de fase do sinal de áudio modificado podem estar corrompidos. Portanto, o aparelho 2 pode corrigir os valores de fase do sinal de áudio modificado com relação ao envelope de domínio de tempo alvo 14.

[0127] A Fig. 19 mostra um diagrama de blocos esquemático de um processador de reforço de largura de banda 122, de acordo com uma aplicação. O processador de reforço de largura de banda 122 é configurado para processamento de um sinal de áudio codificado 124. Além disso, o processador de reforço de largura de banda 122 compreende um processador de reforço 126 e o aparelho 2. O processador de reforço 126 é configurado para gerar um sinal de reforço 127 a partir de uma banda de sinal de áudio incluída no sinal codificado e em que o processador de realce 126 é configurado para extrair o envelope de domínio de tempo alvo 14 a partir de uma representação codificada incluída no sinal codificado 122 ou na banda do sinal de áudio incluído no sinal codificado. Além disso, o aparelho 2 pode processar o sinal de reforço 126 utilizando o envelope do domínio de tempo alvo.

[0128] Em outras palavras, o processador de reforço 126 pode codificar o núcleo da banda do sinal de áudio ou receber uma banda de sinal de áudio codificada no núcleo do sinal de áudios codificado. Além disso, o processador de reforço 126 pode calcular mais bandas do sinal de áudio utilizando, por exemplo, parâmetros do sinal de áudio codificado e a porção de banda base codificada no núcleo do sinal de áudio. Além disso, o envelope de domínio de tempo alvo 14 pode estar presente no sinal de áudio codificado 124, ou o processador de reforço pode ser configurado para calcular o envelope de domínio de tempo alvo a partir da porção de banda do sinal de áudio.

[0129] A Fig. 20 ilustra uma representação esquemática do espectro. O espectro subdivide-se em bandas de fator de escala SCB onde existem sete bandas de fator de escala, de SCB1 a SCB7, no exemplo ilustrado da Fig. 20. As bandas de fator de escala podem ser bandas de fator de escala AAC que são definidas no padrão AAC e têm uma largura de banda crescente para frequências superiores, conforme ilustrado esquematicamente na Fig. 20. É preferível realizar um preenchimento de lacunas inteligente não desde o início do espectro, ou seja, em baixas frequências, mas iniciar a operação de IGF em uma frequência de início de IGF ilustrada em 309. Portanto, a banda de frequência de núcleo estende-se da frequência mais baixa para a frequência de início de IGF. Acima da frequência de início de IGF, a análise de espectro é aplicada para componentes espectrais de alta resolução 304, 305, 306 e 307 separados (o primeiro conjunto de porções espectrais primárias) de componentes de baixa resolução, representados pelo segundo conjunto de porções espectrais secundárias. A Fig. 20 ilustra um espectro que é inserido de forma exemplar no processador de reforço 126, ou seja, o codificador de núcleo pode operar em toda a faixa, mas codifica uma quantidade significativa de valores espectrais zero, ou seja, estes valores espectrais zero são quantizados para zero ou são definidos para zero antes de quantizar ou após quantizar. De qualquer forma, o codificador de núcleo opera em toda a faixa, ou seja, como se o espectro fosse conforme ilustrado, ou seja, o decodificador de núcleo não precisa necessariamente estar ciente de qualquer preenchimento de lacuna inteligente ou codificação de um segundo conjunto de porções espectrais secundárias com uma resolução espectral menor.

[0130] Preferencialmente, a alta resolução é definida por uma codificação inteligente de linha das linhas espectrais, tais como as linhas da TCMD, enquanto a segunda resolução, ou baixa resolução, é definida, por exemplo, pelo cálculo de apenas um único valor espectral por banda de fator de escala, onde uma banda de fator de escala abrange várias linhas de frequência. Assim, a segunda resolução baixa, com relação à sua resolução espectral, é muito inferior à primeira, ou resolução alta, definida pela codificação inteligente de linha, normalmente aplicada pelo codificador de núcleo, como um codificador de núcleo AAC ou USAC.

[0131] Devido ao fato de que o codificador é um codificador de núcleo, e devido ao fato de que podem existir, mas não necessariamente precisam ser, componentes do primeiro conjunto de porções espectrais de cada banda, o codificador de núcleo calcula um fator de escala para cada banda, não somente na faixa de núcleo abaixo da frequência de início de IGF 309, mas também acima da frequência de início de IGF, até a frequência máximaque é menor ou igual à metade da frequência de amostragem, ou seja, fs/2. Assim, as porções tonais codificadas 302, 304, 305, 306 e 307 da Fig. 20 e, nesta aplicação, juntamente com os fatores de escala SCB1 para SCB7, correspondem aos dados de alta resolução espectral. Os dados espectrais de baixa resolução são calculados a partir da frequência de início de IGF e correspondem aos valores de informações de energia E1, E2, E3, E4, que são transmitidos em conjunto com os fatores de escala SF4 para SF7.

[0132] Particularmente, quando o codificador de núcleo está sob uma condição de baixa taxa de bits, uma operação de preenchimento de ruído adicional na banda de núcleo, ou seja, menor em frequência do que a frequência de início de IGF, ou seja, bandas de fator de escala SCB1 para SCB3 também podem ser aplicadas. No preenchimento de ruído, existem várias linhas espectrais adjacentes que foram quantizadas para zero. Do lado do decodificador, estes valores espectrais quantizados para zero são ressintetizados e os valores espectrais ressintetizados são ajustados em sua magnitude utilizando uma energia de preenchimento de ruído. A energia de preenchimento de ruído que pode ser dada em termos absolutos ou em termos relativos, particularmente com relação ao fator de escala como em USAC, corresponde à energia do conjunto de valores espectrais quantizada para zero. Estas linhas espectrais de preenchimento de ruído também podem ser consideradas como sendo um terceiro conjunto de terceiras porções espectrais que são regeneradas pelo preenchimento de ruído de síntese direto, sem qualquer operação de IGF, baseando-se na regeneração de frequência utilizando pedaços de frequência de outras frequências para reconstruir os pedaços de frequência utilizando valores espectrais a partir de uma faixa fonte e as informações de energia E1, E2, E3, E4.

[0133] Preferencialmente, as bandas, para quais as informações de energia são calculadas, coincidem com as bandas de fator de escala. Em outras aplicações, um agrupamento de valores de informação de energia é aplicado, por exemplo, para bandas de fator de escala 4 e 5, apenas um valor de informação de energia único seja transmitido, mas mesmo na presente aplicação, as fronteiras das bandas de reconstrução agrupadas coincidem com as fronteiras de bandas de fator de escala. Se separações de banda diferentes forem aplicadas, então certos cálculos ou recálculos de sincronização podem ser aplicados, e isso pode fazer sentido, dependendo da implementação correta.

[0134] A porção codificada do núcleo ou a banda de frequência codificada do núcleo do sinal de áudio codificado 124 pode incluir uma representação de alta resolução do sinal de áudio até uma frequência de corte ou a frequência de início IGF 309. Acima desta frequência de início IGF 309, o sinal de áudio pode compreender bandas de fator de escala codificadas com baixa resolução, por exemplo, utilizando codificação paramétrica. No entanto, ao utilizar a porção de banda base codificada no núcleo e, por exemplo, os parâmetros, o sinal de áudio codificado 124 pode ser decodificado. Isso pode ser executado uma vez ou várias vezes.

[0135] Isso pode fornecer uma boa reconstrução dos valores de magnitude, mesmo acima da primeira frequência de corte 130. No entanto, pelo menos ao redor das frequências de corte entre bandas de fator de escala consecutivas, uma frequência mais alta ou máxima da porção de banda base codificada no núcleo 128 pode ser adjacente a uma frequência mais baixa da porção de banda base codificada no núcleo devido ao preenchimento da porção de banda base codificada no núcleo para frequências mais altas, acima da frequência inicial IGF 309, e os valores de fase podem ser corrompidos. Portanto, o sinal de áudio reconstruído de banda base pode entrar no aparelho 2 para reconstruir as fases do sinal estendido de largura de banda.

[0136] Além disso, o aumento de largura de banda funciona, uma vez que a porção de banda base codificada no núcleo compreende muita informação sobre o sinal de áudio original. Isto leva à conclusão de que um envelope de porção de banda base codificada no núcleo é, pelo menos, semelhante a um envelope de sinal de áudio original, mesmo que o envelope de sinal de áudio original possa ser mais acentuado devido a componentes de frequência alta adicionais do sinal de áudio, que não estão presentes ou ausentes na porção de banda base codificada no núcleo.

[0137] A Fig. 21 mostra uma representação esquemática da reconstrução de domínio de tempo (intermediária) após um primeiro número de etapas de iteração na parte superior da Fig. 21, e após um segundo número de etapas de iteração, sendo maior do que o primeiro número de etapas de iteração, na parte inferior da Fig. 21. As ondulações comparativamente elevadas 132 resultam de uma inconsistência de estruturas adjacentes da sequência de estruturas de domínio de frequência. Geralmente, a partir de um sinal de domínio de tempo, a STFT inversa da STFT do sinal de domínio de tempo resulta, novamente, no sinal de domínio de tempo. Neste documento, as estruturas de domínio de frequência adjacentes são consistentes após a STFT ser aplicada, tal que o processo de sobreposição-e-adição da operação da STFT inversa resume ou revela o sinal original. No entanto, começar pelo domínio de frequência com valores de fase corrompidos, as estruturas de domínio de frequência adjacentes não são consistentes (ou seja, inconsistentes), caracterizado pela STFT da ISTFT do sinal de domínio de frequência não conduzir a um sinal de áudio apropriado ou consistente, conforme indicado na parte superior da Fig. 21. No entanto, está provado matematicamente que o algoritmo, se iterativamente aplicados à magnitude original, reduz as ondas 132 em cada etapa da iteração, levando a um sinal de áudio reconstruído (quase perfeito), indicado na parte inferior da Fig. 21. Neste documento, as ondulações 132 são reduzidas. Em outras palavras, a magnitude do sinal de domínio de tempo intermediária converte o valor de magnitude inicial da sequência de estruturas de domínio de frequência após cada etapa de iteração. Deve notar-se que o tamanho de salto de 0,5 entre as janelas de síntese consecutivas 136 é escolhido para sua conveniência e pode ser definido como qualquer valor apropriado, como por exemplo: 0,75.

[0138] A Fig. 22 mostra um diagrama de blocos esquemático de um método 2200 para processamento de um sinal de áudio para obter um sinal de áudio processado. O método 2200 compreende uma etapa 2205 de cálculo dos valores de fase para valores espectrais de uma sequência de estruturas de domínio de frequência, representando estruturas sobrepostas do sinal de áudio, caracterizado pelos valores de fase serem calculados com base em informações em um envelope de domínio de tempo alvo relacionado ao sinal de áudio processado, de forma que o sinal de áudio processado tenha, pelo menos em uma aproximação, o envelope de domínio de tempo alvo e o envelope espectral determinado pela sequência de estruturas de domínio de frequência.

[0139] A Fig. 23 mostra um diagrama de blocos esquemático de um método 2300 de decodificação de áudio. O método 2300 compreende em uma etapa 2305 o método 2200 e, em uma etapa 2310, o recebimento de um sinal codificado, o sinal codificado compreendendo uma representação da sequência de estruturas de domínio de frequência e uma representação do envelope de domínio de tempo alvo.

[0140] A Fig. 24 mostra um diagrama de blocos esquemático de um método 2400 de separação da fonte de áudio. O método 2400 compreende uma etapa 2405 de execução do método 2200, e uma etapa 2410 de mascaramento de um espectro de um sinal de áudio original para obter uma entrada de sinal de áudio modificado dentro do aparelho para processamento, caracterizado pelo sinal de áudio processado ser um sinal de fonte separado, relacionado ao envelope de domínio de tempo alvo.

[0141] A Fig. 25 mostra um diagrama de blocos esquemático de um método de reforço de largura de banda de um sinal de áudio codificado. O método 2500 compreende uma etapa 2505 de geração de um sinal de reforço a partir de uma banda de sinal de áudio incluída no sinal codificado, uma etapa 2510 de execução do método 2200 e uma etapa 2515, caracterizado pelo funcionamento geral compreender a extração do envelope de domínio de tempo alvo a partir de uma representação codificada, incluída no sinal codificado, ou a partir da banda do sinal de áudio incluída no sinal codificado.

[0142] A Fig. 26 mostra um diagrama de blocos esquemático de um método 2600 de codificação de áudio. O método 2600 compreende uma etapa 2605 de codificação de um sinal de áudio de domínio de tempo, de forma que o sinal de áudio codificado compreenda uma representação de uma sequência de estruturas de domínio de frequência do sinal de áudio de domínio de tempo e uma representação de um envelope de domínio de tempo alvo, e uma etapa 2610 para determinação de um envelope a partir do sinal de áudio de domínio de tempo, caracterizado pelo determinador do envelope ser, ainda, configurado para comparar o envelope a um conjunto de envelopes predeterminados para determinar uma representação do envelope de domínio de tempo alvo com base na comparação.

[0143] Aplicações adicionais da invenção referem-se aos exemplos a seguir. Elas podem ser um método, um aparelho ou um programa de computador para: 1) reconstruir iterativamente um sinal de domínio de tempo a partir de uma representação de domínio de tempo-frequência; 2) gerar uma estimativa inicial para a magnitude, informação de fase e representação de domínio de tempo-frequência; 3) aplicar manipulações de sinal intermediárias a determinadas propriedades do sinal durante as iterações; 4) transformar a representação de domínio de tempo-frequência de volta ao domínio do tempo; 5) modular o sinal de domínio de tempo intermediário com um envelope de amplitude arbitrária; 6) transformar o sinal modulado de domínio de tempo de volta ao domínio de tempo-frequência; 7) utilizar as informações de fase resultantes para atualizar a representação de domínio de tempo- frequência; 8) emular a sequência de transformada inversa e transformada direta por um procedimento de domínio de tempo- frequência que adiciona contribuições especificamente alteradas e convolvidas a partir de estruturas adjacentes à estrutura central; 9) aproximar o procedimento acima, utilizando núcleos de convolução truncados e explorando propriedades de simetria; 10) emular a modulação do domínio de tempo pela convolução das estruturas desejadas com a representação de tempo-frequência do envelope alvo; 11) aplicar as manipulações de domínio de tempo-frequência de uma maneira dependente do tempo- frequência, por exemplo, aplicar as operações apenas para selecionar das posições de tempo-frequência; ou 12) utilizar os procedimentos descritos acima para codificação do áudio perceptual, separação da fonte de áudio e/ou reforço de largura de banda.

[0144] Vários tipos de avaliações em um cenário de decomposição de áudio são aplicados para o aparelho ou o método, de acordo com as aplicações, onde um objetivo é extrair sons isolados de bateria a partir de gravações de baterias polifônicas. Um conjunto de testes publicamente disponível pode ser utilizado sendo enriquecido com todas as informações de acompanhamento necessárias, como os verdadeiros sinais de componentes “oracle” e suas posições precisas de transientes. Em um experimento, sob condições laboratoriais, a utilização de todas as informações de acompanhamento é feita a fim de se concentrar na avaliação do benefício do método ou do aparelho proposto para preservação do transiente na reconstrução do sinal. Sob estas condições idealizadas, um método proposto pode atenuar consideravelmente os pré-ecos enquanto ainda exibe propriedades de convergência semelhantes às do método ou aparelho original. Em um experimento adicional, uma técnica de decomposição inovadora [3, 4] é empregada com restrições obtidas por pontuação para estimar a STFTM do sinal do componente a partir da mistura. Sob essas condições (mais realistas), o método proposto produz, ainda, melhorias significativas.

[0145] Deve ser entendido que, no presente relatório descritivo, os sinais nas linhas são, às vezes, nomeados por seus números de referência para as linhas ou, às vezes, indicados pelos números de referência próprios, atribuídos às linhas. Portanto, a notação é tal que uma linha com um determinado sinal está indicando o sinal em si. Uma linha pode ser uma linha física em uma implementação conectada. Em uma implementação informatizada, no entanto, não existe uma linha física, mas o sinal representado pela linha é transmitido a partir de um módulo de cálculo para outro.

[0146] Embora a presente invenção tenha sido descrita no contexto de diagramas em blocos, em que os blocos representam componentes de hardware reais ou lógicos, a presente invenção também pode ser implementada por um método implementado por computador. Neste último caso, os blocos representam etapas do método correspondentes onde estas etapas representam as funcionalidades executadas pelos blocos de hardware lógico ou físico correspondentes.

[0147] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é evidente que estes aspectos também representam uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa do método ou característica de uma etapa do método. De forma análoga, aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item ou característica correspondente de um aparelho correspondente. Algumas ou todas as etapas do método podem ser executadas por (ou utilizando) um aparelho de hardware, tal como, por exemplo, um microprocessador, um computador programável ou um circuito eletrônico. Em algumas aplicações, uma ou mais da(s) etapa(s) mais importante(s) do método pode(m) ser executada(s) pelo referido aparelho.

[0148] O sinal codificado ou transmitido inventivo pode ser armazenado em um meio de armazenamento digital ou pode ser transmitido por um meio de transmissão, tal como um meio de transmissão sem frio ou um meio de transmissão cabeado, tal como a internet.

[0149] Dependendo de certas exigências de implementação, as aplicações da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando um meio de armazenamento digital, por exemplo, um disquete, um DVD, um Blu-Ray, um CD, uma memória ROM, uma PROM, uma EPROM, uma EEPROM ou a memória flash, tendo sinais de controle eletronicamente legíveis armazenados nele, que cooperam (ou podem cooperar) com um sistema de computador programável, de modo que o respectivo método seja realizado. Portanto, o meio de armazenamento digital pode ser legível por computador.

[0150] Algumas aplicações, de acordo com a invenção, compreendem um transportador de dados, tendo sinais de controle eletronicamente legíveis que podem cooperar com um sistema de computador programável, de modo que um dos métodos descritos aqui seja realizado.

[0151] Geralmente, as aplicações da presente invenção podem ser implementadas como um produto do programa de computador com um código de programa, o código de programa sendo operativo para realizar um dos métodos quando o produto do programa de computador é executado em um computador. O código de programa pode, por exemplo, ser armazenado em um transportador legível por máquina.

[0152] Outras aplicações compreendem o programa de computador para realizar um dos métodos descritos aqui, armazenado em um transportador legível por máquina.

[0153] Em outras palavras, uma aplicação do método inventivo é, portanto, um programa de computador tendo um código de programa para realizar um dos métodos descritos aqui, quando o programa de computador for executado em um computador.

[0154] Uma aplicação adicional do método inventivo é, portanto, um transportador de dados (ou um meio de armazenamento não transitório, tal como um meio de armazenamento digital ou um meio legível por computador) compreendendo, gravado nele, o programa de computador para realizar um dos métodos descritos aqui. O transportador de dados, o meio de armazenamento digital ou o meio gravado são tipicamente tangíveis e/ou não transitórios.

[0155] Uma aplicação adicional do método inventivo é, portanto, um fluxo de dados ou uma sequência de sinais representando o programa de computador para realizar um dos métodos descritos aqui. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido através de uma conexão de comunicação de dados, por exemplo, através da Internet.

[0156] Uma aplicação adicional compreende um meio de processamento, por exemplo, um computador ou um dispositivo de lógica programável, configurado para ou adaptado para realizar um dos métodos descritos aqui.

[0157] Uma aplicação adicional compreende um computador, tendo instalado nele o programa de computador para realizar um dos métodos descrito aqui.

[0158] Uma aplicação adicional, de acordo com a invenção, compreende um aparelho ou um sistema configurado para transferir (por exemplo, eletrônica ou opticamente) um programa de computador para realizar um dos métodos descritos aqui a um receptor. O receptor pode, por exemplo, ser um computador, um dispositivo móvel, um dispositivo de memória ou semelhante. O aparelho ou sistema pode, por exemplo, compreender um servidor de arquivo para transferir o programa de computador ao receptor.

[0159] Em algumas aplicações, um dispositivo de lógica programável (por exemplo, um arranjo de portas programáveis de campo) pode ser utilizado para realizar algumas ou todas as funcionalidades dos métodos descritos aqui. Em algumas aplicações, um arranjo de portas programáveis de campo pode cooperar com um microprocessador, a fim de realizar um dos métodos descritos aqui. Geralmente, os métodos são preferivelmente realizados por qualquer aparelho de hardware.

[0160] As aplicações descritas acima são meramente ilustrativas para os princípios da presente invenção. Entende- se que modificações e variações das disposições e os detalhes descritos serão evidentes a outros especialistas na técnica. É intenção, portanto, ser limitada apenas pelo escopo das reivindicações de patente iminentes e não pelos detalhes específicos apresentados em forma de descrição e explicação das aplicações neste documento.

Claims

1. Aparelho (2) para processamento de um sinal de áudio (49) para obter um sinal de áudio processado (6), compreendendo: um calculador de fase (8) para calcular os valores de fase (10) para valores espectrais de uma sequência de estruturas de domínio da frequência (12), representando estruturas sobrepostas do sinal de áudio (4),caracterizado pelo calculador de fase (8) ser configurado para calcular os valores de fase (10) com base em informações em um envelope de domínio de tempo alvo (14) relacionado ao sinal de áudio processado (6), de forma que o sinal de áudio processado tenha, pelo menos em uma aproximação, o envelope de domínio de tempo alvo (14) e um envelope espectral determinado pela sequência de estruturas de domínio da frequência (12).

2. Aparelho (2) de acordo com a reivindicação 1, caracterizado pelo calculador de fase (8) compreender: um processador de iteração (16) para executar um algoritmo iterativo para calcular, a partir de valores de fase inicial (18), os valores de fase para os valores espectrais, utilizando uma otimização alvo que exige consistência de blocos sobrepostos na faixa sobreposta; em que o processador de iteração (16) é configurado para utilizar, em uma etapa de iteração adicional, uma estimativa de fase atualizada (20), dependendo do envelope do domínio de tempo alvo (14).

3. Aparelho (2) de acordo com a reivindicação 1 ou 2, caracterizado pelo calculador de fase (8) ser configurado para aplicar uma modulação de amplitude a uma reconstrução de domínio de tempo intermediária de um sinal de áudio com base no envelope de domínio de tempo alvo.

4. Aparelho (2) de acordo com uma das reivindicações anteriores, caracterizado pelo calculador de fase (8) ser configurado para aplicar uma convolução de uma representação espectral de, pelo menos, um envelope de domínio de tempo alvo (14) e, pelo menos, uma reconstrução de domínio de frequência intermediária (28’) ou partes ou bandas selecionadas ou apenas uma porção de passa-alta ou apenas várias porções de passa-banda de, pelo menos, um envelope de domínio de tempo ou, pelo menos, uma reconstrução de domínio de frequência intermediária de um sinal de áudio.

5. Aparelho (2) de acordo com a reivindicação 3, caracterizado pelo calculador de fase compreender: um conversor de tempo-frequência (22) para calcular a reconstrução de domínio de tempo intermediária (28) do sinal de áudio (4) a partir da sequência de estruturas de domínio de frequência (12) e estimativas de valor da fase inicial (18) ou estimativas de valor da fase (20) de uma etapa de iteração anterior; um modulador de amplitude (24) para modular a reconstrução do domínio de tempo intermediária (28), utilizando um envelope de domínio de tempo alvo (14) para obter um sinal de áudio de amplitude modulada (30); e um conversor de tempo-frequência (26) para converter o sinal de amplitude modulada (30) em uma sequência adicional de estruturas de domínio de frequência (32), tendo valores de fase (10); e em que o calculador de fase é configurado para utilizar, para uma próxima etapa da iteração, os valores de fase e os valores espectrais da sequência de estruturas de domínio de frequência (12).

6. Aparelho (2) de acordo com a reivindicação 5, caracterizado pelo calculador de fase (8) ser configurado para emitir a reconstrução de domínio de tempo intermediária (28) como o sinal de áudio processado (6), quando uma condição de determinação de iteração for preenchida.

7. Aparelho (2) de acordo com a reivindicação 4, caracterizado pelo calculador de fase compreender: um processador de convolução (40) para aplicar um núcleo de convolução, um núcleo de alteração e para adicionar uma parte sobreposta de uma estrutura adjacente de uma estrutura central à estrutura central para obter a reconstrução do domínio de frequência intermediária (28’) do sinal de áudio (4).

8. Aparelho (2) de acordo com a reivindicação 4 ou 7, caracterizado pelo calculador de fase (8) ser configurado para utilizar valores de fase (10) obtidos através da convolução (34) como estimativas de valor de fase (20) atualizadas para uma próxima etapa de iteração.

9. Aparelho (2) de acordo com qualquer uma das reivindicações 4, 7 ou 8, compreendendo, ainda, um conversor de envelope alvo (36) para converter o envelope de domínio de tempo alvo no domínio espectral.

10. Aparelho (2) de acordo com qualquer uma das reivindicações 4, 7, 8 e 9, compreendendo, ainda: um conversor de tempo-frequência (38) para calcular a reconstrução do domínio de tempo (28’) a partir da reconstrução do domínio de frequência intermediária (28’ 28’’’), utilizando as estimativas de valor de fase (10, 20) obtidas de uma etapa mais recente de iteração e a sequência de estruturas de domínio de frequência (12).

11. Aparelho (2) de acordo com qualquer uma das reivindicações 4, 7, 8, 9 e 10, caracterizado pelo calculador de fase (8) compreender um processador de convolução (40) para processar a sequência de estruturas de domínio de frequência (12), em que o processador de convolução é configurado para aplicar um procedimento de sobreposição-e-adição do domínio de tempo à sequência de estruturas de domínio de frequência (12) no domínio da frequência para determinar a reconstrução do domínio de frequência intermediária.

12. Aparelho (2) de acordo com a reivindicação 11, caracterizado pelo processador de convolução (40) ser configurado para determinar, com base em uma estrutura de domínio de frequência atual, uma porção de uma estrutura de domínio de frequência adjacente que contribua para a estrutura de domínio de frequência atual após a sobreposição-e-adição do domínio de tempo ser executada no domínio da frequência;em que o processador de convolução é configurado, ainda, para determinar uma posição de sobreposição da porção da estrutura de domínio de frequência adjacente dentro da estrutura de domínio de frequência atual e executar uma adição das porções de estruturas de domínio de frequência adjacentes à estrutura de domínio de frequência atual na posição sobreposta.

13. Aparelho (2) de acordo com uma das reivindicações 11 ou 12, caracterizado pelo processador de convolução ser configurado para transformar por tempo- frequência uma síntese do domínio de tempo e uma janela de análise de domínio de tempo para determinar uma porção de uma estrutura de domínio de frequência adjacente que contribua para a estrutura de domínio de frequência atual após a sobreposição-e-adição do domínio de tempo ser executada no domínio da frequência, em que o processador de convolução também é configurado para mudar a posição da estrutura de domínio de frequência adjacente para uma posição de sobreposição dentro da estrutura de domínio de frequência atual e aplicar a porção da estrutura de domínio de frequência adjacente na estrutura atual na posição sobreposta.

14. Aparelho (2) de acordo com uma das reivindicações anteriores, caracterizado pelo calculador de fase (8) ser configurado para executar o algoritmo iterativo em conformidade com o processo de reconstrução de sinal iterativo de Griffin e Lim.

15. Decodificador de áudio (110), caracterizado por compreender o aparelho (2), de acordo com qualquer uma das reivindicações 1 a 14, e uma interface de entrada (112) para receber um sinal codificado (108), o sinal codificado compreendendo uma representação da sequência de quadros de domínio de frequência e uma representação do envelope de domínio de tempo alvo (18).

16. Processador de separação de fonte de áudio (116), caracterizado por compreender um aparelho (2) para processamento de acordo com qualquer uma das reivindicações 1 a 14, e um mascarador espectral (118) para mascarar um espectro de um sinal de áudio original para obter uma entrada de sinal de áudio modificado no aparelho para processamento,em que o sinal de áudio processado (6) é um sinal de fonte separado relacionado ao envelope de domínio de tempo alvo (14).

17. Processador de aprimoramento de largura de banda (122) para processar um sinal de áudio codificado, compreendendo: um processador de aprimoramento (126) para gerar um sinal de aprimoramento (127) de 25 uma banda de sinal de áudio incluída no sinal codificado, e um aparelho (2) para processamento de acordo com uma das reivindicações 1 a 14, caracterizado por o processador de intensificação (126) ser configurado para extrair o tempo alvo do envelope de domínio (14) a partir de uma representação codificada incluída no sinal ou da banda de sinal de áudio incluída no sinal codificado.

18. Método (2200) para processar um sinal de áudio para obter um sinal de áudio processado, compreendendo: calcular valores de fase para valores espectrais de uma sequência de quadros de domínio de frequência representando quadros sobrepostos do sinal de áudio, caracterizado por os valores da fase são calculados com base nas informações em um envelope de domínio de tempo alvo relacionado ao sinal de áudio processado, de modo que o sinal de áudio tem pelo menos em uma aproximação o envelope de domínio de tempo alvo e um envelope espectral determinado pela sequência de quadros de domínio de frequência.

19. Método (2300) de decodificação de áudio, compreendendo o método da reivindicação 18; caracterizado por receber um sinal codificado, o sinal codificado compreendendo uma representação da sequência de quadros no domínio da frequência e uma representação do envelope de domínio do tempo alvo.

20. Método (2400) de separação de fonte de áudio, compreendendo o método da reivindicação 18, caracterizado por mascarar um espectro de um sinal de áudio original para obter uma entrada de sinal de áudio modificado no aparelho para processamento; em que o sinal de áudio processado é um sinal de fonte separado relacionado ao envelope de domínio de tempo alvo.

21. Método (2500) de aumento de largura de banda de um sinal de áudio codificado, compreendendo gerar um sinal de realce de uma banda de sinal de áudio incluída no sinal codificado, o método da reivindicação 18 caracterizado por a geração compreender extrair o envelope de domínio de tempo alvo de uma representação codificada incluída no sinal codificado ou do sinal de áudio banda incluída no sinal codificado.