BR122023025764A2

BR122023025764A2 - Codificador e decodificador de áudio utilizando um processador de domínio de frequência, um processador de domínio de tempo e um processador cruzado para inicialização contínua

Info

Publication number: BR122023025764A2
Application number: BR122023025764-2A
Authority: BR
Inventors: Sascha Disch; Martin Dietz; Markus Multrus; Guillaume Fuchs; Emmanuel RAVELLI; Matthias Neusinger; Markus Schnell; Benjamin SCHUBERT; Bernhard Grill
Original assignee: Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V.
Priority date: 2014-07-28
Filing date: 2015-07-24
Publication date: 2024-03-05
Also published as: CN106796800A; EP3522154B1; CA2952150A1; AU2015295606B2; JP2022172245A; MX360558B; BR122023025709A2; US11915712B2; AR101343A1; US10236007B2; JP7135132B2; TR201909548T4; JP6483805B2; US20220051681A1; BR122023025780A2; CA2952150C; JP2019109531A; EP3175451A1; PT3522154T; RU2668397C2

Abstract

codificador e decodificador de áudio utilizando um processador de domínio de frequência, um processador de domínio de tempo e um processador cruzado para inicialização contínua. um codificador de áudio para codificação de um sinal de áudio compreende: um primeiro processador de codificação (600), caracterizado pelo primeiro processador de codificação (600) compreender: um conversor de tempo-frequência para conversão da primeira parte do sinal de áudio em uma representação de domínio de frequência, tendo linhas espectrais até uma frequência máxima da primeira parte do sinal; um codificador espectral para codificação da representação de domínio de frequência; um segundo processador de codificação para uma segunda parte do sinal diferente no domínio de tempo; um processador cruzado (700) para cálculo, a partir da representação espectral codificada da primeira parte do sinal, dados de inicialização do segundo processador de codificação (610), de modo que o segundo processamento de codificação (610) seja inicializado para codificar a segunda parte do sinal após a primeira parte do sinal de áudio no tempo do sinal; configurado para análise do sinal de áudio e para determinação de qual parte do sinal de áudio é codificada no domínio de frequência e qual parte do sinal é a segunda parte do sinal codificada no domínio de tempo; e um modulador de sinal codificado para modulação de um sinal codificado, para uma primeira parte do sinal codificado para a primeira parte do sinal de áudio e uma segunda parte do sinal codificado para a segunda parte do sinal de áudio.

Description

RELATÓRIO DESCRITIVO

[0001] A presente invenção refere-se à codificação e decodificação do sinal de áudio e, em particular, ao processamento do sinal de áudio utilizando processadores de codificadores/decodificadores paralelos de domínio de frequência e domínio de tempo.

[0002] A codificação perceptual de sinais de áudio com a finalidade de redução de dados para armazenamento ou transmissão eficiente desses sinais é uma prática amplamente utilizada. Em particular, quando taxas de bit mais baixas tiverem de ser obtidas, a codificação empregada leva a uma redução da qualidade de áudio que é frequente e principalmente causada por uma limitação no lado do codificador da largura de banda do sinal de áudio a ser transmitido. Aqui, tipicamente o sinal de áudio é de filtragem de passa baixa, de modo que nenhum conteúdo de forma de onda espectral permaneça acima de certa frequência de corte predeterminada.

[0003] Em codecs recentes, há métodos bem conhecidos para a restauração do sinal do lado do decodificador através da Extensão de Largura de Banda (BWE | Bandwidth Extension) do sinal de áudio, p.ex., Replicação da Banda Espectral (SBR | Spectral Band Replication) que opera em domínio de frequência ou a assim chamada Extensão da Largura de Banda do Domínio de Tempo (TD-BWE | Time Domain Bandwidth Extension), sendo um pós-processador em codificadores de discurso que opera em domínio de tempo.

[0004] Adicionalmente, vários conceitos de codificação do domínio de frequência/domínio de tempo combinados existem como conceitos conhecidos sob o termo AMR- WB+ ou USAC.

[0005] Todos esses conceitos de codificação/domínio de tempo combinados têm em comum que o codificador do domínio de frequência depende das tecnologias de extensão de largura de banda que incorrem uma limitação de banda no sinal de áudio de entrada e a parte acima de uma frequência de cruzada ou frequência de limite é codificado com um conceito de codificação de baixa resolução e sintetizado no lado do decodificador. Assim, tais conceitos dependem principalmente de uma tecnologia de pré-processador no lado do codificador e uma funcionalidade pós-processamento correspondente no lado do decodificador.

[0006] Tipicamente, o codificador do domínio de tempo é selecionado para que os sinais úteis sejam decodificados no domínio de tempo, como o sinal de fala, e o codificador do domínio de frequência é selecionado para sinais de não fala, sinais de música, e etc. Entretanto, especificamente para sinais de não fala tendo harmônicas proeminentes na banda de alta frequência, os codificadores de domínio de frequência da técnica anterior têm uma precisão reduzida e, portanto, uma qualidade de áudio reduzida devido ao fato de que tais harmônicas proeminentes podem somente ser codificadas parametricamente separadamente ou são completamente eliminadas no processo de codificação/decodificação.

[0007] Além disso, há conceitos em que a ramificação de codificação/decodificação do domínio de tempo depende adicionalmente da extensão da largura de banda que também codifica parametricamente uma série de frequência superior, enquanto uma série de frequência inferior é tipicamente codificada utilizando uma ACELP ou qualquer outro tipo de codificador relacionado ao CELP, por exemplo, um codificador de fala. Essa funcionalidade da extensão da largura de banda aumenta a eficiência da velocidade de bits, mas, por outro lado, introduz ainda inflexibilidade, devido ao fato de que ambas as ramificações de codificação, por exemplo, a ramificação de codificação do domínio de frequência e a ramificação de codificação do domínio de tempo são de banda limitada devido ao procedimento de extensão de largura de banda ou o procedimento de replicação da banda espectral operando acima de certa frequência de cruzada substancialmente menor que a frequência máxima incluída no sinal de áudio de entrada. Tópicos relevantes no estado da técnica compreendem: - SBR como um pós-processador para decodificação da forma de onda [1-3]; - Comutação central MPEG-D USAC [4]; - MPEG-H 3D IGF [5].

[0008] Os documentos e patentes a seguir descrevem métodos que são considerados como constituintes da técnica prévia para o pedido:

[0009] [1] M. Dietz, L. Liljeryd, K. Kjorling and O. Kunz, “Spectral Band Replication, a novel approach in audio coding,” in 112th AES Convention, Munique, Alemanha, 2002.

[0010] [2] S. Meltzer, R. Bohm and F. Henn, “SBR enhanced audio codecs for digital broadcasting such as “Digital Radio Mondiale” (DRM),” in 112th AES Convention, Munique, Alemanha, 2002.

[0011] [3] T. Ziegler, A. Ehret, P. Ekstrand and M. Lutzky, “Enhancing mp3 with SBR: Features and Capabilities of the new mp3PRO Algorithm,” in 112th AES Convention, Munique, Alemanha, 2002.

[0012] [4] MPEG-D USAC Standard.

[0013] [5] PCT/EP2014/065109.

[0014] Em MPEG-D USAC, um codificador central comutável é descrito. Entretanto, em USAC, o núcleo limitado à banda é restrito para sempre transmitir um sinal de filtro passa baixa. Portanto, certos sinais de música que contêm conteúdo de alta frequência proeminentes, por exemplo, varreduras de banda completa, sons de triângulo, e etc. não podem ser reproduzidos fielmente.

[0015] É um objeto de a presente invenção fornecer um conceito melhorado para codificação de áudio.

[0016] Esse objeto é alcançado por um codificador de áudio de acordo com a reivindicação 1, um decodificador de áudio de acordo com a reivindicação 10, um método de codificação de áudio de acordo com a reivindicação 15, um método de decodificação de áudio de acordo com a reivindicação 16 ou um programa de computador de acordo com a reivindicação 17.

[0017] A presente invenção se baseia na constatação que um processador de codificação/decodificação de domínio de tempo pode ser combinado com um processador de codificação/decodificação do domínio de frequência, tendo uma funcionalidade de preenchimento de lacuna, mas essa funcionalidade de preenchimento de lacuna para preencher orifícios espectrais é operada por toda a banda do sinal de áudio ou, pelo menos, acima de certa frequência do preenchimento de lacuna. Essencialmente, o processador de codificação / decodificação do domínio de frequência está particularmente na posição de realizar codificação / decodificação precisa ou de forma de onda ou de valor espectral até a frequência máxima e não somente até uma frequência cruzada. Além disso, a capacidade de banda completa do codificador do domínio de frequência para codificação com a resolução alta permite uma integração da funcionalidade de preenchimento de lacuna ao codificador do domínio de frequência.

[0018] Em um aspecto, o preenchimento de lacuna de banda completa é combinado com um processador de codificação/decodificação de domínio de tempo. Em aplicações, as taxas de amostragem em ambas as ramificações são iguais ou a taxa de amostragem na ramificação do codificador do domínio de tempo é menor que na ramificação do domínio de frequência.

[0019] Em outro aspecto, um codificador/decodificador de domínio de frequência, operando sem preenchimento de lacuna, mas realizando uma codificação/decodificação completa central de banda é combinado com um processador de codificação de domínio de tempo e um processador cruzado é oferecido para a inicialização contínua do processador de codificação/decodificação de domínio de tempo. Nesse aspecto, as taxas de amostragem podem ser como no outro aspecto, ou as taxas de amostragem na ramificação do domínio de frequência são ainda menores que na ramificação do domínio de tempo.

[0020] Assim, de acordo com a presente invenção, utilizando o processador do codificador/decodificador espectral de banda completa, os problemas relacionados à separação da extensão da largura de banda, por um lado, e a codificação central, por outro, pode ser abordada e ultrapassada realizando a extensão da largura de banda no mesmo domínio espectral no qual o decodificador central opera. Portanto, um decodificador central de taxa completa é fornecido que codifica e decodifica a taxa de sinal de áudio completa. Isso não exige a necessidade de um redutor de taxa de amostragem no lado do codificador e um amplificador de taxa de amostragem no lado do decodificador. Ao invés disso, todo o processamento é realizado no domínio de largura de banda completa ou de taxa de amostragem completa. Para obter um alto ganho de codificação, o sinal de áudio é analisado para encontrar um primeiro conjunto de partes espectrais que tem que ser codificados com uma alta resolução, onde esse primeiro conjunto de partes espectrais primárias podem incluir, em uma aplicação, partes tonais do sinal de áudio. Por outro lado, componentes não tonais ou com ruído no sinal de áudio constituindo um segundo conjunto de partes espectrais são parametricamente codificados com resolução espectral baixa. O sinal de áudio codificado então exige somente o primeiro conjunto das partes espectrais primárias codificadas de uma maneira de preservação da forma de onda com uma alta resolução espectral e, adicionalmente, o segundo conjunto das partes espectrais secundárias codificadas parametricamente com uma resolução baixa utilizando “porções” de frequência provenientes do primeiro conjunto. No lado do decodificador, o decodificador central, que é um decodificador de banda completa, reconstrói o primeiro conjunto das partes espectrais primárias de uma maneira de preservação da forma de onda, isto é, sem qualquer conhecimento de que haja qualquer regeneração de frequência adicional. Entretanto, o espectro então gerado tem muitas lacunas espectrais. Essas lacunas são subsequentemente preenchidas com a tecnologia de Preenchimento de Lacuna Inteligente (IGF | Intelligent Gap Filling) utilizando uma regeneração de frequência aplicando dados paramétricos por um lado e utilizando uma faixa espectral de fonte, por exemplo, partes espectrais reconstruídas pelo decodificador de áudio de taxa completa por outro lado.

[0021] Em outras aplicações, as partes espectrais, que são reconstruídas somente por preenchimento de ruído ao invés de replicação de largura de banda ou preenchimento de porção de frequência, constituem um terceiro conjunto de terceiras partes espectrais. Devido ao fato de que o conceito de codificação opera em um domínio único para a codificação/decodificação central por um lado e a regeneração de frequência por outro lado, o IGF não está restrito a preencher uma faixa de frequência mais alta, mas pode preencher séries de frequência inferior, por preenchimento de ruído sem regeneração de frequência ou por regeneração de frequência utilizando uma porção de frequência em uma faixa de frequência diferente.

[0022] Além disso, é enfatizado que uma informação sobre energias espectrais, uma informação sobre energias individuais ou uma informação de energia individual, uma informação sobre uma energia de sobrevivência ou uma informação de energia de sobrevivência, uma informação sobre uma energia de porção ou uma informação de energia de porção, ou uma informação sobre uma energia em falta ou uma informação de energia em falta pode compreender não somente um valor de energia, mas também um valor de amplitude (por exemplo, absoluta), um valor de nível ou qualquer outro valor, a partir do qual um valor de energia final pode ser derivado. Assim, as informações sobre uma energia podem, por exemplo, compreender o próprio valor de energia, e/ou um valor de um nível e/ou de uma amplitude e/ou de uma amplitude absoluta.

[0023] Um aspecto adicional se baseia na constatação de que a situação de correlação não é somente importante para a faixa de origem, mas também é importante para a faixa alvo. Além disso, a presente invenção reconhece a situação de que situações de correlação diferentes podem ocorrer na faixa de origem e na faixa alvo. Quando, por exemplo, um sinal de fala com ruído de alta frequência é considerado, a situação pode ser que a banda de baixa frequência compreende o sinal de fala com um pequeno número de implicações está altamente correlacionada no canal esquerdo e no canal direito, quando o alto-falante é colocado no meio. A parte de alta frequência, entretanto, pode ser fortemente não correlacionada devido ao fato de que pode haver um ruído de alta frequência diferente no lado esquerdo comparado a outro ruído de alta frequência no lado direito. Assim, quando uma operação de preenchimento de lacuna de modo direto é realizada, que ignora essa situação, então a parte de alta frequência seria correlacionada também, e isso pode gerar sérios perturbações de segregação espacial no sinal reconstruído. Para resolver essa questão, dados paramétricos para uma banda de reconstrução ou, em geral, para o segundo conjunto de partes espectrais secundárias que tem que ser reconstruídas utilizando um primeiro conjunto espectral das partes espectrais primárias, são calculados para identificar se uma primeira ou uma segunda representação de dois canais diferentes para a segunda parte espectral ou, indicados de maneira diferente, para a banda de reconstrução. No lado do codificador, uma identificação de dois canais é, portanto, calculada para as partes espectrais secundárias, isto é, para as partes, para as quais, adicionalmente, informações de energia para as bandas de reconstrução são calculadas. Um regenerador de frequência no lado do decodificador então regenera uma segunda parte espectral dependendo de uma primeira parte do primeiro conjunto de partes espectrais primárias, por exemplo, a faixa de origem e os dados paramétricos para a segunda parte, como informações de energia do envelope espectral ou quaisquer outros dados do envelope espectral e, adicionalmente, dependentes da identificação de dois canais para a segunda parte, isto é, para essa banda de reconstrução sob reconsideração.

[0024] A identificação de dois canais é preferivelmente transmitida como um identificador para cada banda de reconstrução e esses dados são transmitidos a partir de um codificador para um decodificador e o decodificador então decodifica o sinal central conforme indicado pelos identificadores preferivelmente calculados para as bandas central. Então, em uma implementação, o sinal central é armazenado em ambas as representações estéreo (p.ex., esquerda/direita e média/lateral) e, para o preenchimento de porção de frequência de IGF, a representação da porção de origem é escolhida para encaixar a representação de porção alvo, conforme indicado, pelos identificadores de identificação de dois canais para o preenchimento de lacuna inteligente ou bandas de reconstrução, isto é, para a faixa alvo.

[0025] É enfatizado que esse procedimento não somente trabalha para sinais estéreo, isto é, para um canal esquerdo e para um canal direito, mas também opera para sinais de canais múltiplos. No caso dos sinais de canais múltiplos, vários pares de canais diferentes podem ser processados como um canal direito e um canal esquerdo como o primeiro par, um canal de margem esquerdo e um canal de margem direito como o segundo par e um canal central e um canal LFE como o terceiro par. Outros pareamentos podem ser determinados para formatos de canais de saída mais altos, como 7,1, 11,1 entre outros.

[0026] Um aspecto adicional se baseia na constatação de que a qualidade de áudio do sinal reconstruído pode ser melhorada através de IGF, visto que todo o espectro é acessível ao codificador central, de modo que, por exemplo, partes tonais perceptivelmente importantes em uma faixa espectral alta possam ainda ser codificadas pelo codificador central ao invés da substituição paramétrica. Adicionalmente, uma operação de preenchimento de lacuna utilizando porções de frequência a partir de um primeiro conjunto de partes espectrais primárias que é, por exemplo, um conjunto de partes tonais tipicamente a partir de uma série de frequência inferior, mas também a partir de uma faixa de frequência mais alta, se disponível, é realizada. Para o ajuste do envelope espectral do lado do decodificador, entretanto, as partes espectrais a partir do primeiro conjunto de partes espectrais localizadas na banda de reconstrução não são mais pós-processadas, por exemplo, pelo ajuste do envelope espectral. Somente os valores espectrais restantes na banda de reconstrução que não se originam do decodificador central devem ser envelopes ajustados utilizando informações de envelope. Preferivelmente, as informações de envelope são informações de envelope de banda complete contabilizando a energia do primeiro conjunto de partes espectrais primárias na banda de reconstrução e do segundo conjunto de partes espectrais secundárias na mesma banda de reconstrução, onde os últimos valores espectrais no segundo conjunto de partes espectrais secundárias são indicados como zero e não são, portanto, codificados pelo codificador central, mas são parametricamente codificados com informações de energia de baixa resolução.

[0027] Constatou-se que os valores de energia absolutos normalizados ou não com relação à largura de banda da banda correspondente são úteis e muito eficientes em uma aplicação no lado do decodificador. Isso se aplica especialmente quando fatores de ganho tem que ser calculados baseados na energia residual na banda de reconstrução, a energia em falta na banda de reconstrução e nas informações de porção de frequência na banda de reconstrução.

[0028] Além disso, é preferível que o fluxo de bits codificado não somente cubra informações de energia para as bandas de reconstrução, mas, adicionalmente, fatores de escala para bandas de fator de escala até a frequência máxima. Isso garante que para cada banda de reconstrução, para as quais certa parte tonal, isto é, uma primeira parte espectral, é disponível, esse primeiro conjunto da primeira parte espectral pode, na verdade, ser decodificada com uma amplitude direita. Além disso, além do fator de escala para cada banda de reconstrução, uma energia para essa banda de reconstrução é gerada em um codificador e transmitida a um decodificador. Além disso, é preferível que as bandas de reconstrução coincidam com as bandas de fator de escala ou, no caso de agrupamento de energia, pelo menos os limites da banda de reconstrução coincidam com limites de bandas de fator de escala.

[0029] Uma implementação adicional dessa invenção se aplica a uma operação de branqueamento de porção. Branqueamento de um espectro remove a informação de envelope espectral grosseira e enfatiza a estrutura fina espectral que é de interesse primordial para avaliar similaridade de porção. Portanto, uma porção de frequência por um lado e/u o sinal de fonte por outros lados são branqueados antes de calcular uma medida de correlação cruzada. Quando somente a porção é branqueada utilizando um procedimento predefinido, um identificador de branqueamento é transmitido indicando ao decodificador que o mesmo processo de branqueamento predefinido deverá ser aplicado à porção de frequência dentro do IGF.

[0030] Com relação à seleção de porção, prefere-se utilizar o identificador da correlação para trocar espectralmente o espectro regenerado por um número inteiro de unidade de transformada. Dependendo da transformada subjacente, a troca espectral pode exigir a adição de correções. No caso de atrasos estranhos, a porção é adicionalmente modulada através da multiplicação por uma sequência temporal alternante de -1/1 para compensar a representação de frequência invertida de todas as outras bandas dentro da MDCT. Além disso, o sinal do resultado de correlação é aplicado quando gerar a porção de frequência.

[0031] Além disso, é preferível utilizar remoção e estabilização de porção para certificar-se de que as perturbações criadas pela rápida alteração das regiões de origem para a mesma região de reconstrução ou região alvo são evitadas. Para essa finalidade, uma análise de similaridade entre diferentes regiões de origem identificadas é realizada e quando uma porção de origem é similar a outras porções de origem com uma similaridade acima de um limiar, então essa porção de origem pode ser descartada do conjunto de porções de origem em potencial visto que está altamente correlacionada com outras porções de origem. Além disso, como um tipo de estabilização de seleção de porção, prefere-se manter a ordem de porção a partir do quadro anterior, se nenhuma das porções de origem no quadro atual se correlaciona (melhor que um dado limiar) com as porções alvo no quadro atual.

[0032] Um aspecto adicional se baseia na constatação de que uma qualidade melhorada e uma velocidade de bits reduzida, especificamente para sinais compreendendo partes transitórias como elas ocorrem muito frequentemente em sinais de áudio, é obtida combinando a tecnologia de Modulação de Ruído Temporal (TNS | Temporal Noise Shaping) ou Modulação de Porção Temporal (TTS | Temporal Tile Shaping) com a reconstrução de alta frequência. O processamento de TNS/TTS no lado do codificador sendo implementado por uma previsão sobre frequência reconstrói o envelope de tempo do sinal de áudio. Dependendo da implementação, por exemplo, quando o filtro de modulação de ruído temporal é determinado dentro de uma faixa de frequência não somente cobrindo a faixa de frequência de origem, mas também a faixa de frequência alvo a ser reconstruída em um decodificador de regeneração de frequência, o envelope temporal não é somente aplicado ao sinal de áudio central até uma frequência inicial de preenchimento de lacuna, mas o envelope temporal é também aplicado às faixas espectrais de partes espectrais secundárias reconstruídas. Assim, pré- ecos e pós-ecos que ocorreriam sem modulação de porção temporal são reduzidos ou eliminados. Isso é alcançado aplicando uma previsão inversa sobre a frequência não somente dentro da faixa de frequência central até certa frequência de início de preenchimento de lacuna, mas também dentro de uma faixa de frequência acima da faixa de frequência central. Com essa finalidade, a regeneração de frequência ou geração de porção de frequência é realizada no lado do decodificador antes de aplicar uma previsão sobre a frequência. Entretanto, a previsão sobre a frequência pode ser aplicada antes ou subsequente à modulação de envelope espectral dependendo de se o cálculo da informação de energia foi realizado nos valores residuais espectrais subsequentes à filtragem ou nos valores espectrais (completos) antes da modulação do envelope.

[0033] O processamento de TTS sobre uma ou mais porções de frequência adicionalmente estabelece uma continuidade de correlação entre a faixa de origem e a taxa de reconstrução ou em duas taxas de reconstrução ou porções de frequência adjacentes.

[0034] Em uma implementação, prefere-se utilizar a filtragem complexa de TNS/TTS. Dessa forma, as perturbações de distorção de largura de banda (temporais) de uma representação real criticamente amostrada, como MDCT, são evitadas. Um filtro complexo de TNS pode ser calculado no lado do codificador aplicando não somente uma transformada de cosseno discreto modificado, mas também uma transformada de seno discreto modificado além de obter uma transformada complexa modificada. Independentemente, somente os valores de transformada de cosseno discreto modificado, por exemplo, a parte real da transformada complexa, são transmitidos. No lado do decodificador, entretanto, é possível estimar a parte imaginária da transformada utilizando o espectro MDCT de quadros anteriores ou subsequentes, de modo que, no lado do decodificador, o filtro complexo possa ser novamente aplicado na previsão inversa sobre a frequência e, especificamente, a previsão sobre o limite entre a faixa de origem e a taxa de reconstrução e também sobre o limite entre porções de frequência de frequência adjacente dentro da taxa de reconstrução.

[0035] O sistema de codificação de áudio inventivo codifica eficientemente sinais de áudio arbitrários em uma ampla faixa de taxas de bit. Enquanto, para as taxas de bit altas, o sistema inventivo converge para transparência, para taxas de bit baixas o incômodo perceptível é minimizado. Portanto, a parte principal da velocidade de bits disponível está acostumada à codificação de formas de onda somente para as estruturas perceptivelmente mais relevantes do sinal no codificador, e as lacunas espectrais resultantes são preenchidas no decodificador com conteúdo de sinal que se aproxima sensivelmente do espectro original. Um montante muito limitado de bit é consumido para controlar o parâmetro conduzido, também chamado de Preenchimento de Lacuna Inteligente (IGF) pela informação do lado dedicado transmitida do codificador ao decodificador.

[0036] Em outras aplicações, o processador de codificação/decodificação de domínio de tempo depende de uma taxa de amostragem inferior e da funcionalidade de extensão da largura de banda correspondente.

[0037] Em outras aplicações, um processador cruzado é fornecido para inicializar o codificador/decodificador de domínio de tempo com dados de inicialização derivados do sinal de codificador/decodificador de domínio de frequência atualmente processado. Isso permite que quando a parte do sinal de áudio atualmente processada for processada pelo codificador de domínio de frequência, o codificador de domínio de tempo paralelo é inicializado de modo que, quando uma comutação do codificador de domínio de frequência a um codificador de domínio de tempo acontece, esse codificador de domínio de tempo pode iniciar imediatamente o processamento visto que todos os dados de inicialização relacionados aos sinais anteriores já estão lá devido ao processador cruzado. O processador cruzado é preferivelmente aplicado no lado do codificador, adicionalmente, no lado do decodificador e preferivelmente utiliza uma transformada de tempo de frequência que adicionalmente realiza uma redução da taxa de amostragem muito eficiente a partir da saída mais alta ou da taxa de amostragem de entrada à taxa de amostragem do codificador central de domínio de tempo inferior selecionando apenas certa parte de banda baixa do sinal do domínio juntamente com certo tamanho reduzido de transformada. Assim, uma conversão de taxa de amostragem da taxa de amostragem alta à taxa de amostragem baixa é muito eficientemente realizada e esse sinal obtido pela transformada com o tamanho reduzido de transformada pode então ser utilizado para inicializar o codificador/decodificador de domínio de tempo de modo que o codificador/decodificador de domínio de tempo esteja pronto para realizar imediatamente a codificação domínio de tempo quando essa situação é assinalada pelo controlador e a parte do sinal de áudio imediatamente precedente foi codificada no domínio de frequência.

[0038] Conforme indicado, a aplicação do processador cruzado pode depender ou não do preenchimento de lacuna no domínio de frequência. Assim, um codificador/decodificador de domínio de frequência e de tempo são combinados através do processador cruzado, e o codificador/decodificador de domínio de frequência pode depender ou não do preenchimento de lacuna. Especificamente, certas aplicações são indicadas como preferidas:

[0039] Essas aplicações empregam o preenchimento de lacuna no domínio de frequência e têm os seguintes números de taxa de amostragem e podem ou não dependem da tecnologia do processador cruzado: SR de entrada = 8 kHz, ACELP (domínio de tempo) SR = 12,8 kHz. SR de entrada = 16 kHz, ACELP SR = 12,8 kHz. SR de entrada = 16 kHz, ACELP SR = 16,0 kHz SR de entrada = 32,0 kHz, ACELP SR = 16,0 kHzI SR de entrada = 48 kHz, ACELP SR = 16 kHz

[0040] Essas aplicações podem ou não empregar o preenchimento de lacuna no domínio de frequência e ter os seguintes números de taxa de amostragem e depender da tecnologia do processador cruzado:

[0041] O TCX SR é menor que o ACELP SR (8 kHz vs. 12,8 kHz), ou onde TCX e ACELP funcionam ambos a 16,0 kHz, e onde qualquer preenchimento de lacuna não é utilizado.

[0042] Assim, aplicações preferidas da presente invenção possibilitam uma comutação integrada de um codificador de áudio perceptual compreendendo o preenchimento de lacuna espectral e um codificador de domínio de tempo com ou sem extensão de largura de banda.

[0043] Assim, a presente invenção depende dos métodos que não são restritos à remoção do conteúdo de alta frequência acima de uma frequência de corte no codificador de domínio de frequência do sinal de áudio, mas de forma adaptativa o sinal remove as regiões espectrais de passa-banda deixando lacunas espectrais no codificador e subsequentemente reconstrói essas lacunas espectrais no decodificador. Preferivelmente, uma solução integrada como preenchimento de lacuna inteligente é utilizada que combina eficientemente a codificação de áudio de largura de banda completa e preenchimento de lacuna espectral particularmente no domínio de transformada de MDCT.

[0044] Assim, a presente invenção fornece um conceito melhorado para combinação de codificação de fala e uma extensão da largura de banda do domínio de tempo subsequente com uma decodificação de forma de onda de banda completa compreendendo o preenchimento de lacuna espectral em um codificador/decodificador perceptual comutável.

[0045] Assim, em contrapartida aos métodos já existentes, o novo conceito utiliza a codificação da forma de onda do sinal de áudio de banda completa no codificador de domínio de transformada e ao mesmo tempo possibilita uma comutação integrada a um codificador de fala preferivelmente seguido por uma extensão da largura de banda do domínio de tempo.

[0046] Aplicações adicionais da presente invenção evitam que os problemas explicados ocorram devido à limitação de banda fixa. O conceito permite a combinação comutável de um codificador de forma de onda de banca completa no domínio de frequência equipado com um preenchimento de lacuna espectral e um codificador de fala de taxa de amostragem inferior e uma extensão da largura de banda do domínio de tempo. Tal codificador é capaz de codificar a forma de forma dos sinais problemáticos supracitados fornecendo largura de banda de áudio completo até a frequência de Nyquist do sinal de áudio de entrada. Não obstante, a comutação imediata contínua entre ambas as estratégias de codificação é garantida particularmente pelas aplicações tendo o processador cruzado. Para essa comutação integrada, o processador cruzado representa uma conexão cruzada em ambos o codificador e o decodificador entre o codificador de taxa completa capaz de banda completa (taxa de amostragem de entrada) de domínio de frequência e o codificador de ACELP de taxa baixa tendo uma taxa de amostragem inferior para inicializar corretamente os parâmetros de ACELP e buffers particularmente dentro do livro de códigos adaptativo, o filtro de LPC ou o estágio de reamostragem, na comutação do codificador do domínio de frequência como TCX ao codificador de domínio de tempo como ACELP.

[0047] A presente invenção é subsequentemente discutida com relação aos desenhos anexos, nos quais:

[0048] A figura 1a ilustra um aparelho para codificação de um sinal de áudio;

[0049] A figura 1b ilustra um decodificador para decodificação de um sinal de áudio codificado que combina com o codificador da figura 1a;

[0050] A figura 2a ilustra uma implementação preferida do decodificador;

[0051] A figura 2b ilustra uma implementação preferida do codificador;

[0052] A figura 3a ilustra uma representação esquemática de um espectro, conforme gerado pelo decodificador de domínio espectral da figura 1b;

[0053] A figura 3b ilustra uma tabela, indicando a relação entre os fatores de escala para as bandas do fator de escala e energias para as bandas de reconstrução e informação de enchimento de ruído para uma banda de enchimento de ruído;

[0054] A figura 4a ilustra a funcionalidade do codificador de domínio espectral para aplicação da seleção de partes espectrais ao primeiro e segundo conjuntos de partes espectrais;

[0055] A figura 4b ilustra uma implementação da funcionalidade da figura 4a;

[0056] A figura 5a ilustra uma funcionalidade de um codificador de MDCT;

[0057] A figura 5b ilustra uma funcionalidade do decodificador com uma tecnologia de MDCT;

[0058] A figura 5c ilustra uma implementação do regenerador de frequência;

[0059] A figura 6 ilustra uma implementação de um codificador de áudio;

[0060] A figura 7a ilustra um processador cruzado dentro do codificador de áudio;

[0061] A figura 7b ilustra uma implementação de uma transformada inversa ou de tempo-frequência que fornece adicionalmente uma redução da taxa de amostragem dentro do processador cruzado;

[0062] A figura 8 ilustra uma implementação preferida do controlador da figura 6;

[0063] A figura 9 ilustra uma aplicação adicional do codificador de domínio de tempo tendo funcionalidades de extensão da largura de banda;

[0064] A figura 10 ilustra uma utilização preferida de um pré-processador;

[0065] A figura 11a ilustra uma implementação esquemática do decodificador de áudio;

[0066] A figura 11b ilustra um processador cruzado dentro do decodificador para fornecimento de dados de inicialização para o decodificador de domínio de tempo;

[0067] A figura 12 ilustra uma implementação preferida do processador de decodificação do domínio de tempo da figura 11a;

[0068] A figura 13 ilustra uma implementação adicional da extensão da largura de banda do domínio de tempo;

[0069] A figura 14a ilustra uma implementação preferida de um codificador de áudio;

[0070] A figura 14b ilustra uma implementação preferida de um decodificador de áudio;

[0071] A figura 14c ilustra uma implementação inventiva de um decodificador de domínio de tempo com conversão de taxa de amostragem e extensão de largura de banda.

[0072] A figura 6 ilustra um codificador de áudio para codificação de um sinal de áudio, compreendendo um primeiro processador de codificação 600 para codificação de uma primeira parte do sinal de áudio em um domínio de frequência. O primeiro processador de codificação 600 compreende um conversor de tempo-frequência 602 para conversão da primeira parte do sinal de entrada de áudio em uma representação de domínio de frequência, tendo linhas espectrais até uma frequência máxima do sinal de entrada. Além disso, o primeiro processador de codificação 600 compreende um analisador 604 para análise da representação de domínio de frequência até a frequência máxima para determinar as regiões espectrais primárias a serem codificadas com uma primeira representação espectral e para determinar as regiões espectrais secundárias a serem codificadas com uma segunda resolução espectral sendo menor do que a primeira resolução espectral. Em particular, o analisador de banda total 604 determina quais linhas de frequência ou valores espectrais no espectro do conversor de tempo- frequência devem ser codificados por linha espectral e quais outras partes devem ser codificadas em uma forma paramétrica e esses valores espectrais posteriores são, então, reconstruídos no lado do decodificador com o procedimento de preenchimento de folga. A operação de codificação real é realizada por um codificador espectral 606 para codificação das regiões espectrais primárias ou partes espectrais com a primeira resolução e para codificar parametricamente as regiões espectrais secundárias ou as partes com a segunda resolução espectral.

[0073] O codificador de áudio da figura 6 compreende, adicionalmente, um segundo processador de codificação (610) para codificação da parte do sinal de áudio em um domínio de tempo. Adicionalmente, o codificador de áudio compreende um controlador (620) configurado para análise do sinal de áudio em uma entrada do sinal de áudio (601) e para determinação de qual parte do sinal de áudio é a primeira parte codificada do sinal de áudio no domínio de frequência e qual parte do sinal de áudio é a segunda parte codificada do sinal de áudio no domínio de tempo. Além disso, um modulador de sinal codificado (630) que pode ser, por exemplo, implementado como um multiplexador do fluxo de bits é fornecido sendo configurado para modulação de um sinal de áudio codificado compreendendo uma primeira parte codificada do sinal para a primeira parte do sinal de áudio e uma segunda parte do sinal codificado para a segunda parte do sinal de áudio. De forma importante, o sinal codificado tem apenas uma representação de domínio de frequência ou uma representação de domínio de tempo de uma e da mesma parte do sinal de áudio.

[0074] Assim, o controlador (620) garante que, para uma única parte do sinal de áudio, apenas uma representação de domínio de tempo ou uma representação de domínio de frequência está no sinal codificado. Isso pode ser realizado pelo controlador (620) em várias formas. Uma forma seria que, para uma e para a mesma parte do sinal de áudio, ambas as representações chegam no bloco (630) e o controlador (620) controla o modulador de sinal codificado (630) para introduzir apenas uma de ambas as representações ao sinal codificado. De modo alternativo, entretanto, o controlador (620) pode controlar uma entrada ao primeiro processador de codificação e uma entrada ao segundo processador de codificação de modo que, com base na análise da parte do sinal correspondente, apenas um de ambos os blocos (600) ou (610) é ativado para, de fato, realizar a operação de codificação completa e o outro bloco é desativado.

[0075] Essa desativação pode ser uma desativação ou, conforme ilustrado com relação à, por exemplo, figura 7a, é apenas um tipo de modo de “inicialização” onde o outro processador de codificação é apenas ativo para receber e processar os dados de inicialização a fim de inicializar as memórias internas, mas qualquer operação de codificação específica não é realizada de nenhuma forma. Essa ativação pode ser feita por um determinado comutador na entrada que não é ilustrado na figura 6 ou, preferivelmente, por linhas de controle (621 e 622). Assim, nessa aplicação, o segundo processador de codificação (610) não emite nada quando o controlador (620) determinou que a parte do sinal de áudio atual deveria ser codificada pelo primeiro processador de codificação, mas o segundo processador de codificação é, entretanto, fornecido com os dados de inicialização para serem ativos para uma comutação imediata no futuro. Por outro lado, o primeiro processador de codificação é configurado para não precisar de quaisquer dados do passado para atualizar quaisquer memórias internas e, portanto, quando a parte do sinal de áudio atual deve ser codificada pelo segundo processador de codificação (610), então o controlador (620) pode controla o primeiro processador de codificação final (600) através da linha de controle (621) a ser inativada completamente. Isso significa que o primeiro processador de codificação (600) não precisa estar em um estado de inicialização ou estado de espera, mas pode estar em um estado de desativação completa. Isso é preferível particularmente, para os dispositivos móveis onde o consumo de potência e, portanto, a vida da bateria é um problema.

[0076] Na implementação específica adicional do segundo processador de codificação que opera no domínio de tempo, o segundo processador de codificação compreende um redutor da taxa de amostragem (900) ou conversor da taxa de amostragem para conversão da parte do sinal de áudio em uma representação com uma taxa de amostragem inferior, em que a taxa de amostragem inferior é menor do que uma taxa de amostragem na entrada ao primeiro processador de codificação. Isso é ilustrado na figura 9. Em particular, quando o sinal de entrada de áudio compreende uma banda baixa e uma banda alta, prefere-se que a representação da taxa de amostragem inferior na saída do bloco (900) tem apenas a banda baixa da parte do sinal de entrada de áudio e essa banda baixa é, então, codificada por um codificador de banda baixa do domínio de tempo (910) que é configurado para codificação de domínio de tempo da representação da taxa de amostragem inferior fornecida pelo bloco (900). Além disso, a codificador de extensão da largura de banda do domínio de tempo (920) é fornecido para parametricamente codificar a banda alta. Para esta finalidade, o codificador de extensão da largura de banda do domínio de tempo (920) recebe pelo menos a banda alta do sinal de entrada de áudio ou a banda baixa e a banda alta do sinal de entrada de áudio.

[0077] Em uma aplicação adicional da presente invenção, o codificador de áudio compreende, adicionalmente, embora não ilustrado na figura 6, conforme ilustrado na figura 10, um pré-processador (1000) configurado para pré- processamento da primeira parte do sinal de áudio e da segunda parte do sinal de áudio. Preferivelmente, o pré-processador (100) compreende duas ramificações, onde a primeira ramificação opera a 12,8 kHz e realiza a análise do sinal que é posteriormente utilizada no estimador de ruído, VAD etc. A segunda ramificação opera na taxa de amostragem de ACELP, isto é, dependendo da configuração 12,8 ou 16,0 kHz. No caso em que a taxa de amostragem de ACELP é 12,8 kHz, a maioria do processamento nesta ramificação é, na prática, ignorada e, em vez disso, a primeira ramificação é utilizada.

[0078] Particularmente, o pré-processador compreende um detector transiente (1020) e a primeira ramificação é “aberta” por um reamostrador (1021) para, por exemplo, 12,8 kHz, seguido por um estágio de pré-ênfase (1005a), um analisador LPC (1002a), um estágio de filtragem de análise ponderada (1022a) e uma FFT/ estimador de ruído/ Detecção de Atividade por Voz (VAD | Voice Activity Detection) ou estágio de Pesquisa de Tom (1007).

[0079] A segunda ramificação é “aberta” por um reamostrador (1004) para, por exemplo, 12,8 kHz ou 16 kHz, ou seja, para a taxa de amostragem de ACELP, seguida por um estágio de pré-ênfase (1005b), um analisador LPC (1002b), um estágio de filtragem de análise ponderada (1022b) e um estágio de extração do parâmetro TCX LTP (1024). O bloco (1024) fornece sua saída ao multiplexador de fluxo de bits. O bloco (1002) é conectado a um quantizador de LPC (1010) controlado pela decisão ACELP/TCX e o bloco (1010) também é conectado ao multiplexador de fluxo de bits.

[0080] Outras aplicações podem compreender, alternativamente, apenas uma única ramificação ou mais ramificações. Em uma aplicação, este pré-processador compreende um analisador de previsão para determinação de coeficientes de previsão. Este analisador de previsão pode ser implementado como um analisador de LPC (linear prediction coding |codificação de previsão linear) para determinação dos coeficientes de LPC. Entretanto, outros analisadores podem ser implementados também. Além disso, o pré-processador na aplicação alternativa pode compreender um quantizador de coeficiente de previsão, em que este dispositivo recebe dados do coeficiente de previsão do analisador de previsão.

[0081] Preferivelmente, entretanto, o quantizador de LPC não necessariamente da parte do pré-processador, e é implementado como parte da rotina de codificação principal, ou seja, não faz parte do pré-processador.

[0082] Além disso, o pré-processador pode compreender, adicionalmente, um codificador por entropia para geração de uma versão codificada dos coeficientes de previsão quantizados. É importante observar que o modulador de sinal codificado (630) ou a implementação específica, ou seja, o multiplexador do fluxo de bits (630) garante que a versão codificada dos coeficientes de previsão quantizados está incluída no sinal de áudio codificado (632). Preferivelmente, os coeficientes de LPC não são diretamente quantizados, mas são convertidos em uma representação ISF, por exemplo, ou qualquer ou representação mais bem adequada para a quantização. Essa conversão é preferivelmente realizada pela determinação do bloco dos coeficientes de LPC ou é realizada dentro do bloco para quantização dos coeficientes de LPC.

[0083] Além disso, o pré-processador pode compreender um reamostrador para reamostragem de um sinal de áudio de entrada em uma taxa de amostragem de entrada em uma taxa de amostragem inferior para o codificador de domínio de tempo. Quando o codificador de domínio de tempo é um codificador ACELP tendo uma certa taxa de amostragem de ACELP, então a redução da taxa de amostragem é realizada para preferivelmente 12,8 kHz ou 16 kHz. A taxa de amostragem de entrada pode ser qualquer uma de um número específico de taxas de amostragem como 32 kHz ou, ainda, taxa de amostragem mais alta. Por outro lado, a taxa de amostragem do codificador de domínio de tempo será predeterminada por certas restrições e o reamostrador (1004) realiza essa reamostragem e emite a representação da taxa de amostragem inferior do sinal de entrada. Assim, o reamostrador pode realizar uma funcionalidade similar e pode ainda ser um ou o mesmo elemento que o redutor da taxa de amostragem (900) ilustrado no contexto da figura 9.

[0084] Além disso, é preferível aplicar uma pré- ênfase no bloco de pré-ênfase. O processamento de pré-ênfase é bem conhecido na técnica de codificação do domínio de tempo e é descrito na literatura com referência ao processamento AMR-WB+ e a pré-ênfase é particularmente configurada para a compensação de uma inclinação espectral e, portanto, possibilita um cálculo melhor dos parâmetros de LPC em uma dada ordem de LPC.

[0085] Além disso, o pré-processador pode compreender, adicionalmente, uma extração do parâmetro TCX-LTP para controlar um pós-filtro de LTP em (1420) na figura 14b. Além disso, o pré-processador pode compreender, adicionalmente, outras funcionalidades ilustradas em (1007) e essas outras funcionalidades podem compreender uma funcionalidade de pesquisa de tom, uma funcionalidade de detecção de atividade por voz (VAD) ou quaisquer outras funcionalidades conhecidas na técnica de domínio de tempo ou codificação de fala.

[0086] Conforme ilustrado, o resultado do bloco (1024) é inserido ao sinal codificado, ou seja, está na aplicação da figura 14a, inserido no multiplexador do fluxo de bits (630). Além disso, se necessário, os dados do bloco (1007) também podem ser introduzidos no multiplexador do fluxo de bits ou podem, alternativamente, ser utilizados para a finalidade de codificação de domínio de tempo no codificador de domínio de tempo.

[0087] Assim, para resumir, é comum a ambas as passagens uma operação de pré-processamento (1000) na qual as operações de processamento de sinal geralmente utilizadas são realizadas. Essas compreendem uma reamostragem para uma taxa de amostragem de ACELP (12,8 ou 16 kHz) para uma passagem paralela e essa reamostragem é sempre realizada. Além disso, uma extração do parâmetro TCX-LTP ilustrada no bloco (1006) é realizada e, adicionalmente, uma pré-ênfase e uma determinação de coeficientes de LPC são realizadas. Conforme descrito, a pré-ênfase compensa a inclinação espectral e, portanto, torna o cálculo dos parâmetros de LPC em uma dada ordem de LPC mais eficiente.

[0088] Subsequentemente, referência é feita à figura 8, a fim de ilustrar uma implementação preferida do controlador (620). O controlador recebe, em uma entrada, a parte do sinal de áudio em consideração. Preferivelmente, conforme ilustrado na figura 14a, o controlador recebe qualquer sinal disponível no pré-processador (1000) que pode ser o sinal de entrada original na taxa de amostragem de entrada ou uma versão reamostrada na taxa de amostragem do codificador de domínio de tempo inferior ou um sinal obtido subsequente ao pré- processamento da pré-ênfase no bloco (1005).

[0089] Com base nessa parte do sinal de áudio, o controlador (620) direciona um simulador do codificador do domínio de frequência (621) e um simulador do codificador de domínio de tempo (622) a fim de calcular para cada codificador a possibilidade de uma relação estimada do sinal para o ruído. Subsequentemente, o seletor (623) seleciona o codificador que forneceu a melhor relação sinal ruído, naturalmente em consideração de uma taxa de bit predefinida. O seletor então identifica o codificador correspondente através da saída de controle. Quando se determina que a parte do sinal de áudio em consideração deve ser codificada utilizando o codificador de domínio de frequência, o codificador de domínio de tempo é definido em um estado de inicialização ou em outras aplicações que não requerem uma comutação muito imediata em um estado completamente desativado. Entretanto, quando é determinado que a parte do sinal de áudio em consideração deve ser codificada pelo codificador de domínio de tempo, o codificador de domínio de frequência é então desativado.

[0090] Subsequentemente, uma implementação preferida do controlador ilustrado na figura 8 é ilustrada. A decisão se a passagem de ACELP ou TCX deve ser escolhida é realizada na decisão de comutação por meio da simulação do codificador de ACELP e TCX e comutar para a melhor ramificação em realização. Para isso, a SNR da ramificação de ACELP e TCX é estimada com base em uma simulação do codificador/decodificador de ACELP e TCX. A simulação do codificador/decodificador de TCX é realizada sem a análise de TNS/TTS, codificador de IGF, codificador de circuito por quantização/aritmético, ou sem qualquer decodificador de TCX. Em vez disso, a SNR de TCX é estimada utilizando uma estimativa da distorção do quantizador no domínio de MDCT modulado. A simulação do codificador/decodificador de ACELP é realizada utilizando apenas uma simulação do livro de códigos adaptativo e livro de códigos inovador. A SNR de ACELP é simplesmente estimada pela computação da distorção introduzida por um filtro de LTP no domínio de sinal ponderado (livro de códigos adaptativo) e pela escala da distorção por um fator constante (livro de códigos inovador). Assim, a complexidade é muito reduzida em comparação a uma abordagem onde a codificação de TCX e ACELP é executada paralelamente. A ramificação com a SNR mais alta é escolhida para a execução subsequente da codificação completa.

[0091] No caso em que a ramificação de TCX é escolhida, um decodificador de TCX é executado em cada estrutura que emite um sinal na taxa de amostragem de ACELP. Isso é utilizado para atualizar as memórias utilizadas para a passagem de codificação de ACELP (LPC residual, Mem w0, de- ênfase de memória), para permitir a comutação imediata de TCX para ACELP. A atualização de memória é realizada em cada passagem de TCX.

[0092] De modo alternativo, uma análise completa por processo de síntese pode ser realizada, ou seja, ambos os simuladores do codificador (621), (622) implementam as operações de codificação real e os resultados são comparados pelo seletor (623). De modo alternativo, novamente, um cálculo de alimentação de avanço completo pode ser feito por meio da realização de uma análise do sinal. Por exemplo, quando se determina que o sinal é um sinal de fala por um classificador do sinal, o codificador de domínio de tempo é selecionado e quanto determina-se que o sinal é um sinal de música, então o codificador de domínio de frequência é selecionado. Outros procedimentos, a fim de distinguir entre ambos os codificadores com base em uma análise do sinal da parte do sinal de áudio em consideração, também podem ser aplicados.

[0093] Preferivelmente, o codificador de áudio compreende, adicionalmente, um processador cruzado (700) ilustrado na figura 7a. Quando o codificador de domínio de frequência (600) é ativo, o processador cruzado (700) fornece dados de inicialização ao codificador de domínio de tempo (610) de modo que o codificador de domínio de tempo esteja pronto para um comutador integrado em uma parte do sinal futuro. Em outras palavras, quando a parte do sinal de corrente é determinada para ser codificada utilizando o codificador de domínio de frequência, e quando se determina pelo controlador que a parte do sinal de áudio imediatamente seguinte deve ser codificada pelo codificador de domínio de tempo (610) então, sem o processador cruzado, tal comutador integrado imediato não seria possível. O processador cruzado, entretanto, fornece um sinal derivado do codificador de domínio de frequência 600 ao codificador de domínio de tempo (610) para a finalidade de inicializar as memórias no codificador de domínio de tempo visto que o codificador de domínio de tempo (610) tem uma dependência de uma estrutura atual da entrada ou do sinal codificado de uma estrutura imediatamente precedente no tempo.

[0094] Assim, o codificador de domínio de tempo (610) é configurado para ser inicializado pelos dados de inicialização a fim de codificar uma parte do sinal de áudio seguindo uma parte codificada do sinal de áudio anterior pelo codificador de domínio de frequência (600) de forma eficiente.

[0095] Em particular, o processador cruzado compreende um conversor de tempo-frequência para conversão de uma representação de domínio de frequência em uma representação de domínio de tempo que pode ser encaminhada ao codificador de domínio de tempo diretamente ou após algum processamento adicional. Este conversor é ilustrado na figura 14a como um bloco de IMDCT (inverse modified discrete cosine transform | transformada discreta de cosseno modificada inversa). Este bloco (702), entretanto, tem um tamanho diferente de transformada em comparação com o bloco do conversor de tempo- frequência (602) indicado no bloco da figura 14a (bloco de transformada de cosseno discreto modificado). Conforme indicado no bloco (602), em algumas aplicações, o conversor de tempo-frequência (602) opera na taxa de amostragem de entrada e a transformada discreta de cosseno modificada inversa (702) opera na taxa de amostragem de ACELP inferior.

[0096] Em outras aplicações, como modos operacionais de banda estreita com taxa de amostragem de entrada de 8 kHz, a ramificação de TCX opera a 8 kHz, enquanto que ACELP ainda opera a 12,8 kHz. Ou seja, a SR de ACELP não é sempre menor do que a taxa de amostragem de TCX. Para a taxa de amostragem de entrada de 16 kHz (banda larga), há também cenários onde a ACELP opera na mesma taxa de amostragem que TCX, ou seja, ambas a 16 kHz. Em um modo de superbanda larga (SWB | super wideband mode) a taxa de amostragem de entrada está a 32 ou 48 kHz.

[0097] A relação da taxa de amostragem do codificador de domínio de tempo ou a taxa de amostragem de ACELP e a taxa de amostragem do codificador de domínio de frequência ou a taxa de amostragem de entrada pode ser calculada e ser um fator de redução da taxa de amostragem DS ilustrado na figura 7b. O fator de redução da taxa de amostragem é maior do que (1) quando a taxa de amostragem de saída da operação da redução da taxa de amostragem é menor do que a taxa de amostragem de entrada. Quando, entretanto, há um aumento da taxa de amostragem real, então a redução da taxa de amostragem é menor do que (1) e um aumento da taxa de amostragem real é realizado.

[0098] Para um fator de redução da taxa de amostragem maior do que um, ou seja, para uma redução da taxa de amostragem real, o bloco (602) tem um grande tamanho de transformada e o bloco de IMDCT (702) tem um pequeno tamanho de transformada. Conforme ilustrado na figura 7b, o bloco de IMDCT (702), portanto, compreende um seletor (726) para seleção da parte espectral inferior de uma entrada ao bloco de IMDCT (702). A parte do espectro de banda completa é definida pelo fator de redução da taxa de amostragem DS. Por exemplo, quando a taxa de amostragem inferior é 16 kHz e a taxa de amostragem de entrada é 32 kHz, então o fator de redução da taxa de amostragem é 2,0 e, portanto, o seletor (726) seleciona a metade inferior do espectro de banda completa. Quando o espectro tem, por exemplo, (1024) linhas de MDCT, então o seletor seleciona as (512) linhas de MDCT inferiores.

[0099] Esta parte de baixa frequência do espectro de banda completa é inserida em uma transformada de tamanho pequeno e bloco desdobrável (720), conforme ilustrado na figura 7b. O tamanho da transformada é também selecionado de acordo com o fator de redução da taxa de amostragem e é 50% do tamanho da transformada no bloco (602). Um janelamento de síntese com uma janela com um pequeno número de coeficientes é então realizado. O número de coeficientes da janela de síntese é igual ao inverso do fator de redução da taxa de amostragem multiplicado pelo número de coeficientes da janela de análise utilizada pelo bloco (602). Finalmente, uma operação de adição por sobreposição é realizada com um pequeno número de operações por bloco e o número de operações por bloco é novamente o número de operações por bloco em uma MDCT de implementação de taxa total multiplicada pelo inverso do fator de redução da taxa de amostragem.

[0100] Assim, uma operação muito eficiente de redução da taxa de amostragem pode ser aplicada visto que a redução da taxa de amostragem está incluída na implementação de IMDCT. Neste contexto, é enfatizado que o bloco (702) pode ser implementado por uma IMDCT, mas também pode ser implementado por qualquer outra transformada ou implementação do banco de filtro que pode ser adequadamente dimensionado no núcleo da transformada real e outras operações relacionadas à transformada.

[0101] Para um fator de redução da taxa de amostragem menor do que um, ou seja, para um aumento da taxa de amostragem real, a notação na figura 7, blocos (720, 722, 724, 726), tem que ser revertida. O bloco (726) seleciona o espectro de banda completa e adicionalmente zeros para linhas espectrais superiores não incluídas no espectro de banda completa. O bloco (720) tem um tamanho da transformada maior do que o bloco (710) e o bloco (722) tem uma janela com vários coeficientes maiores do que no bloco (712) e, ainda, o bloco (724) tem várias operações maiores do que no bloco (714).

[0102] O bloco (602) tem um pequeno tamanho da transformada e o bloco de IMDCT (702) tem um grande tamanho da transformada. Conforme ilustrado na figura 7b, o bloco de IMDCT (702), portanto, compreende um seletor (726) para seleção da parte espectral completa de uma entrada ao bloco de IMDCT (702) e para a banda alta adicional necessária para a saída, zeros ou ruídos são selecionados e colocados na banda superior necessária. A parte do espectro de banda completa é definida pelo fator de redução da taxa de amostragem DS. Por exemplo, quando a taxa de amostragem mais alta for 16 kHz e a taxa de amostragem de entrada for 8 kHz, então, o fator de redução da taxa de amostragem é (5) e, portanto, o seletor (726) seleciona o espectro de banda completa e, adicionalmente, seleciona preferivelmente zeros ou pequeno ruído aleatório de energia para a parte superior não incluída no espectro de domínio de frequência de banda completa. Quando o espectro tem, por exemplo, (1024) linhas de MDCT, então o seletor seleciona as (1024) linhas de MDCT e para as (1024) linhas de MDCT adicionais, zeros são preferivelmente selecionados.

[0103] Essa parte da frequência do espectro de banda completa é, então, inserida em uma transformada de tamanho grande e bloco desdobrável (720), conforme ilustrado na figura 7b. O tamanho da transformada é também selecionado de acordo com o fator de redução da taxa de amostragem e é 200% do tamanho da transformada no bloco (602). Como o janelamento de síntese com uma janela com um número mais alto de coeficientes é então realizado. O número de coeficientes da janela de síntese é igual ao fator de redução da taxa de amostragem inverso dividido pelo número de coeficientes da janela de análise utilizada pelo bloco (602). Finalmente, uma operação de adição por sobreposição é realizada com um número mais alto de operações por bloco e o número de operações por bloco é novamente o número de operações por bloco em uma MDCT de implementação de taxa total multiplicada pelo inverso do fator de redução da taxa de amostragem.

[0104] Assim, uma operação muito eficiente do aumento da taxa de amostragem pode ser aplicada visto que o aumento da taxa de amostragem é incluído na implementação de IMDCT. Neste contexto, enfatiza-se que o bloco (702) pode ser implementado por uma IMDCT, mas pode ser implementado também por qualquer outra implementação de transformada ou banco de filtro que pode ser adequadamente dimensionada no núcleo de transformada real e outras operações relacionadas à transformada.

[0105] De modo geral, é descrito que uma definição de uma taxa de amostragem no domínio de frequência precisa de alguma explicação. As bandas espectrais são geralmente reduzidas na amostragem. Assim, a noção de uma taxa de amostragem eficaz ou uma amostra ou taxa de amostragem “associada” é utilizada. No caso de um banco de filtro/transformada, a taxa de amostragem eficaz seria definida como Fs_eff=subbandsamplerate*num_subbands.

[0106] Em uma aplicação adicional ilustrada na figura 14a, o conversor de frequência de tempo compreende funcionalidades adicionais além do analisador. O analisador (604) da figura 6 pode compreender na aplicação da figura 14a um bloco de análise de modulação de ruído temporal/modulação de porção temporal (604a) que opera conforme discutido no contexto da figura 2b, bloco (222), para o bloco de análise de TNS/TTS (604a) e ilustrado com relação à figura 2b para a máscara tonal (226) que corresponde ao codificador IGF (604b) na figura 14a.

[0107] Além disso, o codificador de domínio de frequência compreende, preferivelmente, um bloco de modulação de ruído (606a). O bloco de modulação de ruído (606a) é controlado pelos coeficientes de LPC quantizados, conforme gerado pelo bloco (1010). Os coeficientes de LPC quantizados utilizados para modulação de ruído (606a) realizam uma modulação espectral dos valores espectrais de alta resolução ou linhas espectrais diretamente codificadas (em vez de parametricamente codificadas) e o resultado do bloco (606a) é similar ao espectro de um sinal subsequente a um estágio de filtragem de LPC que opera no domínio de tempo como um bloco de filtragem de análise de LPC (704) a ser descrito posteriormente. Além disso, o resultado do bloco de modulação de ruído (606a) é então quantizado e codificado por entropia conforme indicado pelo bloco (606b). O resultado do bloco (606b) corresponde à primeira parte codificada do sinal de áudio ou uma parte codificada do sinal de áudio de domínio de frequência (junto com a informação adicional).

[0108] O processador cruzado (700) compreende um decodificador espectral para cálculo de uma versão decodificada da primeira parte codificada do sinal. Na aplicação da figura 14a, o decodificador espectral (701) compreende um bloco de modulação de ruído inversa (703), um decodificador de enchimento de lacuna opcional (704), um bloco de síntese de TNS/TTS (705) e o bloco de IMDCT (702) discutido previamente. Estes blocos desfazem as operações específicas realizadas pelos blocos (602 a 606b). Em particular, um bloco de modulação de ruído (703) desfaz a modulação de ruído realizada pelo bloco (606a) com base nos coeficientes de LPC quantizados (1010). O decodificador de IGF (704) opera conforme discutido com relação à figura 2A, os blocos (202 e 206) e o bloco de síntese de TNS/TTS (705) opera conforme discutido no contexto do bloco (210) da figura 2A e o decodificador espectral compreende, adicionalmente, o bloco de IMDCT (702). Além disso, o processador cruzado (700) na figura 14a, de modo adicional ou alternativo, compreende um estágio de atraso (707) para inserir uma versão atrasada da versão decodificada obtida pelo decodificador espectral (701) em um estágio de de-ênfase (617) do segundo processador de codificação para a finalidade de inicialização do estágio de de-ênfase (617).

[0109] Além disso, o processador cruzado (700) pode compreender, de modo adicional ou alternativo, um estágio de filtragem de análise de coeficiente de previsão ponderada (708) para filtrar a versão decodificada e para inserir uma versão decodificada filtrada para um determinador do livro de códigos (613) indicado como “MMSE” na figura 14a do segundo processador de codificação para inicializar este bloco. De modo adicional ou alternativo, o processador cruzado compreende o estágio de filtragem de análise de LPC para filtrar a versão decodificada da primeira parte codificada do sinal emitida pelo decodificador espectral (700) a um estágio adaptativo do livro de códigos (612) para inicialização do bloco (612). De modo adicional ou alternativo, o processador cruzado também compreende um estágio de pré-ênfase (709) para realização de um pré-processamento da pré-ênfase na versão decodificada emitida por um decodificador espectral (701) antes da filtragem de LPC. O estágio de pré-ênfase saída também pode ser inserido a um estágio de atraso adicional (710) para a finalidade de inicialização de um bloco de filtragem da síntese de LPC (616) dentro do codificador de domínio de tempo (610).

[0110] O codificador de domínio de tempo processador (610) compreende, conforme ilustrado na figura 14a, uma pré- ênfase que opera na taxa de amostragem de ACELP inferior. Conforme ilustrado, esta pré-ênfase é a pré-ênfase realizada no estágio de pré-processamento (1000) e tem o número de referência (1005). Os dados de pré-ênfase são inseridos em um estágio de filtragem de análise de LPC (611) que opera no domínio de tempo e este filtro é controlado pelos coeficientes de LPC quantizados (1010) obtidos pelo estágio de pré- processamento (1000). Como conhecido a partir dos codificadores AMR-WB+ ou USAC ou outros codificadores CELP, o sinal residual gerado pelo bloco (611) é fornecido a um livro de códigos adaptativo (612) e, ainda, o livro de códigos adaptativo (612) é conectado a um estágio inovador do livro de códigos (614) e os dados do livro de códigos do livro de códigos adaptativo (612) e do livro de códigos inovador são inseridos no multiplexador de fluxo de bits conforme ilustrado.

[0111] Além disso, um estágio de ganhos de ACELP/codificação (615) é fornecido em série ao estágio inovador do livro de códigos (614) e o resultado deste bloco é inserido em um determinador do livro de códigos (613) indicado como MMSE na figura 14a. Este bloco coopera com o bloco do livro de códigos inovador (614). Além disso, o codificador de domínio de tempo compreende, adicionalmente, uma parte do decodificador tendo um bloco de filtragem da síntese de LPC (616), um bloco de de-ênfase (617) e um estágio de pós-filtro de baixo adaptativo (618) para cálculo dos parâmetros para um pós-filtro de baixo adaptativo que é, entretanto, aplicado no lado do decodificador. Sem qualquer pós-filtragem de baixo adaptativo no lado do decodificador, blocos (616, 617, 618) não seriam necessários para o codificador de domínio de tempo (610).

[0112] Conforme ilustrado, vários blocos do decodificador de domínio de tempo dependem dos sinais prévios e estes blocos são o bloco do livro de códigos adaptativo (612), o determinador do livro de códigos (613), o bloco de filtragem da síntese de LPC (616) e o bloco de de-ênfase (617). Estes blocos são fornecidos com os dados do processador cruzado derivado dos dados do processador de codificação de domínio de frequência a fim de inicializar estes blocos para a finalidade de estar pronto para uma comutação instantânea do codificador de domínio de frequência ao codificador de domínio de tempo. Como também pode ser visto a partir da figura 14a, qualquer dependência nos dados prévios não é necessária para o codificador de domínio de frequência. Portanto, o processador cruzado (700) não fornece quaisquer dados de inicialização da memória do codificador de domínio de tempo ao codificador de domínio de frequência. Entretanto, para outras implementações do codificador de domínio de frequência, onde as dependências do passado existem e onde os dados de inicialização da memória são necessários, o processador cruzado (700) é configurado para operar em ambas as direções.

[0113] O decodificador de áudio preferido na figura 14b é descrito a seguir: a parte do decodificador de forma de onda consiste em uma passagem do decodificador de TCX de banda completa com IGF ambos operando na taxa de amostragem de entrada do codec. Em paralelo, uma passagem alternativa do decodificador de ACELP na taxa de amostragem inferior existe que é reforçada, ainda, a jusante por um TD-BWE.

[0114] Para inicialização de ACELP ao comutar de TCX em ACELP, uma passagem cruzada (que consiste em um decodificador de TCX dividido frontend, mas adicionalmente fornecendo a saída na taxa de amostragem inferior e algum pós- processamento) existe que realiza a inicialização de ACELP inventivo. O compartilhamento da mesma taxa de amostragem e da ordem de filtro entre TCX e ACELP nas LPCs possibilita uma inicialização de ACELP mais fácil e mais eficiente.

[0115] Para visualização da comutação, dois comutadores são desenhados em 14b. Enquanto o segundo comutador 1160 a jusante escolhe entre a saída TCX/IGF ou ACELP/TD-BWE, o primeiro comutador (1480) pré-atualiza os buffers no estágio de QMF de reamostragem a jusante da passagem de ACELP pela saída da passagem cruzada ou simplesmente passa na saída de ACELP.

[0116] Subsequentemente, as implementações do decodificador de áudio, de acordo com os aspectos da presente invenção, são discutidas no contexto das figuras de 11a a 14c.

[0117] Um decodificador de áudio para decodificação de um sinal de áudio codificado (1101) compreende um primeiro processador de decodificação (1120) para decodificação de uma primeira parte codificada do sinal de áudio em um domínio de frequência. O primeiro processador de decodificação (1120) compreende um decodificador espectral (1122) para decodificação de regiões espectrais primárias com uma resolução espectral alta e para sintetização das regiões espectrais secundárias utilizando uma representação paramétrica das regiões espectrais secundárias e pelo menos uma primeira região espectral decodificada para obter uma representação espectral decodificada. A representação espectral decodificada é uma representação espectral decodificada de banda completa conforme discutido no contexto da figura 6 e conforme também discutido no contexto da figura 1a. De modo geral, o primeiro processador de decodificação, portanto, compreende uma implementação de banda completa com um procedimento de preenchimento de folga no domínio de frequência. O primeiro processador de decodificação (1120) ainda compreende um conversor de tempo-frequência (1124) para conversão da representação espectral decodificada em um domínio de tempo para obter uma primeira parte decodificada do sinal de áudio.

[0118] Além disso, o decodificador de áudio compreende um segundo processador de decodificação (1140) para decodificação da segunda parte codificada do sinal de áudio no domínio de tempo para obter uma segunda parte decodificada do sinal. Além disso, o decodificador de áudio compreende um combinador (1160) para combinação da primeira parte decodificada do sinal e da segunda parte decodificada do sinal para obter um sinal de áudio decodificado. As partes decodificadas do sinal são combinadas na sequência que é também ilustrada na figura 14b por uma implementação do comutador (1160) que representa uma aplicação do combinador (1160) da figura 11a.

[0119] Preferivelmente, o segundo processador de decodificação (1140) contém um processador da extensão da largura de banda do domínio de tempo (1220) e compreende, conforme ilustrado na figura 12, um decodificador de banda baixa de domínio de tempo (1200) para decodificação de um sinal de domínio de tempo de banda baixa. Esta implementação, ainda, compreende um amplificador da taxa de amostragem (1210) para aumento da taxa de amostragem do sinal de domínio de tempo de banda baixa. Adicionalmente, um decodificador de extensão de largura de banda do domínio de tempo (1220) é fornecido para sintetização de uma banda alta do sinal de áudio de saída. Além disso, um misturador (1230) é fornecido para misturar uma banda alta sintetizada do sinal de saída de domínio de tempo e um sinal de domínio de tempo de banda baixa com taxa de amostragem amplificada para obter a saída do codificador de domínio de tempo. Assim, o bloco (1140) na figura 11a pode ser implementado pela funcionalidade da figura 12 em uma aplicação preferida.

[0120] A figura 13 ilustra uma aplicação preferida do decodificador de extensão de largura de banda do domínio de tempo (1220) da figura 12. Preferivelmente, um amplificador da taxa de amostragem do domínio de tempo (1221) é fornecido recebendo, como uma entrada, um sinal residual de LPC de um decodificador de banda baixa de domínio de tempo incluído dentro do bloco (1140) e ilustrado em (1200) na figura 12 e, ainda, ilustrado no contexto da figura 14b. O amplificador da taxa de amostragem do domínio de tempo (1221) gera uma versão com taxa de amostragem amplificada do sinal residual de LPC. Essa versão é então inserida em um bloco de distorção não linear (1222) que gera, com base em seu sinal de entrada, um sinal de saída tendo valores de frequência mais alta. Uma distorção não linear pode ser uma cópia, um reflexo, uma mudança de frequência ou uma operação de computação não linear ou dispositivo como um diodo ou um transistor operado na região não linear. O sinal de saída do bloco (1222) é inserido em um bloco de filtragem da síntese de LPC (1223) que é controlado pelos dados de LPC utilizados para o decodificador de banda baixa bem como por dados de envelope específicos gerados pelo bloco de extensão da largura de banda do domínio de tempo (920) no lado do codificador da figura 14a, por exemplo. A saída do bloco de síntese de LPC é então inserida em um passa-banda ou filtro passa alta (1224) para finalmente obter a banda alta, que é então inserida ao misturador (1230), conforme ilustrado na figura 12.

[0121] Subsequentemente, uma implementação preferida do amplificador da taxa de amostragem (1210) da figura 12 é discutida no contexto da figura 14b. O amplificador da taxa de amostragem preferivelmente compreende um banco de filtro de análise que opera em uma primeira taxa de amostragem do decodificador de banda baixa de domínio de tempo. Uma implementação específica de tal banco de filtro de análise é um banco de filtro de análise de QMF (1471) ilustrado na figura 14b. Além disso, o amplificador da taxa de amostragem compreende um banco de filtro de síntese (1473) que opera em uma segunda taxa de amostragem de saída sendo mais alta do que a primeira taxa de amostragem de banda baixa do domínio de tempo. Assim, o banco de filtro de síntese de QMF (1473) que é uma implementação preferida do banco de filtro geral opera na taxa de amostragem de saída. Quando o fator de redução da taxa de amostragem DS, conforme discutido no contexto da figura 7b, for 5, então o banco de filtro de análise de QMF (1471) tem, por exemplo, apenas (32) canais do banco de filtro e o banco de filtro de síntese de QMF (1473) tem, por exemplo, (64) canais de QMF, mas a metade mais alta dos canais do banco de filtro, ou seja, os (32) canais do banco de filtro superiores são inseridos com zeros ou ruído, enquanto os (32) canais do banco de filtro inferiores são inseridos com os sinais correspondentes fornecidos pelo banco de filtro de análise de QMF (1471). Preferivelmente, entretanto, uma filtragem de passa-banda (1472) é realizada dentro do domínio de banco de filtro de QMF, a fim de certificar que a saída de síntese de QMF (1473) é uma versão com a taxa de amostragem amplificada da saída do decodificador de ACELP, mas sem quaisquer perturbações acima da frequência máxima do decodificador de ACELP.

[0122] Outras operações de processamento podem ser realizadas dentro do domínio de QMF além de, ou em vez da filtragem de passa-banda (1472). Se nenhum processamento for realizado de nenhuma forma, então a análise de QMF e a síntese de QMF constituem um amplificador da taxa de amostragem eficiente (1210).

[0123] Subsequentemente, a construção dos elementos individuais na figura 14b são discutidos em mais detalhes.

[0124] O decodificador do domínio de frequência de banda completa (1120) compreende um primeiro bloco de decodificação (1122a) para decodificação dos coeficientes espectrais de alta resolução e para, adicionalmente, realizar o preenchimento do ruído na parte de banda baixa conforme conhecido, por exemplo, da tecnologia de USAC. Além disso, o decodificador de banda completa compreende um processador de IGF (1122b) para preenchimento dos furos espectrais utilizando valores espectrais sintetizados que foram codificados apenas parametricamente e, portanto, codificados com uma baixa resolução no lado do codificador. Então, no bloco (1122c), uma modulação de ruído inversa é realizada e o resultado é inserido em um bloco de síntese de TNS/TTS (705) que fornece, como uma saída final, uma entrada em um conversor de tempo-frequência (1124), que é preferivelmente implementada como uma transformada discreta de cosseno modificada inversa que opera na saída, ou seja, alta taxa de amostragem.

[0125] Além disso, um pós-filtro harmônico ou LTP é utilizado sendo controlado por dados obtidos pelo bloco de extração do parâmetro TCX-LTP (1006) na figura 14a. O resultado é, então, a primeira parte decodificada do sinal de áudio na taxa de amostragem de saída e como pode ser visto da figura 14b, estes dados têm a alta taxa de amostragem e, portanto, qualquer intensificação de frequência adicional não é de nenhuma forma necessária devido ao fato que o processador de decodificação é um decodificador de banda completa de domínio de frequência preferivelmente que opera utilizando a tecnologia de preenchimento de lacuna inteligente discutida no contexto das figuras de 1a a 5C.

[0126] Vários elementos na figura 14b são bem similares aos blocos correspondentes no processador cruzado (700) da figura 14a, particularmente com relação ao decodificador de IGF (704) correspondente ao processamento de IGF (1122b) e a operação de modulação de ruído inversa controlada pelos coeficientes de LPC quantizados (1145) corresponde à modulação de ruído inversa (703) da figura 14a e o bloco de síntese de TNS/TTS (705) na figura 14b corresponde à síntese do bloco TNS/TTS (705) na figura 14a. De forma importante, entretanto, o bloco de IMDCT (1124) na figura 14b opera na alta taxa de amostragem enquanto o bloco de IMDCT (702) na figura 14a opera em uma baixa taxa de amostragem. Assim, o bloco (1124) na figura 14b compreende a transformada de tamanho grande e o bloco desdobrável (710), a janela de síntese no bloco (712) e o estágio de adição por sobreposição (714) com o grande número de operações correspondente, grande número de coeficientes de janela e um grande tamanho da transformada em comparação com os recursos correspondentes (720, 722, 724) na figura 7b, que são operados no bloco (701) e, conforme será descrito posteriormente, no bloco (1171) do processador cruzado (1170) na figura 14b também.

[0127] O processador de decodificação do domínio de tempo (1140) preferivelmente compreende o decodificador de banda baixa de domínio de tempo ou de ACELP (1200) compreendendo um estágio do decodificador de ACELP (1149) para obtenção dos ganhos decodificados e da informação do livro de códigos inovador. Adicionalmente, um estágio adaptativo do livro de códigos de ACELP (1141) é fornecido e um estágio de pós-processamento de ACELP subsequente (1142) e um filtro de síntese final como filtro de síntese de LPC (1143), que é novamente controlado pelos coeficientes de LPC quantizados 1145 obtidos do desmultiplexador de fluxo de bits (1100) correspondente ao analisador do sinal codificado (1100) na figura 11a. A saída do filtro de síntese de LPC (1143) é inserida em um estágio de de-ênfase (1144) para cancelamento ou anulação do processamento introduzido pelo estágio de pré- ênfase (1005) do pré-processador (1000) da figura 14a. O resultado é o sinal de saída de domínio de tempo em uma baixa taxa de amostragem e uma banda baixa e no caso em que a saída do domínio de frequência é necessária, o comutador (1480) está na posição indicada e a saída do estágio de de-ênfase (1144) é introduzida ao amplificador da taxa de amostragem (1210) e então misturada com as bandas altas do decodificador de extensão de largura de banda do domínio de tempo (1220).

[0128] De acordo com as aplicações da presente invenção, o decodificador de áudio compreende, adicionalmente, o processador cruzado (1170) ilustrado na figura 11b e na figura 14b para cálculo, a partir da representação espectral decodificada da primeira parte codificada do sinal de áudio, dos dados de inicialização do segundo processador de decodificação de modo que o segundo processador de decodificação seja inicializado para decodificar a segunda parte codificada do sinal de áudio seguindo no tempo a primeira parte do sinal de áudio no sinal de áudio codificado, ou seja, de modo que o processador de decodificação do domínio de tempo (1140) esteja pronto para uma comutação instantânea de uma parte do sinal de áudio para a próxima sem qualquer perda na qualidade ou eficiência.

[0129] Preferivelmente, o processador cruzado (1170) compreende um conversor de tempo-frequência adicional (1171) que opera em uma taxa de amostragem inferior do que o conversor de tempo-frequência do primeiro processador de decodificação a fim de obter uma primeira parte decodificada do sinal adicional no domínio de tempo a ser utilizada como o sinal de inicialização ou para o qual quaisquer dados de inicialização podem ser derivados. Preferivelmente, este conversor de tempo- frequência de IMDCT ou de baixa taxa de amostragem é implementado conforme ilustrado na figura 7b, o item (726) (seletor), o item (720) (transformada de pequeno tamanho e desdobrável), janelamento de síntese com um pequeno número de coeficientes de janela conforme indicado em (722) e um estágio de adição por sobreposição com um pequeno número de operações conforme indicado em (724). Assim, o bloco de IMDCT (1124) no decodificador de banda completa de domínio de frequência é implementado conforme indicado pelo bloco (710, 712, 714), e o bloco de IMDCT (1171) é implementado conforme indicado na figura 7b pelo bloco (726, 720, 722, 724). Novamente, o fator de redução da taxa de amostragem é a relação entre a taxa de amostragem do codificador de domínio de tempo ou a baixa taxa de amostragem e a taxa de amostragem mais alta do codificador de domínio de frequência ou taxa de amostragem de saída e este fator de redução da taxa de amostragem pode ser qualquer número maior do que 0 e menor do que 1.

[0130] Conforme ilustrado na figura 14b, o processador cruzado (1170) compreende, ainda, sozinho ou com outros elementos, um estágio de atraso (1172) para atrasar a primeira parte decodificada do sinal adicional e para inserir a primeira parte atrasada decodificada do sinal em um estágio de de-ênfase (1144) do segundo processador de decodificação para inicialização. Além disso, o processador cruzado compreende, de modo adicional ou alternativo, um filtro de pré-ênfase (1173) e um estágio de atraso (1175) para filtrar e atrasar a primeira parte decodificada do sinal adicional e para fornecimento da saída atrasada do bloco (1175) em um estágio de filtragem de síntese de LPC (1143) do decodificador de ACELP para a finalidade de inicialização.

[0131] Além disso, o processador cruzado pode compreender, alternativamente ou além dos outros elementos mencionados, um filtro de análise de LPC (1174) para geração de um sinal residual de previsão da primeira parte decodificada do sinal adicional ou uma primeira parte decodificada pré- enfatizada do sinal adicional e para inserir os dados em um sintetizador de livro de códigos do segundo processador de decodificação e, preferivelmente, ao estágio adaptativo do livro de códigos (1141). Além disso, a saída do conversor de tempo-frequência (1171) com a baixa taxa de amostragem é também inserida ao estágio de análise de QMF (1471) do amplificador da taxa de amostragem (1210) para a finalidade de inicialização, ou seja, quando a parte do sinal de áudio atualmente decodificada é entregue pelo decodificador de banda completa de domínio de frequência (1120).

[0132] O decodificador de áudio preferido é descrito a seguir: a parte do decodificador de forma de onda consiste em uma passagem do decodificador de TCX de banda completa com IGF que opera na taxa de amostragem de entrada do codec. Em paralelo, uma passagem alternativa do decodificador de ACELP na taxa de amostragem inferior existe sendo reforçada ainda a jusante por um TD-BWE.

[0133] Para a inicialização de ACELP ao comutar de TCX para ACELP, uma passagem cruzada (que consiste em um decodificador de TCX dividido frontend, mas adicionalmente fornece saída na taxa de amostragem inferior e algum pós- processamento) existe realizando a inicialização de ACELP inventiva. O compartilhamento da mesma taxa de amostragem e ordem do filtro entre TCX e ACELP nos LPCs possibilita uma inicialização de ACELP mais fácil e mais eficiente.

[0134] Para a visualização da comutação, dois comutadores são desenhados na figura 14b. Enquanto o segundo comutador (1160) a jusante escolhe entre saída de TCX/IGF ou ACELP/TD-BWE, o primeiro comutador (1480) pré-atualiza os buffers no de QMF de reamostragem a jusante da passagem de ACELP pela saída da passagem cruzada ou simplesmente passa na saída de ACELP.

[0135] Para resumir, os aspectos preferidos da invenção que podem ser utilizados sozinhos ou em combinação se referem a uma combinação de um codificador de ACELP e TD-BWE com uma tecnologia de TCX/IGF capaz de banda completa preferivelmente associada utilizando um sinal cruzado.

[0136] Um recurso específico adicional é uma passagem de sinal cruzado para a inicialização de ACELP permitir a comutação integrada.

[0137] Um aspecto adicional é que uma IMDCT curta é inserida com uma parte inferior de coeficientes de MDCT longos de taxa alta para implementar eficientemente uma conversão de taxa de amostragem na passagem cruzada.

[0138] Um recurso adicional é uma realização eficiente da passagem cruzada parcialmente dividida com um TCX/IGF de banda completa no decodificador.

[0139] Um recurso adicional é a passagem de sinal cruzado para a inicialização de QMF permitir a comutação integrada de TCX para ACELP.

[0140] Um recurso adicional é uma passagem de sinal cruzado à QMF possibilitando a compensação da lacuna de retardo entre a saída reamostrada de ACELP e uma saída de TCX/IGF do banco de filtro na comutação de ACELP para TCX.

[0141] Um aspecto adicional é que uma LPC é fornecida para ambos os codificadores de TCX e de ACELP na mesma taxa de amostragem e ordem de filtro, embora o codificador/decodificador de TCX/IGF seja capaz de banda completa.

[0142] Subsequentemente, a figura 14c é discutida como uma implementação preferida de um decodificador de domínio de tempo que opera como um decodificador independente ou em combinação com o decodificar de domínio de frequência capaz de banda completa.

[0143] De modo geral, o decodificador de domínio de tempo compreende um decodificador de ACELP, um reamostrador subsequentemente conectado ou amplificador da taxa de amostragem e uma funcionalidade da extensão da largura de banda do domínio de tempo. Particularmente, o decodificador de ACELP compreende um estágio de decodificação de ACELP para recuperar ganhos e o livro de códigos inovador (1149), um estágio adaptativo do livro de códigos por ACELP (1141), um pós- processador de ACELP (1142), um filtro de síntese de LPC (1143) controlado pelos coeficientes de LPC quantizados de um desmultiplexador de fluxo de bits ou analisador do sinal codificado e o estágio de de-ênfase subsequentemente conectado (1144). Preferivelmente, o sinal de domínio de tempo decodificado estando em uma taxa de amostragem de ACELP é inserido, junto aos dados de controle do fluxo de bits, em um decodificador de extensão de largura de banda do domínio de tempo (1220), que fornece uma banda alta nas saídas.

[0144] A fim de amplificar a taxa de amostragem da saída de de-ênfase (1144), um amplificador da taxa de amostragem compreendendo o bloco de análise de QMF (1471) e o bloco de síntese de QMF (1473) são fornecidos. Dentro do domínio do banco de filtro definido pelos blocos (1471 e 1473), um filtro passa-banda é preferivelmente aplicado. Particularmente, como foi discutido previamente, as mesmas funcionalidades também podem ser utilizadas que foram discutidas com relação aos mesmos números de referência. Além disso, o decodificador de extensão de largura de banda do domínio de tempo (1220) pode ser implementado conforme ilustrado na figura 13 e, de modo geral, compreende um aumento da taxa de amostragem do sinal residual de ACELP ou sinal do domínio de tempo residual na taxa de amostragem de ACELP finalmente para uma taxa de amostragem de saída do sinal estendido da largura de banda.

[0145] Subsequentemente, detalhes adicionais com relação ao codificador de domínio de frequência e decodificador sendo capazes de banda completa são discutidos com relação às figuras de 1A a 5C.

[0146] A figura 1a ilustra um aparelho para codificação de um sinal de áudio (99). O sinal de áudio (99) é inserido em um conversor de espectro de tempo (100) para conversão de um sinal de áudio tendo uma taxa de amostragem em uma representação espectral (101) emitida pelo conversor de espectro de tempo. O espectro (101) é inserido em um analisador espectral (102) para análise da representação espectral (101). O analisador espectral (101) é configurado para determinação de um primeiro conjunto de partes espectrais primárias (103) a ser codificado com uma primeira resolução espectral e um segundo conjunto diferente de partes espectrais secundárias (105) a ser codificado com uma segunda resolução espectral. A segunda resolução espectral é menor do que a primeira resolução espectral. O segundo conjunto de partes espectrais secundárias (105) é inserido em uma calculadora de parâmetro ou codificador paramétrico (104) para cálculo da informação do envelope espectral tendo a segunda resolução espectral. Além disso, um codificador de áudio de domínio espectral (106) é fornecido para geração de uma primeira representação codificada (107) do primeiro conjunto de partes espectrais primárias tendo a primeira resolução espectral. Além disso, a calculadora de parâmetro/codificador paramétrico (104) é configurado para geração de uma segunda representação codificada (109) do segundo conjunto de partes espectrais secundárias. A primeira representação codificada (107) e a segunda representação codificada (109) são inseridas em um multiplexador do fluxo de bits ou modulador do fluxo de bits (108) e o bloco (108) finalmente emite o sinal de áudio codificado para transmissão ou armazenamento em um dispositivo de armazenamento.

[0147] Tipicamente, uma primeira parte espectral como (306) da figura 3a será envolvida por duas partes espectrais secundárias como (307a, 307b). Este não é o caso, por exemplo, em HE-AAC, onde a faixa de frequência do codificador central é limitada por banda.

[0148] A figura 1b ilustra um decodificador que combina com o codificador da figura 1a. A primeira representação codificada (107) é inserida em um decodificador de domínio espectral de áudio (112) para geração de uma primeira representação decodificada de um primeiro conjunto de partes espectrais primárias, a representação decodificada tendo uma primeira resolução espectral. Além disso, a segunda representação codificada (109) é inserida em um decodificador paramétrico (114) para geração de uma segunda representação decodificada de um segundo conjunto de partes espectrais secundárias tendo uma segunda resolução espectral sendo menor do que a primeira resolução espectral.

[0149] O decodificador compreende, ainda, um regenerador de frequência (116) para regeneração de uma segunda parte espectral reconstruída, tendo a primeira resolução espectral utilizando uma primeira parte espectral. O regenerador de frequência (116) realiza uma operação de enchimento de porção, ou seja, utiliza uma porção ou parte do primeiro conjunto de partes espectrais primárias e copia este primeiro conjunto de partes espectrais primárias na faixa de reconstrução ou na banda de reconstrução tendo a segunda parte espectral e tipicamente realiza a modulação do envelope espectral ou outra operação, conforme indicado pela segunda representação decodificada emitida pelo decodificador paramétrico (114), ou seja, utilizando a informação sobre o segundo conjunto de partes espectrais secundárias. O primeiro conjunto de partes espectrais primárias decodificadas e o segundo conjunto de partes espectrais reconstruídas, conforme indicado na saída do regenerador de frequência (116) na linha (117), são inseridos em um conversor de espectro-tempo (118) configurado para conversão da primeira representação decodificada e da segunda parte espectral reconstruída em uma representação de tempo (119), a representação de tempo tendo uma certa alta taxa de amostragem.

[0150] A figura 2b ilustra uma implementação do codificador da figura 1a. Um sinal de áudio de entrada (99) é inserido em um banco de filtro de análise (220) correspondente ao conversor de espectro de tempo (100) da figura 1a. Então, uma operação da modulação de ruído temporal é realizada no bloco TNS (222). Portanto, a entrada ao analisador espectral (102) da figura 1a correspondente a uma máscara tonal do bloco (226) da figura 2b pode ser valores espectrais completos, quando a operação de modulação de ruído temporal/ modulação de porção temporal não é aplicada ou pode ser valores residuais espectrais, quando a operação de TNS, conforme ilustrado na figura 2b, bloco (222) for aplicada. Para os sinais de dois canais ou sinal multicanais, uma codificação de canal por junção (228) pode adicionalmente ser realizada, de modo que o codificador de domínio espectral (106) da figura 1a possa compreender o bloco (228) da codificação de canal por junção. Além disso, um codificador por entropia (232) para realizar a compressão de dados sem perda é fornecido sendo também uma parte do codificador de domínio espectral (106) da figura 1a.

[0151] O analisador espectral/máscara tonal (226) separa a saída de TNS do bloco (222) na banda central e nos componentes tonais correspondentes ao primeiro conjunto de partes espectrais primárias (103) e nos componentes residuais correspondentes ao segundo conjunto de partes espectrais secundárias (105) da figura 1a. O bloco (224) indicado como codificação de extração do parâmetro IGF corresponde ao codificador paramétrico (104) da figura 1a e o multiplexador de fluxo de bits (230) corresponde ao multiplexador de fluxo de bits (108) da figura 1a.

[0152] Preferivelmente, o banco de filtro de análise (222) é implementado como uma MDCT (banco de filtro da transformada de cosseno discreta modificada) e a MDCT é utilizada para transformar o sinal (99) em um domínio de tempo- frequência com a transformada de cosseno discreta modificada que age como a ferramenta de análise de frequência.

[0153] O analisador espectral (226), preferivelmente, aplica uma máscara de tonalidade. Esse estágio de estimativa de máscara de tonalidade é utilizado para separar os componentes tonais dos componentes do tipo ruído no sinal. Isso possibilita que o codificador central (228) codifique todos os componentes tonais com um módulo físico-acústico.

[0154] Este método tem certas vantagens sobre o SBR clássico [1] em que a grade harmônica de um sinal multitonal é preservado pelo codificador central enquanto apenas as lacunas entre os sinusoides são preenchidas com o melhor “ruído modulado” correspondente da região de origem.

[0155] No caso de pares de canal estéreo, um processamento estéreo de junção adicional é aplicado. Isso é necessário, porque por uma certa faixa de destino a faixa o sinal pode ser uma fonte sonora altamente dispersa e correlacionada. No caso de as regiões de origem escolhidas para essa região particular não estarem bem correlacionadas, embora as energias sejam combinadas para as regiões de destino, a imagem espacial pode sofrer devido às regiões de origem não correlacionadas. O codificador analisa cada banda de energia da região de destino, tipicamente realizando uma correlação cruzada dos valores espectrais e ser um certo limite for excedido, define um indicador de junção para essa banda de energia. No decodificador, as bandas de energia do canal direita e esquerda são tratadas individualmente se esse indicador estéreo de junção não for definido. No caso de indicador estéreo de junção ser definido, ambas as energias e a reparação são realizadas no domínio estéreo conjunto. A informação estéreo de junção para as regiões de IGF é sinalizada similar à informação estéreo de junção para a codificação central, incluindo um indicador indicando em caso de previsão da direção da previsão ser de downmix para residual ou vice-versa.

[0156] As energias podem ser calculadas a partir das energias transmitidas no domínio L/R.

[0157] sendo looíndice de frequência no domínio de transformada.

[0158] Outra solução é calcular e transmitir as energias diretamente no domínio estéreo conjunto para bandas onde o estéreo conjunto está ativo, assim nenhuma transformação de energia adicional é necessária no lado do decodificador.

[0159] As porções de origem são sempre criadas de acordo com a Matriz Central/Lateral:

[0160] Ajuste de energia:

[0161] Ligação estéreo -> Transformação de LR:

[0162] Se nenhum parâmetro de predição adicional for codificado:

[0163] Se nenhum parâmetro de previsão adicional for codificado e se a direção sinalizada for do meio ao lado:

[0164] Se a direção sinalizada for do lado ao meio:

[0165] Este processamento garante que a partir das porções utilizadas para regeneração de regiões de destino altamente correlacionadas e regiões de destino deslocadas, os canais esquerdo e direito resultantes ainda representam uma fonte sonora correlacionada e deslocada mesmo se as regiões de origem não estiverem correlacionadas, preservando a imagem estéreo para tais regiões.

[0166] Em outras palavras, no fluxo de bits, indicadores de conjunto estéreo são transmitidos indicando se L/R ou M/S como um exemplo para a codificação do conjunto estéreo geral deve ser utilizada. No decodificador, primeiro, o sinal central é decodificado, conforme indicado pelos indicadores de conjunto estéreo para as bandas centrais. Segundo, o sinal central é armazenado na representação de ambos L/R e M/S. Para o preenchimento da porção de IGF, a representação da porção fonte é escolhida para ajustar a representação da porção alvo conforme indicado pela informação estéreo de junção para as bandas de IGF.

[0167] A Modulação de Ruído Temporal (TNS) é uma técnica padrão e parte da AAC. A TNS pode ser considerada como uma extensão do esquema básico de um codificador de perceptual, inserindo uma etapa de processamento opcional entre o banco de filtro e o estágio de quantização. A principal tarefa do módulo de TNS é esconder o ruído de quantização produzido na região de mascaramento temporal de sinais similares transientes e, assim, leva ao um esquema de codificação mais eficiente. Primeiro, a TNS calcula um conjunto de coeficientes de previsão utilizando “previsão de avanço” no domínio de transformada, por exemplo, MDCT. Estes coeficientes são então utilizados para nivelamento do envelope temporal do sinal. Como a quantização afeta o espectro filtrado por TNS, ainda o ruído de quantização é temporariamente nivelado. Por meio da aplicação da filtragem de TNS inversa no lado do decodificador, o ruído de quantização é modulado de acordo com o envelope temporal do filtro de TNS e, portanto, o ruído de quantização fica marcado pelo transiente.

[0168] IGF se baseia em uma representação de MDCT. Para a codificação eficiente, preferivelmente blocos longos de aproximadamente 20 ms devem ser utilizados. Se o sinal dentro de tal bloco longo conter transientes, pré- e pós-ecos audíveis ocorrem nas bandas espectrais de IGF devido ao preenchimento da porção.

[0169] Este efeito de pré-eco é reduzido, utilizando a TNS no contexto de IGF. Aqui, a TNS é utilizada como uma ferramenta de modulação de porção temporal (TTS), pois a regeneração espectral no decodificador é realizada no sinal residual de TNS. Os coeficientes de TTS necessários de previsão são calculados e aplicados utilizando o espectro completo no lado do codificador, como habitualmente. As frequências de início e parada de TNS/TTS não são afetadas pela frequência inicial de da ferramenta de IGF. Em comparação com a TNS de legado, a frequência de parada de TTS é aumentada para a frequência de parada da ferramenta de IGF, que é mais alta do que . No lado do decodificador, os coeficientes de TNS/TTS são aplicados no espectro completo novamente, ou seja, o espectro central mais o espectro referido mais os componentes tonais da máscara de tonalidade (vide figura 7e). A aplicação de TTS é necessária para formar o envelope temporal do espectro referido para combinar o envelope do sinal original novamente.

[0170] Nos decodificadores de legado, a reparação espectral em um sinal de áudio corrompe a correlação espectral nas bordas de reparação e, assim, prejudica o envelope temporal do sinal de áudio introduzindo a dispersão. Assim, outro benefício da realização do preenchimento da porção de IGF no sinal residual é que, após a aplicação do filtro de modulação, as bordas da porção são continuamente correlacionadas, resultando em uma reprodução temporal mais fiel do sinal.

[0171] Em um codificador de IGF, o espectro tendo passado pela filtragem de TNS/TTS, o processamento da máscara de tonalidade e a estimativa do parâmetro de IGF é destituída de qualquer sinal acima da frequência inicial de IGF exceto para os componentes tonais. Este espectro esparso é agora codificado pelo codificador central utilizando os princípios de codificação aritmética e de previsão. Esses componentes codificados junto com os bits de sinalização forma o fluxo de bits do áudio.

[0172] A figura 2a ilustra a implementação correspondente do decodificador. O fluxo de bits na figura 2a correspondente ao sinal de áudio codificado é inserido no desmultiplexador/decodificador que seria conectado, com relação à figura 1b, aos blocos (112 e 114). O desmultiplexador de fluxo de bits separa o sinal de entrada de áudio na primeira representação codificada (107) da figura 1b e na segunda representação codificada (109) da figura 1b. A primeira representação codificada tendo o primeiro conjunto de partes espectrais primárias é inserida no bloco de decodificação do canal conjunto (204) correspondente ao decodificador de domínio espectral (112) da figura 1b. A segunda representação codificada é inserida no decodificador paramétrico (114) não ilustrado na figura 2a e, então, inserida ao bloco de IGF (202) correspondente ao regenerador de frequência (116) da figura 1b. O primeiro conjunto de partes espectrais primárias necessário para a regeneração de frequência é inserido ao bloco de IGF (202) através da linha (203). Além disso, subsequente à decodificação do canal conjunto (204) a decodificação central específica é aplicada no bloco de máscara tonal (206) de modo que a saída da máscara tonal (206) corresponda à saída do decodificador de domínio espectral (112). Então, uma combinação pelo combinador (208) é realizada, ou seja, uma construção de estrutura onde a saída do combinador (208) agora tem o espectro de faixa completa, mas ainda no domínio filtrado por TNS/TTS. Então, no bloco (210), uma operação inversa de TNS/TTS é realizada utilizando a informação do filtro de TNS/TTS fornecida através da linha (109), ou seja, a informação lateral de TTS é preferivelmente incluída na primeira representação codificada gerada pelo codificador de domínio espectral (106) que pode, por exemplo, ser um codificador direto central de AAC ou USAC, ou pode ser também incluído na segunda representação codificada. Na saída do bloco (210), um espectro completo até a frequência máxima ser fornecida sendo a frequência de faixa completa definida pela taxa de amostragem do sinal de entrada original. Então, uma conversão de espectro/tempo é realizada no banco de filtro de síntese (212) para finalmente obter o sinal de áudio de saída.

[0173] A figura 3a ilustra uma representação esquemática do espectro. O espectro é subdividido em bandas do fator de escala SCB onde há sete bandas do fator de escala SCB1 a SCB7 no exemplo ilustrado da figura 3a. As bandas do fator de escala podem ser bandas do fator de escala AAC que são definidas no padrão AAC e têm uma largura de banda crescente em frequências superiores, conforme ilustrado na figura 3a esquematicamente. Prefere-se realizar o preenchimento de lacuna inteligente não primeiro momento do espectro, ou seja, em frequências baixas, mas iniciar a operação de IGF em uma frequência inicial de IGF ilustrado em 309. Portanto, a banda de frequência central estende-se da frequência mais baixa para a frequência inicial de IGF. Acima da frequência inicial de IGF, a análise do espectro é aplicada para separar os componentes espectrais de alta resolução (304, 305, 306, 307) (o primeiro conjunto de partes espectrais primárias) dos componentes de baixa resolução representados pelo segundo conjunto de partes espectrais secundárias. A figura 3a ilustra um espectro que é, de forma exemplar, inserido ao codificador de domínio espectral (106) ou ao codificador de canal conjunto (228), ou seja, o codificador central opera na faixa completa, mas codifica uma quantidade significativa de valores espectrais de zero, ou seja, esses valores espectrais de zero são quantizados a zero ou são definidos a zero antes da quantização ou subsequente à quantização. De qualquer forma, o codificador central opera em faixa completa, ou seja, como se o espectro fosse conforme ilustrado, ou seja, o decodificador central não deve ser necessariamente consciente de qualquer preenchimento de lacuna inteligente ou codificação do segundo conjunto de partes espectrais secundárias com uma resolução espectral inferior.

[0174] Preferivelmente, a resolução alta é definida por uma codificação em linha de linhas espectrais como linhas de MDCT, enquanto a segunda resolução ou a baixa resolução é definida, por exemplo, pelo cálculo de apenas um único valor espectral por banda do fato de escala, onde uma banda do fator de escala abrange várias linhas de frequência. Assim, a segunda baixa resolução é, com relação a sua resolução espectral, muito menor do que a primeira ou a resolução alta definida pela codificação em linha tipicamente aplicada pelo codificador central como um codificador central de AAC ou USAC.

[0175] Com referência ao fator de escala ou cálculo de energia, a situação é ilustrada na figura 3b. Devido ao fato que o codificador é um codificador central e devido ao fato de que pode, mas não necessariamente tem que haver, componentes do primeiro conjunto de partes espectrais em cada banda, o codificador central calcula um fator de escala para cada banda não apenas na faixa central abaixo da frequência inicial de IGF (309), mas também acima da frequência inicial de IGF até a frequência máxima que é pequena ou igual à metade da frequência de amostragem, ou seja, fs/2. Assim, as partes codificadas tonais (302, 304, 305, 306, 307) da figura 3a e, nessa aplicação junto com os fatores de escala SCB1 a SCB7 correspondem aos dados espectrais de alta resolução. Os dados espectrais de baixa resolução são calculados iniciando da frequência inicial de IGF e correspondem aos valores da informação de energia E1, E2, E3, E4, que são transmitidos juntos com os fatores de escala SF4 a SF7.

[0176] Particularmente, quando o codificador central está sob uma condição de baixa taxa de bit, uma operação de preenchimento de ruído adicional na banda central, ou seja, menor na frequência do que na frequência inicial de IGF, ou seja, em bandas do fator de escala SCB1 a SCB3 pode ser aplicada ainda. No preenchimento de ruído, existem várias linhas espectrais adjacentes que foram quantizadas a zero. No lado do decodificador, esses valores espectrais quantizados a zero são ressintetizados e os valores espectrais ressintetizados são ajustados em sua magnitude utilizando uma energia de preenchimento de ruído como NF2 ilustrado em (308) na figura 3b. A energia de preenchimento de ruído, que pode ser dada em termos absolutos ou em termos relativos com relação ao fator de escala como em USAC corresponde à energia do conjunto de valores espectrais quantizados a zero. Essas linhas espectrais de preenchimento de ruído também podem ser consideradas como um terceiro conjunto de partes espectrais terciárias que são referidas pela síntese de preenchimento de ruído direta sem qualquer operação de IGF dependendo da regeneração de frequência utilizando as porções de frequência de outras frequências para reconstrução das porções da frequência utilizando valores espectrais de uma faixa de origem e a informação de energia E1, E2, E3, E4.

[0177] Preferivelmente, as bandas, para as quais a informação de energia é calculada coincidem com as bandas do fator de escala. Em outras aplicações, um agrupamento do valor da informação de energia é aplicado de modo que, por exemplo, para as bandas do fator de escala 4 e 5, apenas um único valor de informação de energia é transmitido, mas ainda nesta aplicação, as bordas das bandas de reconstrução agrupadas coincidem com as bordas das bandas do fator de escala. Se diferentes operações de banda são aplicadas, então certos recálculos ou cálculos de sincronização podem ser aplicados, e isso pode fazer sentido dependendo de certa implementação.

[0178] Preferivelmente, o codificador de domínio espectral (106) da figura 1a é um codificador psicoacusticamente acionado, conforme ilustrado na figura 4a. Tipicamente, como, por exemplo, ilustrado no padrão MPEG2/4 AAC ou MPEG1/2, o padrão da Camada 3, o sinal de áudio a ser codificado após ter sido transformado em faixa espectral ((401) na figura 4a) é encaminhado a uma calculadora do fator de escala (400). A calculadora do fator de escala é controlada por um modelo psicoacústico que recebe, adicionalmente, o sinal de áudio a ser quantizado ou que recebe, como na Camada 3 de MPEG1/2 ou padrão de AAC para MPEG, uma representação espectral complexa do sinal de áudio. O modelo psicoacústico calcula, para cada banda do fator de escala, um fator de escala que representa o limite psicoacústico. Adicionalmente, os fatores de escala são, então, por cooperação dos circuitos de interação interno e externo bem conhecidos ou por qualquer procedimento de codificação adequado ajustado de modo que certas condições da taxa de bit sejam atendidas. Então, os valores espectrais a serem quantizados por um lado e os fatores de escala calculados por outro lado são inseridos em um processador quantizador (404). Na operação direta do codificador de áudio, os valores espectrais a serem quantizados são ponderados pelos fatores de escala e, os valores espectrais ponderados são, então, inseridos em um quantizador fixado tipicamente tendo uma funcionalidade de compressão em faixas superiores de amplitude. Então, na saída do processador quantizador existe os índices de quantização que são, então, encaminhados em um codificador por entropia tipicamente tendo codificação específica e muito eficiente para um conjunto de índices de quantização por zero para valores de frequência adjacentes ou, como também chamado na técnica, uma “execução” de valores de zero.

[0179] No codificador de áudio da figura 1a, entretanto, o processador quantizador tipicamente recebe informação sobre as partes espectrais secundárias do analisador espectral. Assim, o processador quantizador (404) certifica-se que, na saída do processador quantizador (404), as partes espectrais secundárias, conforme identificado pelo analisador espectral (102) são zero ou têm uma representação reconhecida por um codificador ou um decodificador como uma representação de zero que pode ser muito eficientemente codificada, especificamente quando existe “execuções” de valores zero no espectro.

[0180] A figura 4b ilustra uma implementação do processador quantizador. Os valores espectrais de MDCT podem ser inseridos em uma definição a zero no bloco (410). Então, as partes espectrais secundárias já são definidas a zero antes de uma ponderação pelos fatores de escala no bloco (412) ser realizada. Em uma implementação adicional, o bloco (410) não é fornecido, mas a cooperação de definição a zero é realizada no bloco (418) subsequente ao bloco de ponderação (412). Ainda em outra implementação adicional, a operação de definição a zero também pode ser realizada em um bloco de definição a zero (422) subsequente a uma quantização no bloco do quantizador (420). Nessa implementação, os blocos (410 e 418) não estariam presentes. De modo geral, pelo menos um dos blocos (410, 418, 422) é fornecido dependendo da implementação específica.

[0181] Então, na saída do bloco (422), um espectro quantizado é obtido correspondente ao o que é ilustrado na figura 3a. Esse espectro quantizado é, então, inserido a um codificador por entropia como (232) na figura 2b que pode ser um codificador Huffman ou um codificador aritmético como, por exemplo, definido no padrão USAC.

[0182] Os blocos de definição a zero (410, 418, 422), que são fornecidos alternativamente entre si ou paralelamente são controlados pelo analisador espectral (424). O analisador espectral preferivelmente compreende qualquer implementação de um detector de tonalidade bem conhecido ou compreende qualquer tipo diferente do detector operativo para separação de um espectro em componentes a serem codificados com uma resolução alta e componentes a serem codificados com uma baixa resolução. Outros desses algoritmos implementados no analisador espectral podem se detector de uma atividade por voz, um detector de ruído, um detector de fala ou qualquer outro detector que decide, dependendo da informação espectral ou metadados associados nas exigências de resolução para diferentes partes espectrais.

[0183] A figura 5a ilustra uma implementação preferida do conversor de espectro de tempo (100) da figura 1a como, por exemplo, implementado em AAC ou USAC. O conversor de espectro de tempo (100) compreende um janelador (502) controlado por um detector transiente (504). Quando o detector transiente (504) detecta um transiente, então uma transição de janelas longas para janelas curtas é sinalizada ao janelador. O janelador (502) então calcula, para blocos de sobreposição, as estruturas em janela, onde cada estrutura em janela tem tipicamente dois valores N como (2048) valores. Então, uma transformação dentro de um transformador de bloco (506) é realizada, e este transformador de bloco típica e adicionalmente fornece uma decimação, de modo que uma decimação/transformada combinada é realizada para obter uma estrutura espectral com valores N como valores espectrais de MDCT. Assim, para uma operação de janela longa, a estrutura na entrada do bloco (506) compreende dois valores N como (2048) valores e uma estrutura espectral, então, tem (1024) valores. Então, entretanto, uma comutação é realizada em blocos curtos, quando oito blocos curtos são realizados, onde cada bloco curto tem 1/8 valores do domínio de tempo em janela em comparação com uma janela longa e cada bloco espectral tem 1/8 valores espectrais em comparação com um bloco longo. Assim, quando essa decimação é combinada com 50% da operação de sobreposição do janelador, o espectro é uma versão criticamente amostrada do sinal de domínio de tempo de áudio (99).

[0184] Subsequentemente, referência é feita à figura 5b que ilustra uma implementação específica do regenerador de frequência (116) e o conversor de espectro-tempo (118) da figura 1b, ou da operação combinada de blocos (208, 212) da figura 2a. Na figura 5b, uma banda específica de reconstrução é considerada como banda do fator de escala (6) da figura 3a. A primeira parte espectral nessa banda de reconstrução, ou seja, a primeira parte espectral (306) da figura 3a é inserida no bloco criador/regulador de estrutura (510). Além disso, uma segunda parte espectral reconstruída para a banda do fator de escala (6) é, também, inserida no criador/regulador de estrutura (510). Além disso, a informação de energia como E3 da figura 3b para uma banda do fator de escala (6) é, também, inserida ao bloco (510). A segunda parte espectral reconstruída na banda de reconstrução já foi gerada pelo preenchimento de porção de frequência utilizando uma faixa de origem e a banda de reconstrução então corresponde à faixa alvo. Agora, um ajuste de energia da estrutura é realizado para, então, finalmente obter a estrutura reconstruída completa tendo os valores N como, por exemplo, obtidos na saída do combinador (208) da figura 2a. Então, no bloco (512), uma transformada/interpolação inversa do bloco é realizada para obter (248) valores do domínio de tempo para, por exemplo, os (124) valores espectrais na entrada do bloco (512), Então, uma operação do janelamento de síntese é realizada no bloco (514) que é novamente controlada por uma indicação de janela longa/janela curta transmitida no sinal de áudio codificado. Então, no bloco (516), uma operação de sobreposição/adição com um período prévio é realizada. Preferivelmente, a MDCT aplica 50% de sobreposição de modo que, para cada novo período de 2 valores N, N, os valores de domínio de tempo são finalmente emitidos. Uma sobreposição de 50% é pesadamente preferida devido ao fato que fornece amostragem crítica e um cruzamento de uma estrutura para a próxima estrutura devido à operação de sobreposição/adição no bloco (516).

[0185] Conforme ilustrado em (301) na figura 3a, uma operação de preenchimento de ruído pode adicionalmente ser aplicada não apenas abaixo da frequência inicial de IGF, mas também acima da frequência inicial de IGF como para a banda de reconstrução completa que coincide com a banda do fator de escala (6) da figura 3a. Então, os valores espectrais do preenchimento do ruído também podem ser inseridos no criador/regulador de estrutura (510) e o ajuste dos valores espectrais do preenchimento de ruído também pode ser aplicado dentro desse bloco ou os valores espectrais do preenchimento de ruído já podem ser ajustados utilizando a energia de preenchimento de ruído antes de ser inserida no criador/regulador de estrutura (510).

[0186] Preferivelmente, uma operação de IGF, ou seja, uma operação de enchimento de porção de frequência utilizando valores espectrais de outras partes pode ser aplicada no espectro completo. Assim, uma operação de enchimento de porção espectral pode não ser apenas aplicada na banda alta acima de uma frequência inicial de IGF, mas pode ser aplicada também na banda baixa. Além disso, o preenchimento do ruído sem preenchimento de porção de frequência pode também ser aplicado não apenas abaixo da frequência inicial de IGF, mas também acima da frequência inicial de IGF. Entretanto, constatou-se que a codificação de áudio de alta qualidade e alta eficiência pode ser obtida quando a operação de preenchimento de ruído é limitada à faixa de frequência abaixo da frequência inicial de IGF e quando a operação de enchimento de porção de frequência é restrita à faixa de frequência acima da frequência inicial de IGF, conforme ilustrado na figura 3a.

[0187] Preferivelmente, as porções alvo (TT | target tiles) (tendo frequências maiores do que a frequência inicial de IGF) são ligados às bordas da banda do fator de escala do codificador de taxa completa. As porções de origem (ST | source tiles), das quais a informação é tirada, ou seja, para frequências menores do que a frequência inicial de IGF não são ligadas pelas bordas da banda do fator de escala. O tamanho da ST deveria corresponder ao tamanho da TT associada.

[0188] Subsequentemente, referência é feita à figura 5c que ilustra uma aplicação preferida adicional do regenerador de frequência (116) da figura 1b ou do bloco de IGF (202) da figura 2a. O bloco (522) é um gerador da porção de frequência que recebe, não apenas, um ID da banda alvo, mas adicionalmente que recebe um ID da banda de origem. De forma exemplar, determinou-se no lado do codificador que a banda do fator de escala (3) da figura 3a é muito bem adequada para a reconstrução da banda do fator de escala 7. Assim, o ID da banca de origem seria 2 e o ID da banda alvo seria 7. Com base nessa informação, o gerador da porção de frequência (522) aplica uma cópia ou operação harmônica de enchimento de porção ou qualquer outra operação de enchimento de porção para gerar a segunda parte bruta dos componentes espectrais (523). A segunda parte bruta dos componentes espectrais tem uma resolução de frequência idêntica à resolução de frequência incluída no primeiro conjunto de partes espectrais primárias.

[0189] Então, a primeira parte espectral da banda de reconstrução como (307) da figura 3a é inserida em um criador de estrutura (524) e a segunda parte bruta (523) é também inserida no criador de estrutura (524). Então, a estrutura reconstruída é ajustada pelo regulador (526) utilizando um fator de ganho para a banda de reconstrução calculada pela calculadora do fator de ganho (528). De forma importante, a primeira parte espectral na estrutura não é influenciada pelo regulador (526), mas apenas a segunda parte bruta para a estrutura de reconstrução é influenciada pelo regulador (526). Para esta finalidade, a calculadora do fator de ganho (528) analisa a banda de origem ou a segunda parte bruta (523) e adicionalmente analisa a primeira parte espectral na banda de reconstrução para finalmente encontrar o fator de ganho (527) correto de modo que a energia da estrutura ajustada emitida pelo regulador (526) tenha a energia E4 quando uma banda do fator de escala 7 é contemplada.

[0190] Além disso, conforme ilustrado na figura 3a, o analisador espectral é configurado para analisar a representação espectral até uma frequência de análise máxima sendo apenas uma pequena quantidade abaixo da metade da frequência de amostragem e preferivelmente sendo pelo menos um quarto da frequência de amostragem ou tipicamente mais alta.

[0191] Conforme ilustrado, o codificador opera sem redução da taxa de amostragem e o decodificador opera sem aumento da taxa de amostragem. Em outras palavras, o codificador de áudio de domínio espectral é configurado para gerar uma representação espectral tendo uma frequência Nyquist definida pela taxa de amostragem do sinal de áudio originalmente de entrada.

[0192] Além disso, conforme ilustrado na figura 3a, o analisador espectral é configurado para analisar a representação espectral que inicia com uma frequência inicial de preenchimento de lacuna e que termina com uma frequência máxima representada por uma frequência máxima incluída na representação espectral, em que uma parte espectral estendendo-se de uma frequência mínima até a frequência inicial de preenchimento de lacuna pertencer ao primeiro conjunto de partes espectrais e em que uma parte espectral adicional como (304, 305, 306, 307) tendo valores de frequência acima da frequência de preenchimento de lacuna adicionalmente é incluída no primeiro conjunto de partes espectrais primárias.

[0193] Conforme descrito, o decodificador de domínio espectral de áudio (112) é configurado de modo que uma frequência máxima representada por um valor espectral na primeira representação decodificada seja igual a uma frequência máxima incluída na representação de tempo tendo a taxa de amostragem em que o valor espectral para a frequência máxima no primeiro conjunto de partes espectrais primárias é zero ou diferente de zero. De qualquer forma, para essa frequência máxima no primeiro conjunto de componentes espectrais um fator de escala para a banda do fator de escala existe, que é gerado e transmitido independentemente se todos valores espectrais nesta banda do fator de escala são definidos a zero ou não, conforme discutido no contexto das figuras 3a e 3b.

[0194] O IGF é, portanto, vantajoso que com relação outras técnicas paramétricas para aumentar a eficiência de compressão, por exemplo, substituição de ruído e preenchimento de ruído (essas técnicas são exclusivamente para representação eficiente do conteúdo do sinal local do tipo ruído) o IGF possibilita uma reprodução de frequência precisa de componentes tonais. Até o momento, no estado da técnica, a técnica direciona a representação paramétrica eficiente do conteúdo de sinal arbitrário por preenchimento de lacuna espectral sem a restrição de uma divisão prévia fixada em banda baixa (LF | low band) e banda alta (HF | high band).

[0195] Subsequentemente, recursos opcionais adicionais do primeiro processador de codificação de domínio de frequência de banda completa e do processador de decodificação de domínio de frequência de banda completa que incorpora a operação de preenchimento de lacuna, que podem ser implementados juntos ou separadamente, são discutidos e definidos.

[0196] Particularmente, o decodificador de domínio espectral (112) correspondente ao bloco (1122a) é configurado para emitir uma sequência de estruturas decodificadas de valores espectrais, uma estrutura decodificada sendo a primeira representação decodificada, em que a estrutura compreende valores espectrais para o primeiro conjunto de partes espectrais e indicações de zero para as partes espectrais secundárias. O aparelho para decodificação compreende, ainda, um combinador (208). Os valores espectrais são gerados por um regenerador de frequência para o segundo conjunto de partes espectrais secundárias, onde ambos, o combinador e o regenerador de frequência são incluídos dentro do bloco (1122b). Assim, pela combinação das partes espectrais secundárias e das partes espectrais primárias, uma estrutura espectral reconstruída compreendendo valores espectrais para o primeiro conjunto de partes espectrais primárias e o segundo conjunto de partes espectrais são obtidos e o conversor de espectro-tempo (118) correspondente ao bloco de IMDCT (1124) na figura 14b então converte a estrutura espectral reconstruída em representação de tempo.

[0197] Conforme descrito, o conversor de espectro- tempo (118 ou 1124) é configurado para realizar uma transformada discreta de cosseno modificada inversa (512, 514) e compreende, ainda, um estágio de adição por sobreposição (516) para sobreposição e adição subsequentes às estruturas de domínio de tempo.

[0198] Particularmente, o decodificador de domínio espectral de áudio (1122a) é configurado para gerar a primeira representação decodificada de modo que a primeira representação decodificada tenha uma frequência Nyquist que define uma taxa de amostragem sendo igual a uma taxa de amostragem da representação de tempo gerada pelo conversor de espectro-tempo (1124).

[0199] Além disso, o decodificador (1112 ou 1122a) é configurado para gerar a primeira representação decodificada de modo que uma primeira parte espectral (306) seja colocada com relação à frequência entre duas partes espectrais secundárias (307a, 307b).

[0200] Em uma aplicação adicional, uma frequência máxima representada por um valor espectral para a frequência máxima na primeira representação decodificada é igual a uma frequência máxima incluída na representação de tempo gerada pelo conversor de espectro-tempo, em que o valor espectral para a frequência máxima na primeira representação é zero ou diferente de zero.

[0201] Além disso, conforme ilustrado na figura 3, a primeira parte codificada do sinal de áudio compreende, ainda, uma representação codificada de um terceiro conjunto de partes espectrais terciárias a serem reconstruídas pelo preenchimento de ruído e o primeiro processador de decodificação (1120) inclui, adicionalmente, um preenchedor de ruído incluído no bloco (1122b) para extração da informação de enchimento de ruído (308) de uma representação codificada do terceiro conjunto de partes espectrais terciárias e para aplicação de uma operação de preenchimento de ruído no terceiro conjunto de partes espectrais terciárias sem utilizar uma primeira parte espectral em uma faixa de frequência diferente.

[0202] Além disso, o decodificador de domínio espectral de áudio (112) é configurado para gerar a primeira representação decodificada tendo as partes espectrais primárias com os valores de frequência sendo maiores do que a frequência sendo igual a uma frequência no meio da faixa de frequência coberta pela representação de tempo emitida pelo conversor de espectro-tempo (118 ou 1124).

[0203] Além disso, o analisador espectral ou analisador de banda total (604) é configurado para analisar a representação gerada pelo conversor de tempo-frequência (602) para determinação de um primeiro conjunto de partes espectrais primárias a ser codificada com a primeira resolução espectral alta e o segundo conjunto de partes espectrais secundárias diferente a ser codificado com uma segunda resolução espectral que é menor do que a primeira resolução espectral e, por meios do analisador espectral, uma primeira parte espectral (306) é determinada, com relação à frequência, entre as duas partes espectrais secundárias na figura 3 (307a e 307b).

[0204] Particularmente, o analisador espectral é configurado para análise da representação espectral até uma frequência de análise máxima sendo pelo menos um quarto de uma frequência de amostragem do sinal de áudio.

[0205] Particularmente, o codificador de domínio espectral de áudio é configurado para processar uma sequência de estruturas de valores espectrais para uma quantização e codificação por entropia, em que, em uma estrutura, os valores espectrais do segundo conjunto de partes secundárias são definidos a zero, ou em que, na estrutura, os valores espectrais do primeiro conjunto de partes espectrais primárias e do segundo conjunto de partes espectrais secundárias estão presentes e em que, durante o processamento subsequente, os valores espectrais no segundo conjunto de partes espectrais são definidos a zero, conforme ilustrado de forma exemplar e, (410, 418, 422).

[0206] O codificador de domínio espectral de áudio é configurado para gerar uma representação espectral, tendo uma frequência Nyquist definida pela taxa de amostragem do sinal de áudio de entrada ou a primeira parte do sinal de áudio processado pelo primeiro processador de codificação que opera no domínio de frequência.

[0207] O codificador de domínio espectral de áudio 606 é, ainda, configurado para fornecer a primeira representação codificada de modo que, para uma estrutura de um sinal de áudio amostrado, a representação codificada compreenda o primeiro conjunto de partes espectrais primárias e o segundo conjunto de partes espectrais secundárias, em que os valores espectrais no segundo conjunto de partes espectrais são codificados como zero ou valores de ruído.

[0208] O analisador de banda completa (604 ou 102) é configurado para analisar a representação espectral que se inicia com a frequência inicial de preenchimento de lacuna (209) e que termina com uma frequência máxima fmax representada por uma frequência máxima incluída na representação espectral, e uma parte espectral estendendo-se de uma frequência mínima até a frequência inicial de preenchimento de lacuna (309) pertence ao primeiro conjunto de partes espectrais primárias.

[0209] Particularmente, o analisador é configurado para aplicar um processamento de máscara tonal de, pelo menos, uma parte da representação espectral, de modo que os componentes tonais e os componentes não tonais sejam separados entre si, caracterizado pelo primeiro conjunto de partes espectrais primárias compreender os componentes tonais e em que o segundo conjunto de partes espectrais secundárias compreende os componentes não tonais.

[0210] Embora a presente invenção tenha sido descrita no contexto de diagramas em blocos, em que os blocos representam componentes de hardware reais ou lógicos, a presente invenção também pode ser implementada por um método implementado por computador. Neste último caso, os blocos representam etapas do método correspondentes onde estas etapas representam as funcionalidades executadas pelos blocos de hardware lógico ou físico correspondentes.

[0211] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é evidente que estes aspectos também representam uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa do método ou característica de uma etapa do método. De forma análoga, aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item ou característica correspondente de um aparelho correspondente. Algumas ou todas as etapas do método podem ser executadas por (ou utilizando) um aparelho de hardware, tal como, por exemplo, um microprocessador, um computador programável ou um circuito eletrônico. Em algumas aplicações, uma ou mais das etapas mais importantes do método podem ser executadas pelo referido aparelho.

[0212] O sinal codificado ou transmitido inventivo pode ser armazenado em um meio de armazenamento digital ou pode ser transmitido por um meio de transmissão, tal como um meio de transmissão sem frio ou um meio de transmissão cabeado, tal como a internet.

[0213] Dependendo de certas exigências de implementação, as aplicações da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando um meio de armazenamento digital, por exemplo, um disquete, um DVD, um Blu-Ray, um CD, uma memória ROM, uma PROM, uma EPROM, uma EEPROM ou a memória flash, tendo sinais de controle eletronicamente legíveis armazenados nele, que cooperam (ou podem cooperar) com um sistema de computador programável, de modo que o respectivo método seja realizado. Assim, o meio de armazenamento digital pode ser legível por computador.

[0214] Algumas aplicações de acordo com a invenção compreendem um transportador de dados, tendo sinais de controle eletronicamente legíveis, que podem cooperar com um sistema de computador programável, de modo que um dos métodos descritos aqui seja realizado.

[0215] Geralmente, as aplicações da presente invenção podem ser implementadas como um produto do programa de computador com um código de programa, o código de programa sendo operativo para realizar um dos métodos quando o produto do programa de computador é executado em um computador. O código de programa pode, por exemplo, ser armazenado em um transportador legível por máquina.

[0216] Outras aplicações compreendem o programa de computador para realizar um dos métodos descritos aqui, armazenado em um transportador legível por máquina.

[0217] Em outras palavras, uma aplicação do método inventivo é, portanto, um programa de computador tendo um código de programa para realizar um dos métodos descritos aqui, quando o programa de computador for executado em um computador.

[0218] Outra aplicação do método inventivos é, portanto, um transportador de dados (ou um meio de armazenamento não transitório, tal como um meio de armazenamento digital ou um meio legível por computador) compreendendo, gravado nele, o programa de computador para realizar um dos métodos descritos aqui. O transportador de dados, o meio de armazenamento digital ou o meio gravado são tipicamente tangíveis e/ou não transitórios.

[0219] Outra aplicação do método inventivo é, portanto, um fluxo de dados ou uma sequência de sinais representando o programa de computador para realizar um dos métodos descritos aqui. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido através de uma conexão de comunicação de dados, por exemplo, através da Internet.

[0220] Outra aplicação compreende um meio de processamento, por exemplo, um computador ou um dispositivo de lógica programável, configurado para ou adaptado para realizar um dos métodos descritos aqui.

[0221] Outra aplicação compreende um computador, tendo instalado nele o programa de computador para realizar um dos métodos descrito aqui.

[0222] Outra aplicação, de acordo com a invenção, compreende um aparelho ou um sistema configurado para transferir (por exemplo, eletrônica ou opticamente) um programa de computador para realizar um dos métodos descritos aqui a um receptor. O receptor pode, por exemplo, ser um computador, um dispositivo móvel, um dispositivo de memória ou semelhante. O aparelho ou sistema pode, por exemplo, compreender um servidor de arquivo para transferir o programa de computador ao receptor.

[0223] Em algumas aplicações, um dispositivo de lógica programável (por exemplo, um arranjo de portas programáveis de campo) pode ser utilizado para realizar algumas ou todas as funcionalidades dos métodos descritos aqui. Em algumas aplicações, um arranjo de portas programáveis de campo pode cooperar com um microprocessador, a fim de realizar um dos métodos descritos aqui. Geralmente, os métodos são preferivelmente realizados por qualquer aparelho de hardware.

[0224] As aplicações descritas acima são meramente ilustrativas para os princípios da presente invenção. Entende- se que modificações e variações das disposições e os detalhes descritos serão evidentes a outros especialistas na técnica. É intenção, portanto, ser limitada apenas pelo escopo das reivindicações de patente iminentes e não pelos detalhes específicos apresentados em forma de descrição e explicação das aplicações neste documento

Claims

1. Decodificador de áudio para decodificação de um sinal de áudio codificado, caracterizado por compreender: um primeiro processador de decodificação configurado para decodificação de uma primeira parte do sinal de áudio codificado em um domínio de frequência para obter uma representação espectral decodificada, o primeiro processador de decodificação compreendendo um conversor de tempo-frequência configurado para conversão de uma representação espectral decodificada em um domínio de tempo para obter uma primeira parte do sinal de áudio decodificado; um segundo processador de decodificação configurado para decodificação de uma segunda parte do sinal de áudio codificado no domínio de tempo para obter uma segunda parte do sinal de áudio decodificado, em que o segundo processador de decodificação compreende um pós- processador de ACELP; um processador cruzado configurado para cálculo, a partir da representação espectral decodificada da primeira parte do sinal de áudio codificado, dos dados de inicialização do segundo processador de decodificação, de modo que o segundo processador de decodificação seja inicializado para decodificar a segunda parte do sinal de áudio codificado seguindo no tempo a primeira parte do sinal de áudio codificado no sinal de áudio codificado; e um combinador configurado para combinação da primeira parte do sinal de áudio decodificado e da segunda parte do sinal de áudio decodificado para obter um sinal de áudio decodificado, em que o processador cruzado compreende, ainda, um conversor de tempo-frequência adicional que opera em uma primeira taxa de amostragem eficaz diferente de uma segunda taxa de amostragem eficaz associada ao conversor de tempo-frequência do primeiro processador de decodificação para obter uma primeira parte do sinal de áudio decodificado adicional no domínio de tempo, em que um sinal emitido pelo conversor de tempo-frequência adicional tem a segunda taxa de amostragem diferente da primeira taxa de amostragem associada com uma saída do conversor de tempo-frequência do primeiro processador de decodificação, em que o conversor de tempo-frequência adicional compreende um seletor configurado para seleção de uma parte de um espectro inserido no conversor de tempo- frequência adicional, de acordo com uma razão da primeira taxa de amostragem e da segunda taxa de amostragem; um processador de transformada tendo um comprimento de transformada diferente de um comprimento de transformada do conversor de tempo-frequência do primeiro processador de decodificação (1120); e um janelador de síntese utilizando uma janela tendo um número diferente de coeficientes em comparação com uma janela utilizada pelo conversor de tempo- frequência do primeiro processador de decodificação.

2. Método de decodificação de um sinal de áudio codificado, caracterizado por compreender: decodificação, por um primeiro processador de decodificação, de uma primeira parte do sinal de áudio codificado em um domínio de frequência, a decodificação compreendendo: conversão, por um conversor de tempo- frequência, de uma representação espectral decodificada em um domínio de tempo para obter uma primeira parte do sinal de áudio decodificado; decodificação de uma segunda parte do sinal de áudio codificado no domínio de tempo para obter uma segunda parte do sinal de áudio decodificado, em que a decodificação do segundo sinal de áudio codificado compreende a realização de um pós-processamento de ACELP; cálculo, a partir da representação espectral decodificada da primeira parte do sinal de áudio codificado, dos dados de inicialização da etapa de decodificação da segunda parte do sinal de áudio codificado, de modo que a etapa da decodificação da segunda parte do sinal de áudio codificado seja inicializada para decodificar a segunda parte do sinal de áudio codificado seguindo no tempo a primeira parte do sinal de áudio codificado no sinal de áudio codificado; e combinação da primeira parte do sinal de áudio decodificado e da segunda parte do sinal de áudio decodificado para obter um sinal de áudio decodificado, em que o cálculo compreende, ainda, utilização de um conversor de tempo- frequência adicional que opera em uma primeira taxa de amostragem eficaz diferente de uma segunda taxa de amostragem eficaz associada ao conversor de tempo-frequência do primeiro processador de decodificação para obter uma primeira parte do sinal de áudio decodificado adicional no domínio de tempo, em que um sinal emitido pelo conversor de tempo-frequência adicional tem a segunda taxa de amostragem diferente da primeira taxa de amostragem associada com uma saída do conversor de tempo-frequência do primeiro processador de decodificação, em que a utilização do conversor de tempo- frequência adicional compreende: seleção de uma parte de um espectro inserido no conversor de tempo-frequência adicional, de acordo com uma razão da primeira taxa de amostragem e da segunda taxa de amostragem; utilização de um processador de transformada tendo um comprimento de transformada diferente de um comprimento de transformada do conversor de tempo-frequência do primeiro processador de decodificação; e utilização de um janelador de síntese utilizando uma janela tendo um número diferente de coeficientes em comparação com uma janela utilizada pelo conversor de tempo-frequência do primeiro processador de decodificação.

3. Programa de computador, caracterizado por ser adaptado para executar, quando executado em um computador ou processador, o método de acordo com reivindicação 2.