BRPI0910792B1

BRPI0910792B1 - "sintetizador de sinal de áudio e codificador de sinal de áudio"

Info

Publication number: BRPI0910792B1
Application number: BRPI0910792-4A
Authority: BR
Inventors: Frederik Nagel; Sascha Disch; Nikolaus Rettelbach; Max Neuendorf; Bernhard Grill; Ulrich Krämer; Stefan WABNIK
Original assignee: Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Priority date: 2008-07-11
Filing date: 2009-06-19
Publication date: 2020-03-24
Also published as: MX2011000372A; RU2491658C2; US20180350387A1; TW201009807A; AR072864A1; US8731948B2; AU2009267525A1; ES2796552T3; KR20110040817A; KR101223835B1; RU2011101616A; CA2730198A1; AU2009267525B2; US10522168B2; BRPI0910792A2; EP2301026A1; CO6341675A2; EP2301026B1; CN102089816A; CN102089816B

Abstract

sintetizador de sinal de áudio e codificador de sinal de áudio a presente invenção refere-se a um sintetizador de sinal de áudio para gerar um sinal de áudio de síntese, um codificador de sinal de áudio e um fluxo de dados, compreendendo um sinal de áudio codificado.

Description

SINTETIZADOR DE SINAL DE ÁUDIO E CODIFICADOR DE

SINAL DE ÁUDIO

Especificação

A presente invenção refere-se a um sintetizador de sinal de áudio para gerar um sinal de áudio de síntese, um codificador de sinal de áudio e um fluxo de dados, compreendendo um sinal de áudio codificado.

A codificação de áudio natural e a codificação de fala são as duas principais categorias de codificadores para 10 sinais de áudio. Os codificadores de áudio natural são mais comumente usados para música ou sinais arbitrários, em taxas de bit médias e, geralmente, oferecem amplas larguras de banda de áudio. Os codificadores de fala estão, 'basicamente,’ limitados- àreprodução da fala e podem ser utilizados em uma taxa de bit 15 bastante'baixaΓ A fala- em-banda ampla .oferece um ^aprimoramento da qualidade mais subjetivo sobre a fala em banda estreita. Aumentar a largura da banda não somente melhora a natureza da fala, como também o reconhecimento e a inteligibilidade do alto-falante. A codificação da fala em banda ampla é, assim, uma questão 20 importante para a próxima geração de sistemas telefônicos.

Ademais, devido ao grande crescimento do campo multimídia, a transmissão de música e de outros sinais distintos de fala, em alta qualidade, por meio de sistemas telefônicos, bem como para armazenamento e, por exemplo, a transmissão por rádig/TV e outros 25 sistemas de transmissão são uma característica desejáv_ei.

Para reduzir drasticamente a taxa de bit, a codificação-fonte poderá ser efetuada usando-se codificadores de divisão de banda de áudio perceptual. Esses codificadores de áudio

natural exploram a irrelevância perceptual e a redundância estatística no sinal. No caso, a exploração isolada acima não é suficiente em relação às restrições de bitrate, a taxa de amostra é reduzida. Também é comum reduzir o número de níveis de 5 composição, permitindo a distorção de quantização audível ocasional, bem como empregar a degradação do campo estéreo por meio de uma codificação estérea conjunta ou uma codificação paramétrica de dois ou mais canais. O uso excessivo dos referidos métodos resulta em uma degradação perceptiva desagradável. Para 10 melhorar o desempenho de codificação, métodos de extensão de largura de banda, tais como replicação da banda espectral (SBR), são usados como um método eficiente para gerar sinais de alta freqüência em um codificador baseado em HFR (reconstrução- de alta freqüência).

Noprocesso- de replicação de sinais de alta freqüência, uma determinada transformação, por exemplo, pode ser aplicada nos sinais de baixa freqüência e, assim, os sinais transformados são inseridos como sinais de alta freqüência. Este processo também é conhecido como correção, bem como diferentes 20 transformações podem ser utilizadas. O padrão de áudio MPEG-4 usa somente um algoritmo de correção para todos os sinais de áudio.

Portanto, falta a flexibilidade para adaptar a correção em sinais diferentes ou esquemas de codificação.

Por outro lado, o padrão MPEG-4 fornece um processamento sofisticado de banda alta regenerada, no qual muitos parâmetros importantes de SBR são aplicados. Os referidos parâmetros importantes de SBR são dados sobre o envelope espectral, os dados sobre o patamar de ruído a serem adicionados à porção espectral regenerada, informação sobre a ferramenta de filtragem inversa para adaptar a tonalidade da banda alta regenerada para a tonalidade da banda alta original, bem como dados adicionais de processamento de replicação da banda espectral, tais como dados sobre harmônicos ausentes, etc. Este processamento bem estabelecido de espectro replicado, que é fornecido por uma correção de sinais consecutivos de banda passante dentro do domínio do banco de filtros, foi comprovado como eficiente para fornecer qualidade elevada e para ser implementado com recursos razoáveis em relação à potência de processamento, requisitos de memória e requisitos de potência.

Por outro lado, a correção ocorre no mesmo banco de filtros, uma vez que acontece o processamento'¹ ’adicrona-1 -do sinal corrigido, assim há uma forte ligação entre a operação de correção e o probe’s sarnento^- adicional, do.. rejsultado da operação de correção. Portanto, a implementação de diferentes algoritmos de correção é problemática nesta abordagem combinada.

A solicitação de patente WO 98/57436 apresenta os métodos de transposição utilizados na replicação da banda espectral, que são combinados com o ajuste de envelope espectral.

A solicitação de patente WO 02/052545 fornece instruções de que os sinais podem ser classificados tanto como semelhante a trens de pulso ou não semelhantes a trens de pulso e, com base nesta classificação, é proposto um transpositor comutado adaptável. O transpositor comutado efetua dois algoritmos de correção em paralelo e uma unidade de mixing combina os dois sinais corrigidos dependentes na classificação (trem de pulso e não trem de pulso) . A comutação atual mútua ou a combinação dos

transpositores é efetuada em um banco de filtros de ajuste em envelope, em resposta aos dados de envelope e de controle. Ademais, para sinais semelhantes a trem de pulso, o sinal da banda de base é transformado em um domínio de banco de filtros, uma operação de tradução de freqüência é efetuada e é realizado um ajuste de envelope do resultado da tradução de freqüência. Este é um procedimento combinado de correção/processamento adicional. Para sinais não semelhantes a trem de pulso, é fornecido um transpositor de domínio de freqüência (transpositor FD) e o 10 resultado do transpositor de domínio de freqüência é, assim, transformado no domínio de banco de filtros, no qual é realizado o ajuste de envelope. Portanto, a implementação e a flexibilidade deste procedimento, que tem, em uma alternativa^-, uma abordagemcombinada de correção/processamento adicional e que tem, em outra 15 alternativa, um transpositor de- domínio .de. __freqüência, que é posicionado fora do banco de filtros no qual o ajuste de envelope ocorre é problemático em relação às possibilidades de flexibilidade e implementação.

Um objetivo da presente invenção é oferecer um sintetizador que forneça uma qualidade aprimorada e permita uma implementação eficiente.

Este objetivo é alcançado pelo sintetizador, de acordo com a reivindicação 1, um codificador, de acordo com a reivindicação 9, um método para gerar um sinal de áudio de 25 síntese, de acordo com a reivindicação 13, ou um método para gerar um fluxo de dados, de acordo com a reivindicação 14.

A presente invenção está baseada, de um lado, no achado de que a operação de correção e, de outro lado, que o

processamento adicional do resultado da operação de correção devem ser completamente efetuados em domínios independentes. Isso oferece a flexibilidade para otimizar diferentes . algoritmos de correção dentro, de um lado, de um gerador de correção e, de outro lado, para utilizar sempre o mesmo ajuste de envelope, independentemente do algoritmo de correção subjacente. Portanto, a criação de qualquer resultado de sinal corrigido do domínio espectral, no qual ocorre o ajuste de envelope, permite uma aplicação flexível de diferentes algoritmos de correção para diferenciar porções de sinais, completamente independente do processamento adicional de SBR subsequente, bem como o programador não precisa se preocupar sobre as especificações para algoritmos de correção provenientes do ajuste de envelope' ou ‘não' precisa se^ preocupar sobre as especificações dos algoritmos de correção para um determinado” ãjüste~‘de~ envelope.· Pelo-- contrário,. _ps_ diferentes componentes de replicação da banda espectral, ou seja, de um lado, a operação de correção e, de outro lado, o processamento adicional do resultado de correção poderá ser realizado de modo independente entre si. Isso significa que, em toda a replicação da banda espectral, o algoritmo de correção é separadamente efetuado, que tem como conseqüência, que a correção e as operações de SBR restantes podem ser otimizadas independentemente entre si e, portanto, são flexíveis em relação aos futuros algoritmos de correção, etc. que podem simplesmente ser aplicados sem a necessidade de alterar qualquer parâmetro do processamento adicional do resultado de correção, que é efetuado em um domínio espectral, no qual não ocorre qualquer correção.

A presente invenção oferece uma qualidade

aprimorada, uma vez que permite uma fácil aplicação de diferentes algoritmos de correção para porções de sinal, assim cada porção de sinal do sinal da banda de base é corrigido com o algoritmo de correção que se ajusta, da melhor forma, para esta porção de 5 sinal. Ademais, a ferramenta de ajuste de envelope direto, eficiente e de alta qualidade, que opera no banco de filtros e que é bem estabelecida e já existente em várias aplicações, tais como MPEG-4 HE-AAC, ainda poderá ser utilizada. Separando os algoritmos de correção do processamento adicional, assim nenhum algoritmo de 10 correção é aplicado no domínio do banco de filtros, no qual o processamento adicional do resultado de correção é realizado, o processamento adicional bem estabelecido do resultado de correção pode ser aplicado para todos os algoritmos de correção disponíveis. Entretanto, de modo opcional, o correção também pode 15 ser realizada Tio' banco ~de“ filtros -tanto.- quanto_ nos _ outros domínios.

Ademais, esta característica oferece escalabilidade, uma vez que, para aplicações de baixo nível, os

	algoritmos	de	correção podem	ser utilizados, o	que	exige	menos
20	recursos,	ao	passo que, para aplicações de	alto	nível	, os
	algoritmos	de	correção podem	ser utilizados, o	que	exigem	mais
	recursos,	que	resulta em uma	melhor qualidade de	: áudio. De	modo

alternativo, os	algoritmos de	correção podem	ser mantidos	os
mesmos, porém	a complexidade	do	processamento adicional	do
25 resultado de	correção pode	ser	adaptada	para diferentes

necessidades. Para aplicações de baixo nível, por exemplo, uma resolução de freqüência reduzida para o ajuste de envelope espectral poderá ser aplicada, ao passo que, para aplicações de

alto nível, uma resolução de freqüência melhor poderá ser aplicada, o que oferece uma melhor qualidade, porém também exige recursos superiores de memória, processador e consumo de potência, especificamente em um dispositivo móvel. Tudo isso pode ser feito 5 sem implicações sobre a outra ferramenta respectiva, uma vez que a ferramenta de correção não é dependente da ferramenta de ajuste de envelope espectral e vice-versa. Pelo contrário, a separação da geração de correção e do processamento dos dados brutos corrigidos por meio de uma transformação em uma representação espectral, tais 10 como por meio de um banco de filtros, foi comprovada como uma característica ideal.

Em conformidade com o primeiro aspecto da invenção, um sintetizador de sinal de áudio gera um sinal deáudio de síntese, que tem uma primeira banda de freqüência e uma segunda 15 banda de freqüência sihtêtizãdãü derivada -da- -primeirabanda de freqüência. O sintetizador de sinal de áudio compreende um gerador de correção, um conversor de espectro, um processador de sinal bruto e um combinador. O gerador de correção efetua, no mínimo, dois algoritmos de correção diferentes, onde cada algoritmo de 20 correção gera um sinal bruto que tem componentes de sinal na segunda banda de freqüência sintetizada, usando um sinal de áudio que tem componentes de sinal na primeira banda de freqüência. O gerador de correção está adaptado para selecionar um de, no mínimo, dois diferentes algoritmos de correção, em resposta a uma 25 informação de controle para a primeira porção de tempo e outro de, no mínimo, um dos dois diferentes algoritmos de correção, em resposta à informação de controle para uma segunda porção de tempo diferente da primeira porção de tempo para obter o sinal bruto

para a primeira e para a segunda porção de tempo. O conversor de espectro converte o sinal bruto em uma representação espectral de sinal bruto. O processador de sinal bruto processa a representação espectral de sinal bruto em resposta aos parâmetros de replicação 5 de banda espectral· do domínio espectral para obter uma representação espectral de sinal bruto ajustado. O combinador combina um sinal de áudio que tem componentes de sinal, na primeira banda ou um sinal derivado do sinal de áudio com a representação espectral de sinal bruto ajustado ou com um sinal adicional derivado da representação espectral de sinal bruto ajustado para obter um sinal de áudio de síntese.

Em configurações adicionais, o sintetizador de sinal de áudio é configurado de modo que, no mínimõ, ~ dois algoritmos de correção sejam diferentes entre si, de modo que um 15 componente de sinaL 3o sinal“ de“ áudio, - em = uma.. _fr.eqüência_ na primeira banda de freqüência seja corrigido para uma freqüênciaalvo na segunda banda de freqüência, e que a freqüência-alvo seja diferente para os dois algoritmos de correção. O gerador de correção pode ser adicionalmente adaptado para operar no domínio 20 de tempo para os dois algoritmos de correção.

Em conformidade com outro aspecto da presente invenção, um codificador de sinal de áudio gera, a partir de um sinal de áudio, um fluxo de dados que compreende componentes do sinal de áudio em uma primeira banda de freqüência, informação de 25 controle e parâmetros de replicação da banda espectral. O codificador de sinal de áudio compreende um filtro seletivo de freqüência, um gerador e um gerador de informação de controle. O filtro seletivo de freqüência gera os componentes do sinal de

Ά*

áudio na primeira banda de freqüência. O gerador gera o parâmetro de replicação da banda espectral a partir dos componentes do sinal de áudio, em uma segunda banda de freqüência. O gerador gera o parâmetro de replicação de banda espectral a partir de componentes do sinal de áudio, em uma segunda banda de freqüência. O gerador da informação de controle gera a informação de controle, a informação de controle que identifica um algoritmo de correção preferido, a partir do primeiro ou do segundo algoritmo de correção diferente. Cada algoritmo de correção gera um sinal bruto 10 que tem componentes de sinal na segunda banda de freqüência replicada, usando os componentes do sinal de áudio na primeira banda de freqüência.

Também em conformidade com outro aspecto” da presente invenção, um fluxo de bits de sinal de áudio, transmitido 15 por uma linha cie 'transmissão conectada-a-um-computador, compreende um sinal de áudio codificado na primeira banda de freqüência, informação de controle e os parâmetros de replicação da banda espectral.

Portanto, a presente invenção refere-se a um método para comutação entre diferentes algoritmos de correção na replicação da banda espectral, onde o algoritmo de correção usado depende de lado codificador sobre uma decisão tomada no codificador e, no lado do decodificador, sobre uma informação transmitida no fluxo de bits. Por meio do uso de uma replicação da 25 banda espectral (SBR), a geração de componentes de alta freqüência pode, por exemplo, ser feita pela cópia de componentes de sinal de baixa freqüência em um banco de filtros QMF (QMF = Filtro de Quadrature de Espelho) em bandas de alta freqüência. Esta cópia ίΆ* ¢/ Af/·' ' t C?

Mi também é conhecida como correção e, de acordo com as configurações da presente invenção, esta correção é substituída ou complementada por métodos alternativos, que também podem ser realizados no domínio de tempo. São os seguintes exemplos para algoritmos de correção alternativos:

(1) Upsampling (por exemplo, por meio de espelhamento do espectro);

(2) Vocoder de fase;

(3) Distorção não linear (4) Espelhamento do espectro no domínio QMF por meio da permuta de solicitação de banda QMF;

(5) Dirigido ao modelo (particularmente para fala) ; e (6) Modulação

Os algoritmos de“ correção- alternativos, também podem ser realizados dentro do codificador, para obter os parâmetros de replicação da banda espectral, que são usados, por exemplo, por meio de ferramentas de SBR como preenchimento de ruído, filtragem inversa, harmônicos ausentes, etc. De acordo com 20 as configurações, o algoritmo de correção dentro de um gerador de correção é substituído enquanto ainda são usadas as ferramentas remanescentes de replicação da banda espectral.

A opção concreta para o algoritmo de correção depende do sinal de áudio aplicado. Por exemplo, o vocoder de fase 25 altera significativamente a característica dos sinais de fala e, portanto, o vocoder de fase não oferece um algoritmo de correção adequado, por exemplo, para fala ou sinais semelhantes à fala. Portanto, conforme o tipo de sinal de áudio, um gerador de correção seleciona um algoritmo de correção entre as diferentes possibilidades para geração de correções para a banda de alta freqüência. Por exemplo, o gerador de correção pode comutar entre a ferramenta de SBR convencional (cópia das bandas QMF) e o vocoder de fase, ou entre qualquer outro algoritmo de correção.

Em contraste à implementação SBR convencional (por exemplo, implementada em MPEG-4), assim, as configurações da presente invenção usam o gerador de correção para gerar o sinal de alta freqüência. O gerador de correção não apenas pode operar na freqüência, como também no domínio de tempo e implementa os algoritmos de correção, conforme exemplo: espelhamento e/ou upsampling e/ou vocoder de fase e/ou distorção não linear. Se a replicação da banda espectral é feita na freqüência ou nò Tiomíhib de tempo depende do sinal concreto (ou seja, adaptável ao sinal), que será explicado~em mais detalhes-a- seguir_

A replicação da banda espectral recai no fato de que, para várias finalidades, é suficiente transmitir um sinal de áudio somente dentro de uma banda de freqüência central e para gerar os componentes de sinal na banda de freqüência superior, no decodificador. O sinal de áudio resultante ainda manterá uma alta qualidade perceptível, uma vez que para fala e música, por exemplo, os componentes de alta freqüência freqüentemente têm uma correlação em relação a componentes de baixa freqüência na banda de freqüência central. Portanto, usando um algoritmo de correção adaptado, que gera os componentes de alta freqüência ausentes, é possível obter um sinal de áudio em uma alta qualidade perceptível. Ao mesmo tempo, a geração dirigida do parâmetro das bandas superiores resulta em uma redução significativa da taxa de bit para codificar um sinal de áudio, uma vez que somente o sinal de áudio dentro da banda de freqüência central é codificado, comprimido e transmitido para o decodificador. Para os componentes de freqüência restantes, somente a informação de controle e os parâmetros de replicação da banda espectral são transmitidos, os quais controlam o decodificador no processo de geração de uma estimativa do sinal de banda alta original. Assim, tratando-se estritamente, este processo envolve três aspectos: (i) a estimativa paramétrica de banda HF (cálculo do parâmetro de SBR) , (ii) a geração de correção bruta (correção atual) e (iii) disposições para o processamento adicional. (por exemplo, ajuste de patamar de ruído).

A banda de freqüência central pode ser definida por meio da denominada freqüência cruzada, que define um limite dentro da banda “de” fréqüêricia,“ acima-do qual -uma -codificação^dq sinal de áudio é efetuada. O codificador central codifica o sinal de áudio dentro da banda de freqüência central limitada pela freqüência cruzada. Iniciando com a freqüência cruzada, os componentes de sinal serão gerados por meio da replicação da banda espectral. No uso de métodos convencionais para a replicação da banda espectral, acontece com freqüência que alguns sinais

compreendam	artefatos indesejados na	freqüência cruzada	do
codificador	central.
	Ao usar configurações	da presente invenção,	é
possível determinar um algoritmo de	correção, que evita	os

referidos artefatos ou, no mínimo, modifica os referidos artefatos de modo que eles não mais apresentem um efeito perceptível. Por exemplo, usando-se o espelhamento como algoritmo de correção no domínio de tempo, a replicação da banda espectral é efetuada, de modo semelhante, à extensão da largura de banda (BWE) dentro de AMR-WB+ (Adaptative Multi-Rate Wideband). Ademais, a possibilidade de alterar o algoritmo de correção depende de o sinal oferecer a 5 possibilidade para fala e para música, por exemplo, de que diferentes extensões de largura de banda possam ser usadas. Porém, também para um sinal que não pode ser claramente identificado como música ou fala (ou seja, sinal misto) o algoritmo de correção pode ser alterado dentro de pequenos períodos de tempo. Por exemplo, 10 para qualquer período de tempo dado, um algoritmo de correção preferido pode ser utilizado para correção. O referido algoritmo de correção preferido pode ser determinado por meio do codificador que, por exemplo, pode comparar cada bloco processado Herdados de entrada para os resultados de correção com o sinal de áudio 15 original. ~ fsso mêlhora, — · -signi-f icativamente, _ ₌a _ quehLidade perceptível do sinal de áudio resultante, gerado por meio do sintetizador de sinal de áudio.

As vantagens adicionais da presente invenção devem-se à separação do gerador de correção proveniente do 20 processador de sinal bruto, que pode compreender ferramentas padrão de SBR. Devido à referida separação, as ferramentas usuais de SBR podem ser empregadas, as quais podem compreender uma filtragem inversa, adição de um patamar de ruído ou harmônicos ausentes, entre outros. Portanto, as ferramentas padrão de SBR 25 ainda podem ser utilizadas, enquanto a correção pode ser ajustada de modo flexível. De modo adicional, uma vez que as ferramentas padrão de SBR são utilizadas no domínio de freqüência, a separação do gerador de correção das ferramentas de SBR, permite uma : Ç⁵ computação da correção, tanto no domínio de freqüência quanto no domínio de tempo.

Breve descrição dos desenhos

Neste ponto, a presente invenção será descrita por meio de exemplos ilustrados. As características da invenção serão mais facilmente apreciadas e melhor entendidas por meio da

consulta à	seguinte descrição	detalhada,	que	deverá ser
considerada	em relação aos desenhos	respectivos,	nos	quais:
	A Fig. 1 mostra	um digrama	de	bloco de um

processamento de sinal de áudio, de acordo com as configurações da presente invenção;

A Fig. 2 mostra um diagrama de bloco parao gerador de correção, de acordo com as configurações;

A Fig. 3 mostra um diagrama de bloco parao “combinador-que operano domínio de tempo; _ _ _. ____

As Figs. 4a a 4d ilustram, de modo esquemático, exemplos para diferentes algoritmos de correção;

As Figs. 5a e 5b ilustram o vocoder de fase e a correção por meio de cópia;

As Figs. 6a a 6d mostram diagramas de bloco para o processamento do fluxo de áudio codificado para o resultado de amostras PCM; e

As Figs. 7a a 7c mostram diagramas de bloco para um codificador de áudio, de acordo com as configurações adicionais.

Descrição detalhada da invenção

As configurações descritas abaixo são meramente ilustrativas para o princípio da presente invenção, para /ζν j 4** aprimoramento da replicação de banda espectral, por exemplo, usada com um decodificador de áudio. É entendido que modificações e variações das organizações e dos detalhes ora descritos serão óbvios para outros especializados na técnica. Portanto, pretende5 se não limitar-se a detalhes específicos apresentados por meio do modo de descrição e explicação das configurações ora apresentadas.

A Fig. 1 mostra um sintetizador de sinal de áudio para a geração de sinal de áudio de síntese 105 que tem uma primeira banda de freqüência e uma segunda banda de freqüência 10 replicada, derivada da primeira banda de freqüência. O sintetizador do sinal de áudio compreende um gerador de correção 110 para efetuar, no mínimo, dois algoritmos diferentes de correção, onde cada algoritmo de correção gera um sinal bruto 115 que tem componentes de sinal na segunda banda de freqüência 15 ' rep'licada, usando o- sinal de áudio- 105- que .tem componentes de_ sinal na primeira banda de freqüência. O gerador de correção 110 está adaptado para selecionar um de, no mínimo, dois diferentes algoritmos de correção, em resposta a uma informação de controle 112 para uma primeira porção de tempo e o outro de, no mínimo, 20 dois algoritmos diferentes de correção em resposta à informação de controle 112 para uma segunda porção de tempo diferente, proveniente da primeira porção de tempo, para obter o sinal bruto 115 para a primeira e a segunda porção de tempo. O sintetizador de sinal de áudio compreende ainda um conversor de espectro 120 para 25 converter o sinal bruto 115 em uma representação espectral bruta 125, que compreende componentes em uma primeira sub-banda, uma segunda sub-banda e assim por diante. O sintetizador do sinal de áudio compreende ainda o processador de sinal bruto 130 para o processamento da representação espectral bruta 125 em resposta aos parâmetros de replicação de domínio de banda espectral 132 para obter uma representação espectral de sinal bruto ajustado 135. O sintetizador de sinal de áudio compreende ainda um combinador 140 para combinar o sinal de áudio 105 que tem componentes de sinal na primeira banda ou um sinal derivado do sinal de áudio 105 com a representação espectral de sinal bruto ajustado 135 ou com um sinal adicional derivado da representação espectral de sinal bruto ajustado 135 para obter um sinal de áudio de síntese 145.

Nas configurações adicionais, o combinador 140 está adaptado para o uso como o sinal derivado do sinal de áudio 105 da representação espectral de sinal bruto 125. O sinal derivado do sinal de áudio usado pelo combinador também pode ser o sinal processado por meio de um conversor de tempo/espectro, tais como ~õ banco dê filtros¹ de“ análise -ou-um-sinal- de_ banda, baixa, conforme gerado por meio de um gerador de correção que opera no domínio de tempo ou no domínio de espectro ou um sinal de áudio de retardo ou um sinal de áudio processado por uma operação de upsampling, assim, os sinais a serem combinados têm a mesma taxa de amostragem subjacente.

Ainda em outra configuração, o sintetizador de sinal de áudio compreende ainda um analisador para analisar uma característica do sinal de áudio 105 que tem componentes de sinal na primeira banda de freqüência 201 e para fornecer informação de controle 112, que identifica o primeiro algoritmo de correção ou o segundo algoritmo de correção.

Nas configurações adicionais, o analisador está adaptado para identificar um algoritmo de correção não harmônico para uma porção de tempo que tem um grau de voz ou um algoritmo de correção harmônica para uma porção de tempo distinta no sinal de áudio 105.

Ainda nas configurações adicionais o sinal de áudio 105 é codificado acompanhado por metadados em um fluxo de dados, e onde o gerador de correção 110 é adaptado para obter a informação de controle 112 a partir de metadados no fluxo de dados.

Ainda em configurações adicionais o conversor de espectro 120 compreende um banco de filtros de análise ou, no mínimo, dois diferentes algoritmos de correção compreendem um algoritmo de vocoder de fase, um algoritmo de correção de upsampling, um algoritmo de correção de distorção não linear ou um algoritmo de cópia.

^— “ Ainda-nas configurações-adicionais, _o processador;

de sinal bruto 130 está adaptado para efetuar um ajuste de energia das bandas espectrais, uma filtragem inversa nas bandas espectrais, para adicionar um patamar de ruído à banda espectral ou para adicionar harmônicos ausentes à banda espectral.

A Fig. 2 mostra um diagrama de bloco que fornece mais detalhes para o gerador de correção 110 que compreende um controlador, que recebe a informação de controle 112 e o sinal de áudio 105, bem como os meios de correção 113. O controlador 111 está adaptado para selecionar um algoritmo de correção baseado na informação de controle 112. O gerador de correção 110 compreende um primeiro meio de correção 113a efetuando um primeiro algoritmo

1, um segundo meio de correção 113b efetuando um segundo algoritmo

2, e assim por diante. De modo geral, o gerador de correção 110 compreende quantos meios de correção 113 quantos algoritmos de correção estejam disponíveis. Por exemplo, o gerador de correção 110 pode compreender dois, três, quatro ou mais de quatro meios de correção 113. Depois de o controlador 111 basear a informação de controle 112 selecionada em um dos meios de correção 113, o controlador 111 envia o sinal de áudio 105 para um dos meios de correção 113, que efetua o algoritmo de correção e fornece o sinal bruto 115, que compreende os componentes de sinal nas bandas de freqüência replicada 202, 203.

A Fig. 3 mostra um diagrama de bloco que fornece mais detalhes sobre o combinador 140, onde o combinador 140 compreende um banco de filtros de síntese 141, um retardador 143 e um somador 147. O sinal bruto ajustado 135 é íntrÕciüziclo no banco “ de filtros de síntese 141, que gera a partir do sinal bruto ^_15 - ajustado 135 (por exemplo,., na ^representação . espectral\, um sinal bruto ajustado dentro do domínio de tempo 135t (sinal bruto de domínio de tempo) . O sinal de áudio de banda de base 105 é introduzido no retardador 143, que está adaptado para retardar o sinal de banda de base 105 por um determinado período de tempo e fornece o sinal de banda de base com retardo 105d. O sinal de banda de base com retardo 105d e o sinal bruto ajustado de domínio de tempo 135t são adicionados pelo somador 147, resultando no sinal de áudio de síntese 145, que sai do combinador 140. O retardo no retardador 143 depende do algoritmo de processamento do sintetizador do sinal de áudio para atingir que o sinal bruto de domínio de tempo 135t será relativo, ao mesmo tempo, como o sinal de banda de base com retardo 105d (sincronização).

As Figs. 4a a 4d mostram diferentes algoritmos de correção usados no gerador de correção 110 pelos meios de correção 113. Conforme explicado acima, o algoritmo de correção gera um sinal corrigido na banda de freqüência replicada. Nas configurações mostradas na Fig. 4, a primeira banda de freqüência 5 201 estende-se para a freqüência cruzada fmáx, na qual uma segunda banda de freqüência 202 (ou uma segunda banda de freqüência replicada) inicia e se estende para duas vezes a freqüência cruzada 2*fmáx. Ademais da referida freqüência, uma terceira banda de freqüência 203 (ou uma terceira banda de freqüência replicada) começa. A primeira banda de freqüência 201 pode compreender a banda de freqüência central acima mencionada.

Na Fig. 4, quatro algoritmos de correção são mostrados como exemplos. O primeiro algoritmo de correção na Fig. 4a compreende um espelhamento ou upsampling, um segundo algoritmo _15 de correção, compreende, uma cópia_ou_.modulação_que está mostrada na Fig. 4b, um terceiro algoritmo de correção compreende um vocoder de fase que está mostrado na Fig. 4c, bem como um quarto algoritmo de correção que compreende uma distorção está mostrado na Fig. 4d.

O espelhamento, conforme mostrado na Fig. 4a, é efetuado de modo que o sinal corrigido na segunda banda de freqüência 202 é obtido pelo espelhamento da primeira banda de freqüência 201, na freqüência cruzada fmáx. O sinal corrigido na terceira banda de freqüência 203 é, por sua vez, obtido pelo espelhamento do sinal na segunda banda de freqüência 202. Uma vez que o sinal da segunda banda de freqüência 202 foi anteriormente um sinal espelhado, o sinal na terceira banda de freqüência 203 também pode ser obtido simplesmente permutando o sinal de áudio 105 na primeira banda de freqüência 201 para a terceira banda de freqüência 203.

Um segundo algoritmo de correção, conforme mostrado na Fig. 4, implementa a cópia (ou modulação) do sinal. Nesta configuração, o sinal na segunda banda de freqüência 202 é obtido pela permutação (cópia) do sinal na primeira banda de freqüência 201 para a segunda banda de freqüência 202. De modo similar, também o sinal na terceira banda de freqüência 203 é obtido por meio da permutação de sinal na primeira banda de freqüência 201 para a terceira banda de freqüência 203.

A Fig. 4c mostra uma configuração usando um vocoder de fase como algoritmo de correção. O sinal corrigido é gerado por meio de etapas subseqüentes, onde a primeira etapa gera componentes de sinal até duas “vezes a‘freqü'ênci*aTiáximar?*fmáx e“~a segunda etapa gera componentes de sinal até três vezes a freqüência máxima 3*fmáx, e assim por diante. Um vocoder de fase multiplica as freqüências das amostras com um fator n (n = 2, 3, 4,...), resultando na propagação de valores de amostra sobre uma faixa de freqüência de n-vezes da banda de freqüência central (primeira banda de freqüência 201).

O algoritmo de correção usando distorção (por exemplo, por multiplicação do sinal por ele mesmo) está mostrado na Fig. 4d. As distorções podem ser obtidas de muitas maneiras. Uma maneira simples é pela multiplicação do nível de sinal por ele mesmo, gerando componentes de freqüência superior. Outra possibilidade de distorção é obtida por corte (por exemplo, por meio de corte do sinal acima de um determinado limite) . Também neste caso, serão gerados componentes de alta freqüência. Basicamente, qualquer distorção conhecida nos métodos convencionais poderá ser usada aqui.

A Fig. 5a mostra, em mais detalhes, o algoritmo de correção de um vocoder de fase. A primeira banda de freqüência 201 se estende novamente até a freqüência máxima fmáx (freqüência cruzada) na qual a segunda banda de freqüência 202 começa, que termina, por exemplo, em duas vezes a freqüência máxima 2*fmáx. Depois da segunda banda de freqüência 202, a terceira banda de freqüência 203 começa e pode, por exemplo, estender-se até três vezes a freqüência máxima 3*fmáx.

Por simplificação, a Fig. 5a mostra um espectro (nível P em função da freqüência f) com oito linhas de freqüência 105a, 105b, 105h para o sinal de áudio 105. A partir das referidas oito linhas Í05a, 105b) . ..7^- 105h7⁼ o võcòdêT de fase gera um novo sinal por meio da permutação das linhas, de acordo —com as setas mostradas. A permutação se refere à multiplicação acima mencionada. Em detalhes, a primeira linha 105a é permutada para a segunda linha 105b, a segunda linha é permutada para quarta linha, e assim por diante, até a oitava linha 105h, que é permutada para a 16a linha (última linha no segundo domínio de freqüência 202) . Isso se refere à multiplicação por dois. Para gerar linhas de até três vezes a freqüência máxima, 3*fmáx, todas as freqüências das linhas podem ser multiplicadas por três, ou seja, a primeira linha 105a é permutada para a terceira linha 105c, a segunda linha 105b é permutada para a sexta linha, e assim por diante, até a oitava linha 105h, que é permutada para a 24a linha (a última linha na terceira banda de freqüência 203) . É óbvio que por meio do referido vocoder de fase, as linhas não são mais eqüidistantes, porém são propagadas para freqüências superiores .

A Fig. 5b mostra o correção da cópia em mais detalhes. Novamente, o nível P em função da freqüência f é mostrado, onde oito linhas estão na primeira banda de freqüência 201, que são copiadas na segunda banda de freqüência 202 e também para a terceira banda de freqüência 203. Esta cópia implica somente que a primeira linha 105a, na primeira banda de freqüência 201, também se torne a primeira linha na segunda banda de freqüência 202 e na terceira banda de freqüência 203. Portanto, as primeiras linhas de cada banda de freqüência replicada 202 e 203 são copiadas a partir da mesma linha na primeira banda de freqüência 201. Em analogia, isso também se aplica às outras linhas. Consequentemente, a banda inteira de freqüência é copiada.

Os diferentes algoritmos de correção, conforme mostrados nas Figs. 4 e 5, podem se aplicados de modo diferente, tanto dentro do domínio de tempo quanto no domínio de freqüência, e compreendem diferentes vantagens ou desvantagens, que podem ser exploradas para diferentes aplicações.

Por exemplo, o espelhamento no domínio de freqüência é mostrado na Fig. 4a. No domínio de tempo, o espelhamento pode ser realizado por meio do aumento da taxa de amostra por um fator inteiro, que pode ser efetuado por meio da inserção de amostras adicionais entre cada par de amostras existentes. As referidas amostras adicionais não são obtidas a partir do sinal de áudio, mas são introduzidas pelo sistema e compreendem, por exemplo, valores próximos ou iguais a zero. No caso mais simples, se somente uma amostra adicional for introduzida entre duas amostras existentes, a duplicação do número de amostras é alcançada implementando-se uma duplicação da taxa de amostragem, Se mais de uma amostra adicional for introduzida (por exemplo, em um modo eqüidistante) a taxa de amostra aumentará adequadamente e, portanto, também o espectro de freqüência será aumentado. De modo geral, o número de amostras adicionais entre cada duas amostras existentes pode ser qualquer número n (n = 2, 3, 4...) aumentando a taxa de amostra pelo fator n+1. A inserção de amostras adicionais resulta no espelhamento do espectro de freqüência, na freqüência de Nyquist, que especifica a freqüência mais alta representável, em uma taxa de amostragem dada. O domínio de freqüência do espectro de banda de base (espectro na primeira banda de freqüência) é, assim, espelhado por meio deste procedimento diretamente na próxima banda de freqüência. De modo opcional, este espelhamento pode ser combinado com uma possível filtragem passá-baixas e/õu umã moldagem espectral.

As vantagens do referido algoritmo de correção podem ser resumidas como segue. Ao utilizar este método, a estrutura de tempo do sinal é mais bem preservada que usando-se métodos similares no domínio de freqüência. Além disso, por meio do espelhamento espectral, linhas de freqüência próximas à freqüência de Nyquist são mapeadas em linhas, que também estão próximas à freqüência de Nyquist. Isso é uma vantagem, uma vez que depois do espelhamento, as regiões espectrais ao redor da freqüência de espelhamento (ou seja, a freqüência de Nyquist do sinal de áudio original 105) são semelhantes em vários aspectos, como, por exemplo, em relação à propriedade do nivelamento espectral, a propriedade tonal, o acúmulo ou distinção dos pontos de freqüência, etc. Por meio do referido método, o espectro é continuado para a próxima banda de freqüência de forma mais moderada como, por exemplo, usando-se as técnicas de cópia, nas quais as regiões de freqüência terminam próximas entre si, que são originadas a partir de regiões completamente diferentes no espectro original e, portanto, exibem características bastante diferentes. Na cópia: a primeira amostra se torna novamente a primeira amostra na banda replicada, caracterizada pelo espelhamento da última amostra que se torna a primeira amostra na banda replicada. Esta continuação mais suave do espectro pode, por sua vez, reduzir os artefatos perceptíveis, que são provocados por características não contínuas do espectro reconstruído gerado por outros algoritmos de correção.

Finalmente, há sinais que compreendem um alto número de harmônicos, por exemplo, na região de freqüência inferior (primeira banda de freqüência 201) . Os referidos harmônicos aparecem como picos localizados no espectro. Entretanto, na parte superior do espectro pode existir somente alguns harmônicos presentes ou, de outro modo, o número de harmônicos é o menor na parte superior do espectro. Simplesmente usando uma cópia do espectro, isso pode resultar em um sinal replicado no gual a parte inferior do espectro com um número alto de harmônicos é copiada diretamente na região da freqüência superior, onde havia somente alguns harmônicos no sinal original. Como resultado, a banda de freqüência superior do sinal original e o sinal replicado são bastante diferentes em relação ao número de harmônicos, que é indesejado e deve ser evitado.

O algoritmo de correção de espelhamento também pode ser aplicado no domínio de freqüência (por exemplo, na região

QMF) , neste caso, a ordem das bandas de freqüência é invertida, assim acontece a reorganização de trás para a quarta. Ademais, para amostras de sub-banda, um valor conjugado complexo deve ser formado, assim a parte imaginária de cada amostra altera seu sinal. Isso resulta em uma inversão do espectro dentro da subbanda .

O referido algoritmo de correção compreende uma alta flexibilidade em relação às bordas da correção, desde que um espelhamento do espectro não deva, necessariamente, ser efetuado 10 na freqüência de Nyquist, porém também pode ser efetuado em qualquer borda de sub-banda.

Entretanto, o cancelamento de aliasing _entre _as bandas QMF próximas, nas extremidades das correções pode não ocorrer, o que pode ou não ser tolerável.

-15 — — — ·— — ·=- pôr “meio cia “propagação ou por meio do uso do vocoder de fase (vide Fig. 4c ou 5a) a estrutura de freqüência é harmônica e corretamente estendida no domínio de alta freqüência, uma vez que a banda de base 201 é espectralmente propagada por meio de um múltiplo uniforme realizado por um ou mais vocoders de 20 fase, e uma vez que os componentes espectrais na banda de base 201 são combinados com os componentes espectrais adicionalmente gerados.

Este algoritmo de correção é preferido se a banda de base 201 já estiver fortemente limitada na largura de banda, 25 por exemplo, pelo uso de somente um taxa de bit bastante baixa.

Portanto, a reconstrução dos componentes de freqüência superior já começa em uma freqüência relativamente baixa. Neste caso, uma freqüência cruzada típica é inferior a cerca de 5 kHz (ou, inclusive, inferior a 4 kHz) . Nesta região, o ouvido humano é bastante sensível a dissonâncias devido aos harmônicos incorretamente posicionados. Isso pode resultar na impressão de tons não naturais. Ademais, tons proximamente espaçados 5 espectralmente (com uma distância espectral de cerca de 30 Hz a

300 Hz) são percebidos como tons rudes. Uma continuação harmônica da estrutura de freqüência da banda de base 201 evita as referidas impressões auditivas incorretas e desagradáveis.

No terceiro algoritmo de correção de cópia (vide 10 Fig. 4c ou 5b) as regiões espectrais são sub-banda bem copiadas para uma região de freqüência superior ou para uma região de freqüência a ser replicada. Também, a cópia recai na observação, a_ qual é real para todos os métodos de correção, que as propriedades espectrais dos sinais de freqüência superior são semelhantes em 1'5 ^- vários aspectos para as propriedades dos sinais de banda de base.

Há apenas alguns desvios entre si. Ademais, o ouvido humano, tipicamente, não é muito sensível em alta freqüência (tipicamente, iniciando em cerca de 5 kHz), especialmente em relação a um mapeamento espectral não preciso. De fato, em geral, esta é a 20 idéia principal da replicação da banda espectral. Particularmente, a cópia compreende a vantagem que é a facilidade e a rápida implementação.

O referido algoritmo de correção também tem uma alta flexibilidade em relação às bordas de correção, uma vez que é 25 possível efetuar a cópia do espectro em qualquer borda de subbanda .

Finalmente, o algoritmo de correção de distorção (vide Fig. 4d) pode compreender a geração de harmônicos por meio de corte, limitação, multiplicação, etc. Se, por exemplo, um sinal propagado é espectralmente muito fracamente ocupado (por exemplo, após aplicação do algoritmo de correção de vocoder de fase acima mencionado) , é possível que o espectro propagado possa 5 opcionalmente ser adicionalmente complementado por um sinal distorcido para evitar buracos de freqüência não desejados.

As Figs. 6a a 6d mostram diferentes configurações para o sintetizador de sinal de áudio implementado em um decodificador de áudio.

Na configuração mostrada na Fig. 6a, um fluxo de áudio codificado 345 é introduzido em um des formatador de carga útil do fluxo de bits 350, o qual separa, de um lado, um sinal de_ áudio codificado 355 e, de outro lado, uma informação adicional 375. O sinal de áudio codificado 355 é introduzido, por exemplo, em um decodificador central AAC 360, que gera um sinal de áudio decodificado 105 na primeira banda de freqüência 201. O sinal de áudio 105 é introduzido em um banco QMF de análise de 32 bandas 370, compreendo, por exemplo, 32 bandas de freqüência e que gera o sinal de áudio 10532 no domínio de freqüência. É preferido que o gerador de correção somente forneça sinal de banda alta como o sinal bruto e não forneça o sinal de banda baixa. Se, de modo alternativo, o algoritmo de correção no bloco 100 gerar do mesmo modo o sinal de banda baixa, é preferido para o filtro passa-altas o sinal de entrada no bloco 130a.

O sinal de áudio de domínio de freqüência 10532 é introduzido no gerador de correção 110, que nesta configuração gera a correção dentro do domínio de freqüência (domínio QMF) . A representação espectral do sinal bruto 125 resultante é introduzida em uma ferramenta de SBR 130a, que pode, por exemplo, gerar um patamar de ruído, reconstruir harmônicos ausentes ou efetuar uma filtragem inversa.

Por outro lado, a informação adicional 375 é introduzida em um analisador de fluxo de bits 380, que analisa a informação adicional para obter diferentes sub-informações 385 e introduzi-las, por exemplo, em uma unidade de decodificação e desquantização de Huffman 390 que, por exemplo, extrai a informação de controle 112 e os parâmetros de replicação da banda 10 espectral 132. A informação de controle 112 é introduzida na ferramenta de SBR e os parâmetros de replicação da banda espectral 132 são introduzidos na ferramenta de SBR 130a, bem^como dentro de um ajustador de envelope 130b. O ajustador de envelope 130b é operante para ajustar o envelope para a correção gerada. Como 15 resultado? ~õ ajustador de envelope 130b gera o sinal bruto ajustado 135 e o introduz em um banco de QMF de síntese 140, o qual combina o sinal bruto ajustado 135 com o sinal de áudio no domínio de freqüência 10532. O banco de QMF de síntese pode, por exemplo, compreender 64 bandas de freqüência e gerar, por meio da 20 combinação dos dois sinais (o sinal bruto ajustado 135 e sinal de áudio de domínio de freqüência 10532) o sinal de áudio de síntese 145 (por exemplo, um resultado das amostras PCM, PCM = modulação por codificação de pulsos).

Ademais, a Fig. 6a mostra as ferramentas de SBR 25 130a, que podem implementar métodos conhecidos de replicação da banda espectral para serem utilizados no resultado de dados espectrais de QMF do gerador de correção 110. O algoritmo de correção utilizado no domínio de freqüência, conforme mostrado na

Fig. 6a, podería, por exemplo, empregar o espelhamento simples ou cópia dos dados espectrais dentro do domínio de freqüência (vide Fig. 4a e a Fig. 4b) .

Assim, esta estrutura geral está de acordo com os decodificadores conhecidos na técnica anterior, porém as configurações substituem o gerador de correção convencional por meio do gerador de correção 110, configurado para efetuar diferentes algoritmos de correção adaptados no intuito de aprimorar a qualidade perceptível do sinal de áudio. Ademais, as configurações também podem utilizar um algoritmo de correção dentro do domínio de tempo e não, necessariamente, a correção no domínio de freqüência, conforme mostrado na Fig. 6a.

——					--	— -		—
		A	Fig. 6b	mostra configurações	da	presente
invenção,	na	qual	o gerador	de	correção	110 pode	ut	ili zar	um
15 algoritmo	de	correção dentro	da	freqüência	, bem como	dentro	do
domínio de	tempo.	0 decodificador	, conforme	mostrado	na	Fig.	6b,

compreende novamente o desformatador de carga útil do fluxo de bits 350, o decodificador central AAC 360, o analisar de fluxo de bits 380, bem como a unidade de decodificação e desquantização de 20 Huffman 390. Portanto, na configuração, conforme mostrado na Fig.

6b, o fluxo de áudio codificado 345 é, novamente, introduzido no desformatador de carga útil do fluxo de bits 350, o qual, de um

lado, gera	o	sinal	de	áudio	codificado 350 e	o separa da
informação	adicional	375,	que	é, posteriormente,	analisada pelo
25 analisador	de	fluxo	de	bits	380 para separar	a informação

diferente 385, que é introduzida na unidade de decodificação e desquantização de Huffman 390. Por outro lado, o sinal de áudio codificado 355 é introduzido no decodificador central AAC 360.

As configurações distinguem agora os dois casos: o gerador de correção 110 opera tanto dentro do domínio de freqüência (seguindo linhas pontilhadas de sinal) ou dentro do domínio de tempo (seguindo linhas tracejadas de sinal).

Se o gerador de correção opera no domínio de tempo, o resultado do decodificador central AAC 360 é introduzido no gerador de correção 110 (linha tracejada para o sinal de áudio 105) e seu resultado é transmitido para um banco de filtros de análise 370. 0 resultado do banco de filtros de análise 370 é a representação espectral do sinal bruto 125, que é introduzida nas ferramentas de SBR 130a (que são parte do ajustador de sinal bruto 130), bem como no banco de QMF de síntese 140.

Se, de um lado, o algoritmo de correção utiliza o domínio de freqüência (conforme mostrado na Fig. 6a), o resultado -do-decodif icador central AAC 360“ é ~introduzido no banco de QMF de análise 360 por meio da linha pontilhada para o sinal de áudio 105 que, por sua vez, gera um sinal de áudio de domínio de freqüência 10532 e transmite o sinal de áudio 10532 para o gerador de correção 110 e para o banco de QMF de síntese 140 (linhas pontilhadas). O gerador de correção 110 gera, novamente, uma representação de sinal bruto 125 e transmite este sinal para as ferramentas de SBR 130a.

Portanto, a configuração efetua tanto um primeiro modo de processamento utilizando as linhas pontilhadas (correção de domínio de freqüência) ou um segundo modo de processamento usando as linhas tracejadas (correção de domínio de tempo), onde todas as linhas sólidas, entre outros elementos funcionais, são utilizadas nos dois modos de processamento.

É preferido que o modo de processamento de tempo do gerador de correção (linhas tracejadas) seja de modo que o resultado do gerador de correção inclua o sinal de banda baixa e o sinal de banda alta, ou seja, que o sinal de saida do gerador de correção seja um sinal de banda larga que consiste no sinal de banda baixa e no sinal de banda alta. O sinal de banda baixa é introduzido no bloco 140 e o sinal de banda alta é introduzido no bloco 130a. As separações de banda podem ser efetuadas no banco de análise 370, porém também podem ser efetuadas de modo alternativo. Ademais, o sinal de saida do decodificador AAC pode ser diretamente alimentado no bloco 370, assim a porção de banda baixa do sinal de saida do gerador de correção não é utilizada e a porção de banda baixa original é utilizada no combinador 140.

No modo de processamento de domínio de freqüência (linhas' pontilhadas) ,^_ o gerador de correção, preferencialmente, somente fornece o sinal de banda alta, e o sinal de banda baixa original é diretamente alimentado para o bloco 370 para a alimentação do banco de síntese 140. De modo alternativo, o gerador de correção também pode gerar um sinal completo de saída de largura de banda e alimentar o sinal de banda baixa no bloco 140.

Novamente, a unidade de decodificação e desquantização de Huffman 390 gera o parâmetro de replicação da banda espectral 132 e a informação de controle 112, que é introduzida no gerador de correção 110. Ademais, os parâmetros de replicação da banda espectral 132 são transmitidos para o ajustador de envelope 130b, bem como para as ferramentas de SBR 130a. O resultado do ajustador de envelope 130b é o sinal bruto ajustado 135, o qual é combinado no combinador 140 (banco de QMF de síntese) com o sinal de áudio de banda espectral 10532 (para a correção de domínio de freqüência) ou com a representação espectral de sinal bruto 125 (para a correção de domínio de tempo) 5 para gerar o sinal de áudio de síntese 145, o qual, novamente, pode compreender a saída de amostras PCM.

Também na referida configuração, o gerador de correção 110 utiliza um dos algoritmos de correção (como, por exemplo, mostrado nas Figs. 4a a 4d) para gerar o sinal de áudio 10 na segunda banda de freqüência 202 ou na terceira banda de freqüência 203, usando-se o sinal de banda de base na primeira banda de freqüência 201. Somente as amostras de sinal de áudio dentro da primeira banda de freqüência 201 estão codificadas no fluxo de saída codificado 345 e as amostras ausentes são geradas

15. ,por. meio do uso* do- método^der replicação dá bàndá espectral.

A Fig. 6c mostra uma configuração para o algoritmo de correção dentro do domínio de tempo. Em comparação com a Fig. 6a, a configuração, conforme mostrada na Fig. 6c, difere pelo posicionamento do gerador de correção 110 e do banco 20 de QMF de análise 120. Todos os componentes restantes do sistema de decodificação são os mesmos que aquele mostrado na Fig. 6a e, portanto, foi omitida uma descrição repetida aqui.

O gerador de correção 110 recebe o sinal de áudio 105 do decodificador central AAC 360 e, agora, efetua a correção 25 dentro do domínio de tempo para gerar o sinal bruto 115, que é introduzido no conversor de espectro 120 (por exemplo, um banco de QMF de análise compreendendo 64 bandas) . Aparte de várias possibilidades, um algoritmo de correção no domínio de tempo, efetuado pelo gerador de correção 110, resulta em um sinal bruto

115 que compreende uma taxa de amostra dobrada, se o gerador de correção 110 efetua a correção por meio da introdução de amostras adicionais entre as amostras existentes (que estão próximas a 5 valores de zero, por exemplo). A saída do conversor de espectro

120 é a representação espectral de sinal bruto 125, que é introduzida no ajustador de sinal bruto 130, o qual compreende, novamente, de um lado, a ferramenta de SBR 130a e, de outro lado, o ajustador de envelope 130b. Conforme as configurações mostradas 10 anteriormente, a saída do ajustador de envelope compreende o sinal bruto ajustado 135, que é combinado com o sinal de áudio no domínio de freqüência 105f no combinador 140, o qual, novamente, compreende um banco de QMF de síntese de 64 bandas de freqüência, por exemplo.

— -···— p_crtanto/ a diferença principal é que, por exemplo, o espelhamento é efetuado no domínio de tempo e os dados de freqüência superior já estão reconstruídos antes de o sinal 115 ser introduzido no banco de filtros de análise de 64 bandas 120, significando que o sinal já compreende uma taxa amostrada dobrada (na SBR de taxa dual) . Após a referida operação de correção, uma ferramenta normal de SBR pode ser empregada, que pode, novamente, compreender uma filtragem inversa, adição de um patamar de ruído ou adição de harmônicos ausentes. Embora a reconstrução da região de alta freqüência ocorra no domínio de tempo, uma análise/síntese é efetuada no domínio de QMF, assim os mecanismos de SBR restantes ainda podem ser utilizados.

Na configuração da Fig. 6c, o gerador de correção, preferencialmente, fornece um sinal completo de banda compreendendo o sinal de banda baixa e o sinal de banda alta (sinal bruto). De modo alternativo, o gerador de correção somente fornece a porção de banda alta, por exemplo, obtida por meio da filtragem de passa-altas, bem como o banco de QMF 120 é alimentado

diretamente pela saída do	decodificador	central AAC	105	•
Em uma	configuração	adicional,	o	gerador	de
correção 110 compreende	uma interface	de entrada	de	domínio	de

“ 15 ·’ tempo e/ou uma interface de saída de domínio de tempo (interface de domínio de tempo), bem como o processamento dentro deste bloco pode ocorrer em qualquer domínio, tais como um domínio de QMF ou um domínio de freqüência, tais como DFT, FFT, DCT, DST ou qualquer outro domínio de freqüência. Assim, a interface de entrada de domínio de tempo é conectada a um conversor de tempo/freqüência ou, geralmente, a um conversor para conversão a partir do domínio de ~tempo ‘‘para uma representação espectral. Assim, a representação espectral é processada usando-se, no mínimo, dois algoritmos diferentes de correção que operam nos dados de domínio de freqüência. De modo alternativo, o primeiro algoritmo de correção opera no domínio de freqüência e um segundo algoritmo de correção opera no domínio de tempo. Os dados corrigidos do domínio de freqüência são novamente convertidos para uma representação de domínio de tempo, que são, assim, introduzidos no bloco 120 por meio da interface de saída de domínio de tempo. Na configuração, na qual o sinal na linha 115 não compreende a banda completa, porém somente compreende a banda baixa, a filtragem e, preferencialmente, efetuada no domínio espectral antes da conversão novamente no sinal espectral para o domínio de tempo.

Preferencialmente, a resolução espectral no bloco

110 é superior	à resolução	espectral obtida	pelo bloco	120	. Em uma
configuração,	a resolução	espectral no	bloco 110 é,	no	mínimo,
duas vezes tão	alta quanto	no bloco 120.
	Por meio	do isolamento	do	algoritmo	de	correção

em um bloco funcional separado, o qual é implementado por meio desta configuração, é possível aplicar métodos arbitrários de replicação espectral completamente independentes do usodas ferramentas de SBR. Em uma implementação alternativa, tambémé possível gerar o componente de alta freqüência por meiode correção no domínio de tempo paralelo à introdução do sinaldo decodificador AAC no banco de filtros de análise de 32 bandas. A banda de base e os sinais corrigidos serão combinados somente após a análise de QMF.

A Fig. 6d mostra uma configuração, onde a = correção é⁼ re’arlizado “dentrõ “do “ dòmihio de tempo. De modo semelhante à configuração mostrada na Fig. 6c, também na referida configuração a diferença para a Fig. 6a compreende a posição do gerador de correção 110, bem como dos bancos de filtros de análise. Particularmente, o decodificador central AAC 360, o desformatador de carga útil do fluxo de bits 350, bem como o analisador de fluxo de bits 380 e a unidade de decodificação e desquantização de Huffman 390 são os mesmos que na configuração mostrada na Fig. 6a e, novamente, a descrição repetida foi ora omitida.

A configuração, conforme mostrada na Fig. 6d ramifica o resultado do sinal de áudio 105 por meio do decodificador 360 e introduz o sinal de áudio 105 no gerador de correção 110, bem como no banco de QMF de análise de 32 bandas

370. O banco de QMF de análise de 32 bandas 370 (conversor adicional 370) gera uma representação espectral de sinal bruto adicional 123. O gerador de correção 110 realiza, novamente, uma correção dentro do domínio de tempo e gera uma entrada de sinal 5 bruto 115 no conversor de espectro 120, o qual, novamente, compreende um banco de filtros de QMF de análise de 64 bandas. O conversor de espectro 120 gera a representação espectral de sinal bruto 125, a qual, nesta configuração, compreende componentes de freqüência na primeira banda de freqüência 201 e as bandas de freqüência replicadas na segunda ou na terceira banda de freqüência 202, 203. Ademais, esta configuração compreende um somador 124, adaptado para adicionar o resultado do banco de filtros de 'análise de 32 bandas 370 e a representação espectral de sinal bruto 125 para obter uma representação espectral combinada 15 de_ sinais bruto. 12.6-. O -somador 124- pode,‘ Üe^modÕ geral, ser um combinador 124 também configurado para subtrair os componentes de banda de base (componentes na primeira banda de freqüência 201) provenientes da representação espectral de sinal bruto 125. O somador 124 pode, assim, ser configurado para adicionar um sinal 20 invertido ou, de modo alternativo, pode compreender um inversor opcional para inverter o sinal de saída proveniente do banco de filtros de análise de 32 bandas 370.

Após esta subtração de exemplo dos componentes de freqüência na banda de base de freqüência 201, o resultado é, 25 novamente, introduzido na ferramenta de replicação de banda espectral 130a, a qual, por sua vez, encaminha o sinal resultante para o ajustador de envelope 130b. O ajustador de envelope 130b gera, novamente, o sinal bruto ajustado 135, que é combinado no combinador 140 com o resultado do banco de filtros de análise de 32 bandas 370, assim, o combinador 140 combina os componentes de freqüência corrigidos (por exemplo, na segunda e na terceira banda de freqüência, 202 e 203) com o resultado dos componentes de banda de base por meio do banco de filtros de análise de 32 bandas. Novamente, o combinador 140 pode compreender um banco de filtros de QMF de síntese de 64 bandas, que produz o sinal de áudio de síntese, que compreende, por exemplo, amostras PCM de saída.

Na configuração da Fig. 6d, o gerador de correção, preferencialmente, produz um sinal completo de banda que compreende o sinal de banda baixa e o sinal de banda alta (sinal bruto). De modo alternativo, o gerador de correção somente fornece a porção de banda alta, por exemplo, obtida por filtragem de passa-altas para alimentação no bloco 120, e o banco de QMF 370 é alimentado diretamente pelo, resulíado- AAC7 “conforme mostrado na Fig. 6d. Ademais, o subtrator 124 não é exigido e o resultado do bloco 120 é alimentado no bloco 130a diretamente, uma vez que este sinal somente compreende a banda alta. De modo adicional, o bloco 370 não precisa do resultado para o subtrator 124.

Em uma configuração adicional, o gerador de correção 110 compreende uma interface de entrada de domínio de tempo e/ou uma interface de saída de domínio de tempo (interface de domínio de tempo), bem como o processamento dentro deste bloco pode ocorrer em qualquer domínio, como um domínio QMF ou um domínio de freqüência, tais como DFT, FFT, DCT, MDCT, DST ou qualquer outro domínio de freqüência. Em seguida, a interface de entrada de domínio de tempo é conectada a um conversor de tempo/freqüência ou, geralmente, a um conversor para converter do domínio de tempo para uma representação espectral. Em seguida, a representação espectral é processada usando-se, no mínimo, dois algoritmos diferentes de correção que operam sobre dados de domínio de freqüência. De modo alternativo, um primeiro algoritmo de correção opera no domínio de freqüência e um segundo algoritmo de correção opera em um domínio de tempo. Os dados corrigidos de domínio de freqüência são novamente convertidos em uma representação de domínio de tempo que é, em seguida, introduzida no bloco 120 por meio da interface de saída de domínio de tempo.

De modo preferido, a resolução espectral no bloco 110 é superior à resolução espectral obtida pelo bloco 120. Em uma configuração, a resolução espectral no bloco 110 é, no mínimo, duas vezes tão'altá*quanto no bloco 120.

As Figs. 6a a 6d abrangem a estrutura do decodificador e, espe_cialmente,. a - incorporação “dd~ gerador de correção 110 dentro da estrutura do decodificador. Para que o decodificar e, especialmente, o gerador de correção 110 seja capaz de gerar ou replicar componentes de freqüência superiores, o codificador por transmitir informações adicionais para o decodificador, onde, de um lado, a informação adicional 112 fornece a informação de controle que pode, por exemplo, ser utilizada para corrigir o algoritmo de correção e, além disso, o parâmetro de replicação da banda espectral 132 a ser utilizado pelas ferramentas de replicação da banda espectral 130a.

Configurações adicionais compreendem também um método para gerar um sinal de áudio de síntese 145 que tem uma primeira banda de freqüência e uma segunda banda de freqüência replicada 202, derivada da primeira banda de freqüência 201. O método compreende efetuar, no mínimo, dois algoritmos diferentes de correção, convertendo o sinal bruto 115 em uma representação espectral de sinal bruto 125, processando a representação espectral de sinal bruto 125. Cada algoritmo de correção gera um sinal bruto 115 que tem componentes de sinal na segunda banda de freqüência replicada 202, usando um sinal de áudio 105 que tem componentes de sinal na primeira banda de freqüência 201. A correção é efetuada de modo que um, de no mínimo dois algoritmos diferentes de correção, seja selecionado em resposta para uma 10 informação de controle 112, para uma primeira porção de tempo, e o outro de, no mínimo, dois algoritmos diferentes de correção é selecionado em resposta à informação de controle 112 para uma segunda porção de tempo diferente da primeira porção de tempo para obter o sinal bruto 115 para a primeira e para a segunda porção de T5 tempo— O processamento-da—representação espectral de sinal bruto— 125 é efetuado em resposta aos parâmetros de replicação da banda espectral do domínio espectral 132 para obter uma representação espectral de sinal bruto ajustado 135. Finalmente, o método compreende uma combinação de sinal de áudio 105 que tem 20 componentes de sinal na primeira banda 201 ou um sinal derivado do sinal de áudio 105, com a representação espectral de sinal bruto ajustado 135, ou com um sinal adicional derivado da representação espectral de sinal bruto ajustado 135 para obter o sinal de áudio de síntese 145.

25	As	Figs	. 7a, 7b	e 7c	compreendem	configurações	do
codificador.
	A	Fig.	7a mostra um	codificador	que codifica	um
sinal de áudio	305	para	gerar o	sinal	de áudio codificado 345,	o

qual, por sua vez, é introduzido nos decodificadores, conforme mostrado nas Figs. 6a a 6d. O codificador, conforme mostrado na Fig. 7a, compreende um filtro passa-baixas 310 (ou um filtro seletivo de freqüência geral) e um filtro de passa-altas 320, no qual o sinal de áudio 305 é introduzido. O filtro de passa-baixas 310 separa o componente de sinal de áudio dentro da primeira banda de freqüência 201, caracterizado pelo filtro de passa-altas 320 que separa os componentes restantes de freqüência, por exemplo, os componentes de freqüência na segunda banda de freqüência 202 e nas bandas adicionais de freqüência. Portanto, o filtro de passabaixas 310 gera um sinal filtrado por passa-baixas 315 e filtro de passa-altas 320 produz um sinal de áudio filtrado por passa-altas 325. 0 sinal de áudio filtrado por passa-baixas 315 é introduzido em um codificador de áudio 330, o qual pode, por exemplo, compreender um codificador AAC.^_ -- — _ __ ,

Ademais, o sinal de áudio filtrado por passa·) baixas 315 é introduzido em um gerador de informação de controle 340, o qual é adaptado para gerar a informação de controle 112, assim um algoritmo de correção preferido pode ser identificado, o qual, por sua vez, é selecionado pelo gerador de correção 110. O sinal de áudio filtrado por passa-altas 325 é introduzido em um gerador de dados de banda espectral 328 que gera os parâmetros de banda espectral 132, os quais são, de um lado, introduzidos no seletor de correção. Ademais, o codificador da Fig. 7a compreende um formatador 343 que recebe o sinal de áudio codificado do codificador de áudio 330, o parâmetro de replicação da banda espectral 132 do gerador de dados de replicação da banda espectral 328, bem como a informação de controle 112 do gerador de informação de controle 340.

Os parâmetros de banda espectral 132 podem depender do método de correção, ou seja, para diferentes algoritmos de correção, os parâmetros de banda espectral podem ou não diferir, e pode não ser necessário determinar o parâmetro de SBR 132 para todos os algoritmos de correção (a Fig. 7c abaixo mostra uma configuração, onde somente um conjunto de parâmetros de SBR 132 precisa ser calculado) . Portanto, o gerador de banda espectral 328 pode gerar diferentes parâmetros de banda espectral

132 para	diferentes algoritmos	de	correção e,	portanto,	o
parâmetro	de banda	espectral 132	pode	compreender,	primeiro,	os
parâmetros	de SBR	132a adaptados	para	o primeiro	algoritmo	de
			— -
correção;	segundo,	os parâmetros	de SBR 132b adaptados para	o

segundo algoritmo de correção; terceiro, os parâmetros de SBR 132c adaptados para o terceiro algoritmo^- de correção —e — assim- por diante.

A Fig. 7b mostra, em mais detalhes, uma configuração para o gerador de informação de controle 340. O gerador de informação de controle 340 recebe o sinal filtrado por passa-baixas 315 e os parâmetros de SBR 132. O sinal filtrado por passa-baixas 315 pode ser introduzido em uma primeira unidade de correção 342a, em uma segunda unidade de correção 342b, e em outras unidades de correção (não mostradas). O número de unidades de correção 342 pode, por exemplo, estar de acordo com o número de algoritmos de correção, os quais podem ser realizados por meio do gerador de correção 110 no decodificador. o resultado das unidades de correção 342 compreende um primeiro sinal de áudio corrigido 344a para a primeira unidade de correção 342a, um segundo sinal de áudio corrigido 344b para a segunda unidade de correção 342b e assim por diante. Os sinais de áudio corrigidos 344, que compreendem componentes brutos na segunda banda de freqüência 202, são introduzidos em um bloco de ferramentas de replicação da banda espectral 346. Novamente, o número de blocos de ferramentas de replicação da banda espectral 346, pode, por exemplo, ser igual ao número de algoritmos de correção ou ao número de unidades de correção 342. Os parâmetros de replicação da banda espectral 132 também são introduzidos nos blocos de ferramentas de replicação da banda espectral 346 (bloco de ferramentas de SBR), assim o

primeiro bloco	de	ferramentas	de	SBR	346a	recebe os	primeiros
parâmetros de	SBR	132a e o	primeiro	sinal	corrigido	344a. 0
-- — . ri—	—	— ' =			— .
segundo bloco	de	ferramentas	de	SBR	346b	recebe os	segundos
parâmetros de SBR 132b e o segundo	sinal	corri	gido 344b.	Os blocos

de ferramentas de replicação cíà 5ãnda“ espectral ~346~geram o‘ sinal — de áudio replicado 347 que compreende componentes de freqüência superior dentro da segunda e/ou terceira banda de freqüência 202 e 203, com base nos parâmetros de replicação 132.

Finalmente, o gerador de informação de controle

340 compreende unidades de comparação adaptadas para comparar o sinal de áudio original 305 e, especialmente, os componentes de freqüência superior do sinal de áudio 305 com o sinal de áudio replicado 347. Novamente, a comparação pode ser efetuada para cada algoritmo de correção, assim a primeira unidade de comparação 348a compara o sinal de áudio 305 com um primeiro sinal de áudio replicado 347a produzido pelo primeiro bloco de ferramentas de SBR 346a.

De modo similar, uma segunda unidade de comparação 348b compara o sinal de áudio 305 com um segundo sinal de áudio replicado 347b proveniente do segundo bloco de ferramentas de SBR 346b. As unidades de comparação 348 determinam um desvio dos sinais de áudio replicados 347, em bandas de alta freqüência do sinal de áudio original 305, assim, finalmente, uma unidade de avaliação 349 pode comparar o desvio entre o sinal de áudio original 305 com os sinais de áudio replicados 347 usando diferentes algoritmos de correção e determina, a partir dele, um algoritmo de correção preferido ou um número adequado ou não adequado de algoritmos de correção. A informação de controle 112 ‘ compreende informações que permitem identificar um dos algoritmos de correção preferidos. A informação de controle 112 pode, por exemplo, compreender um número de identificação para o algoritmo de correção preferido, que pode ser determinado com base no último desvio entre o ^—sinal dê áudio^- original. 305 e o -sinal de áudio replicado 347. De modo alternativo, a informação de controle 112 pode fornecer um número de algoritmos de correção ou uma classificação de algoritmos de correção, que fornecem concordância suficiente entre o sinal de áudio 305 e o sinal de áudio corrigido í 20 347. A avaliação pode, por exemplo, ser efetuada em relação à qualidade perceptível, assim o sinal de áudio replicado 347 é, em uma situação ideal, passível de ser indistinguível ou praticamente

indistinguível	pelo	ouvido	humano, a	partir do	sinal de áudio
original 305.
25	A	Fig. 7c	mostra uma	configuração	adicional para
o codificador	no	qual,	novamente,	o sinal de	áudio 305 é

introduzido, porém onde, de modo opcional, também metadados 306 são introduzidos no codificador. O sinal de áudio original 305 é, novamente, introduzido em um filtro de passa—baixas 310, bem como em um filtro de passa-altas 320. O resultado do filtro de passabaixas 310 é, novamente, inserido em um codificador de áudio 330 e o resultado do filtro de passa-altas 320 é introduzido em um gerador de dados de SBR 328. Ademais, o codificador compreende uma unidade de processamento de metadados 309 e/ou uma unidade de análise 307 (ou meios para análise), das quais o resultado é enviado para o gerador de informação de controle 340. A unidade de processamento de metadados 309 é configurada para analisar os metadados 306 em relação a um algoritmo de correção adequado. A unidade de análise 307 pode, por exemplo, determinar o número e a potência do transiente ou dos segmentos de trem de pulso ou de não trem de pulso, dentro do sinal de áudio 305. Com base no resultado da unidade de processamento de metadados 309 e/ou no resultado da ferramenta de análise 307, o géradõr da informação^-de^-contro-te—S40 pode, novamente, determinar um algoritmo de correção preferido ou gerar uma classificação de algoritmo de correção e codificar a referida informação dentro da informação de controle 112. O formatador 343 combinará, novamente, a informação de controle 112, o parâmetro de replicação da banda espectral 132, bem como o sinal de áudio codificado 355 dentro de um fluxo de áudio codificado 345.

Os meios para a análise 307 fornecem, por exemplo, a característica de sinal de áudio e podem ser adaptados para identificar componentes de sinal não harmônico para uma porção de tempo que tem um grau de voz ou um componente de sinal harmônico para uma porção de tempo distinta. Se o sinal de áudio 305 é puramente fala ou voz, o grau de voz é alto, caracterizado ^k' pela mistura de voz e, por exemplo, música, o grau de voz é inferior. O cálculo do parâmetro de SBR 132 pode ser efetuado de acordo com esta característica e o algoritmo de correção preferido.

Ainda outra configuração compreende um método para um fluxo de dados 345 que compreende componentes de um sinal de áudio 305 em uma primeira banda de freqüência 201, informação de controle 112 e parâmetros de replicação de banda espectral 132. O método compreende uma seletiva de freqüência que filtra o sinal de áudio 305 para gerar os componentes do sinal de áudio 305 na primeira banda de freqüência 201. O método compreende ainda uma geração de parâmetro de replicação da banda espectral 132 provenientes de componentes do sinal de áudio 305 em uma segunda banda de freqüência 202. Finalmente, o método compreende uma geração de informação de controle” 112^_que^—identifica um.· algoritmo de parâmetro preferido proveniente do primeiro ou do segundo algoritmo diferente de correção, onde cada algoritmo de correção gera um sinal bruto 115 que tem componentes de sinal na segunda banda de freqüência replicada 202 usando os componentes do sinal de áudio 305 na primeira banda de freqüência 201.

Embora algumas configurações, especificamente nas Figs. 6a a 6d, ilustrem que a combinação entre a banda baixa e a banda alta ajustada é efetuada no domínio de freqüência, deve ser notado que a combinação também pode ser implementada no domínio de tempo. Para esta finalidade, o sinal de saída do decodificador central pode ser utilizado (no resultado de uma etapa de retardo potencialmente necessária para compensar um retardo de processamento ocorrido pela correção e pelo ajuste) no domínio de ί

tempo e na banda alta ajustada no domínio de banco de filtros pode ser convertida em domínio de tempo como um sinal que não tem uma porção de banda baixa e que tem uma porção de banda alta. Na configuração da Fig. 6, este sinal somente pode compreender as 32 sub-bandas mais altas, bem como uma conversão deste sinal para o domínio de tempo resulta em um sinal de banda alta de domínio de tempo. Assim, os dois sinais podem ser combinados no domínio de tempo, tais como por meio de uma adição amostra por amostra para obter, por exemplo, amostras PCM como um sinal de saída para ser convertido de modo digital/analógico e para alimentar um altofalante .

Embora alguns aspectos foram descritos no contexto de um aparelho, fica claro que estes aspectos também representam uma descrição do método respectivo, onde um bloco ou um dispositivo se refere a uma etapa ’ de métòoo ' Õü“ a “uma característica de uma etapa de método. De modo análogo, os aspectos descritos no contexto de uma etapa de método também representam uma descrição de um bloco, item ou características respectivos de um aparelho pertinente.

O sinal de áudio codificado ou bitstream inventado pode ser armazenado em um meio de armazenamento digital ou podem ser transmitidos em um meio de transmissão, tais como meio de transmissão sem fio ou um meio de transmissão por cabo, como a Internet.

Conforme determinados requisitos de implementação, as configurações da invenção podem ser implementadas em hardware ou software. A implementação pode ser efetuada utilizando-se um meio de armazenamento digital, por exemplo, um disco flexível, um DVD, CD, CD-ROM, PROM, EPROM, EEPROM ou um cartão de memória, que contem com sinais de controle que sejam eletronicamente passíveis de leitura do conteúdo armazenado, que sejam compatíveis (ou sejam capazes de compatibilidade) com um sistema programável de computador, para que assim o respectivo método seja realizado.

Algumas configurações, de acordo com a invenção, compreendem um dispositivo para o transporte de dados que conte com sinais de controle que sejam eletronicamente passíveis de leitura, os quais sejam compatíveis com um sistema programável de computador, para que assim um dos métodos ora descritos seja realizado. De modo geral, as configurações da presente invenção podem ser implementadas como um produto de programa de computador com um código de programa, o código de programa sendo operacional para efetuar um dos métodos, quando o pródubÕ do programa de computador seja executado em um computador. O código de programa pode, por exemplo, ser armazenado em um dispositivo de transporte passível de leitura em uma máquina. Outras configurações compreendem o programa de computador para a realização de um dos métodos ora descritos, armazenados em um dispositivo de transporte passível de leitura em uma máquina, ou seja, uma configuração do método de invenção é, portanto, um programa de computador que tem um código de programa para efetuar um dos métodos ora descritos, quando o programa de computador é executado em um computador. Uma configuração adicional dos métodos de invenção é, portanto, um dispositivo de transporte de dados (ou um meio de armazenamento digital, ou um meio de leitura em computador) que compreende, o conteúdo gravado em si, o programa de computador para efetuar um jp *' Μ ί^Λ <48 dos métodos ora descritos. Uma configuração adicional do método de invenção é, portanto, um fluxo de dados ou uma seqüência de sinais que representam o programa de computador para efetuar um dos métodos ora descritos. O fluxo de dados ou a seqüência de sinais 5 pode, por exemplo, ser configurada para ser transferida via conexão de comunicação de dados, por exemplo, via Internet. Uma configuração adicional compreende um meio de processamento, por exemplo, um computador, um dispositivo lógico programável, configurado para ou adaptado para efetuar um dos métodos ora 10 descritos. Uma configuração adicional compreende um computador que tem instalado o programa de computador para efetuar um dos métodos ora descritos. Em algumas configurações, um dispositivo lógico programável (por exemplo, um circuito FPGA - Field Programmable Gate Array) pode ser utilizado para efetuar algumas ou todas as 15 funcionalidades dos métodos ora descritos. Êm algumas configurações, um circuito FPGA pode ser compatível com um microprocessador para efetuar um dos métodos ora descritos. De modo geral, os métodos são preferencialmente realizados por qualquer aparelho de hardware.

As configurações acima descritas são meramente ilustrativas para os princípios da presente invenção. É entendido que as modificações e variações dos arranjos e dos detalhes ora descritos serão óbvios para o demais especialistas na técnica. Portanto, é pretendida a limitação somente pelo escopo das 25 reivindicações de patente pendentes e não por detalhes específicos apresentado pela forma de descrição e explicação das configurações ora contidas.

Claims

R E I V I N D I C A Ç Õ E S

1. Sintetizador de sinal de áudio para gerar um sinal de síntese de áudio (145) tendo uma primeira faixa de frequência e uma segunda faixa de frequência sintetizada (202) derivada da primeira faixa de frequência (201), compreendendo:

um gerador de conexões (110) para a execução de pelo menos dois diferentes algoritmos de conexão, caracterizado por cada algoritmo de conexão gera um sinal bruto (115) tendo componentes de sinal na segunda faixa de frequências sintetizada (202) usando um sinal de áudio (105) com componentes de sinal na primeira faixa de frequência (201), e no qual o gerador de conexões (110) é adaptado para selecionar pelo menos um dos dois diferentes algoritmos de conexão em resposta a uma informação de controle (112) para uma primeira porção de tempo e outra de pelo menos dois diferentes algoritmos de conexão em resposta à informação de controle (112) para uma porção de tempo para obter o sinal bruto (115) para a primeira e a segunda porção do tempo fora de um domínio espectral;

um conversor espectral (120) para converter o sinal bruto (115) em uma representação espectral do sinal bruto (125);

um processador de sinal bruto (130) para o processamento da representação espectral do sinal bruto (125) em resposta aos parâmetros de replicação da faixa espectral do domínio espectral (132) para obter uma representação espectral do sinal bruto ajustado (135), e um combinador (140) para combinar o sinal de áudio (105) que possui componentes na primeira faixa (201) ou um sinal derivado do sinal de áudio (105) com a representação ajustada do sinal espectral bruto (135) ou com um sinal adicional derivado a partir da representação espectral do

Petição 870190125295, de 29/11/2019, pág. 9/195
2/6 sinal bruto ajustado (135) para obter o sinal de áudio de síntese (145).

2. Sintetizador de sinal de áudio, de acordo com a reivindicação 1, caracterizado por pelo menos dois algoritmos de conexão são diferentes um do outro pelo fato de que um componente de sinal do sinal de áudio (105) em uma frequência na primeira faixa de frequências (201) está conectada a uma frequência alvo na segunda faixa de frequências (202), e a frequência alvo é diferente para ambos os algoritmos de conexão.
3. Sintetizador de sinal de áudio, de acordo com a reivindicação 1, em que o gerador de conexão (110) é adaptado para operar no domínio do tempo para ambos os algoritmos de conexão ou em que o gerador de conexão consiste em um conversor para converter um sinal de domínio de tempo em uma representação espectral, um conversor para converter um sinal na representação espectral no domínio do tempo e uma interface de saída no domínio do tempo, caracterizado por o gerador de conexão (110) é adaptado para operar no domínio espectral, para pelo menos um algoritmo de conexão.
4. Sintetizador de sinal de áudio, de acordo com a reivindicação 1, em que o gerador de conexão (110) é adaptado para gerar o sinal bruto (115) de tal forma que o sinal bruto (115) compreende componentes adicionais de sinal na primeira faixa de frequência (201) tendo uma taxa de amostragem, que é maior que uma taxa de amostragem do sinal de áudio (105) de entrada para o gerador de conexão (110), caracterizado por o conversor espectral é adaptado para converter os componentes do sinal na segunda faixa de frequências (202) e componentes adicionais de sinal da primeira faixa de frequência (201) na representação espectral do sinal bruto (125).

Petição 870190125295, de 29/11/2019, pág. 10/195

3/6
5. Sintetizador de sinal de áudio, de acordo com a reivindicação 4, caracterizado por compreender um conversor espectral adicional (370) e um combinador adicional (124), o conversor espectral adicional (370) é adaptado para converter o sinal de áudio (105) tendo componentes de sinal na primeira faixa de frequências ( 201) em uma representação espectral de outro sinal bruto (123), e o combinador adicional (124) é adaptado para combinar a representação espectral do sinal bruto (125) e a representação espectral adicional do sinal bruto (123) para obter uma representação espectral combinada do sinal bruto (126) e em que o processador de sinal bruto (130) é adaptado para processar a representação espectral combinada do sinal bruto(126).
6. Sintetizador de sinal de áudio, de acordo com a reivindicação 1, caracterizado por o combinador (140) é adaptado para uso como sinal derivado do sinal de áudio (105) a representação espectral adicional do sinal bruto (123) .
7. Sintetizador de sinal de áudio, de acordo com a reivindicação 1, caracterizado por o sinal de áudio (105) e as informações de controle (112) são codificados em um fluxo de dados, que compreende ainda um desformatador, o desformatador configurado para obter as informações de controle (112) a partir do fluxo de dados.
8. Sintetizador de sinal de áudio, de acordo com a reivindicação 1, caracterizado por o sinal de áudio e o parâmetro de replicação de faixa espectral (132) são codificados em um fluxo de dados, e em que o processador de sinal bruto (130) é adaptado para obter o parâmetro de replicação de faixa espectral (132 ) do fluxo de dados.
9. Codificador de sinal de áudio para a geração de um sinal de áudio (305) um fluxo de dados (345) compreendendo componentes do sinal de áudio (305) em uma

Petição 870190125295, de 29/11/2019, pág. 11/195

4/6 primeira faixa de frequências (201), informações de controle (112) e os parâmetros de replicação de faixa espectral (132), caracterizado por compreender:

um filtro seletivo de frequências (310) para gerar os componentes do sinal de áudio (305) na primeira faixa de frequência (201);

um gerador para gerar o parâmetro de replicação de faixa espectral (132) dos componentes do sinal de áudio (305) em uma segunda faixa de freqüências (202);

um gerador de informações de controle (340) para gerar a informação de controle (112), a informação de controle (112) identifica um algoritmo preferido de conexão de um primeiro ou um segundo algoritmo de conexão diferente, em que cada algoritmo de conexão gera um sinal bruto (115) que possui componentes de sinal na segunda faixa de frequências replicada (202) utilizando os componentes do sinal de áudio (305) da primeira faixa de freqüência (201),
10. Codificador de sinal de áudio, de acordo com a reivindicação 9, caracterizado por compreender adicionalmente um meio para análise (307) do sinal de áudio (305) para fornecer a característica do sinal de áudio, o meio de análise (307) é adaptado para identificar componentes não harmônicos de sinal para uma porção de tempo com um grau de voz ou componente de sinal harmônico para uma porção de tempo distinta.
11. Codificador de sinal de áudio de acordo com a reivindicação 9, caracterizado por o gerador de informação de controle (340) é adaptado para identificar o algoritmo de conexão preferido, comparando o sinal de áudio (305) com os sinais de áudio da conexão (347) para o primeiro e segundo algoritmos de conexão, onde sinais de áudio

Petição 870190125295, de 29/11/2019, pág. 12/195

5/6 conectados diferentemente (347) são derivados de diferentes sinais brutos (344) relacionados ao primeiro e segundo algoritmos de conexão aplicando o ajuste do sinal bruto em resposta a parâmetros de replicação de faixa espectral (132) com uma ferramenta de replicação de faixa espectral (346).
12. Método para gerar uma síntese de sinal de áudio (145) tendo uma primeira e faixa de frequência e uma segunda faixa de frequência duplicada (202) derivada da primeira faixa de frequência (201), compreendendo:

executando pelo menos dois diferentes algoritmos de conexão, caracterizado por cada algoritmo de conexão gera um sinal bruto (115) tendo componentes de sinal na segunda faixa de frequências replicada (202) usando um sinal de áudio (105) que tem componentes de sinal na primeira faixa de frequências (201), e em que a conexão é feita de tal forma que um de pelo menos dois diferentes algoritmos de conexão é selecionado em resposta a uma informação de controle (112) para uma primeira porção de tempo e o outro de pelo menos dois diferentes algoritmos de conexão é selecionado em resposta às informações de controle (112) para uma segunda porção diferente de tempo que a primeira porção de tempo para obter o sinal bruto (115) para a primeira e a segunda porção de tempo;

convertendo o sinal bruto (115) em uma representação espectral do sinal bruto (125);

processando a representação espectral do sinal bruto (125) em resposta ao domínio espectral parâmetros de replicação de faixa espectral (132) para obter uma representação espectral do sinal bruto ajustado (135), e combinando o sinal de áudio (105) que possui componentes na primeira faixa (201) ou um sinal derivado do

Petição 870190125295, de 29/11/2019, pág. 13/195

6/6 sinal de áudio (105) com a representação ajustada do sinal espectral bruto (135) ou com um sinal adicional derivado a partir da representação espectral do sinal bruto ajustado (135) para obter o sinal de áudio de síntese (145).
13. Um método para a geração de um fluxo de dados (345) compreendendo componentes do sinal de áudio (305) em uma primeira faixa de freqüências (201), informação de controle (112) e os parâmetros de replicação de faixa espectral (132), caracterizado por compreender:

filtragem seletiva de frequências de sinal de áudio (305) para gerar os componentes do sinal de áudio (305) na primeira faixa de frequência (201);

gerando o parâmetro de replicação de faixa espectral (132) dos componentes do sinal de áudio (305) em uma segunda faixa de frequências (202);

gerando a informação de controle (112) que identifica um algoritmo preferido de conexão de um primeiro ou um segundo algoritmo de conexão diferente, em que cada algoritmo de conexão gera um sinal bruto (115) que possui componentes de sinal na segunda faixa de frequências replicada (202) utilizando os componentes do sinal de áudio (305) da primeira faixa de frequência (201).