BR122021012290B1 - Equipamento, mídia não transitória e método para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada usando uma combinação de uma extensão de largura de banda harmônica e uma extensão de largura de banda não harmônica - Google Patents

Equipamento, mídia não transitória e método para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada usando uma combinação de uma extensão de largura de banda harmônica e uma extensão de largura de banda não harmônica Download PDF

Info

Publication number
BR122021012290B1
BR122021012290B1 BR122021012290-3A BR122021012290A BR122021012290B1 BR 122021012290 B1 BR122021012290 B1 BR 122021012290B1 BR 122021012290 A BR122021012290 A BR 122021012290A BR 122021012290 B1 BR122021012290 B1 BR 122021012290B1
Authority
BR
Brazil
Prior art keywords
representation
patch
values
equipment
input signal
Prior art date
Application number
BR122021012290-3A
Other languages
English (en)
Other versions
BR122021012290A2 (pt
Inventor
Frederik Nagel
Max Neuendorf
Nikolaus Rettelbach
Jérémie Lecomte
Markus Multrus
Bernhard Grill
Sascha Disch
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP09181008A external-priority patent/EP2239732A1/en
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V
Publication of BR122021012290A2 publication Critical patent/BR122021012290A2/pt
Publication of BR122021012290B1 publication Critical patent/BR122021012290B1/pt

Links

Abstract

EQUIPAMENTO, MÉTODO E PROGRAMA DE COMPUTADOR PARA A GERAÇÃO DE UMA REPRESENTAÇÃO DE UM SINAL DE BANDA LARGA ESTENDIDA COM BASE EM UMA REPRESENTAÇÃO DO SINAL DE ENTRADA USANDO UMA COMBINAÇÃO DE UMA EXTENSÃO DE LARGURA DE BANDA HARMÔNICA E UMA EXTENSÃO DE LARGURA DE BANDA NÃO HARMÔNICA. Equipamento para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada compreende um vocoder de fase configurado para obter valores de uma representação no domínio espectral de um primeiro patch do sinal de banda larga estendida com base na representação do sinal de entrada. O equipamento também compreende um copiador de valores configurado para copiar um conjunto de valores da representação no domínio espectral do primeiro patch, valores que são fornecidos pelo vocoder de fase, para obter um conjunto de valores de uma representação no domínio espectral de um segundo patch, onde o segundo patch está associado a maiores frequências que o primeiro patch. O equipamento está configurado para obter a representação do sinal de banda larga estendida usando os valores da representação no domínio espectral do primeiro patch e os valores da representação no domínio espectral do segundo patch.(...).

Description

DESCRIÇÃO CAMPO TÉCNICO
[0001] As configurações de acordo com a invenção se referem a um equipamento para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada. Outras configurações de acordo com a invenção se relacionam a um método para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada. Outras configurações de acordo com a invenção se relacionam a um programa de computador para a realização deste método.
[0002] Algumas configurações de acordo com a invenção se relacionam a novos métodos de patching dentro da replicação de banda espectral.
HISTÓRICO DA INVENÇÃO
[0003] A armazenagem ou a transmissão de sinais de áudio está geralmente submetida a estritas restrições de taxas de bits. Essas restrições são geralmente superadas pela codificação do sinal. No passado, os codificadores eram forçados a reduzir drasticamente a largura de banda de áudio transmitido quando houvesse disponível somente uma taxa de bits muito pequena. Os modernos codecs de áudio podem hoje preservar a largura de banda audível usando métodos de extensão de largura de banda (BWE). Esses métodos são descritos, por exemplo, nas referências [1] a [12]. Esses algoritmos dependem de uma representação paramétrica do conteúdo de alta frequência (HF), que é gerado pela parte com forma de onda codificada de baixa frequência (LF) do sinal decodificado por meio da transposição na região espectral HF (“patching”) e a aplicação de um pós-processamento parametrizado.
[0004] Na técnica, os métodos de extensão de largura de banda, como a replicação de banda espectral (SBR) são usados como um método eficiente para gerar sinais de alta frequência nos codecs baseados em HFR (reconstrução de alta frequência).
[0005] A replicação de banda espectral descrita na referência [1], que também é indicada abreviadamente por “SBR”, usa um banco de filtro em espelho de quadratura (QMF) para a geração das informações HF. Com a ajuda do denominado processo de “patching”, são copiadas as menores bandas QMF para uma posição superior (frequência) produzindo em uma replicação das informações da parte LF na parte HF. A HF gerada é depois adaptada à parte HF original com a ajuda de parâmetros que adotam (ou ajustam) o envelope espectral e a tonalidade (por exemplo, usando uma formatação de envelope).
[0006] Em SBR padrão, o patching é sempre feito por uma operação de cópia no domínio QMF. Foi descoberto que isto algumas vezes pode levar a problemas de audição, particularmente se sinusóides forem copiados em suas vizinhanças no limite do LF e da parte gerada HF. Assim, pode-se dizer que o SBR padrão tem o problema de defeitos auditivos. Também, algumas implementações convencionais de conceito de extensão de largura de banda trazem complexidade comparativamente alta. Além disso, em algumas implementações da invenção de conceitos de extensão de largura de banda, o espectro fica muito esparso em altos patches (grandes fatores de estiramento), que podem causar indesejáveis problemas de áudio (audíveis).
[0007] Em vista da discussão acima, trata-se de um objetivo da presente invenção criar um conceito para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada, que traga junto uma melhor escolha conflitante entre a complexidade e a qualidade de áudio.
SUMÁRIO DA INVENÇÃO
[0008] As configurações de acordo com a invenção criam um equipamento para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada. O equipamento compreende um vocoder de fase configurado para obter valores de uma representação no domínio espectral de um primeiro patch do sinal de banda larga estendida com base na representação do sinal de entrada. O equipamento também compreende um copiador de valores configurado para copiar um conjunto de valores da representação no domínio espectral do primeiro patch, valores que são fornecidos pelo vocoder de fase, para obter um conjunto de valores de uma representação no domínio espectral de um segundo patch. O segundo patch está associado a maiores frequências que o primeiro patch. O equipamento está configurado para obter a representação do sinal de banda larga estendida usando os valores da representação no domínio espectral do primeiro patch e os valores da representação no domínio espectral do segundo patch.
[0009] Trata-se da idéia principal da presente invenção que uma determinada boa escolha entre a complexidade computacional e a qualidade de áudio de um sinal de banda larga estendida é obtida combinando um vocoder de fase com um copiador de valores, de maneira que o primeiro patch do sinal de banda larga estendida seja obtido pelo vocoder de fase, e de maneira que o segundo patch do sinal de banda larga estendida seja obtido com base no primeiro patch usando o copiador de valores. Assim, o conteúdo do primeiro patch é uma versão harmonicamente transposta do conteúdo da parte de baixa frequência (LF) do sinal de entrada (representado pela representação do sinal de entrada), e o segundo patch seja (ou represente) uma versão com frequência (não harmonicamente) deslocada do conteúdo de sinal do primeiro patch. Assim, o segundo patch pode ser obtido com complexidade computacional relativamente baixa, porque a cópia dos valores é computacionalmente mais simples que uma operação de vocodificação da fase. Também, é evitado que existam grandes furos espectrais no segundo patch, porque os valores espectrais do primeiro patch são tipicamente populados (isto é, compreendem valores não zero) de maneira suficiente, para que os problemas de audição que fossem causados, em alguns casos, se o segundo patch fosse populado somente de forma esparsa, fossem reduzidos ou evitados.
[0010] Para resumir, o conceito da invenção traz consigo vantagens significativas com relação aos métodos de patching convencionais, devido à extensão de largura de banda harmônica, usando o vocoder de fase, ser somente aplicada para a obtenção de valores da representação no domínio espectral do primeiro patch, isto é, para a parte inferior do espectro, enquanto uma extensão de largura de banda não harmônica, que depende da cópia dos valores da representação no domínio espectral do primeiro patch para a obtenção dos valores da representação no domínio espectral do primeiro patch, é usada em maiores frequências. Assim, a menor faixa (que também é denominada de “primeiro patch”) da porção de frequência de extensão (que é uma porção da frequência acima da frequência de cruzamento) é provida como uma extensão harmônica da faixa fundamental da frequência (isto é, na faixa de frequência do sinal de entrada, que cobre frequências inferiores às frequências da porção da frequência de extensão, por exemplo, frequências abaixo da frequência de cruzamento), que traz uma boa impressão de audição do sinal de banda larga estendida. Também, foi determinado que a simples geração dos valores da representação no domínio espectral da faixa superior da porção de frequência de extensão (que também é denominada de "segundo patch"), que é feito usando o copiador, não traz significativos problemas de audição porque a audição humana não é particularmente sensível aos detalhes espectrais da faixa superior da porção de frequência de extensão (segundo patch).
[0011] Para resumir, o conceito da invenção traz uma boa impressão auditiva com uma complexidade computacional comparativamente menor.
[0012] Em uma configuração preferida, o vocoder de fase está configurado para copiar um conjunto de valores de magnitude associados a uma pluralidade de dadas subfaixas de frequência da representação espectral de entrada, para obter um conjunto de valores de magnitude associados às subfaixas de frequência correspondentes do primeiro patch, onde um par de uma determinada subfaixa de frequência da representação espectral de entrada e uma subfaixa de frequência correspondente do primeiro patch cobrem (ou compreendem) um par de frequências fundamentais e um harmônico da frequência fundamental (por exemplo, um primeiro harmônico da frequência fundamental). O vocoder de fase também é preferivelmente configurado para multiplicar valores de fase associados à pluralidade das dadas subfaixas de frequência da representação espectral de entrada por um fator predeterminado (por exemplo, 2), para obter valores de fase associados às subfaixas de frequência correspondentes do primeiro patch. De preferência, o copiador de valores está configurado para copiar um conjunto de valores associado a uma pluralidade de dadas subfaixas de frequência do primeiro patch, para obter um conjunto de valores associados às subfaixas de frequência correspondentes do segundo patch. O copiador de valores está, de preferência, configurado para manter os valores de fase inalterados na cópia. Assim, o vocoder de fase faz, pelo menos aproximadamente, uma transposição harmônica, enquanto o copiador de valores faz um deslocamento de frequência não harmônica. As subfaixas de frequência podem, por exemplo, ser as faixas de frequência associadas aos coeficientes de uma Transformada Rápida de Fourier (ou qualquer transformada comparável). De forma alternativa, as subfaixas de frequência podem estar na faixa de frequências associadas aos sinais individuais de um banco de filtros QMF. Tipicamente, a largura das subfaixas de frequência é comparativamente pequena com relação à frequência central, de maneira que as subfaixas de frequência cobrem um vão de frequências com taxa de frequências entre uma frequência de extremidade e uma frequência de partida, que é significativamente menor que 2:1. Em outras palavras, mesmo que as subfaixas de frequência da representação espectral de entrada (que podem, por exemplo, ter a forma de coeficientes FFT, ou a forma de sinais de banco de filtros QMF) e as subfaixas de frequência do primeiro patch não precisem ser exatamente harmônicas entre si, é tipicamente possível identificar uma associação entre a subfaixa de frequência (por exemplo, tendo um índice de frequência k) da representação espectral de entrada e uma subfaixa de frequência correspondente (por exemplo, tendo um índice de frequência 2k) do primeiro patch, de maneira que a subfaixa de frequência (2k) do primeiro patch represente, pelo menos aproximadamente, uma frequência harmônica da subfaixa de frequência correspondente (k) da representação espectral de entrada.
[0013] Assim, a transposição harmônica é feita pelo vocoder de fase, levando em conta os valores de fase, que são processados usando uma ponderação de fase. Em contraste, o copiador de valores somente faz (pelo menos aproximadamente), a operação não harmônica de deslocamento de frequência.
[0014] Em uma configuração preferida, o copiador de valores está configurado para copiar os valores de maneira que seja obtido um deslocamento espectral comum (ou deslocamento de frequência) dos valores do primeiro patch para os valores do segundo patch.
[0015] Em uma configuração preferida, o vocoder de fase está configurado para obter os valores da representação no domínio espectral do primeiro patch de maneira que os valores da representação no domínio espectral do primeiro patch representem uma versão harmonicamente convertida para cima de uma faixa fundamental de frequência da representação do sinal de entrada (por exemplo, a faixa fundamental da frequência abaixo da denominada frequência de cruzamento). O copiador de valores está, de preferência, configurado para obter os valores da representação no domínio espectral do segundo patch de maneira que os valores da representação no domínio espectral do segundo patch representem a versão com frequência deslocada do primeiro patch. Assim, são obtidas as vantagens supramencionadas. Em particular, a implementação é simples, obtendo-se uma boa impressão auditiva.
[0016] Em uma configuração preferida, o equipamento está configurado para receber dados de áudio de entrada pulso-código- modulados (PCM), sub-amostrar os dados de áudio de entrada pulso- código-modulados para obter dados de áudio pulso-código-modulados sub-amostrados. Também, o equipamento está configurado para janelar os dados de áudio pulso-código-modulados sub-amostrados, para obter dados janelados de entrada, e para converter ou transformar os dados de entrada janelados em um domínio da frequência, para obter a representação do sinal de entrada. O equipamento também é preferivelmente configurado para computar valores de magnitude ak (também indicados por αk) e valores de fase Φk, representando um coletor de frequências k (onde k é um índice do coletor de frequências) da representação do sinal de entrada, e para copiar os valores de magnitude ak, para obter valores de magnitude copiados ask (também indicados por αsk) representando um coletor de frequências com um índice de coletor de frequências sk do primeiro patch, onde s é um fator de estiramento com s=2. Também, o equipamento está, de preferência, configurado para copiar e ponderar os valores de fase Φk associados a um coletor de frequências tendo índice de coletor de frequências k da representação do sinal de entrada, para obter valores de fase copiados e ponderados Φsk associados a um coletor de frequências com o índice de frequência sk do primeiro patch. Também, o equipamento está, de preferência, configurado para copiar valores βk-iz associados a um coletor de frequências k- iZ da representação no domínio espectral do primeiro patch, para obter valores βk da representação no domínio espectral do segundo patch. Também, o equipamento está, de preferência, configurado para converter a representação do sinal de banda larga estendida (que compreende a representação no domínio espectral do primeiro patch e a representação no domínio espectral do segundo patch) no domínio do tempo, para obter a representação no domínio do tempo, e aplicar uma janela de síntese à representação no domínio do tempo. Usando o conceito supramencionado, é possível obter um sinal de banda larga estendida com moderada complexidade computacional. A extensão da largura de banda é feita no domínio da frequência, onde pode ser feita uma transformação para o domínio espectral, por exemplo, em um domínio FFT ou um domínio QMF.
[0017] Em uma configuração preferida, o equipamento compreende um conversor do domínio de tempo para o domínio espectral (por exemplo, um meio de Transformada Rápida de Fourier ou um banco de filtros QMF) configurado para prover, como representação do sinal de entrada, valores de uma representação no domínio espectral (por exemplo, coeficientes da Transformada Rápida de Fourier ou sinais de sub-banda QMF) de um sinal de entrada de áudio, ou de uma versão pré-processada (por exemplo sub-amostrada e/ou janelada) do sinal de entrada de áudio (por exemplo um sinal pulso-código-modulado provido por um núcleo de decodificador de áudio). O equipamento, de preferência, compreende um conversor do domínio espectral para o domínio do tempo (por exemplo, um meio de Transformada Rápida de Fourier inversa ou um meio de síntese QMF) configurado para prover uma representação no domínio do tempo do sinal de banda larga estendida usando valores da representação no domínio espectral (por exemplo, coeficientes FFT ou sinais de sub-banda QMF) do primeiro patch e valores da representação no domínio espectral (por exemplo, coeficientes FFT ou sinais de sub-banda QMF) do segundo patch. O conversor do domínio espectral para o domínio do tempo está, de preferência, configurado de maneira que um número de diferentes valores espectrais (por exemplo, coletores FFT ou bandas QMF) recebido pelo conversor do domínio espectral para o domínio do tempo seja maior que o número de diferentes valores espectrais (por exemplo, um número de coletores de frequências FFT, ou um número de bandas QMF) fornecido pelo conversor do domínio do tempo para o domínio espectral (por exemplo meios de Transformada Rápida de Fourier ou bancos de filtros QMF), de maneira que o conversor do domínio espectral para o domínio do tempo esteja configurado para processar um maior número de coletores de frequências (por exemplo, coletores de frequências da Transformada Rápida de Fourier ou bandas de frequências QMF) que o conversor do domínio de tempo para o domínio da frequência. Assim, uma extensão de largura de banda é obtida pelo fato que o conversor do domínio espectral para o domínio do tempo compreende um maior número de coletores de frequências que o conversor do domínio de tempo para o domínio da frequência.
[0018] Em uma configuração preferida, o equipamento compreende um janelador de análise configurado para janelar um sinal de entrada de áudio no domínio do tempo, para obter uma versão janelada do sinal de entrada de áudio no domínio do tempo, que forma a base para a obtenção da representação do sinal de entrada. Também, o equipamento compreende um janelador de síntese configurado para janelar uma parte de uma representação no domínio do tempo do sinal de banda larga estendida, para obter a porção janelada da representação no domínio do tempo do sinal de banda larga estendida. Assim, os problemas no sinal de banda larga estendida são reduzidos ou mesmo evitados.
[0019] Em uma configuração preferida, o equipamento está configurado para processar uma pluralidade de porções deslocadas no tempo temporalmente sobrepostas do sinal de entrada de áudio no domínio do tempo, para obter uma pluralidade de porções janeladas deslocadas no tempo temporalmente sobrepostas da representação no domínio do tempo do sinal de banda larga estendida. Um deslocamento de tempo entre porções deslocadas no tempo temporalmente adjacentes do sinal de entrada de áudio no domínio do tempo é menor ou igual a um quarto de um comprimento de janela da janela de análise. Foi descoberto que uma sobreposição temporal comparativamente grande entre partes adjacentes deslocadas no tempo do sinal de entrada de áudio no domínio do tempo (e/ou uma sobreposição temporal comparativamente grande entre porções deslocadas no tempo temporalmente adjacentes da representação no domínio do tempo do sinal de banda larga estendida) resulta em uma extensão de largura de banda que traz uma boa impressão auditiva, porque as não estacionaridades do sinal são levadas em conta devido à sobreposição temporal comparativamente grande.
[0020] Em uma configuração preferida, o equipamento compreende um provedor de informações transientes configurado para prover informações indicando a presença de um transiente no sinal de entrada (representado pela representação do sinal de entrada). O equipamento também compreende um primeiro ramal de processamento para prover uma representação de uma porção do sinal de banda larga estendida com base na porção não transiente da representação do sinal de entrada e um segundo ramal de processamento para prover uma representação de uma porção do sinal de banda larga estendida com base na porção transiente da representação do sinal de entrada. O segundo ramal de processamento está configurado para processar a representação no domínio espectral do sinal de entrada tendo uma maior resolução espectral que a representação no domínio espectral do sinal de entrada processada pelo primeiro ramal de processamento. Assim, partes do sinal que compreendem um transiente podem ser tratadas com maior resolução espectral, que evita problemas de audição na presença de transientes. Por outro lado, pode ser usada uma resolução espectral reduzida para porções não transientes do sinal (isto é, para porções do sinal em que o provedor de informações transientes não identifica um transiente). Assim, a eficiência computacional é mantida alta, e sendo usada a crescente resolução espectral somente quando trouxer vantagens (por exemplo, quando resultar em uma melhor impressão auditiva na proximidade de transientes).
[0021] Em uma configuração preferida, o equipamento compreende um zero-padder no domínio do tempo configurado para completar com zeros (zero-pad) uma porção transiente do sinal de entrada, para obter a porção temporalmente estendida transiente do sinal de entrada. Nesse caso, o primeiro ramal de processamento compreende um (primeiro) conversor do domínio de tempo para o domínio da frequência configurado para prover um primeiro número de valores no domínio espectral associado a uma porção não transiente do sinal de entrada, e o segundo ramal de processamento compreende um (segundo) conversor do domínio de tempo para o domínio da frequência configurado para prover um segundo número de valores no domínio espectral associado à porção temporalmente estendida transiente do sinal de entrada. O segundo número de valores no domínio espectral é maior, pelo menos por um fator de 1,5, que o primeiro número de valores no domínio espectral. Assim, é obtida uma boa administração de transientes.
[0022] Em uma configuração preferida, o segundo ramal de processamento compreende um zero-stripper configurado para remover uma pluralidade de valores zero de uma porção de sinal de banda larga estendida obtida com base na porção temporalmente estendida transiente do sinal de entrada. Assim, a extensão temporal do sinal de entrada, que é obtida pelo zero-padding, é revertida.
[0023] Em uma configuração preferida, o equipamento compreende um sub-amostrador configurado para sub-amostrar a representação no domínio do tempo do sinal de entrada. Fazendo a sub- amostragem do sinal de entrada, a eficiência computacional pode ser aperfeiçoada caso o sinal de entrada não cubra toda a largura de banda Nyquist de um fluxo de entrada de amostra pulso-código-modulada.
[0024] Outra configuração de acordo com a invenção cria um equipamento, em que a ordem de processamento do processamento pelo copiador de valores e do vocoder de fase é invertida 15. Este equipamento para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada (110; 383) compreende um copiador de valores configurado para copiar um conjunto de valores da representação do sinal de entrada, para obter um conjunto de valores de uma representação no domínio espectral de um primeiro patch, onde o primeiro patch está associado a maiores frequências que a representação do sinal de entrada. O equipamento também compreende um vocoder de fase (130; 406) configurado para obter valores (β2z - β3z) de uma representação no domínio espectral de um segundo patch do sinal de banda larga estendida com base nos valores (β4/3z - β2z) da representação no domínio espectral do primeiro patch, onde o segundo patch está associado a maiores frequências que o primeiro patch. O equipamento está configurado para obter uma representação (120;426) do sinal de banda larga estendida usando os valores da representação no domínio espectral do primeiro patch e os valores da representação no domínio espectral do segundo patch.
[0025] Este equipamento pode obter um sinal de banda larga estendida com complexidade computacional comparativamente menor, enquanto ainda obtém uma boa impressão auditiva do sinal de banda larga estendida. Fazendo a vocodificação de fase após a operação de cópia, o vocoder de fase pode ser operado com uma taxa de frequências comparativamente menor (razão entre a frequência de saída do vocoder e a frequência de entrada do vocoder), que resulta em um bom preenchimento espectral e evita a presença de grandes furos espectrais. Também, foi descoberto que a impressão auditiva usando este conceito é ainda melhor que para um conceito que somente dependa de operações de cópia, sem a ação do vocoder de fase, mesmo que o primeiro patch (patch de menor frequência) seja obtido usando a operação de cópia, e somente o segundo patch (patch de maior frequência) seja obtido usando a operação de vocodificação da fase. Também, a complexidade computacional é menor que nos sistemas em que todos os patches sejam gerados usando vocoders das fases, sendo os furos espectrais reduzidos quando comparados com esses conceitos.
[0026] Naturalmente, esta configuração pode ser suplementada por qualquer das funcionalidades supramencionadas.
[0027] Outras configurações de acordo com a invenção criam métodos para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada. O referido método se baseia nas mesmas idéias do equipamento supramencionado.
[0028] Outra configuração de acordo com a invenção cria um programa de computador para a implementação do método.
BREVE DESCRIÇÃO DAS FIGURAS
[0029] A Fig. 1 mostra um diagrama esquemático de bloco de um equipamento para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada, de acordo com uma configuração da invenção;
[0030] A Fig. 2 mostra uma representação esquemática do conceito de extensão de largura de banda, de acordo com a presente invenção;
[0031] A Fig. 3 mostra um diagrama de bloco esquemático detalhado de um decodificador de áudio compreendendo um equipamento para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada, de acordo com uma configuração da invenção;
[0032] A Fig. 4 mostra um fluxograma de um método para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada, de acordo com uma configuração da invenção;
[0033] A Fig. 5 mostra um diagrama de bloco esquemático de um decodificador de áudio, de acordo com um primeiro exemplo de comparação; e
[0034] A Fig. 6 mostra um diagrama de bloco esquemático de um decodificador de áudio, de acordo com um segundo exemplo de comparação.
DESCRIÇÃO DETALHADA DAS CONFIGURAÇÕES EQUIPAMENTO DE ACORDO COM A FIG. 1
[0035] A Fig. 1 mostra um bloco esquemático de um equipamento 100 para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada. O equipamento 100 é configurado para receber uma representação do sinal de entrada 110 e prover, nessa base, um sinal de banda larga estendida 120. O equipamento 100 compreende um vocoder de fase configurado para obter valores de uma representação no domínio espectral 130 de um primeiro patch do sinal de banda larga estendida 120 com base na representação do sinal de entrada 110. Os valores da representação no domínio espectral do primeiro patch são indicados, por exemplo, por βζ a β2ζ- O equipamento 100 também compreende um copiador de valores 140 configurado para copiar um conjunto de valores da representação no domínio espectral 132 do primeiro patch, que são providos pelo vocoder de fase 130, para obter um conjunto de valores da representação no domínio espectral 142 de um segundo patch, onde o segundo patch está associado a maiores frequências que o primeiro patch. Os valores da representação no domínio espectral 142 do segundo patch são indicados, por exemplo, por β2ζ a β3ζ- O equipamento 100 é configurado para obter uma representação 120 do sinal de banda larga estendida usando os valores βζ a β2ζ da representação no domínio espectral 132 do primeiro patch e os valores β2ζ a β3ζ da representação no domínio espectral 142 do segundo patch. Por exemplo, a representação 120 do sinal de banda larga estendida pode compreender ambos os valores da representação no domínio espectral 132 do primeiro patch e da representação no domínio espectral 142 do segundo patch. Além disso, a representação 120 do sinal de banda larga estendida pode, por exemplo, compreender valores de uma representação no domínio espectral do sinal de entrada (representada, por exemplo, pela representação do sinal de entrada 110). Entretanto, a representação 120 do sinal de banda larga estendida pode também ser uma representação no domínio do tempo, que pode se basear nos valores da representação no domínio espectral 132 do primeiro patch e nos valores da representação no domínio espectral 142 do segundo patch (e, opcionalmente, em outros valores, por exemplo, valores da representação no domínio espectral 116 do sinal de entrada, e/ou valores de uma representação no domínio espectral de outros patches).
[0036] A seguir, a funcionalidade e operação do equipamento 100 serão descritas em detalhes com referência à Fig. 2, que mostra a representação esquemática do conceito da invenção para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada.
[0037] Uma primeira representação gráfica 200 mostra a transposição harmônica do sinal de entrada (representada pela representação do sinal de entrada 110), que é feita pelo vocoder de fase 130. Como pode ser visto, o sinal de entrada é representado, por exemplo, por um conjunto de valores de magnitude αk. O índice k designa um coletor espectral (por exemplo um coletor com índice k de uma Transformada Rápida de Fourier, ou uma banda de frequência tendo índice k de uma conversão QMF). A representação do sinal de entrada 110 pode, por exemplo, compreender valores de magnitude αk para k = 1 a k = ζ, onde ζ pode indicar um denominado coletor de frequências cruzadas e descreve uma partida de frequência da extensão de largura de banda. A faixa fundamental da frequência é ainda descrita, por exemplo, por valores de fase Φk, onde k é um índice do coletor de frequências, como acima discutido.
[0038] De forma similar, o primeiro patch é descrito por um conjunto de valores de uma representação no domínio espectral, por exemplo, valores βk com k entre ζ e 2ζ. De forma alternativa, o primeiro patch pode ser representado por valores de magnitude αk e valores de fase Φk, com o índice de coletor de frequências k entre ζ e 2ζ.
[0039] Como mencionado, o vocoder de fase 130 é configurado para realizar uma transposição harmônica com base na representação do sinal de entrada 110 para obter valores da representação no domínio espectral 132 do primeiro patch. Para tanto, o vocoder de fase 130 pode estabelecer um valor de magnitude α2k de um coletor de frequências tendo índice (coletor de frequências) 2k sendo igual ao valor da magnitude αk de um coletor de frequências com índice (coletor de frequências) k. Também, o vocoder de fase 130 pode ser configurado para estabelecer o valor de fase Φ2k de um coletor de frequências com índice 2k para um valor igual a 2 vezes o valor de fase Φk associado ao coletor de frequências com índice k. Nesse caso, o coletor de frequências com índice k pode ser um coletor de frequências da representação do sinal de entrada 110, e o coletor de frequências com índice 2k pode ser um coletor de frequências da representação no domínio espectral 132 do primeiro patch. Também, um coletor de frequências com índice 2k pode compreender uma frequência, que é de um primeiro harmônico de uma frequência incluída no coletor de frequências com índice k. Assim, podem ser obtidos valores de magnitude α2k e valores de fase Φ2k, que são valores da representação no domínio espectral 132 do primeiro patch, para 2k variando de ζ a 2ζ, de maneira que α2k= ak e Φ2k=2Φk- De forma alternativa, e de forma equivalente, valores β2k, que são valores da representação no domínio espectral 132 do primeiro patch, podem ser obtidos para 2k entre ζ e 2ζ, de maneira
[0040] Para resumir, supondo que os coletores de frequências tenham índices k (ou de forma equivalente, 2k, e assim por diante), que são, por exemplo, coletores de frequências de uma representação da Transformada Rápida de Fourier ou da banda de frequências de uma representação no domínio QMF, são espaçadas linearmente na frequência (de maneira que o índice de coletor de frequências, por exemplo, k ou 2k, seja pelo menos aproximadamente proporcional a uma frequência compreendida no respectivo coletor de frequências, por exemplo, uma frequência central de um coletor de frequências de ordem k da Transformada Rápida de Fourier ou uma frequência central de uma banda QMF de ordem k), a transposição harmônica é obtida pelo vocoder de fase 130.
[0041] Entretanto, os valores da representação no domínio espectral 142 do segundo patch são obtidos pelo copiador de valores 140, que faz uma cópia não harmônica dos valores da representação no domínio espectral 132 do primeiro patch.
[0042] Tendo agora como referência a representação gráfica 250, será brevemente discutido o processo de cópia não harmônica. Como pode ser visto, o primeiro patch é representado pelos valores βζ a β2ζ (ou, de forma equivalente, pelos valores de magnitude αζ a α2ζ e valores de fase Φζ a Φ2ζ- Assim, os valores β2ζ a β3z (ou, de forma equivalente, valores de magnitude α2z a α3z e valores de fase Φ2z a Φ3z) da representação no domínio espectral 142 do segundo patch são obtidos por uma cópia não harmônica, que é feita pelo copiador de valores 140. Por exemplo, valores espectrais de valoração complexa β2ζ a β3ζ da representação no domínio espectral 142 do segundo patch podem ser obtidos com base nos valores correspondentes βz a β2z da representação no domínio espectral 132 do primeiro patch de acordo com βk=βk—ζ para k entre 2ζ e 3 ζ. De forma equivalente, valores de magnitude α2ζa α3z da representação no domínio espectral 142 do segundo patch podem ser obtidos com base nos valores de magnitude da representação no domínio espectral 132 do primeiro patch de acordo com αk=αk—ζ para k entre 2ζ e 3ζ. Nesse caso, os valores de fase Φ2ζ a Φ3ζ da representação no domínio espectral 142 do segundo patch podem ser obtidos com base nos valores de fase Φz a Φ2ζ da representação no domínio espectral 132 do primeiro patch de acordo com Φk= Φk-ζ para k entre 2 ζ e 3 ζ.
[0043] Assim, os valores da representação no domínio espectral 142 do segundo patch representam um sinal, que não é deslocado harmonicamente (isto é linearmente) na frequência com relação a um sinal representado pelos valores da representação no domínio espectral 132 do primeiro patch.
[0044] Os valores βζ a β2ζ da representação no domínio espectral 132 do primeiro patch e os valores β2Z a β3ζ da representação no domínio espectral 142 do segundo patch podem ser usados para obter a representação 120 do sinal de banda larga estendida. Dependendo das exigências, a representação 120 do sinal de banda larga estendida pode ser uma representação no domínio espectral ou uma representação no domínio do tempo. Se for desejado obter a representação no domínio do tempo, pode ser usado um conversor do domínio da frequência para o domínio do tempo para obter a representação no domínio do tempo com base nos valores βζ a β2ζ da representação no domínio espectral 132 do primeiro patch e os valores β2ζ a β3ζ da representação no domínio espectral 142 do segundo patch. De forma alternativa, (e de forma equivalente) os valores αz a α2z, ΦZ a ΦZZ, α2z a αsz e ΦZζ a ΦSζpodem ser usados para obter a representação 120 do sinal de banda larga estendida (tanto no domínio espectral como no domínio do tempo).
[0045] Como discutido acima, o conceito descrito com relação às Figs. 1 e 2 traz uma boa impressão auditiva e de complexidade computacional comparativamente baixa. A vocodização de fase é somente necessária uma vez, mesmo que seja usada uma pluralidade de patches (por exemplo, o primeiro patch e o segundo patch). Também, é evitado que haja grandes furos espectrais no segundo patch, que ocorreria caso outro vocoder de fase fosse usado para obter o segundo patch. Assim, o conceito da invenção traz consigo uma ótima escolha entre complexidade computacional e uma possível impressão auditiva.
[0046] Além disso, deve ser notado que outros patches podem ser obtidos com base nos valores da representação no domínio espectral 132 do primeiro patch em certas configurações. Por exemplo, em uma extensão opcional do conceito da invenção, os valores de uma representação no domínio espectral de um terceiro patch podem ser obtidos com base nos valores da representação no domínio espectral 132 do primeiro patch usando outro copiador de valores, como será descrito em mais detalhes com referência à Fig. 3.
[0047] As configurações de acordo com as Figs. 1 e 2 (e também as outras configurações) podem ser modificadas nas mais variadas formas. Por exemplo, um primeiro patch pode ser obtido usando um vocoder de fase, e segundo, terceiro e quarto patches podem ser obtidos copiando a operação de valores espectrais. De forma alternativa, um primeiro e um segundo patch podem ser obtidos usando vocoders das fases, e um terceiro e quarto patches podem ser obtidos usando a cópia dos valores espectrais. Naturalmente, diferentes combinações da operação de vocodificação da fase e da cópia da operação podem se aplicar.
[0048] De forma alternativa, entretanto, um primeiro patch pode ser obtido usando uma cópia da operação (copiador de valores) de valores espectrais da representação do sinal de entrada, e um segundo patch pode ser obtido usando um vocoder de fase (com base nos valores copiados do primeiro patch, obtidos usando o copiador de valores).
CONFIGURAÇÃO DE ACORDO COM A FIG. 3
[0049] A seguir, será descrito um decodificador de áudio 300 tomando por referência a Fig. 3, onde a Fig. 3 mostra um diagrama de bloco esquemático detalhado desse decodificador de áudio 300 compreendendo um equipamento para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada.
2.1. VISÃO GERAL DO DECODIFICADOR DE ÁUDIO
[0050] O decodificador de áudio 300 é configurado para receber um fluxo de dados 310 e prover, nessa base, uma forma de onda de áudio 312. O decodificador de áudio 300 compreende um decodificador núcleo 320, que é configurado para prover, por exemplo, dados pulso-código-modulados (“dados PCM”) 322 com base no fluxo de dados 310. O decodificador núcleo 320 pode, por exemplo ser um decodificador de áudio como descrito no padrão internacional ISO/IEC 14496-3:2005(e), part 3: audio, subpart 4: general audio coding (GA)-AAC, Twin VQ, BSAC. Por exemplo, o decodificador núcleo 320 pode ser o denominado decodificador núcleo de codificação de áudio avançado (AAC), descrito no referido padrão, e que é bem conhecido pelos peritos no assunto. Assim, os dados de áudio pulso-código-modulados 322 podem ser providos pelo decodificador núcleo 220 com base no fluxo de dados 310. Por exemplo, os dados de áudio pulso-código-modulados 322 podem compreender um comprimento de quadro de 1024 amostras.
[0051] O decodificador de áudio 300 também compreende uma extensão de largura de banda (ou extensor de largura de banda) 330, que é configurado para receber os dados de áudio pulso- código-modulados 322 (por exemplo, um comprimento de quadro de 1024 amostras) e prover, nessa base, a forma de onda 312. A extensão de largura de banda (ou extensor de largura de banda) 330 também recebe alguns dados de controle 332 do fluxo de dados 310. A extensão de largura de banda 330 compreende uma provisão de dados QMF patched (ou provedor de dados QMF patched) 340, que recebe os dados de áudio pulso-código-modulados 322 e que provê, nessa base, dados QMF patched 342. A extensão de largura de banda 330 também compreende uma formatação de envelope (ou formatador de envelope) 344, que recebe os dados QMF patched 342 e os dados de controle de formatação de envelope 346 e provê, nessa base, os dados QMF com formatação de envelope e patched 348. A extensão de largura de banda 330 também compreende uma síntese QMF (ou sintetizador QMF) 350, que recebe os dados QMF com formatação de envelope e patched 348 e provê, nessa base, a forma de onda 312 fazendo uma síntese QMF.
2.2. PROVISÃO DE DADOS QMF PATCHED 340 2.2.1. PROVISÃO DE DADOS QMF PATCHED - VISÃO GERAL
[0052] A provisão de dados QMF patched 340 (que pode ser feita por um provedor de dados QMF patched 340 em uma implementação de hardware) pode ser cambiável entre dois modos, isto é, um primeiro modo, em que é feito o patching da replicação de banda espectral (SBR), e um segundo modo em que é feito o patching da extensão de largura de banda harmônica (HBE). Por exemplo, os dados de áudio pulso-código-modulados 322 podem ser retardados por um retardador 360, para obter dados de áudio pulso- código-modulados retardados 362, e os dados de áudio pulso-código- modulados retardados 362 podem ser convertidos em um domínio QMF usando um analisador QMF de 32 bandas 364. O resultado do analisador QMF de 32 bandas 364, por exemplo, uma representação do domínio QMF de 32 bandas (isto é, domínio espectral) 365 dos dados de áudio pulso-código-modulados retardados 362, pode ser provida a um patcher SBR 366 e a um patcher de extensão de largura de banda harmônica 368.
[0053] O patcher de replicação de banda espectral 366 pode, por exemplo, fazer o patching de replicação de banda espectral, que é descrito, por exemplo, na seção 4.6.18 “SBR tool” do padrão internacional ISO/IEC 14496-3:2005(e), part 3, subpart 4. Assim, pode ser provida uma representação no domínio QMF de 64 bandas 370 pelo patcher de replicação de banda espectral 366.
[0054] De forma alternativa, ou além disso, o patcher de extensão de largura de banda harmônica 368 pode prover uma representação no domínio QMF de 64 bandas 372, que é uma representação de largura de banda estendida dos dados de áudio PCM 322. Um comutador 374, que é controlado na dependência da extensão de largura de banda dados de controle 332 extraído do fluxo de dados 310, pode ser usado para decidir se o patching de replicação de banda espectral 366 ou o patching de extensão de largura de banda harmônica 368 é aplicado para obter os dados QMF patched 342 (que pode ser igual à representação no domínio QMF de 64 bandas 370 ou igual à representação no domínio QMF de 64 bandas 372, dependendo do estado do comutador 374) .
2.2.2. PROVISÃO DE DADOS QMF PATCHED - EXTENSÃO DE LARGURA DE BANDA HARMÔNICA 368
[0055] A seguir, será descrito em maiores detalhes o patching da (pelo menos parcialmente) extensão de largura de banda harmônica 368. O patching da extensão de largura de banda harmônica 368 compreende um caminho do sinal, onde os dados de áudio pulso-código-modulados 322, ou sua versão pré-processada, são convertidos em um domínio espectral (por exemplo em um domínio do coeficiente da Transformada Rápida de Fourier ou um domínio QMF), onde a extensão de largura de banda harmônica é feita no domínio espectral, e onde a representação no domínio espectral do sinal de banda larga estendida obtida, ou a representação daí derivada, é usada para o patching da extensão de largura de banda harmônica.
[0056] Na configuração da Fig. 3, os dados de áudio pulso-código-modulados 322 são sub-amostrados em um sub-amostrador 380, por exemplo, por um fator de 2, para obter dados de áudio pulso-código-modulados 381 sub-amostrados. Os dados de áudio pulso-código-modulados sub-amostrados 381 são depois janelados por um janelador 382, que pode, por exemplo, compreender um comprimento de janela de 512 amostras. Deve ser notado que a janela é, por exemplo, alterada por 64 amostras dos dados de áudio pulso-código-modulados sub-amostrados 381 nas subsequentes etapas de processamento, de maneira que seja obtida uma sobreposição comparativamente grande das porções janeladas 383 dos dados de áudio pulso-código-modulados sub-amostrados.
[0057] O decodificador de áudio 300 também compreende um detector de transientes 384, que é configurado para detectar um transiente dentro dos dados de áudio pulso-código-modulados 322. O detector de transientes 384 pode detectar a presença de um transiente, seja com base no próprio PCM audio data 322, ou com base nas informações auxiliares, que estão incluídas no fluxo de dados 310.
[0058] As porções janeladas 383 dos dados de áudio PCM sub-amostrados 381 podem ser processadas seletivamente usando um primeiro ramal de processamento 386 ou um segundo ramal de processamento 388. O primeiro ramal 386 pode ser usado para o processamento de uma porção janelada não transiente 383 dos dados de áudio PCM sub-amostrados (para os quais o detector de transientes 384 nega a presença de um transiente), e um segundo ramal 388 pode ser usado para o processamento de uma porção janelada transiente 383 dos dados de áudio PCM sub-amostrados (para os quais o detector de transientes 384 indica a presença de um transiente).
[0059] O primeiro ramal 386 recebe uma porção janelada não transiente 383 e provê, nessa base, uma representação de largura de banda estendida 387,434 da porção janelada 383. De forma similar, o segundo ramal 388 recebe uma porção janelada transiente 383 dos dados de áudio PCM sub-amostrados 381 e provê, nessa base, uma representação de largura de banda estendida 389 da porção (transiente) janelada 383. Como discutido acima, o detector de transientes 384 decide se a porção janelada corrente 383 é uma porção janelada não transiente ou uma porção janelada transiente, de maneira que o processamento da porção janelada corrente 383 é feito seja usando o primeiro ramal 386 ou o segundo ramal 388. Assim, diferentes porções janeladas 383 podem ser processadas pelos diferentes ramais 386, onde houver uma significativa sobreposição temporal entre as subsequentes representações de largura de banda estendidas 387, 389 das porções janeladas subsequentes 383 (porque há uma significativa sobreposição temporal das temporalmente subsequentes porções janeladas 383).
[0060] A extensão de largura de banda harmônica 368 ainda compreende um meio de sobreposição e adição 390, que é configurado para sobrepor e adicionar as diferentes representações de largura de bandas estendidas 387, 389 associadas às diferentes (temporalmente subsequentes) porções janeladas 383. Um incremento de sobreposição e adição pode, por exemplo, ser ajustado em 256 amostras. Assim, é obtido um sinal sobreposto e adicionado 392.
[0061] A extensão de largura de banda harmônica 368 também compreende um analisador QMF de 64 bandas 394, que é configurado para receber o sinal sobreposto e adicionado 392 e prover, nessa base, um sinal no domínio QMF de 64 bandas 396. O sinal no domínio QMF de 64 bandas 396 pode, por exemplo representar uma faixa de frequência mais ampla que o sinal no domínio QMF de 32 bandas 365 provido pelo analisador QMF de 32 bandas 364.
[0062] A extensão de largura de banda harmônica 368 também compreende um combiner 398, que é configurado para receber tanto o sinal no domínio QMF de 32 bandas provido pelo analisador QMF de 32 bandas 364 como o sinal no domínio QMF de 64 bandas 396 para a combinação desses sinais. Por exemplo, os componentes da faixa de baixa frequência (ou faixa fundamental da frequência) do sinal no domínio QMF de 64 bandas 396 podem ser substituídos ou combinados com o sinal no domínio QMF de 32 bandas 365 provido pelo analisador QMF de 32 bandas 364, de maneira que, por exemplo, os componentes da faixa inferior de frequência 32 (ou faixa fundamental da frequência) do sinal no domínio QMF de 64 bandas 372 sejam determinados pela saída do analisador QMF de 32 bandas 364, e de maneira que os 32 componentes na faixa de maior frequência do sinal no domínio QMF de 64 bandas 372 sejam determinados pelos 32 componentes na faixa de maior frequência do sinal no domínio QMF de 64 bandas 396.
[0063] Naturalmente, o número de componentes dos sinais no domínio QMF pode variar, dependendo das necessidades específicas. Naturalmente, uma posição de frequência de uma transição entre a faixa fundamental da frequência (também denominada de faixa inferior de frequência) e a faixa de frequência de largura de banda estendida (também denominada de faixa superior de frequência) pode depender da frequência de cruzamento, ou, de forma equivalente, da largura de banda do sinal de áudio representado pelos dados de áudio pulso- código-modulados 322.
[0064] A seguir, serão descritos os detalhes referentes ao primeiro ramal de processamento 386. O primeiro ramal 386 compreende um conversor do domínio de tempo para o domínio da frequência 400, que é implementado, por exemplo, sob a forma de uma Transformada Rápida de Fourier configurada para prover 512 coeficientes da Transformada Rápida de Fourier com base na porção janelada 383 de 512 amostras no domínio do tempo dos dados de áudio pulso-código-modulados sub-amostrados 381. Assim, os coletores de frequências da Transformada Rápida de Fourier são denominados por subsequentes índices de coletor de frequências inteiros k na faixa entre 1 e N=512.
[0065] O primeiro ramal 386 também compreende um provedor de valor de magnitude 402, que é configurado para prover valores de magnitude αk dos coeficientes da Transformada Rápida de Fourier. Também, o primeiro ramal 386 compreende um provedor de valores de fase 404 configurado para prover valores de fase Φk dos coeficientes da Transformada Rápida de Fourier.
[0066] O primeiro ramal 386 também compreende um vocoder de fase 406, que pode receber os valores de magnitude αk e os valores de fase Φk como uma representação do sinal de entrada, e que pode compreender a funcionalidade do vocoder de fase 130 supramencionado. Assim, o vocoder de fase 406 pode produzir valores β2k, em uma faixa entre β ζ e β2ζ, de uma representação no domínio espectral de um primeiro patch. Os valores β2k são indicados por 408, e podem ser equivalentes aos valores da representação no domínio espectral 132 de um primeiro patch. O primeiro ramal 386 também compreende um copiador de valores 410, que pode conter a funcionalidade do copiador de valores 140, e que pode receber, como informação de entrada, os valores β2k (por exemplo em uma faixa entre β ζ e β2 ζ) . Assim, o primeiro copiador de valores 410 pode prover valores βk em uma faixa entre β2 ζ e β3 ζ, que são indicados por 412 e que podem ser equivalentes aos valores β2 ζ a β3 ζ da representação no domínio espectral 142 do segundo patch. Também, o primeiro ramal 386 pode (opcionalmente) compreender um segundo copiador de valores 414, que é configurado para receber os valores β ζ e β2 ζ. (também indicados por 408) providos pelo vocoder de fase 406 e prover, nessa base, valores espectrais β3 ζ a β4 ζ usando a operação de cópia (que efetivamente resulta em um deslocamento não harmônico de frequência do espectro descrito pelos valores β ζ a β2 ζ (408)). Assim, o segundo copiador de valores 414 provê valores espectrais β3 ζ a β4 ζ de uma representação no domínio espectral de um terceiro patch, que também são indicados por 416.
[0067] O primeiro ramal 386 pode compreender um interpolador opcional 420, que pode ser configurado para receber os valores 412, 416 das representações nos domínios espectrais do segundo patch e do terceiro patch (e, opcionalmente, também os valores 408 da representação no domínio espectral do primeiro patch) e prover valores interpolados 422 da representação no domínio espectral do segundo e do terceiro patches (e, opcionalmente, também do primeiro patch).
[0068] O primeiro ramal 386 pode, além disso compreender um zero-padder 424, que é configurado para receber os valores interpolados 422 (ou, de forma alternativa, os valores originais 412, 416) das representações nos domínios espectrais do segundo e do terceiro patches (e, opcionalmente também do primeiro patch) e para obter, nessa base, uma versão zero-padded dos valores de uma representação no domínio espectral, que é zero-padded para ser adaptada a uma dimensão de um conversor do domínio espectral para o domínio do tempo 428.
[0069] O conversor do domínio espectral para o domínio do tempo 428 pode ser implementado, por exemplo, como uma Transformada Rápida de Fourier inversa. Por exemplo, a Transformada Rápida de Fourier inversa 428 pode ser configurada para receber um conjunto de 2048 (opcionalmente interpolados e zero-padded) valores espectrais, e prover, nessa base, uma representação no domínio do tempo 430 da porção do sinal de banda larga estendida. O primeiro caminho 386 também compreende um janelador de síntese 432, que é configurado para receber a representação no domínio do tempo 430 da porção do sinal de banda larga estendida e aplicar um janelamento de síntese, para obter uma representação no domínio do tempo com janelamento de síntese da porção do sinal de banda larga estendida 430.
[0070] O decodificador de áudio 300 também compreende um segundo caminho de processamento 388, que realiza um processamento muito similar se comparado ao primeiro caminho 386. Entretanto, o segundo caminho 388 compreende um zero-padder no domínio do tempo 438, que está configurado para receber a porção janelada transiente 383 dos dados de áudio pulso-código-modulados sub- amostrados 381 e obter uma versão zero-padded 439 da porção janelada 383, de maneira que um início da porção zero-padded 439 e uma extremidade da porção zero-padded 439 sejam completadas com zeros, e de maneira que o transiente seja disposto em uma região central (entre as amostras iniciais zero padded e as amostras finais zero-padded) da porção zero-padded 439.
[0071] O segundo caminho 388 também compreende um transformador do domínio do tempo para o domínio espectral 440, por exemplo, uma Transformada Rápida de Fourier ou um QMF (banco de filtros de quadratura de espelho). O transformador do domínio do tempo para o domínio espectral 440 tipicamente compreende um maior número de coletores de frequências (por exemplo, coletores de frequências da Transformada Rápida de Fourier ou bandas QMF) que o transformador do domínio do tempo para o domínio espectral 400 do primeiro ramal. Por exemplo, a Transformada Rápida de Fourier 440 pode ser configurada para obter coeficientes da 1024 Transformada Rápida de Fourier de uma porção zero-padded 439 de 1024 amostras no domínio do tempo.
[0072] O segundo ramal 388 também compreende um determinador de valor de magnitude 442 e um determinador de valor de fase 444, que pode compreender a mesma funcionalidade do meio correspondente 402, 404 do primeiro ramal 386, apesar de ser com dimensão aumentada N=1024. De forma similar, o segundo ramal 388 também compreende um vocoder de fase 446, um primeiro copiador de valores 450, um segundo copiador de valores 454, um interpolador opcional 460, e um zero-padder opcional 464, que pode compreender as mesmas funcionalidades do meio correspondente do primeiro ramal 386, apesar de ser com dimensão aumentada. Em particular, o índice Ç da banda cruzada pode ser maior no segundo ramal 388 que no primeiro ramal 386, por exemplo, por um fator de 2.
[0073] Assim, a representação no domínio espectral compreendendo, por exemplo, 4096 coeficientes da Transformada Rápida de Fourier pode ser provida a uma Transformada Rápida de Fourier inversa 468, que por sua vez provê um sinal no domínio do tempo 470 com 4096 amostras.
[0074] O segundo ramal 388 também compreende a janelador de síntese 472, que é configurado para prover uma versão janelada da representação no domínio do tempo 470 da porção do sinal de banda larga estendida.
[0075] O segundo ramal 388 também compreende a zero stripper configurado para prover uma representação no domínio do tempo encurtada e janelada 478 da porção do sinal de banda larga estendida, cuja representação no domínio do tempo encurtada e janelada 478 pode, por exemplo, compreender 2048 amostras.
[0076] Assim, a representação no domínio do tempo 387 é usada para porções não transientes (por exemplo, frames de áudio) dos dados de áudio pulso-código-modulados 322, e a representação no domínio do tempo 478 é usada para porções transientes dos dados de áudio pulso-código-modulados 322. Assim, as porções transientes são processadas com maior resolução no domínio espectral no segundo ramal de processamento 388, enquanto as porções não transientes são processadas com menor resolução espectral no primeiro ramal de processamento 386.
2.3. FORMATAÇÃO DE ENVELOPE 344
[0077] A seguir, será brevemente resumida a formatação de envelope 344. Além disso, é feita referência às respectivas observações na seção de introdução, que também se aplica ao conceito da invenção.
[0078] Os dados QMF patched 342, que são obtidos com base no sinal no domínio QMF de 64 bandas 396, são processados pela formatação de envelope 344, para obter a representação de sinal 348, que é uma entrada no sintetizador QMF 350. A formatação de envelope pode, por exemplo, adaptar os sinais de banda no domínio QMF dos dados QMF patched 342 para fazer um preenchimento de ruídos, para a reconstrução de harmônicos faltantes, e/ou para obter uma filtragem inversa. As variações de preenchimento de ruídos, a inserção de harmônicos faltantes e a filtragem inversa podem, por exemplo, ser controladas pelas informações auxiliares 346, que podem ser extraídas do fluxo de dados 310. Para maiores detalhes, é feita referência, por exemplo, à discussão da ferramenta SBR na seção 4.6.18 do International Standard ISC/IEC 14496-3:2005(e), part 3, subpart 4. Entretanto, também podem ser aplicados diferentes conceitos de formatação de envelope de acordo com as exigências.
DISCUSSÃO E COMPARAÇÃO DE DIFERENTES SOLUÇÕES
[0079] A seguir, será feita uma breve discussão e um resumo da solução da invenção.
[0080] As configurações de acordo com a presente invenção, por exemplo, o equipamento 100 de acordo com a Fig. 1 e o decodificador de áudio 300 de acordo com a Fig. 3, são (ou compreendem) novos algoritmos de patching no interior da replicação de banda espectral (SBR). Pode ser usado o patching no domínio espectral de várias maneiras para responder pelas diferentes características de sinal ou pelas restrições ditadas por requisitos de software ou hardware.
[0081] Em SBR padrão, o patching é sempre feito por uma operação de cópia no interior do domínio QMF. Isto pode, por vezes, levar a problemas de audição, particularmente se forem copiadas sinusóides vizinhas entre si no limite de LF e de parte gerada HF. Portanto, foi introduzido um novo algoritmo de patching que evita alguns problemas usando um vocoder de fase (ver, por exemplo, a Referência [13]). Este algoritmo está ilustrado na Fig. 5 como exemplo comparativo.
[0082] O SBR padrão tem o problema de dificuldades de audição. A abordagem do vocoder de fase apresentada na Referência [13] tem complexidade, particularmente devido ao grande número de Transformadas Rápidas de Fourier que deve ser calculado. Além disso, o espectro se torna muito esparso para grandes patches (altos fatores de estiramento), que pode resultar em dificuldades indesejadas de audição.
[0083] Duas configurações evitam o grande número de Transformadas Rápidas de Fourier, movendo a geração dos diferentes patches do domínio do tempo para o domínio da frequência. Na Fig. 6, é dado um exemplo onde a transformação para o domínio da frequência é obtido com a ajuda de uma Transformada Rápida de Fourier. Entretanto, ao invés da Transformação de Fourier, outras transformações tempo-frequência são utilizáveis.
[0084] A Fig. 3 mostra uma solução híbrida do algoritmo da Fig. 6 para o patching SBR. Somente o primeiro patch é gerado pelo algoritmo do vocoder de fase (por exemplo, bloco 406 do primeiro ramal 386, e bloco 446 do segundo ramal 388) enquanto maiores patches (por exemplo, o segundo patch e o terceiro patch) são criados só pela cópia do primeiro patch (por exemplo, usando os copiadores de valores 410, 414 do primeiro ramal 386, e/ou os copiadores de valores 450, 454 do segundo ramal 388). Isto produz um espectro menos esparso.
[0085] A seguir, serão brevemente explicados o algoritmo de comparação, que é implementado no decodificador de áudio mostrado na Fig. 6, e o algoritmo da invenção, que é implementado no decodificador de áudio mostrado na Fig. 3:
[0086] O algoritmo de comparação ou algoritmo de referência, que é implementado no decodificador de áudio mostrado na Fig. 6, compreende as seguintes etapas:
[0087] 1. Sub-amostragem de sinal (caso o critério de Nyquist não for prejudicado).
[0088] 2. O sinal é janelado (são propostas janelas de "Hann", mas podem ser usadas outras formas de janelas) e os denominados grãos (por exemplo, porções de sinal janelado 383) de comprimentos N são retirados do sinal. As janelas são deslocadas no sinal com um hop size proposto H. A N/H=8 vezes a sobreposição.
[0089] 3. Se o grão (por exemplo, uma porção de sinal janelado 383) contiver um evento transiente nas bordas, é completado (por exemplo, pelo zero-padder 438) com zeros, o que leva a uma sub-amostragem no domínio da frequência.
[0090] 4. Os grãos são transformados para o domínio da frequência (por exemplo, usando os transformadores do domínio do tempo para o domínio espectral 400,440).
[0091] 5. Os grãos do domínio da frequência são (opcionalmente) completados até um comprimento de saída desejado do algoritmo de patching.
[0092] 6. A magnitude e a fase são calculados (por exemplo, usando os meios 402, 404, 442, 444).
[0093] 7. O conteúdo do coletor de frequências n é copiado para uma posição sn para um fator de estiramento s. A fase é multiplicada pelo fator de estiramento s. Isto é feito para todos os fatores de estiramento s (somente para as regiões do espectro que cobrem os patches desejados). (a) Ç-(s-1)/s<n<Z ou (b) Z/s<n<Z; (b) produz um espectro mais denso que (a) quando se sobrepõem os patches. O Z indica a frequência mais alta da parte LF, a denominada frequência de cruzamento. De modo geral, a fase é corrigida para uma nova posição de amostra (por exemplo, posição da frequência), que pode ser obtida usando o algoritmo discutido na presente ou qualquer algoritmo alternativo adequado.
[0094] 8. Os coletores do domínio da frequência que não obtêm dados por cópia podem ser preenchidos aplicando uma função de interpolação (por exemplo, usando os interpoladores 420,460).
[0095] 9.Os grãos são transformados de volta para o domínio do tempo (por exemplo, usando as Transformadas Rápidas de Fourier inversas 428,468).
[0096] 10. Os grãos do domínio do tempo são multiplicados por uma janela de síntese (novamente são propostas as janelas de Hann) (por exemplo, usando os janeladores de síntese 432,472).
[0097] 11. Se tiver sido feito o zero padding na etapa 3, os zeros passam por novo stripping (por exemplo, usando o zero stripper 476).
[0098] 12. O sinal ou frame de largura de banda estendida (por exemplo, sinal 392), respectivamente, são criados usando sobreposição e adição (OLA) (por exemplo, usando um meio de sobreposição e adição 390).
[0099] Entretanto, a ordem das etapas individuais também pode ser trocada em algumas configurações alternativas, e algumas das etapas podem ser fundidas em uma única etapa em algumas configurações alternativas.
[0100] O algoritmo da invenção, que é implementado no decodificador de áudio mostrado na Fig. 3, compreende as seguintes etapas:
[0101] 1. Sub-amostragem de sinal (caso o critério de Nyquist não for prejudicado).
[0102] 2. O sinal é janelado (são propostas janelas de "Hann", mas podem ser usadas outras formas de janelas) e os denominados grãos (por exemplo, porções de sinal janelado 383) de comprimentos N são retirados do sinal. As janelas são deslocadas no sinal com um hop size proposto H. A N/H=8 vezes a sobreposição.
[0103] 3. Se o grão (por exemplo, uma porção de sinal janelado 383) contiver um evento transiente nas bordas, é completado (por exemplo, pelo zero-padder 438) com zeros, o que leva a uma sub-amostragem no domínio da frequência.
[0104] 4. Os grãos são transformados para o domínio da frequência (por exemplo, usando os transformadores do domínio do tempo para o domínio espectral 400,440).
[0105] 5. Os grãos do domínio da frequência são (opcionalmente) completados até um comprimento de saída desejado do algoritmo de patching.
[0106] 6. A magnitude e a fase são calculados (por exemplo, usando os meios 402, 404, 442, 444).
[0107] 7. a) O conteúdo do coletor de frequências n é copiado para a posição 2n. A fase é multiplicada por 2.(a) ζ⋅(s- 1)/s≤n≤ζ ou (b) ζ/s≤n≤ζ (ver acima).
[0108] 7. b) O conteúdo do coletor de frequências 2n é copiado para a posição sn para todos os fatores de estiramento s > 2 nas faixas 1≤n≤ζ.
[0109] 8. Os coletores do domínio da frequência que não obtêm dados por cópia podem ser preenchidos aplicando uma função de interpolação (por exemplo, usando os interpoladores 420,460).
[0110] 9. Os grãos são transformados de volta para o domínio do tempo (por exemplo, usando as Transformadas Rápidas de Fourier inversas 428,468).
[0111] 10. Os grãos do domínio do tempo são multiplicados por uma janela de síntese (novamente são propostas as janelas de Hann) (por exemplo, usando os janeladores de síntese 432,472).
[0112] 11. Se tiver sido feito o zero padding na etapa 3, os zeros passam por novo stripping (por exemplo, usando o zero stripper 476).
[0113] 12. O sinal ou frame de largura de banda estendida (por exemplo, sinal 392), respectivamente, são criados usando sobreposição e adição (OLA) (por exemplo, usando o meio de sobreposição e adição 390).
[0114] Entretanto, a ordem das etapas individuais também pode ser trocada em algumas configurações alternativas, e algumas das etapas podem ser fundidas em uma única etapa em algumas configurações alternativas.
[0115] Assim, todas as etapas são idênticas no algoritmo de referência (que é implementado no decodificador de áudio mostrado na Fig. 6) e o algoritmo da invenção (que é implementado no decodificador de áudio mostrado na Fig. 3), exceto para a etapa 7, que foi substituída pelas seguintes etapas:
[0116] 7.a) O conteúdo do coletor de frequências n é copiado para a posição 2n. A fase é multiplicada por 2. (a)ζ⋅(s-1)/s≤n≤ζ ou (b) ζ/s≤n≤ζ (ver acima).
[0117] 7.b) O conteúdo do coletor de frequências 2n é copiado para a posição sn para todos os fatores de estiramento s > 2 nas faixas 1≤n≤ζ.
[0118] Para resumir, as configurações de acordo com as Figs. 1, 2, 3 e 4 (e também o decodificador de áudio mostrado na Fig. 6) primeiro reduzem extremamente a complexidade quando comparados às soluções convencionais mencionadas. Segundo, permitem diferentes modificações de espectro, diferentes tanto do plano SBR ou como apresentadas na Fig. 5 (ver, por exemplo, a Referência [13]).
[0119] Por exemplo, sinais de fala podem beneficiar-se do algoritmo, que é feito pelo equipamento, decodificador de áudio e método de acordo com as Figs. 1, 2, 3 e 4, como a estrutura do trem de pulso, que é típica nos sinais de fala, é melhor mantida que a abordagem apresentada na Referência [13].
[0120] As mais importantes configurações de acordo com a invenção são os decodificadores de áudio, que são geralmente implementados em dispositivos manuais e assim operam por meio de baterias.
MÉTODO DE ACORDO COM A FIG. 4.
[0121] A seguir, será descrito um método 400 para a geração de uma representação de um sinal de largura de banda estendida com base em uma representação do sinal de entrada, levando em referência a Fig. 4, que mostra um fluxograma desse método. O método 400 compreende a etapa 410 de obtenção de valores de uma representação no domínio espectral de um primeiro patch do sinal de banda larga estendida com base na representação do sinal de entrada usando uma vocodificação de fase. O método 400 também compreende uma etapa 420 de cópia de um conjunto de valores da representação no domínio espectral do primeiro patch, valores que são obtidos usando a vocodificação de fase, para obter um conjunto de valores de uma representação no domínio espectral de um segundo patch, onde o segundo patch está associado a maiores frequências que o primeiro patch. O método 400 também compreende uma etapa 430 de obtenção de uma representação do sinal de banda larga estendida usando os valores da representação no domínio espectral do primeiro patch e os valores da representação no domínio espectral do segundo patch.
[0122] O método 400 pode ser suplementado por quaisquer meios e funcionalidades descritos na presente com relação ao equipamento da invenção.
5. ALTERNATIVAS DE IMPLEMENTAÇÃO
[0123] Apesar de alguns aspectos terem sido descritos no contexto de um equipamento, é claro que esses aspectos também representam uma descrição do método correspondente, em que um bloco ou dispositivo corresponde a uma etapa do método ou a uma característica da etapa do método. De forma análoga, os aspectos descritos no contexto de uma etapa do método também representam uma descrição do bloco correspondente ou item ou característica de um equipamento correspondente. Algumas ou todas as etapas do método podem ser realizadas (ou usadas) por um equipamento de hardware, como por exemplo, um microprocessador, um computador programável ou um circuito eletrônico. Em algumas configurações, uma ou mais das mais importantes etapas do método podem ser realizadas por este equipamento.
[0124] Dependendo de determinadas exigências de implementação, as configurações da invenção podem ser implementadas em hardware ou em software. A implementação pode ser feita usando um meio de armazenamento digital, por exemplo, um disquete, um DVD, um Blue-Ray, um CD, um ROM, um PROM, um EPROM, um EEPROM ou uma memória FLASH, com sinais de controle de leitura eletrônica armazenados, que cooperam (ou são capazes de cooperar) com um sistema de computador programável, de maneira que seja realizado o respectivo método. Portanto, o meio de armazenamento digital pode ser lido por computador.
[0125] Algumas configurações de acordo com a invenção compreendem um portador de dados tendo sinais de controle de leitura eletrônica, que são capazes de cooperar com um sistema de computador programável, de maneira que um dos métodos descritos na presente invenção seja realizado.
[0126] Em geral, as configurações da presente invenção podem ser implementadas como um produto de programa de computador com um código de programa, o código de programa operando para realizar um dos métodos quando o produto de programa de computador operar em um computador. O código de programa pode, por exemplo, ser armazenado em um portador de leitura por máquina.
[0127] Outras configurações compreendem o programa de computador para a realização de um dos métodos descritos na presente invenção, armazenados em um portador de leitura por máquina.
[0128] Em outras palavras, uma configuração do método da invenção é, portanto, um programa de computador com um código de programa para a realização de um dos métodos descritos na presente invenção, quando o programa de computador opera em um computador.
[0129] Outra configuração dos métodos da invenção é, portanto, um portador de dados (ou um meio de armazenamento digital, ou um meio de leitura por computador) compreendendo, nele registrado, o programa de computador para a realização de um dos métodos descritos na presente invenção.
[0130] Outra configuração do método da invenção é, portanto, um fluxo de dados ou uma sequência de sinais representando o programa de computador para a realização de um dos métodos descritos na presente invenção. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido por uma conexão de comunicação de dados, por exemplo, via Internet.
[0131] Outra configuração compreende um meio de processamento, por exemplo, um computador, ou um dispositivo lógico programável, configurado ou adaptado para realizar um dos métodos descritos na presente invenção.
[0132] Outra configuração compreende um computador com a instalação de um programa de computador para realizar um dos métodos descritos na presente invenção.
[0133] Em algumas configurações, um dispositivo lógico programável (por exemplo, um matriz tipo gate de campo programável) pode ser usado para realizar algumas ou todas as funcionalidades dos métodos descritos na presente invenção. Em algumas configurações, uma matriz tipo gate de campo programável pode cooperar com um microprocessador para realizar um dos métodos descritos na presente invenção. Em geral, os métodos são, de preferência, realizados por qualquer equipamento de hardware.
[0134] As configurações supramencionadas são meramente ilustrativas para os princípios da presente invenção. É entendido que modificações e variações das disposições e dos detalhes descritos na presente serão aparentes para os técnicos no assunto. Pretende-se, portanto, que sejam somente limitados pelo escopo das reivindicações de patentes pendentes e não por detalhes específicos apresentados como descrições e explicação das configurações da presente invenção.
6. EXEMPLO DE COMPARAÇÃO DE ACORDO COM A FIG. 5
[0135] A seguir, será brevemente discutido um exemplo de comparação com referência à Fig. 5. A funcionalidade do exemplo de comparação de acordo com a Fig. 5 é similar à função do decodificador de áudio de acordo com a Fig. 3, de maneira que os meios e as funcionalidades não serão explicadas novamente. Entretanto, o exemplo de comparação de acordo com a Fig. 5 depende do uso de três vocoders de fase 590, 592, 594 ou 596, 597, 598 por ramal. As Transformadas Rápidas de Fourier inversas individuais, os janeladores de síntese, os meios de sobreposição e adição são associados aos vocoders de fase individual, como pode ser visto na Fig. 5. Também, em alguns dos sub-ramais, são usados a sub- amostragem individual (fator j) e o retardo individual (z-samp|es) . Assim, o equipamento 500 de acordo com a Fig. 5 não é tão eficiente computacionalmente como o equipamento 300 de acordo com Fig. 3. Não obstante, o equipamento 500 traz aperfeiçoamentos significativos com relação a alguns decodificadores de áudio convencionais.
7. EXEMPLO DE COMPARAÇÃO DE ACORDO COM A FIG. 6
[0136] A Fig. 6 mostra outro decodificador de áudio 600, de acordo com um exemplo de comparação. O decodificador de áudio 600 de acordo com a Fig. 6 é similar aos decodificadores de áudio 300, 500 de acordo com as Figs. 3 e 5. Entretanto, o decodificador de áudio 600 também se baseia no uso de uma pluralidade de vocoders das fases individuais 690, 692, 694 ou 696, 697, 698 por ramal, que torna o equipamento 600 computacionalmente mais exigente que o equipamento 300, e que traz problemas de audição em certos casos. Não obstante, o equipamento 500 traz significativos aperfeiçoamentos com relação a alguns decodificadores convencionais de áudio.
8. CONCLUSÃO
[0137] Em vista da discussão acima, pode ser visto que o equipamento 100 de acordo com a Fig. 1, o decodificador de áudio 300 de acordo com a Fig. 3 e o método 400 de acordo com a Fig. 4 trazem várias vantagens com relação aos exemplos de comparação, que foram brevemente discutidos com referência às Figs. 5 e 6.
[0138] O conceito da invenção se aplica em uma ampla variedade de aplicações e pode ser modificado de várias formas. Em particular, as Transformadas Rápidas de Fourier podem ser substituídas por bancos de filtros QMF, e as Transformadas Rápidas de Fourier inversas podem ser substituídas por sintetizadores de QMF.
[0139] Também, em algumas configurações algumas ou todas as etapas de processamento podem ser resumidas em uma única etapa. Por exemplo, uma sequência de processamento compreendendo uma síntese QMF e uma subsequente análise QMF podem ser simplificadas omitindo as transformadas repetidas.
REFERÊNCIAS:
[0140] 1. M. Dietz, L. Liljeryd, K. Kjorling e O. Kunz, “Spectral Band Replication, a novel approach in audio coding,” in 112th AES Convention, Munich, May 2002.
[0141] 2. S. Meltzer, R. Bohm e F. Henn, “SBR enhanced audio codecs for digital broadcasting such as “Digital Radio Mondiale” (DRM),” in 112th AES Convention, Munich, May 2002.
[0142] 3. T. Ziegler, A. Ehret, P. Ekstrand e M. Lutzky, “Enhancing mp3 SBR: Features and Capabilities of the new mp3PRO Algorithm,” in 112th AES Convention, Munich, May 2002.
[0143] 4. International Standard ISO/IEC 14496- 3:2001/FPDAM 1, “Bandwidth Extension,” ISO/IEC, 2002. Speech bandwidth extension method and apparatus Vasu Iyengar et al.
[0144] 5. E. Larsen, R. M. Aarts, e M. Danessis. Efficient high-frequency bandwidth extension of music and speech. In AES 112th Convention, Munich, Germany, May 2002.
[0145] 5. R. M. Aarts, E. Larsen, e O. Ouweltjes. A unified approach to low- and highfrequency bandwidth extension. In AES 115th Convention, New York, USA, October 2003.
[0146] 7. K. Kayhko. A Robust Wideband Enhancement for Narrowband Speech Signal. Research Report, Helsinki University of Technology, Laboratory of Acoustics e Audio Signal Processing, 2001.
[0147] 8. E. Larsen e R. M. Aarts. Audio Bandwidth Extension - Application to psychoacoustics, Signal Processing and Loudspeaker Design. John Wiley & Sons, Ltd, 2004.
[0148] 9. E. Larsen, R. M. Aarts, e M. Danessis. Efficient high-frequency bandwidth extension of music and speech. In AES 112th Convention, Munich, Germany, May 2002.
[0149] 10. J. Makhoul. Spectral Analysis of Speech by Linear Prediction. IEEE Transactions on Audio e Electroacoustics, AU-21(3), June 1973.
[0150] 11. United States Patent Application 08/951,029, Ohmori , et al. Audio band width extending system and method.
[0151] 12. United States Patent 6895375, Malah, D & Cox, R. V.: System for bandwidth extension of Narrow-band speech.
[0152] 13. Frederik Nagel, Sascha Disch, “A harmonic bandwidth extension method for audio codecs,” ICASSP International Conference on Acoustics, Speech and Signal Processing, IEEE CNF, Taipei, Taiwan, April 2009.

Claims (19)

1. Um equipamento (100;386) para a geração de uma representação (120; 426) de um sinal de banda larga estendida com base em uma representação do sinal de entrada (110; 383), o equipamento compreendendo: um vocoder de fase (130; 406),e um copiador de valores (140; 410,416) caracterizado pelo primeiro patch do sinal de banda larga estendida ser obtido pelo vocoder de fase (130; 406),e em que o segundo patch do sinal de banda larga estendida é obtido pelo vocoder de fase (130; 406),com base no primeiro patch usando um copiador de valores (140; 410,416); em que o equipamento é configurado para obter a representação (120;426) do sinal de banda larga estendida usando os valores da representação no domínio espectral do primeiro patch e os valores da representação no domínio espectral do segundo patch; em que o equipamento é implementado usando um hardware ou um computador, ou a combinação de um equipamento de hardware e um computador.
2. Equipamento (100;386), de acordo com a reivindicação 1, caracterizado pelo fato de que o vocoder de fase (130; 406) é configurado para copiar um conjunto de valores de magnitude (α^/2 - az ) associado a uma pluralidade de dadas subfaixas de frequência da representação do sinal de entrada (110; 383), para obter um conjunto de valores de magnitude («z ... α2z ) associado às subfaixas de frequência correspondentes do primeiro patch, onde um par de uma dada subfaixa de frequência da representação do sinal de entrada e de uma subfaixa de frequência correspondente do primeiro patch cobre um par de uma frequência fundamental e um harmônico da frequência fundamental, onde o vocoder de fase (130; 406) é configurado para multiplicar valores de fase (Φz/2 ••• Φz) associados à pluralidade de dadas subfaixas de frequência da representação do sinal de entrada com um fator predeterminado, para obter um conjunto de valores de fase (Φz . Φ2z) associados às subfaixas de frequência correspondentes do primeiro patch, e onde o copiador de valores (140; 410) é configurado para copiar um conjunto de valores (βz . β2z) associado a uma pluralidade de dadas subfaixas de frequência do primeiro patch, para obter um conjunto de valores (β2z . β3z) associado às subfaixas de frequência correspondentes do segundo patch, onde o copiador de valores está configurado para deixar valores de fase inalterados na cópia.
3. Equipamento (100;386), de acordo com a reivindicação 2, caracterizado pelo fato de que o copiador de valores (140; 410) está configurado para copiar valores de maneira que seja obtido o deslocamento espectral comum entre valores (βc - β2z) do primeiro patch e os valores correspondentes (β2z - β3z) do segundo patch.
4. Equipamento (100;386), de acordo com a reivindicação 1, caracterizado pelo fato de que o vocoder de fase (130; 406) está configurado para obter os valores (βz - β2z) da representação no domínio espectral (132; 408) do primeiro patch de maneira que os valores da representação no domínio espectral do primeiro patch representem uma versão harmonicamente dimensionada para cima de uma faixa fundamental de frequência da representação do sinal de entrada (110; 383); e onde o copiador de valores (140;410) está configurado para obter os valores (β2z - β3z) da representação no domínio espectral (142; 412) do segundo patch de maneira que os valores da representação no domínio espectral do segundo patch representem uma versão com frequência deslocada do teor de áudio do primeiro patch.
5. Equipamento (100; 380,382, 386), de acordo com a reivindicação 1, caracterizado pelo fato de que o equipamento está configurado para receber dados de entrada de áudio (322), para sub-amostrar (380) os dados de áudio de entrada (322), para obter dados sub-amostrados de áudio (381), para janelar (382) os dados sub-amostrados de áudio (381), para obter dados de entrada janelados(383), para converter (400) ou transformar os dados de entrada janelados(383) para um domínio espectral, para obter a representação do sinal de entrada (383) sob a forma de uma representação no domínio espectral (401), para computar (402, 404) valores de magnitude αk e valores de fase Φk que representam um coletor de frequências tendo um índice k da representação do sinal de entrada (383), para usar (130; 406) uma pluralidade de valores de magnitude αk representando os coletores de frequências tendo índices de coletor de frequências k da representação do sinal de entrada (383), para obter valores de magnitude α2k que representam os coletores de frequências com índices de coletor de frequências sk do primeiro patch, quando s é um fator de estiramento com s entre 1,5 e 2,5, e para copiar e escalar (130; 406) valores de fase Φk associados aos coletores de frequências tendo índices de coletor de frequências k da representação do sinal de entrada (383), para obter valores de fase copiados e escalados Φ2k=sΦk associados aos coletores de frequências tendo índices de coletor de frequências 2k do primeiro patch, para copiar (140; 410) valores βk-iz associados aos coletores de frequências tendo índices de coletor de frequências k-iZ da representação no domínio espectral (132;408) do primeiro patch, para obter valores βk da representação no domínio espectral (142; 412) do segundo patch, para converter (428) a representação (426) do sinal de banda larga estendida para o domínio do tempo, para obter uma representação no domínio do tempo (430), e para aplicar (432) uma janela de síntese à representação no domínio do tempo.
6. Equipamento (100; 386), de acordo com a reivindicação 1, caracterizado pelo fato de que o equipamento compreende um conversor do domínio de tempo para o domínio espectral (400) configurado para prover, como representação do sinal de entrada (401), valores de uma representação no domínio espectral de um sinal de entrada de áudio (322), ou de uma versão pré-processada (383) do sinal de entrada de áudio (322); e onde o equipamento compreende um conversor do domínio espectral para o domínio do tempo (428) configurado para prover uma representação no domínio do tempo (430) do sinal de banda larga estendida usando valores (βc - β2z, 408) da representação no domínio espectral do primeiro patch e valores (β2z - β3z, 412) da representação no domínio espectral do segundo patch; onde o conversor do domínio espectral para o domínio do tempo (428) está configurado de maneira que um número (N=2048) de diferentes valores espectrais (426) recebido pelo conversor do domínio espectral para o domínio do tempo (428) seja maior que o número (N=512) de diferentes valores espectrais (401) providos pelo conversor do domínio do tempo para o domínio espectral (400), de forma que o conversor do domínio espectral para o domínio do tempo (428) seja configurado para processar um maior número de coletores de frequências que o conversor do domínio do tempo para o domínio espectral (400).
7. Equipamento (100; 382, 386), de acordo com a reivindicação 1, caracterizado pelo fato de que o equipamento compreende um janelador de análise (382) configurado para janelar um sinal de entrada de áudio no domínio do tempo (322), para obter uma versão janelada (383) do sinal de entrada de áudio no domínio do tempo, que forma a base para a obtenção da representação do sinal de entrada sob a forma de uma representação no domínio espectral (401); e onde o equipamento compreende uma janelador de síntese (432) configurado para janelar uma parte da representação no domínio do tempo (430) do sinal de banda larga estendida, para obter uma porção janelada (434) da representação no domínio do tempo do sinal de banda larga estendida.
8. Equipamento (100; 382,386), de acordo com a reivindicação 7, caracterizado pelo fato de que o equipamento está configurado para processar uma pluralidade de porções deslocadas no tempo temporalmente sobrepostas do sinal de entrada de áudio no domínio do tempo (322), para obter uma pluralidade de porções janeladas deslocadas no tempo temporalmente sobrepostas (434) da representação no domínio do tempo do sinal de banda larga estendida, onde um deslocamento de tempo (Inc=64) entre porções deslocadas no tempo temporalmente adjacentes do sinal de entrada de áudio no domínio do tempo (322) são menores ou iguais a um quarto de um comprimento de janela (512) do janelador de análise (382).
9. Equipamento (100; 382,386), de acordo com qualquer uma das reivindicações de 1 a 8, caracterizado pelo fato de que o equipamento compreende um provedor de informações transientes (384) configurado para prover informações indicando a presença de um transiente no sinal de entrada (322); e onde o equipamento compreende um primeiro ramal de processamento (386) para prover uma representação (434) de uma porção do sinal de banda larga estendida com base em uma porção não transiente da representação do sinal de entrada (383) e um segundo ramal de processamento (388) para prover uma representação (478) de uma parte de um sinal de banda larga estendida com base em uma porção transiente da representação do sinal de entrada (383); onde o segundo ramal de processamento (388) está configurado para processar a representação no domínio espectral (441) do sinal de entrada tendo uma maior resolução espectral (N=1024) que a representação no domínio espectral (401) do sinal de entrada processado pelo primeiro ramal de processamento (386).
10. Equipamento (100; 382,386), de acordo com a reivindicação 9, caracterizado pelo fato de que o segundo ramal de processamento (388) compreende um zero-padder no domínio do tempo (438) configurado para completar com zeros (zero-pad) uma porção contendo transientes (383) do sinal de entrada, para obter uma porção temporalmente ampliada contendo transientes (439) do sinal de entrada; e onde o primeiro ramal de processamento (386) compreende um conversor do domínio de tempo para o domínio da frequência (400) configurado para prover um primeiro número (N=512) dos valores no domínio espectral (401) associados à porção não transiente (383) do sinal de entrada; e onde o segundo ramal de processamento (388) compreende um conversor do domínio de tempo para o domínio da frequência (440) configurado para prover um segundo número (N=1024) de valores no domínio espectral (441) associados à porção temporalmente estendida contendo transientes (439) do sinal de entrada, onde o segundo número (N=1024) dos valores no domínio espectral é maior, pelo menos de um fator de 1,5, que o primeiro número (N=512) de valores no domínio espectral.
11. Equipamento (100; 382,386), de acordo com a reivindicação 10, caracterizado pelo fato de que o segundo ramal de processamento compreende um zero stripper (476) configurado para remover uma pluralidade de valores zero de uma porção do sinal de banda larga estendida (474) obtida com base na porção temporalmente estendida contendo transientes (439) do sinal de entrada.
12. Equipamento (100; 380, 382,386), de acordo com a reivindicação 11, caracterizado pelo fato de que o equipamento compreende um sub-amostrador (380) configurado para sub-amostrar a representação no domínio do tempo (322) do sinal de entrada.
13. Decodificador de áudio compreendendo um equipamento para geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada, o equipamento compreendendo: um vocoder de fase (130; 406),e um copiador de valores (140; 410,416) caracterizado pelo primeiro patch do sinal de banda larga estendida ser obtido pelo vocoder de fase (130; 406),e em que o segundo patch do sinal de banda larga estendida é obtido com base no primeiro patch usando um copiador de valores (140; 410,416); em que o equipamento é configurado para obter a representação (120;426) do sinal de banda larga estendida usando os valores da representação no domínio espectral do primeiro patch e os valores da representação no domínio espectral do segundo patch; em que o equipamento é implementado usando um hardware ou um computador, ou a combinação de um equipamento de hardware e um computador.
14. Método para a geração de uma representação de um sinal de banda larga estendida (120; 426) com base em uma representação do sinal de entrada (110; 383), o método compreendendo: Obtenção (410), usando um vocoder de fase (130; 406), um primeiro patch do sinal de banda larga estendida; e obtenção, usando um copiador de valores (140; 410,416), um segundo patch do sinal de áudio de banda larga estendida com base no primeiro patch, em que a representação do sinal de áudio da banda larga estendida é obtida usando os valores da representação no domínio espectral do primeiro patch e os valores da representação no domínio espectral do segundo patch.
15. Equipamento (100;386) para a geração de uma representação (120; 426) de um sinal de audio de banda larga estendida com base em uma representação do sinal de áudio de entrada, o equipamento compreendendo: um copiador de valores, caracterizado por o primeiro patch do sinal de audio de banda larga estendida ser obtido usando um copiador de valores (140; 410,416);e um vocoder de fase (130; 406); em que o segundo patch do sinal de audio de banda larga estendida é obtido com base no primeiro patch usando um vocoder de fase; em que o equipamento é configurado para obter a representação de um sinal de audio de banda larga estendida usando valores da representação no domínio espectral do primeiro patch e os valores da representação do domínio espectral do segundo patch; em que o equipamento é implementado usando um hardware ou um computador, ou a combinação de um equipamento de hardware e um computador.
16. Método, para a geração de uma representação (120; 426) de um sinal de audio de banda larga estendida com base em uma representação do sinal de áudio de entrada,o método compreendendo: obtenção de um primeiro patch do sinal de áudio da banda larga estendida usando um copiador de valores (140; 410,416); e obtenção (410) de um segundo patch do sinal de áudio da banda larga estendida usando um vocoder de fase (130; 406) em que a representação do sinal de áudio da banda larga estendida é obtida usando os valores da representação no domínio espectral do primeiro patch e os valores da representação no domínio espectral do segundo patch.
17. Equipamento(100,386) para a geração de uma representação (120; 426) de um sinal de banda larga estendida com base em uma representação do sinal de entrada (110; 383), o equipamento compreendendo: um vocoder de fase (130; 406) configurado para obter valores (βc - β2z, 408) de uma representação no domínio espectral de um primeiro patch do sinal de banda larga estendida com base na representação do sinal de entrada; e um copiador de valores (140; 410,416) configurado para copiar um conjunto de valores (βc - β2z, 408) da representação no domínio espectral do primeiro patch, valores que são fornecidos pelo vocoder de fase, para obter um conjunto de valores (β2z - β3z, 408) de uma representação no domínio espectral de um segundo patch, onde o segundo patch está associado a maiores frequências que o primeiro patch; caracterizado pelo equipamento ser configurado para obter a representação (120;426) do sinal de banda larga estendida usando os valores da representação no domínio espectral do primeiro patch e os valores da representação no domínio espectral do segundo patch; onde o equipamento compreende um janelador de análise (382) configurado para janelar um sinal de entrada de áudio no domínio do tempo (322), para obter uma versão janelada (383) do sinal de entrada de áudio no domínio do tempo, que forma a base para a obtenção da representação do sinal de entrada sob a forma de uma representação no domínio espectral (401); e onde o equipamento compreende uma janelador de síntese (432) configurado para janelar uma parte da representação no domínio do tempo (430) do sinal de banda larga estendida, para obter uma porção janelada (434) da representação no domínio do tempo do sinal de banda larga estendida.
18. Método (400) para a gerar uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada, o método compreendendo: obtenção (410), usando um vocoder de fase, valores de uma representação no domínio espectral de um primeiro patch do sinal de banda larga estendida com base na representação do sinal de entrada; e copiar (420) um conjunto de valores da representação no domínio espectral do primeiro patch, valores que são providos pelo vocoder de fase, para obter um conjunto de valores de uma representação no domínio espectral de um segundo patch, onde o segundo patch está associado a maiores frequências que o primeiro patch; e obtenção (430) a representação do sinal de banda larga estendida usando os valores da representação no domínio espectral do primeiro patch e os valores da representação no domínio espectral do segundo patch; caracterizado por o método compreender um janelador de um sinal de entrada de áudio no domínio do tempo (322), para obter uma versão janelada (383) do sinal de entrada de áudio no domínio do tempo, que forma a base para a obtenção da representação do sinal de entrada sob a forma de uma representação no domínio espectral (401); e onde o método compreende janelar uma porção da representação no domínio do tempo (430) do sinal de banda larga estendida, para obter uma porção janelada (434) da representação no domínio do tempo do sinal de banda larga estendida.
19. Mídia de armazenamento não transitória tendo gravadas instruções lidas por um computador caracterizada por compreender instruções que quando executadas realizam o método das reivindicações 14, 16 e 18.
BR122021012290-3A 2009-04-02 2010-04-01 Equipamento, mídia não transitória e método para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada usando uma combinação de uma extensão de largura de banda harmônica e uma extensão de largura de banda não harmônica BR122021012290B1 (pt)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US16612509P 2009-04-02 2009-04-02
US61/166,125 2009-04-02
US16806809P 2009-04-09 2009-04-09
US61/168,068 2009-04-09
EP09181008A EP2239732A1 (en) 2009-04-09 2009-12-30 Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
EP09181008.5 2009-12-30
PCT/EP2010/054422 WO2010112587A1 (en) 2009-04-02 2010-04-01 Apparatus, method and computer program for generating a representation of a bandwidth-extended signal on the basis of an input signal representation using a combination of a harmonic bandwidth-extension and a non-harmonic bandwidth-extension

Publications (2)

Publication Number Publication Date
BR122021012290A2 BR122021012290A2 (pt) 2023-01-03
BR122021012290B1 true BR122021012290B1 (pt) 2024-04-02

Family

ID=

Similar Documents

Publication Publication Date Title
BR122021012125A2 (pt) Equipamento, método e programa de computador para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada usando uma combinação de uma extensão de largura de banda harmônica e uma extensão de largura de banda não harmônica
TWI444991B (zh) 用以利用補丁邊界對齊處理音訊信號之裝置與方法
US10909994B2 (en) Apparatus, method and computer program for generating a representation of a bandwidth-extended signal on the basis of an input signal representation using a combination of a harmonic bandwidth-extension and a non-harmonic bandwidth-extension
KR101425157B1 (ko) 대역폭 확장 인코더, 대역폭 확장 디코더 및 위상 보코더
US8386268B2 (en) Apparatus and method for generating a synthesis audio signal using a patching control signal
BR122021012290B1 (pt) Equipamento, mídia não transitória e método para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada usando uma combinação de uma extensão de largura de banda harmônica e uma extensão de largura de banda não harmônica
AU2014201331B2 (en) Bandwidth extension encoder, bandwidth extension decoder and phase vocoder