BR112020021832A2

BR112020021832A2 - integração de técnicas de reconstrução de alta frequência

Info

Publication number: BR112020021832A2
Application number: BR112020021832-4A
Authority: BR
Inventors: Kristofer Kjoerling; Lars Villemoes; Heiko Purnhagen; Per Ekstrand
Original assignee: Dolby International Ab
Priority date: 2018-04-25
Filing date: 2019-04-25
Publication date: 2021-02-23
Also published as: US20230197101A1; JP2023068156A; IL303445B1; US20230197102A1; IL303445B2; US11810592B2; MA52530A; EP3785260A1; US20230197104A1; US11810590B2; AU2024202301A1; US11810589B2; IL303445A; SG11202010374VA; US20230197103A1; AU2019258524B2; US11810591B2; JP7252976B2; CL2020002745A1; CN112189231A

Abstract

Trata-se da revelação de um método para decodificar um fluxo de bits de áudio codificado. O método inclui receber o fluxo de bits de áudio codificado e decodificar os dados de áudio para gerar um sinal de áudio de banda baixa decodificado. O método inclui adicionalmente extrair metadados de reconstrução de alta frequência e filtrar o sinal de áudio de banda baixa decodificado com um banco de filtro de análise para gerar um sinal de áudio de banda baixa filtrado. O método também inclui extrair um sinalizador que indica se a translação espectral ou a transposição harmônica deve ser realizada nos dados de áudio e regerar uma porção de banda alta do sinal de áudio usando o sinal de áudio de banda baixa filtrado e os metadados de reconstrução de alta frequência de acordo com o sinalizador. A regeração de alta frequência é realizada como uma operação pós-processamento com um atraso de 3010 amostras por canal de áudio.

Description

“INTEGRAÇÃO DE TÉCNICAS DE RECONSTRUÇÃO DE ALTA FREQUÊNCIA” REFERÊNCIA CRUZADA A PEDIDOS RELACIONADOS

[001] Este pedido reivindica a prioridade para o Pedido de Patente Europeu n° EP18169156.9, depositado em 25 de abril de 2018, que é incorporado a título de referência no presente documento.

CAMPO DA TÉCNICA

[002] As modalidades se referem ao processamento de sinal de áudio e, mais especificamente, à codificação, decodificação ou transcodificação de fluxos de bits de áudio com dados de controle que especificam que uma forma de base de reconstrução de alta frequência (“HFR”) ou uma forma melhorada de HFR deve ser realizada nos dados de áudio.

ANTECEDENTES DA INVENÇÃO

[003] Um fluxo de bits de áudio típico inclui tanto dados de áudio (por exemplo, dados de áudio codificados) indicativos de um ou mais canais de conteúdo de áudio quanto metadados indicativos de pelo menos uma característica dos dados de áudio ou conteúdo de áudio. Um formato bem conhecido para gerar um fluxo de bits de áudio codificado é o formato de Codificação de Áudio Avançada (AAC) MPEG-4, descrito no padrão MPEG ISO/IEC 14496-3:2009. No padrão MPEG-4, AAC denota “codificação de áudio avançada” e HE-AAC denota “codificação de áudio avançada de alta eficiên- cia”.

[004] O padrão de AAC MPEG-4 define vários perfis de áudio, que determi- nam quais objetos e ferramentas de codificação estão presentes em um codificador ou decodificador compatível. Três desses perfis de áudio são (1) o perfil de AAC, (2) o perfil de HE-AAC e (3) o perfil de HE-AAC v2. O perfil de AAC inclui o tipo de objeto de baixa complexidade de AAC (ou “AAC-LC”). O objeto de AAC-LC é a contraparte do perfil de baixa complexidade MPEG-2 AAC com alguns ajustes, e não inclui o tipo de objeto de replicação de banda espectral (“SBR”) nem o tipo de objeto de elemento estéreo paramétrico (“PS”). O perfil de HE-AAC é um superconjunto do perfil de AAC e inclui adicionalmente o tipo de objeto de SBR. O perfil de HE-AAC v2 é um super- conjunto do perfil de HE-AAC e inclui adicionalmente o tipo de objeto de PS.

[005] O tipo de objeto de SBR contém a ferramenta de replicação de banda espectral, que é uma ferramenta de codificação de reconstrução de alta frequência (“HFR”) importante que aprimora significativamente a eficiência de compressão de codecs de áudio perceptivos. A SBR reconstrói os componentes de alta frequência de um sinal de áudio no lado de receptor (por exemplo, no decodificador). Assim, o codi- ficador precisa apenas codificar e transmitir componentes de baixa frequência, permi- tindo uma qualidade de áudio muito superior em baixas taxas de dados. SBR tem como base a replicação das sequências de harmônicos previamente truncados a fim de reduzir a taxa de dados, a partir do sinal limitado de largura de banda disponível e dos dados de controle obtidos a partir do codificador. A razão entre componentes do tipo tonal e ruído é mantida por filtração inversa adaptativa assim como por adição opcional de ruído e elementos senoidais. No padrão de AAC MPEG-4, a ferramenta de SBR realiza correção espectral (também denominada translação linear ou transla- ção espectral), na qual diversas sub-bandas de Filtro de Espelho em Quadratura (QMF) consecutivas são copiadas (ou “corrigidas” ou) a partir de uma porção de banda baixa transmitida de um sinal de áudio para uma porção de banda alta do sinal de áudio, que é gerado no decodificador.

[006] A correção espectral ou translação linear pode não ser ideal para certos tipos de áudio como conteúdo musical com frequências de cruzamento relativamente baixas. Portanto, as técnicas para aprimorar replicação de banda espectral são ne- cessárias.

BREVE DESCRIÇÃO DE MODALIDADES DA INVENÇÃO

[007] É revelada uma primeira classe de modalidades se refere a um método para decodificar um fluxo de bits de áudio codificado. O método inclui receber o fluxo de bits de áudio codificado e decodificar os dados de áudio para gerar um sinal de áudio de banda baixa decodificado. O método inclui adicionalmente extrair metadados de reconstrução de alta frequência e filtrar o sinal de áudio de banda baixa decodifi- cado com um banco de filtro de análise para gerar um sinal de áudio de banda baixa filtrado. O método inclui adicionalmente extrair um sinalizador que indica se a transla- ção espectral ou transposição harmônica deve ser realizada nos dados de áudio e regerar uma porção de banda alta do sinal de áudio usando o sinal de áudio de banda baixa filtrado e os metadados de reconstrução de alta frequência de acordo com o sinalizador. Finalmente, o método inclui combinar o sinal de áudio de banda baixa filtrado e a porção de banda alta regerada par formar um sinal de áudio de banda larga.

[008] Uma segunda classe de modalidades se refere a um decodificador de áudio para decodificar um fluxo de bits de áudio codificado. O decodificador inclui uma interface de entrada para receber o fluxo de bits de áudio codificado em que o fluxo de bits de áudio codificado inclui dados de áudio que representam uma porção de banda baixa de um sinal de áudio e um decodificador de núcleo para decodificar os dados de áudio para gerar um sinal de áudio de banda baixa decodificado. O decodi- ficador também inclui um demultiplexador para extrair do fluxo de bits de áudio codifi- cado metadados de reconstrução de alta frequência em que os metadados de recons- trução de alta frequência incluem parâmetros operacionais para um processo de re- construção de alta frequência que translada linearmente um número consecutivo de sub-bandas de uma porção de banda baixa do sinal de áudio para uma porção de banda alta do sinal de áudio e um banco de filtro de análise para filtrar o sinal de áudio de banda baixa decodificado para gerar um sinal de áudio de banda baixa filtrado. O decodificador inclui adicionalmente um demultiplexador para extrair do fluxo de bits de áudio codificado um sinalizador que indica se a translação linear ou transposição harmônica deve ser realizada nos dados de áudio e um regerador de alta frequência para regerar uma porção de banda alta do sinal de áudio usando o sinal de áudio de banda baixa filtrado e os metadados de reconstrução de alta frequência de acordo com o sinalizador. Finalmente, o decodificador inclui um banco de filtro de síntese para combinar o sinal de áudio de banda baixa filtrado e a porção de banda alta regerada para formar um sinal de áudio de banda larga.

[009] Outras classes de modalidades se referem à codificação e à transcodi- ficação de fluxos de bits de áudio contendo metadados que identificam se o proces- samento de replicação de banda espectral melhorada (eSBR) deve ser realizado.

BREVE DESCRIÇÃO DOS DESENHOS

[010] A Figura 1 é um diagrama de blocos de uma modalidade de um sistema que pode ser configurado para realizar uma modalidade do método inventivo.

[011] A Figura 2 é um diagrama de blocos de um codificador que é uma mo- dalidade da unidade de processamento de áudio inventiva.

[012] A Figura 3 é um diagrama de blocos de um sistema incluindo um deco- dificador que é uma modalidade da unidade de processamento de áudio inventiva, e, opcionalmente, também um pós-processador acoplado à mesma.

[013] A Figura 4 é um diagrama de blocos de um decodificador que é uma modalidade da unidade de processamento de áudio inventiva.

[014] A Figura 5 é um diagrama de blocos de um decodificador que é uma outra modalidade da unidade de processamento de áudio inventiva.

[015] A Figura 6 é um diagrama de blocos de uma outra modalidade da uni- dade de processamento de áudio inventiva.

[016] A Figura 7 é um diagrama de um bloco de um fluxo de bits de AAC MPEG-4, incluindo segmentos nos quais o mesmo é dividido.

Notação e Nomenclatura

[017] Ao longo desta revelação, incluindo nas reivindicações, a expressão que realiza uma operação “em” um sinal ou dados (por exemplo, filtrar, escalonar, trans- formar ou aplicar ganho ao sinal ou aos dados) é usada em um sentido amplo para denotar realizar diretamente a operação no sinal ou dados, ou em uma versão pro- cessada do sinal ou dados (por exemplo, em uma versão do sinal que foi submetida à filtração preliminar ou pré-processamento antes do desempenho da operação na mesma).

[018] Ao longo desta revelação, incluindo nas reivindicações, a expressão “unidade de processamento de áudio” ou “processador de áudio” é usada em um sen- tido amplo para denotar um sistema, dispositivo ou aparelho configurado para proces- sar dados de áudio. Exemplos de unidade de processamento de áudios incluem, mas sem limitação a, codificadores, transcodificadores, decodificadores, codecs, sistemas de pré-processamento, sistemas de pós-processamento e sistemas de processa- mento de fluxo de bits (chamados às vezes de ferramentas de processamento de fluxo de bits). Virtualmente, todos os produtos eletrônicos de consumidor como telefones móveis, televisões, computadores do tipo laptop e computadores do tipo tablet contêm uma unidade de processamento de áudio ou processador de áudio.

[019] Ao longo desta revelação, incluindo nas reivindicações, o termo “acopla” ou “acoplado” é usado em um sentido amplo para significar uma conexão direta ou indireta. Assim, se um primeiro dispositivo se acoplar a um segundo dispositivo, essa conexão pode ser através de uma conexão direta ou através de uma conexão indireta através de outros dispositivos e conexões. Além disso, os componentes que são inte- grados em ou com outros componentes também são acoplados entre si.

DESCRIÇÃO DETALHADA DAS MODALIDADES DA INVENÇÃO

[020] O padrão de AAC MPEG-4 contempla que um fluxo de bits de AAC MPEG-4 codificado inclui metadados indicativos de cada tipo de processamento de reconstrução de alta frequência (“HFR”) a ser aplicado (se qualquer deve ser aplicado) por um decodificador para decodificar conteúdo de áudio do fluxo de bits, e/ou que controla tal processamento de HFR, e/ou são indicativos de pelo menos uma caracte- rística ou parâmetro de pelo menos uma ferramenta de HFR a ser empregada para decodificar conteúdo de áudio do fluxo de bits. No presente documento, usa-se a ex- pressão “metadados de SBR” para denotar metadados desse tipo que é descrito ou mencionado no padrão de AAC MPEG-4 para usar com replicação de banda espectral (“SBR”). Conforme observado por um elemento versado na técnica, SBR é uma forma de HFR.

[021] SBR é, de preferência, usada como um sistema de taxa dupla, com o codec subjacente operando em metade da taxa de amostragem original, enquanto SBR opera na taxa de amostragem original. O codificador de SBR funciona em para- lelo ao codec de núcleo subjacente, apesar de funcionar em uma taxa de amostragem superior. Embora SBR seja principalmente um pós-processo no decodificador, parâ- metros importantes são extraídos no codificador a fim de assegurar a reconstrução de alta frequência mais precisa no decodificador. O codificador estima o envelope espec- tral da faixa de SBR para uma faixa/resolução de tempo e frequência adequada para as características de segmentos de sinal de entrada atual. O envelope espectral é estimado por uma análise de QMF complexa e cálculo de energia subsequente. As resoluções de tempo e frequência dos envelopes espectrais podem ser escolhidas com um alto nível de liberdade, a fim de garantir a melhor resolução de frequência de tempo adequada para o determinado segmento de entrada. A estimativa de envelope precisar considerar que um elemento transiente no original, situado principalmente na região de alta frequência (por exemplo, um alto âmbito) estará presente em menor extensão na banda alta gerada por SBR antes do ajuste de envelope, uma vez que a banda alta no decodificador tem como base a banda baixa em que elemento transiente é muito menos acentuado em comparação à banda alta. Esse aspecto impõe diferen- tes requisitos em relação à resolução de frequência de tempo dos dados de envelope espectral, em comparação à estimativa de envelope espectral comum conforme usado em outros algoritmos de codificação de áudio.

[022] Além do envelope espectral, são extraídos vários parâmetros adicionais que representam características espectrais do sinal de entrada para diferentes regiões de tempo e frequência. Uma vez que o codificador acessou naturalmente o sinal ori- ginal assim como informações sobre como a unidade de SBR no decodificador criará a banda alta, dado o conjunto específico de parâmetros de controle, é possível que o sistema lide com situações em que a banda baixa constitui uma série harmônica forte e a banda alta, a ser recriada, constitui principalmente componentes de sinal aleató- rios, assim como situações em que componentes tonais fortes estão presentes na banda alta original sem contrapartes na banda baixa, na qual a região de banda alta tem base. Adicionalmente, o codificador de SBR funciona em relação próxima com o codec de núcleo subjacente para avaliar qual faixa de frequência deve ser coberta por SBR em um determinado momento. Os dados SBR são codificados eficientemente antes da transmissão ao explorar codificação por entropia assim como dependências de canal dos dados de controle, no caso de sinais estéreos.

[023] Os algoritmos de extração de parâmetro de controle precisam tipica- mente ser sintonizados cuidadosamente com o codec subjacente em uma determi- nada taxa de bits e em uma determinada taxa de amostragem. Isso ocorre devido ao fato de que uma taxa de bits inferior implica usualmente em uma faixa de SBR maior em comparação a uma alta taxa de bits, e diferentes taxas de amostragem correspon- dem a diferentes resoluções de tempo dos quadros de SBR.

[024] Um decodificador de SBR inclui tipicamente várias partes diferentes. O mesmo compreende um módulo de decodificação de fluxo de bits, um módulo de re- construção de alta frequência (HFR), um módulo de componentes de alta frequência adicional e um módulo ajustador de envelope. O sistema tem como base um banco de filtro de QMF de valor complexo (para SBR de alta qualidade) ou um banco de filtro de QMF de valor real (para SBR de baixa potência). As modalidades da invenção são aplicáveis tanto à SBR de alta qualidade quanto à SBR de baixa potência. No módulo de extração de fluxo de bits, os dados de controle são lidos a partir do fluxo de bits e decodificados. A grade de frequência de tempo é obtida para o quadro atual, antes de ler os dados de envelope do fluxo de bits. O decodificador de núcleo subjacente de- codifica o sinal de áudio do quadro atual (apesar de estar em uma taxa de amostragem inferior) para produzir amostras de áudio de domínio de tempo. O quadro de dados de áudio resultante é usado para reconstrução de alta frequência pelo módulo de HFR.

O sinal de banda baixa decodificado é, então, analisado com o uso de um banco de filtro de QMF. O ajuste de reconstrução de alta frequência e envelope é realizado sub- sequentemente nas amostras de sub-banda do banco de filtro de QMF. As altas fre- quências são reconstruídas a partir da banda baixa de uma forma flexível com base nos determinados parâmetros de controle. Adicionalmente, a banda alta reconstruída é filtrada adaptativamente em uma base de canal de sub-banda de acordo com os dados de controle para garantir as características espectrais apropriadas da determi- nada região de tempo/frequência.

[025] O nível superior de um fluxo de bits de AAC MPEG-4 é uma sequência de blocos de dados (elementos “raw_data_block”), cada um dos quais é um segmento de dados (chamado de um “bloco” no presente documento) que contém dados de áudio (tipicamente por um período de tempo de 1024 ou 960 amostras) e informações relacionadas e/ou outros dados. No presente documento, usa-se o termo “bloco” para denotar um segmento de um fluxo de bits de AAC MPEG-4 que compreende dados de áudio (e metadados correspondentes e, opcionalmente, também outros dados re- lacionados) que determinam ou são indicativos de um (mas não mais de um) elemento “raw_data_block”.

[026] Cada bloco de um fluxo de bits de AAC MPEG-4 pode incluir diversos elementos sintáticos (cada um dos quais também é materializado no fluxo de bits como um segmento de dados). Sete tipos de tais elementos sintáticos são definidos no padrão de AAC MPEG-4. Cada elemento sintático é identificado por um valor dife- rente do elemento de dados “id_syn_ele”. Exemplos de elementos sintáticos incluem um “single_channel_element()”, um “channel_pair_element()” e um “fill_element()”.

Um único elemento de canal é um recipiente incluindo dados de áudio de um único canal de áudio (um sinal de áudio monofônico). Um elemento de par de canal inclui dados de áudio de dois canais de áudio (ou seja, um sinal de áudio estéreo).

[027] Um elemento de preenchimento é um recipiente de informações inclu- indo um identificador (por exemplo, o valor do elemento “id_syn_ele” observado acima) seguido por dados, que são chamados de “dados de preenchimento”. Elemen- tos de preenchimentos foram usados historicamente para ajustar a taxa de bits ins- tantânea de fluxos de bits que devem ser transmitidos em um canal de taxa constante.

Ao adicionar a quantidade apropriada de dados de preenchimento a cada bloco, uma taxa de dados constante pode ser alcançada.

[028] De acordo com as modalidades na invenção, os dados de preenchi- mento podem incluir uma ou mais cargas úteis de extensão que estendem o tipo de dados (por exemplo, metadados) que têm capacidade de serem transmitidos em um fluxo de bits. Um decodificador que recebe fluxos de bits com dados de preenchimento contendo um novo tipo de dados pode ser usado opcionalmente por um dispositivo que recebe o fluxo de bits (por exemplo, um decodificador) para estender a funciona- lidade do dispositivo. Assim, conforme pode ser observado por um elemento versado na técnica, elementos de preenchimento são um tipo especial de estrutura de dados e são diferentes das estruturas de dados tipicamente usadas para transmitir dados de áudio (por exemplo, cargas úteis contendo dados de canais).

[029] Em algumas modalidades da invenção, o identificador usado para iden- tificar um elemento de preenchimento pode consistir em um primeiro bit mais signifi- cativo transmitido de número inteiro não assinado de três bits (“uimsbf”) que tem um valor de 0x6. Em um bloco, vários exemplos do mesmo tipo de elemento sintático (por exemplo, vários elementos de preenchimento) podem ocorrer.

[030] Um outro padrão para codificar fluxos de bits de áudio é o padrão de Codificação de Áudio e Voz Unificados MPEG (USAC) (ISO/IEC 23003-3:2012). O padrão de USAC MPEG descreve a codificação e a decodificação de conteúdo de áudio usando processamento de replicação de banda espectral (incluindo processa- mento de SBR conforme descrito no padrão de AAC MPEG-4, e também incluindo outras formas melhoradas de processamento de replicação de banda espectral). Esse processamento se aplica a ferramentas de replicação de banda espectral (chamadas às vezes de “ferramentas de SBR melhorada” ou “ferramentas de eSBR” no presente documento) de uma versão expandida e melhorada do conjunto de ferramentas de SBR descrito no padrão de AAC MPEG-4. Assim, eSBR (conforme definido no padrão de USAC) é um aprimoramento para SBR (conforme definido no padrão de AAC MPEG-4).

[031] No presente documento, usa-se a expressão “processamento de SBR melhorada” (ou “processamento de eSBR”) para denotar processamento de replica- ção de banda espectral usando pelo menos uma ferramenta de eSBR (por exemplo, pelo menos uma ferramenta de eSBR que é descrita ou mencionada no padrão de USAC MPEG ) que não é descrito ou mencionado no padrão de AAC MPEG-4. Exem- plos de tais ferramentas de eSBR são a transposição harmônica e o pré-processa- mento adicional de correção de QMF ou “pré-nivelamento”.

[032] Um transpositor harmônico de ordem inteira T mapeia uma senoide com frequência ω em uma senoide com frequência Tω, enquanto preserva a duração de sinal. Três ordens, T = 2, 3, 4, são usadas tipicamente em sequência para produzir cada parte da faixa de frequência de saída desejada usando a menor ordem de trans- posição possível. Se a saída acima da quarta ordem for exigida, a mesma pode ser gerada por mudanças de frequência. Quando possível, domínios de tempo de banda de base quase criticamente amostrados são criados para o processamento para minimizar complexidade computacional.

[033] O transpositor harmônico pode ser com base em QMF ou DFT. Ao usar o transpositor harmônico com base em QMF, a extensão de largura de banda do sinal de domínio de tempo de codificador de núcleo é executada totalmente no domínio de QMF, usando uma estrutura de vocodificador de fase modificada, ao realizar decima- ção seguida por alongamento de tempo para cada sub-banda de QMF. A transposição com o uso de vários fatores de transposições (por exemplo, T = 2, 3, 4) é executada em um estágio de transformação de análise/síntese de QMF comum. Uma vez que o transpositor harmônico com base em QMF não apresenta sobreamostragem de do- mínio de frequência adaptativa de sinal, o sinalizador correspondente no fluxo de bits (sbrOversamplingFlag[ch]) pode ser ignorado.

[034] Ao usar o transpositor harmônico com base em DFT, os transpositores de fator 3 e 4 (transpositores de 3ª e 4ª ordem) são, de preferência, integrados no transpositor de fator 2 (transpositor de 2ª ordem) por meio de interpolação para reduzir complexidade. Para cada quadro (correspondente a amostras de codificador de nú- cleo coreCoderFrameLength), o tamanho de transformação nominal de “tamanho to- tal” do transpositor é determinado primeiramente pela sobreamostragem de domínio de frequência adaptativa de sinal sinalizador (sbrOversamplingFlag[ch]) no fluxo de bits.

[035] Quando sbrPatchingMode==1, indicando que a transposição linear deve ser usada para gerar a banda alta, uma etapa adicional pode ser introduzida para evitar descontinuidades no formato do envelope espectral do sinal de alta frequência sendo inserida no ajustador de envelope subsequente. Isso aprimora a operação do estágio de ajuste de envelope subsequente, resultando em um sinal de banda alta que é percebido como sendo mais estável. A operação do pré-processamento adicional é benéfica para tipos de sinal em que o envelope espectral bruto do sinal de banda baixa que é usado para reconstrução de alta frequência exibe grandes variações de nível.

Entretanto, o valor do elemento de fluxo de bits pode ser determinado no codificador ao aplicar qualquer tipo de classificação dependente de sinal. O pré-processamento adicional é, de preferência, ativado através de um elemento de fluxo de bits de um bit, bs_sbr_preprocessing. Quando bs_sbr_preprocessing é definido como um, o proces- samento adicional é habilitado. Quando bs_sbr_preprocessing é definido como zero, o pré-processamento adicional é desabilitado. O processamento adicional preferencial utiliza uma curva preGain que é usada pelo gerador de alta frequência para escalonar a banda baixa, XBaixa, para cada correção. Por exemplo, a curva preGain pode ser calculada de acordo com: /20 𝑝𝑟𝑒𝐺𝑎𝑖𝑛 𝑘 10 ,0 𝑘 𝑘0

[036] onde k0 é a primeira sub-banda de QMF na tabela de banda de frequên- cia principal e lowEnvSlope é calculado usando uma função que computa coeficientes de um polinômio de melhor ajuste (em um sentido de mínimos quadrados) como polyfit(). Por exemplo, 𝑝𝑜𝑙𝑦𝑓𝑖𝑡 3, 𝑘0 , 𝑥_𝑙𝑜𝑤𝑏𝑎𝑛𝑑, 𝑙𝑜𝑤𝐸𝑛𝑣, 𝑙𝑜𝑤𝐸𝑛𝑣𝑆𝑙𝑜𝑝𝑒 ;

[037] pode ser empregado (usando um polinômio de terceiro grau) e onde 𝜑 0,0 𝑙𝑜𝑤𝐸𝑛𝑣 𝑘 10 log10 ,0 𝑘 𝑘0 𝑛𝑢𝑚𝑇𝑖𝑚𝑒𝑆𝑙𝑜𝑡𝑠 ∙ 𝑅𝐴𝑇𝐸 6

[038] onde x_lowband(k)=[0…k0-1], numTimeSlot é o número de fendas de tempo de envelope de SBR que existe dentro um quadro, RATE é uma constante que indica o número de amostras de sub-banda de QMF por faixa de tempo (por exemplo, 2), φk é um coeficiente de filtro de previsão linear (potencialmente obtido a partir do método de covariância) e onde 1 ∑ 00 𝑚𝑒𝑎𝑛𝑁𝑟𝑔 . 0

[039] Um fluxo de bits gerado de acordo com o padrão de USAC MPEG (cha- mado às vezes um “fluxo de bits de USAC” no presente documento) inclui conteúdo de áudio codificado e inclui tipicamente metadados indicativos de cada tipo de proces- samento de replicação de banda espectral a ser aplicado por um decodificador para decodificar conteúdo de áudio do fluxo de bits de USAC e/ou metadados que contro- lam tal processamento de replicação de banda espectral e/ou são indicativos de pelo menos uma característica ou parâmetro de pelo menos uma ferramenta de SBR e/ou ferramenta de eSBR a ser empregada para decodificar conteúdo de áudio do fluxo de bits de USAC.

[040] No presente documento, usa-se a expressão “metadados de SBR me- lhorada” (ou “metadados de eSBR”) para denotar metadados indicativos de cada tipo de processamento de replicação de banda espectral a ser aplicado por um decodifi- cador para decodificar conteúdo de áudio de um fluxo de bits de áudio codificado (por exemplo, um fluxo de bits de USAC) e/ou que controlam tal processamento de repli- cação de banda espectral, e/ou são indicativos de pelo menos uma característica ou parâmetro de pelo menos uma ferramenta de SBR e/ou ferramenta de eSBR a ser empregada para decodificar tal conteúdo de áudio, mas que não são descritos ou mencionados no padrão de AAC MPEG-4. Um exemplo de metadados de eSBR são os metadados (indicativos de ou para controlar processamento de replicação de banda espectral) que são descritos ou mencionados no padrão de USAC MPEG, mas não no padrão de AAC MPEG-4. Assim, os metadados de eSBR denotam no presente documento metadados que não são metadados de SBR, e metadados de SBR deno- tam no presente documento metadados que não são metadados de eSBR.

[041] Um fluxo de bits de USAC pode incluir tanto metadados de SBR quanto metadados de eSBR. Mais especificamente, um fluxo de bits de USAC pode incluir metadados de eSBR que controlam o desempenho de processamento de eSBR por um decodificador, e metadados de SBR que controlam o desempenho de processa- mento de SBR pelo decodificador. De acordo com as modalidades típicas da presente invenção, metadados de eSBR (por exemplo, dados de configuração específica de eSBR) são incluídos (de acordo com a presente invenção) em um fluxo de bits de AAC MPEG-4 (por exemplo, no recipiente de sbr_extension() no final de uma carga útil de SBR).

[042] O desempenho de processamento de eSBR durante a decodificação de um fluxo de bits codificado usando um conjunto de ferramentas de eSBR (compreen- dendo pelo menos uma ferramenta de eSBR), por um decodificador regera a banda de alta frequência do sinal de áudio com base em replicação de sequências de ele- mentos harmônicos que foram truncados durante a codificação. Tal processamento de eSBR ajusta tipicamente o envelope espectral da banda de alta frequência gerada e aplica filtração inversa, e adiciona componentes de ruído e senoidais a fim de recriar as características espectrais do sinal de áudio original.

[043] De acordo com as modalidades típicas da invenção, metadados de eSBR são incluídos (por exemplo, um pequeno número de bits de controle que são metadados de eSBR é incluído) em um ou mais de segmentos de metadados de um fluxo de bits de áudio codificado (por exemplo, um fluxo de bits de AAC MPEG-4) que também inclui dados de áudio codificados em outros segmentos (segmentos de dados de áudio). Tipicamente, pelo menos tal segmento de metadados de cada bloco do fluxo de bits é (ou inclui) um elemento de preenchimento (incluindo um identificador que indica o início do elemento de preenchimento), e os metadados de eSBR são incluídos no elemento de preenchimento após o identificador. A Figura 1 é um dia- grama de blocos de uma cadeia de processamento de áudio exemplificativa (um sistema de processamento de dados de áudio) na qual um ou mais elementos do sistema podem ser configurados de acordo com uma modalidade da presente inven- ção. O sistema inclui os elementos a seguir, acoplados em conjunto conforme mos- trado: codificador 1, subsistema de entrega 2, decodificador 3 e unidade de pós-pro- cessamento 4. Em variações no sistema mostrado, um ou mais elementos são omiti- dos ou unidades de processamento de dados de áudio adicionais são incluídas.

[044] Em algumas implementações, o codificador 1 (que inclui opcionalmente uma unidade de pré-processamento) é configurado para aceitar amostras de PCM (domínio de tempo) compreendendo conteúdo de áudio como entrada, e emitir um fluxo de bits de áudio codificado (que tem um formato que está em conformidade com o padrão de AAC MPEG-4) que é indicativo do conteúdo de áudio. Os dados do fluxo de bits que são indicativos do conteúdo de áudio são chamados às vezes de “dados de áudio” ou “dados de áudio codificados” no presente documento. Se o codificador for configurado de acordo com uma modalidade típica da presente invenção, o fluxo de bits de áudio emitido a partir do codificador inclui metadados de eSBR (e também tipicamente outros metadados) assim como dados de áudio.

[045] Um ou mais fluxos de bits de áudio codificados emitidos a partir do co- dificador 1 podem ser expressados para subsistema de entrega de áudio codificado

2. O subsistema 2 é configurado para armazenar e/ou entregar cada fluxo de bits co- dificado emitido a partir do codificador 1. Um fluxo de bits de áudio codificado emitido a partir do codificador 1 pode ser armazenado pelo subsistema 2 (por exemplo, na forma de um DVD ou disco do tipo Blu ray), ou transmitido pelo subsistema 2 (que pode implementar um enlace ou rede de transmissão), ou pode ser tanto armazenado quanto transmitido pelo subsistema 2.

[046] O decodificador 3 é configurado para decodificar um fluxo de bits de AAC MPEG-4 codificado de áudio (gerado pelo codificador 1) que o mesmo recebe através do subsistema 2. Em algumas modalidades, o decodificador 3 é configurado para extrair metadados de eSBR de cada bloco do fluxo de bits, e decodificar o fluxo de bits (incluindo ao realizar processamento de eSBR usando os metadados de eSBR extraídos) para gerar dados de áudio decodificados (por exemplo, fluxos de amostras de áudio de PCM decodificadas). Em algumas modalidades, o decodificador 3 é con- figurado para extrair metadados de SBR do fluxo de bits (mas para ignorar metadados de eSBR incluídos no fluxo de bits), e decodificar o fluxo de bits (incluindo ao realizar processamento de SBR usando os metadados de SBR extraídos) para gerar dados de áudio decodificados (por exemplo, fluxos de amostras de áudio de PCM decodifi- cadas). Tipicamente, o decodificador 3 inclui uma memória principal que armazena (por exemplo, de uma maneira não transitória) segmentos do fluxo de bits de áudio codificado recebido do subsistema 2.

[047] A unidade pós-processamento 4 da Figura 1 é configurada para aceitar um fluxo de dados de áudio decodificados do decodificador 3 (por exemplo, amostras de áudio de PCM decodificadas), e realizar pós-processamento nas mesmas. A uni- dade de pós-processamento também pode ser configurada para renderizar o conte- údo de áudio pós-processado (ou o áudio decodificado recebido do decodificador 3) para reprodução por um ou mais alto falantes.

[048] A Figura 2 é um diagrama de blocos de um codificador (100) que é uma modalidade da unidade de processamento de áudio inventiva. Qualquer um dos com- ponentes ou elementos do codificador 100 pode ser implementado como um ou mais processos e/ou um ou mais circuitos (por exemplo, ASICs, FPGAs ou outros circuitos integrados) em hardware, software ou uma combinação de hardware e software. O codificador 100 inclui codificador 105, estágio de preenchedor/formatador 107, estágio de geração de metadados 106 e memória de armazenamento temporário 109 conec- tados conforme mostrado. Tipicamente, o codificador 100 também inclui outros ele- mentos de processamento (não mostrados). O codificador 100 é configurado para converter um fluxo de bits de áudio de entrada em um fluxo de bits de AAC MPEG-4 de saída codificado.

[049] O gerador de metadados 106 é acoplado e configurado para gerar (e/ou passar pelo estágio 107) metadados (incluindo metadados de eSBR e metadados de SBR) a serem incluídos pelo estágio 107 no fluxo de bits codificado a ser emitido a partir do codificador 100.

[050] O codificador 105 é acoplado e configurado para codificar (por exemplo, ao realizar a compressão nos mesmos) os dados de áudio inseridos, e expressar o áudio codificado resultante para o estágio 107 para inclusão no fluxo de bits codificado a ser inserido a partir do estágio 107.

[051] O estágio 107 é configurado para multiplexar o áudio codificado do co- dificador 105 e os metadados (incluindo metadados de eSBR e metadados de SBR) do gerador 106 para gerar o fluxo de bits codificado a ser emitido a partir do estágio 107, de preferência, de modo que o fluxo de bits codificado tenha formato conforme especificado por uma das modalidades da presente invenção.

[052] A memória de armazenamento temporário 109 é configurada para arma- zenar (por exemplo, de uma maneira não transitória) pelo menos um bloco do fluxo de bits de áudio codificado emitido a partir do estágio 107, e, então, uma sequência dos blocos do fluxo de bits de áudio codificado é, então, expressada a partir da me- mória de armazenamento temporário 109 como saída do codificador 100 para um sis- tema de entrega.

[053] A Figura 3 é um diagrama de blocos de um sistema incluindo decodifi- cador (200) que é uma modalidade da unidade de processamento de áudio inventiva, e, opcionalmente, também um pós-processador (300) acoplado à mesma. Qualquer um dos componentes ou elementos do decodificador 200 e pós-processador 300 pode ser implementado como um ou mais processos e/ou um ou mais circuitos (por exem- plo, ASICs, FPGAs ou outros circuitos integrados) em hardware, software ou uma combinação de hardware e software. O decodificador 200 compreende memória de armazenamento temporário 201, desformatador de carga útil de fluxo de bits (analisa- dor) 205, subsistema de decodificação de áudio 202 (chamado às vezes de um está- gio de descodificação “de núcleo” ou subsistema de decodificação “de núcleo”), está- gio de processamento de eSBR 203 e estágio de geração de bit de controle 204 co- nectados conforme mostrado. Tipicamente, o decodificador 200 também inclui outros elementos de processamento (não mostrados).

[054] A memória de armazenamento temporário (armazenamento temporário) 201 armazena (por exemplo, de uma maneira não transitória) pelo menos um bloco de um fluxo de bits de AAC MPEG-4 codificado de áudio recebido pelo decodificador

200. Na operação do decodificador 200, uma sequência dos blocos do fluxo de bits é expressada a partir do armazenamento temporário 201 para o desformatador 205.

[055] Em variações na modalidade da Figura 3 (ou na modalidade da Figura 4 a ser descrita), uma APU que não é um decodificador (por exemplo, APU 500 da Figura 6) inclui uma memória de armazenamento temporário (por exemplo, uma me- mória de armazenamento temporário idêntica ao armazenamento temporário 201) que armazena (por exemplo, de uma maneira não transitória) pelo menos um bloco de um fluxo de bits de áudio codificado (por exemplo, um fluxo de bits de AAC MPEG-4 de áudio) do mesmo tipo recebido pelo armazenamento temporário 201 da Figura 3 ou Figura 4 (isto é, um fluxo de bits de áudio codificado que inclui metadados de eSBR).

[056] Com referência novamente à Figura 3, o desformatador 205 é acoplado e configurado para demultiplexar cada bloco do fluxo de bits para extrair metadados de SBR (incluindo dados de envelope quantificados) e metadados de eSBR (e, tipica- mente, também outras metadados) a partir do mesmo, para expressar pelo menos os metadados de eSBR e os metadados de SBR para estágio de processamento de eSBR 203, e, tipicamente, também para expressar outros metadados extraídos para subsistema de decodificação 202 (e, opcionalmente, também para gerador de bit de controle 204). O desformatador 205 também é acoplado e configurado para extrair dados de áudio de cada bloco do fluxo de bits, e expressar os dados de áudio extraí- dos para o subsistema de decodificação (estágio de decodificação) 202.

[057] O sistema da Figura 3 também inclui opcionalmente o pós-processador

300. O pós-processador 300 inclui memória de armazenamento temporário (armaze- namento temporário) 301 e outros elementos de processamento (não mostrados) in- cluindo pelo menos um elemento de processamento acoplado ao armazenamento temporário 301. O armazenamento temporário 301 armazena (por exemplo, de uma maneira não transitória) pelo menos um bloco (ou quadro) dos dados de áudio deco- dificados recebidos pelo pós-processador 300 do decodificador 200. Os elementos de processamento do pós-processador 300 são acoplados e configurados para receber e processar adaptativamente uma sequência dos blocos (ou quadros) do áudio deco- dificado emitido a partir do armazenamento temporário 301, usando metadados emi- tidos a partir do subsistema de decodificação 202 (e/ou desformatador 205) e/ou bits de controle emitidos a partir do estágio 204 do decodificador 200.

[058] O subsistema de decodificação de áudio 202 do decodificador 200 é configurado para decodificar os dados de áudio extraídos pelo analisador 205 (tal des- codificação pode ser chamada de uma operação de decodificação “de núcleo”) para gerar dados de áudio decodificados, e expressar os dados de áudio decodificados para estágio de processamento de eSBR 203. A decodificação é realizada no domínio de frequência e inclui tipicamente quantificação inversa seguida por processamento espectral. Tipicamente, um estágio final de processamento no subsistema 202 aplica uma transformação de domínio de tempo para domínio de frequência a dados de áu- dio de domínio de frequência decodificados, de modo que a saída de subsistema seja dados de áudio decodificados de domínio de tempo. O estágio 203 é configurado para aplicar ferramentas de SBR e ferramentas de eSBR indicadas pelos metadados de eSBR e pela eSBR (extraídos pelo analisador 205) aos dados de áudio decodificados (isto é, realizar processamento de SBR e eSBR na saída de subsistema de decodificação 202 usando os metadados de SBR e eSBR) para gerar os dados de áudio completamente decodificados que são emitidos (por exemplo, para o pós-pro- cessador 300) do decodificador 200. Tipicamente, o decodificador 200 inclui uma me- mória (acessível pelo subsistema 202 e pelo estágio 203) que armazena os dados de áudio e metadados desformatados emitidos a partir do desformatador 205, e o estágio 203 é configurado para acessar os dados de áudio e metadados (incluindo metadados de SBR e metadados de eSBR) conforme necessário durante o processamento de SBR e eSBR. O processamento de SBR e o processamento de eSBR no estágio 203 podem ser considerados como sendo pós-processamento na saída do subsistema de decodificação de núcleo 202. Opcionalmente, o decodificador 200 também inclui um subsistema de mistura ascendente final (que pode aplicar ferramentas estéreas para- métricas (“PS”) definidas no padrão de AAC MPEG-4, usando metadados de PS ex- traídos pelo desformatador 205 e/ou bits de controle gerados no subsistema 204) que é acoplado e configurado para realizar mistura ascendente na saída do estágio 203 para gerar áudio misturado ascendentemente completamente decodificado que é emi- tido a partir do decodificador 200. Alternativamente, o pós-processador 300 é configu- rado para realizar mistura ascendente na saída do decodificador 200 (por exemplo, usando de metadados de PS extraídos pelo desformatador 205 e/ou bits de controle gerados no subsistema 204).

[059] Em resposta a metadados extraídos pelo desformatador 205, o gerador de bit de controle 204 pode gerar dados de controle, e os dados de controle podem ser usados dentro do decodificador 200 (por exemplo, em um subsistema de mistura ascendente final) e/ou expressados como saída do decodificador 200 (por exemplo, para pós-processador 300 para usar no pós-processamento). Em resposta a metada- dos extraídos do fluxo de bits (e, opcionalmente, também em resposta a dados de controle), o estágio 204 pode gerar (e expressar para pós-processador 300) bits de controle que indicam que dados de áudio decodificados emitidos a partir do estágio de processamento de eSBR 203 devem ser submetidos a um tipo específico de pós- processamento. Em algumas implementações, o decodificador 200 é configurado para expressar metadados extraídos pelo desformatador 205 do fluxo de bits de entrada para pós-processador 300, e o pós-processador 300 é configurado para realizar pós- processamento nos dados de áudio decodificados emitidos a partir do decodificador 200 usando os metadados.

[060] A Figura 4 é um diagrama de blocos de uma unidade de processamento de áudio (“APU”) (210) que é uma outra modalidade da unidade de processamento de áudio inventiva. A APU 210 é um decodificador de legado que não é configurado para realizar processamento de eSBR. Qualquer um dos componentes ou elementos da APU 210 pode ser implementado como um ou mais processos e/ou um ou mais cir- cuitos (por exemplo, ASICs, FPGAs ou outros circuitos integrados) em hardware, sof- tware ou uma combinação de hardware e software. A APU 210 compreende memória de armazenamento temporário 201, desformatador de carga útil de fluxo de bits (ana- lisador) 215, subsistema de decodificação de áudio 202 (chamado às vezes de um estágio de descodificação “de núcleo” ou subsistema de decodificação “de núcleo”) e estágio de processamento de SBR 213 conectado conforme mostrado. Tipicamente, a APU 210 também inclui outros elementos de processamento (não mostrados). A APU 210 pode representar, por exemplo, um codificador, decodificador ou transcodi- ficador de áudio.

[061] Os elementos 201 e 202 da APU 210 são idênticos aos elementos do decodificador 200 numerados identicamente (da Figura 3) e a descrição acima dos mesmos não será repetida. Na operação da APU 210, uma sequência de blocos de um fluxo de bits de áudio codificado (um fluxo de bits de AAC MPEG-4) recebido pela APU 210 é expressada a partir do armazenamento temporário 201 para o desforma- tador 215.

[062] O desformatador 215 é acoplado e configurado para demultiplexar cada bloco do fluxo de bits para extrair metadados de SBR (incluindo dados de envelope quantificados) e, tipicamente, também outros metadados da mesma, mas ignorar me- tadados de eSBR que podem ser incluídos no fluxo de bits de acordo com qualquer modalidade da presente invenção. O desformatador 215 é configurado para expressar pelo menos os metadados de SBR para estágio de processamento de SBR 213. O desformatador 215 também é acoplado e configurado para extrair dados de áudio de cada bloco do fluxo de bits, e expressar os dados de áudio extraídos para o subsis- tema de decodificação (estágio de decodificação) 202.

[063] O subsistema de decodificação de áudio 202 do decodificador 200 é configurado para decodificar os dados de áudio extraídos pelo desformatador 215 ((tal descodificação pode ser chamada de uma operação de decodificação “de núcleo”) para gerar dados de áudio decodificados, e expressar os dados de áudio decodifica- dos para estágio de processamento de SBR 213. A decodificação é realizada no do- mínio de frequência. Tipicamente, um estágio final de processamento no subsistema 202 aplica uma transformação de domínio de tempo para domínio de frequência a dados de áudio de domínio de frequência decodificados, de modo que a saída de subsistema seja dados de áudio decodificados de domínio de tempo. O estágio 213 é configurado para aplicar ferramentas de SBR (mas não ferramentas de eSBR) indica- das pelos metadados de SBR (extraídos pelo desformatador 215) aos dados de áudio decodificados (isto é, realizar processamento de SBR na saída de subsistema de de- codificação 202 usando os metadados de SBR) para gerar os dados de áudio com- pletamente decodificados que são emitidos (por exemplo, para pós-processador 300) a partir da APU 210. Tipicamente, a APU 210 inclui uma memória (acessível pelo sub- sistema 202 e pelo estágio 213) que armazena os dados de áudio e metadados des- formatados emitidos a partir do desformatador 215, e o estágio 213 é configurado para acessar os dados de áudio e metadados (incluindo metadados de SBR) conforme ne- cessário durante o processamento de SBR. O processamento de SBR no estágio 213 pode ser considerado como sendo pós-processamento na saída do subsistema de decodificação de núcleo 202. Opcionalmente, a APU 210 também inclui um subsis- tema de mistura ascendente final (que pode aplicar ferramentas estéreas paramétri- cas (“PS”) definidas no padrão de AAC MPEG-4, usando metadados de PS extraídos pelo desformatador 215) que é acoplado e configurado para realizar mistura ascen- dente na saída do estágio 213 para gerar áudio misturado ascendentemente comple- tamente decodificado que é emitido a partir da APU 210. Alternativamente, um pós- processador é configurado para realizar mistura ascendente na saída da APU 210 (por exemplo, usando metadados de PS extraídos pelo desformatador 215 e/ou bits de controle gerados na APU 210).

[064] Várias implementações do codificador 100, do decodificador 200 e da APU 210 são configuradas para realizar diferentes modalidades do método inventivo.

[065] De acordo com algumas modalidades, metadados de eSBR são incluí- dos (por exemplo, um pequeno número de bits de controle que são metadados de eSBR é incluído) em um fluxo de bits de áudio codificado (por exemplo, um fluxo de bits de AAC MPEG-4), de modo que os decodificadores de legado (que não são con- figurados para analisar os metadados de eSBR, ou usar qualquer ferramenta de eSBR à qual os metadados de eSBR pertencem) possam ignorar os metadados de eSBR, mas, no entanto, decodifiquem o fluxo de bits na medida do possível sem o uso dos metadados de eSBR ou qualquer ferramenta de eSBR à qual os metadados de eSBR pertencem, tipicamente, sem qualquer penalidade significativa na qualidade de áudio decodificado. Entretanto, os decodificadores de eSBR configurados para analisar o fluxo de bits para identificar os metadados de eSBR e usar pelo menos uma ferra- menta de eSBR em resposta aos metadados de eSBR, aproveitarão os benefícios de uso de pelo menos tal ferramenta de eSBR. Portanto, as modalidades da invenção fornecem um meio para transmitir eficientemente dados de controle ou metadados de replicação de banda espectral melhorada (eSBR) de um modo retrocompatível.

[066] Tipicamente, os metadados de eSBR no fluxo de bits são indicativos de (por exemplo, são indicativos de pelo menos uma característica ou parâmetro de) uma ou mais das ferramentas de eSBR a seguir (que são descritas no padrão de USAC MPEG , e que podem ter sido aplicadas ou não por um codificador durante a geração do fluxo de bits): Transposição harmônica; e Pré-processamento adicional de correção de QMF (pré-nivelamento).

[067] Por exemplo, os metadados de eSBR incluídos no fluxo de bits podem ser indicativos de valores dos parâmetros (descritos no padrão de USAC MPEG e na presente revelação): sbrPatchingMode[ch], sbrOversamplingFlag[ch], sbrPitchIn- Bins[ch], sbrPitchInBins[ch] e bs_sbr_preprocessing.

[068] No presente documento, a notação X[ch], onde X é algum parâmetro, denota que o parâmetro pertence ao canal (“ch”) de conteúdo de áudio de um fluxo de bits codificado a ser decodificado. A título de simplicidade, às vezes, omite-se a expressão [ch], e considera-se que o parâmetro relevante pertence a um canal de conteúdo de áudio.

[069] No presente documento, a notação X[ch][env], onde X é algum parâme- tro, denota que o parâmetro pertence ao envelope (“env”) de SBR de canal (“ch”) de conteúdo de áudio de um fluxo de bits codificado a ser decodificado A título de simpli- cidade, omite-se as expressões [env] e [ch], e considera-se que o parâmetro relevante pertence a um envelope de SBR de um canal de conteúdo de áudio.

[070] Durante a decodificação de um fluxo de bits codificado, o desempenho de transposição harmônica durante um estágio de processamento de eSBR da deco- dificação (para cada canal, “ch”, de conteúdo de áudio indicado pelo fluxo de bits) é controlado pelos parâmetros de metadados de eSBR a seguir: sbrPatchingMode[ch]: sbrOversamplingFlag[ch]; sbrPitchInBinsFlag[ch] e sbrPitchInBins[ch].

[071] O valor de “sbrPatchingMode[ch]” indica o tipo de transpositor usado em eSBR: sbrPatchingMode[ch] = 1 indica correção de transposição linear conforme des- crito na Seção 4.6.18 do padrão de AAC MPEG-4 (conforme usado com SBR de alta qualidade ou SBR de baixa potência); sbrPatchingMode[ch] = 0 indica correção de SBR harmônica conforme descrito na Seção 7.5.3 ou 7.5.4 do padrão de USAC MPEG .

[072] O valor “sbrOversamplingFlag[ch]” indica o uso de sobreamostragem de domínio de frequência adaptativa de sinal em eSBR em combinação com a correção de SBR harmônica com base em DFT conforme descrito na Seção 7.5.3 do padrão de USAC MPEG . Esse sinalizador controla o tamanho dos DFTs que são utilizados no transpositor: 1 indica sobreamostragem de domínio de frequência adaptativa de sinal habilitado conforme descrito na Seção 7.5.3.1 do padrão de USAC MPEG; 0 indica sobreamostragem de domínio de frequência adaptativa de sinal desabilitada conforme descrito na Seção 7.5.3.1 do padrão de USAC MPEG .

[073] O valor “sbrPitchInBinsFlag[ch]” controla a interpretação do parâmetro sbrPitchInBins[ch]: 1 indica que o valor em sbrPitchInBins[ch] é válido e maior que zero; 0 indica que o valor de sbrPitchInBins[ch] é definido como zero.

[074] O valor “sbrPitchInBins[ch]” controla a adição de termos de produto cru- zado no transpositor harmônico de SBR. O valor sbrPitchinBins[ch] é um valor inteiro na faixa de [0,127] e representa a distância medida em compartimentos de frequência para uma DFT de 1536 linhas que atua na frequência de amostragem do codificador de núcleo.

[075] No caso em que um fluxo de bits de AAC MPEG-4 é indicativo de um par de canais de SBR cujos canais não acoplados (em vez de um único canal de SBR), o fluxo de bits é indicativo de dois exemplos da sintaxe acima (para transposi- ção harmônica ou não harmônica), um para cada canal do sbr_channel_pair_ele- ment().

[076] A transposição harmônica da ferramenta de eSBR aprimora tipicamente a qualidade de sinais musicais decodificados em frequências de cruzamento relativa- mente baixas. A transposição não harmônica (ou seja, correção espectral de legado) aprimora tipicamente sinais de voz. Por conseguinte, um ponto de partida na decisão quanto a qual tipo de transposição é preferencial para codificar conteúdo de áudio específico consiste em selecionar o método de transposição dependendo se a detec- ção de voz/música com transposição harmônica ser empregada no conteúdo musical e correção espectral no conteúdo de voz.

[077] O desempenho de pré-nivelamento durante o processamento de eSBR é controlado pelo valor de um parâmetro de metadados de eSBR de um bit conhecido como “bs_sbr_preprocessing”, no sentido de que o pré-nivelamento é realizado ou não dependendo do valor desse único bit. Quando o algoritmo de correção de QMF de SBR, conforme descrito na Seção 4.6.18.6.3 do padrão de AAC MPEG-4, é usado, a etapa de pré-nivelar pode ser realizada (quando indicada pelo parâmetro “bs_sbr_preprocessing”) em um esforço para evitar descontinuidades no formato do envelope espectral de um sinal de alta frequência que é inserido em ajustador de en- velope subsequente(o ajustador de envelope realiza um outro estágio do processa- mento de eSBR). O pré-nivelamento aprimora tipicamente a operação do estágio de ajuste de envelope subsequente, resultando em um sinal de banda alta que é perce- bido como sendo mais estável.

[078] Espera-se que o requisito de taxa de bits geral para incluir em um fluxo de bits de AAC MPEG-4 metadados de eSBR indicativos das ferramentas de eSBR mencionadas acima (transposição harmônica e pré-nivelamento) seja na ordem de poucas centenas de bits por segundo devido ao fato de que apenas os dados de con- trole diferenciais necessários para realizar processamento de eSBR são transmitidos de acordo com algumas modalidades da invenção. Os decodificadores de legado po- dem ignorar essas informações devido ao fato de que as mesmas são incluídas de uma maneira retrocompatível (conforme será explicado posteriormente). Portanto, o efeito prejudicial sobre a taxa de bits associada à inclusão de metadados de eSBR é desprezível por diversos motivos, incluindo os seguintes:

[079] A penalidade de taxa de bits (devido ao fato de que inclui os metadados de eSBR) é uma fração muito pequena da taxa de bits total devido ao fato de que apenas os dados de controle necessários para realizar processamento de eSBR são transmitidos (e não uma transmissão simultânea dos dados de controle de SBR); e

[080] A sintonização de informações de controle relacionas à SBR não de- pende tipicamente dos detalhes da transposição. Exemplos de quando os dados de controle dependem da operação do transpositor são discutidos posteriormente neste pedido.

[081] Assim, as modalidades da invenção fornecem um meio para transmitir eficientemente dados de controle ou metadados de replicação de banda espectral me- lhorada (eSBR) de um modo retrocompatível. Essa transmissão eficiente dos dados de controle de eSBR reduz requisitos de memória em decodificadores, codificadores e transcodificadores que empregam aspectos da invenção, enquanto não tem nenhum efeito adverso tangível sobre a taxa de bits. Além disso, os requisitos de complexidade e processamento associados à realização de eSBR de acordo com as modalidades da invenção também são reduzidos devido ao fato de que os dados de SBR precisam ser apenas processados e transmitidos simultaneamente, o que poderia ser o caso se a eSBR for tratada como um tipo de objeto completamente separado em MPEG-4 AAC em vez de ser integrada ao codec de AAC MPEG-4 de uma maneira retrocompatível.

[082] A seguir, com referência à Figura 7, descreve-se elementos de um bloco (“raw_data_block”) de um fluxo de bits de AAC MPEG-4 no qual metadados de eSBR são incluídos de acordo com algumas modalidades da presente invenção. A Figura 7 é um diagrama de um bloco (um “raw_data_block”) do fluxo de bits de AAC MPEG-4 que mostra alguns dos segmentos do mesmo.

[083] Um bloco de um fluxo de bits de AAC MPEG-4 pode incluir pelo menos um “single_channel_element()” (por exemplo, o elemento de único canal mostrado na Figura 7), e/ou pelo menos um “channel_pair_element()” (não especificamente mos- trado na Figura 7 embora possa estar presente), incluindo dados de áudio para um programa de áudio. O bloco também pode incluir diversos “fill_elements” (por exem- plo, elemento de preenchimento 1 e/ou elemento de preenchimento 2 da Figura 7) incluindo dados (por exemplo, metadados) relacionados ao programa. Cada “sin- gle_channel_element()” inclui um identificador (por exemplo, “ID1” da Figura 7) indi- cando o início de um elemento de único canal, e pode incluir dados de áudio indicati- vos de um canal diferente de um programa de áudio de múltiplos canais. Cada "chan- nel_pair_element" inclui um identificador (não mostrado na Figura 7) indicando o início de um elemento de par de canais, e pode incluir dados de áudio indicativos de dois canais do programa.

[084] Um fill_element (chamado de um elemento de preenchimento no pre- sente documento) de um fluxo de bits de AAC MPEG-4 inclui um identificador (“ID2” da Figura 7) indicando o início de um elemento de preenchimento, e dados de preen- chimento após o identificador. O identificador ID2 pode consistir em um primeiro bit mais significativo transmitido de número inteiro não assinado de três bits (“uimsbf”) que tem um valor de 0x6. Os dados de preenchimento podem incluir um elemento de extension_payload() (chamado às vezes de uma carga útil de extensão no presente documento) cuja sintaxe é mostrada na Tabela 4.57 do padrão de AAC MPEG-4. Vá- rios tipos de cargas úteis de extensão existem e são identificados através do parâme- tro “extension_type”, que é um primeiro bit mais significativo transmitido de número inteiro não assinado de quatro bits (“uimsbf”).

[085] Os dados de preenchimento (por exemplo, uma carga útil de extensão dos mesmos) podem incluir um cabeçalho ou identificador (por exemplo, “cabeçalho1” da Figura 7) que indica um segmento de dados de preenchimento que é indicativo de um objeto de SBR (isto é, o cabeçalho inicializa um tipo de “objeto de SBR”, chamado de sbr_extension_data() no padrão de AAC MPEG-4). Por exemplo, uma carga útil de extensão de replicação de banda espectral (SBR) é identificada com o valor de ‘1101’ ou ‘1110’ para o campo de extension_type no cabeçalho, com o identificador ‘1101’ identificando uma carga útil de extensão com dados de SBR e ‘1110’ identificando uma carga útil de extensão com dados de SBR com uma Verificação de Redundância Cí- clica (CRC) para verificar a exatidão dos dados de SBR.

[086] Quando o cabeçalho (por exemplo, o campo de extension_type) inicia- liza um tipo de objeto de SBR, metadados de SBR (chamados às vezes de “dados de replicação de banda espectral” no presente documento, e chamados de sbr_data() no padrão de AAC MPEG-4) seguem o cabeçalho, e pelo menos um elemento de exten- são de replicação de banda espectral (por exemplo, o “elemento de extensão de SBR” do elemento de preenchimento 1 da Figura 7) pode seguir os metadados de SBR. Tal elemento de extensão de replicação de banda espectral (um segmento do fluxo de bits) é chamado de um recipiente de “sbr_extension()” no padrão de AAC MPEG-4.

Um elemento de extensão de replicação de banda espectral inclui opcionalmente um cabeçalho (por exemplo, “cabeçalho de extensão de SBR” do elemento de preenchi- mento 1 da Figura 7).

[087] O padrão de AAC MPEG-4 contempla que um elemento de extensão de replicação de banda espectral pode incluir dados de PS (elemento estéreo paramé- trico) para dados de áudio de um programa. O padrão de AAC MPEG-4 contempla que, quando o cabeçalho de um elemento de preenchimento (por exemplo, de uma carga útil de extensão do mesmo) inicializa um tipo de objeto de SBR (como o “cabe- çalho1” da Figura 7) e um elemento de extensão de replicação de banda espectral do elemento de preenchimento inclui dados de PS, o elemento de preenchimento (por exemplo, a carga útil de extensão do mesmo) inclui dados de replicação de banda espectral, e um parâmetro “bs_extension_id” cujo valor (isto é, bs_extension_id = 2) indica que os dados de PS data são incluídos em um elemento de extensão de replicação de banda espectral do elemento de preenchimento.

[088] De acordo com algumas modalidades da presente invenção, metadados de eSBR (por exemplo, um sinalizador indicativo de se o processamento de replicação de banda espectral melhorada (eSBR) deve ser realizado no conteúdo de áudio do bloco) são incluídos em um elemento de extensão de replicação de banda espectral de um elemento de preenchimento. Por exemplo, tal sinalizador é indicado no ele- mento de preenchimento 1 da Figura 7, em que o sinalizador ocorre após o cabeçalho (o “cabeçalho de extensão de SBR” do elemento de preenchimento 1) de “elemento de extensão de SBR” do elemento de preenchimento 1. Opcionalmente, tal sinalizador e metadados de eSBR adicionais são incluídos em um elemento de extensão de re- plicação de banda espectral após o cabeçalho do elemento de extensão de replicação de banda espectral (por exemplo, no elemento de extensão de SBR do elemento de preenchimento 1 na Figura 7, após o cabeçalho de extensão de SBR). De acordo com algumas modalidades da presente invenção, um elemento de preenchimento que in- clui metadados de eSBR também inclui um parâmetro “bs_extension_id” cujo valor (por exemplo, bs_extension_id = 3) indica que metadados de eSBR são incluídos no elemento de preenchimento e que o processamento de eSBR deve ser realizado no conteúdo de áudio do bloco relevante.

[089] De acordo com algumas modalidades da invenção, metadados de eSBR são incluídos em um elemento de preenchimento (por exemplo, elemento de preen- chimento 2 da Figura 7) de um fluxo de bits de AAC MPEG-4 diferente de em um elemento de extensão de replicação de banda espectral (elemento de extensão de SBR) do elemento de preenchimento. Isso ocorre devido ao fato de que elementos de preenchimento contendo um extension_payload() com dados de SBR ou dados de SBR com uma CRC não contêm qualquer outra carga útil de extensão de qualquer outro tipo de extensão. Portanto, em modalidades em que metadados de eSBR são armazenados na sua própria carga útil de extensão, um elemento de preenchimento separado é usado para armazenar os metadados de eSBR. Tal elemento de preen- chimento inclui um identificador (por exemplo, “ID2” da Figura 7) indicando o início de um elemento de preenchimento, e dados de preenchimento após o identificador. Os dados de preenchimento podem incluir um elemento de extension_payload() (cha- mado às vezes de uma carga útil de extensão no presente documento) cuja sintaxe é mostrada na Tabela 4.57 do padrão de AAC MPEG-4. Os dados de preenchimento (por exemplo, uma carga útil de extensão dos mesmos) incluem um cabeçalho (por exemplo, “cabeçalho 2” do elemento de preenchimento 2 da Figura 7) que são indica- tivos de um objeto de eSBR (isto é, o cabeçalho inicializa um tipo de objeto de repli- cação de banda espectral melhorada (eSBR)), e os dados de preenchimento (por exemplo, uma carga útil de extensão dos mesmos) incluem metadados de eSBR após o cabeçalho. Por exemplo, o elemento de preenchimento 2 da Figura 7 inclui tal ca- beçalho (“cabeçalho 2”) e também inclui, após o cabeçalho, metadados de eSBR (isto é, o “sinalizador” no elemento de preenchimento 2, que é indicativo de se o processa- mento de replicação de banda espectral melhorada (eSBR) deve ser realizado no con- teúdo de áudio do bloco). Opcionalmente, metadados de eSBR adicionais também são incluídos nos dados de preenchimento do elemento de preenchimento 2 da Figura 7 após o cabeçalho 2. Nas modalidades que são descritas no presente parágrafo, o cabeçalho (por exemplo, cabeçalho 2 da Figura 7) tem um valor de identificação que não é um dos valores convencionais especificados na Tabela 4.57 do padrão de AAC MPEG-4, e é, em vez disso, indicativo de uma carga útil de extensão de eSBR (de modo que o campo extension_type do cabeçalho indica que os dados de preenchi- mento incluem metadados de eSBR).

[090] Em uma primeira classe de modalidades, a invenção é uma unidade de processamento de áudio (por exemplo, um decodificador) compreendendo: uma memória (por exemplo, armazenamento temporário 201 da Figura 3 ou 4) configurada para armazenar pelo menos um bloco de um fluxo de bits de áudio codificado (por exemplo, pelo menos um bloco de um fluxo de bits de AAC MPEG-4); um desformatador de carga útil de fluxo de bits (por exemplo, elemento 205 da Figura 3 ou elemento 215 da Figura 4) acoplado à memória e configurado para demultiplexar pelo menos uma porção do dito bloco do fluxo de bits; e um subsistema de decodificação (por exemplo, elementos 202 e 203 da Fi- gura 3, ou elementos 202 e 213 da Figura 4), acoplado e configurado para decodificar pelo menos uma porção de conteúdo de áudio do dito bloco do fluxo de bits, em que o bloco inclui: um elemento de preenchimento, incluindo um identificador indicando um início do elemento de preenchimento (por exemplo, o identificador “id_syn_ele” que tem va- lor de 0x6 da Tabela 4.85 do padrão de AAC MPEG-4), e dados de preenchimento após o identificador, em que os dados de preenchimento incluem: pelo menos um sinalizador identificando se o processamento de replicação de banda espectral melhorada (eSBR) deve ser realizado no conteúdo de áudio do bloco (por exemplo, usando dados de replicação de banda espectral e metadados de eSBR incluídos no bloco).

[091] O sinalizador são metadados de eSBR, e um exemplo do sinalizador é o sinalizador de sbrPatchingMode. Um outro exemplo do sinalizador é o sinalizador de SBR harmônico. Ambos esses sinalizadores indicam se uma forma de base de replicação de banda espectral ou uma forma melhorada de replicação espectral deve ser realizada nos dados de áudio do bloco. A forma de base da replicação espectral é correção espectral, e a forma melhorada de replicação de banda espectral é transpo- sição harmônica.

[092] Em algumas modalidades, os dados de preenchimento também incluem metadados de eSBR adicionais (isto é, metadados de eSBR diferentes do sinalizador).

[093] A memória pode ser uma memória de armazenamento temporário (por exemplo, uma implementação de armazenamento temporário 201 da Figura 4) que armazena (por exemplo, de uma maneira não transitória) o pelo menos um bloco do fluxo de bits de áudio codificado.

[094] Estima-se que a complexidade de desempenho de processamento de eSBR (usando a transposição harmônica de eSBR e pré-nivelamento) por um deco- dificador de eSBR durante a decodificação de um fluxo de bits de AAC MPEG-4 que inclui metadados de eSBR (indicativos dessas ferramentas de eSBR) seria conforme a seguir (para decodificação típica com os parâmetros indicados): transposição harmônica (16 kbps, 14400/28800 Hz) com base em DFT: 3,68 WMOPS (milhões de operações ponderadas por se- gundo); com base em QMF: 0,98 WMOPS; Pré-processamento de correção de QMF (pré-nivelamento): 0,1 WMOPS

[095] Sabe-se que a transposição com base em DFT se realiza tipicamente melhor que a transposição com base em QMF para elementos transientes.

[096] De acordo com algumas modalidades da presente invenção, um ele- mento de preenchimento (de um fluxo de bits de áudio codificado) que inclui metada- dos de eSBR também inclui um parâmetro (por exemplo, um parâmetro “bs_exten- sion_id”) cujo valor (por exemplo, bs_extension_id = 3) sinaliza que metadados de eSBR são incluídos no elemento de preenchimento e que o processamento de eSBR deve ser realizado no conteúdo de áudio do bloco relevante, e/ou um parâmetro (por exemplo, o mesmo parâmetro “bs_extension_id”) cujo valor (por exemplo, bs_exten- sion_id = 2) sinaliza que um recipiente de sbr_extension() do elemento de preenchi- mento inclui dados de PS. Por exemplo, conforme indicado na Tabela 1 abaixo, tal parâmetro que tem o valor bs_extension_id = 2 pode sinalizar que um recipiente de sbr_extension() do elemento de preenchimento inclui dados de PS, e tal parâmetro que tem o valor bs_extension_id = 3 pode sinalizar que um recipiente de sbr_exten- sion() do elemento de preenchimento inclui metadados de eSBR:

Tabela 1 bs_extension_id Significado 0 Reservado 1 Reservado 2 EXTENSION_ID_PS 3 EXTENSION_ID_ESBR

[097] De acordo com algumas modalidades da invenção, a sintaxe de cada elemento de extensão de replicação de banda espectral que inclui metadados de eSBR e/ou dados de PS data é conforme indicado na Tabela 2 abaixo (na qual “sbr_extension()” denota um recipiente que é o elemento de extensão de replicação de banda espectral, “bs_extension_id” é conforme descritos na Tabela 1 acima, “ps_data” denota dados de PS, e “esbr_data” denota metadados de eSBR): Tabela 2 sbr_extension(bs_extension_id, num_bits_left) { comutação (bs_extension_id) { caso EXTENSION_ID_PS: num_bits_left -= ps_data(); Nota 1 pausa; caso EXTENSION_ID_ESBR: num_bits_left -= esbr_data(); Nota 2 pausa; padrão: bs_fill_bits; num_bits_left = 0; pausa; } } Nota 1: ps_data() retorna o número de bits lido. Nota 2: esbr_data() retorna o número de bits lido.

[098] Em uma modalidade exemplificativa, o esbr_data() referido na Tabela 2 acima é indicativo de valores dos parâmetros de metadados a seguir:

1. o parâmetro de metadados de um bit, “bs_sbr_preprocessing”; e

2. para cada canal (“ch”) de conteúdo de áudio do fluxo de bits codificado a ser decodificado, cada um dos parâmetros descritos acima: “sbrPatchingMode[ch]”; “sbrOversamplingFlag[ch]”; “sbrPitchInBinsFlag[ch]” e “sbrPitchInBins[ch]”.

[099] Por exemplo, em algumas modalidades, o esbr_data() pode ter a sintaxe indicada na Tabela 3 para indicar esses parâmetros de metadados: Tabela 3 Sintaxe n° de bits esbr_data(id_aac, bs_coupling) { bs_sbr_preprocessing; 1 se (id_aac == ID_SCE) { se (sbrPatchingMode[0] == 0) { 1 sbrOversamplingFlag[0]; 1 se (sbrPitchInBinsFlag[0]) 1 sbrPitchInBins[0]; 7 ou sbrPitchInBins[0] = 0; } ou { sbrOversamplingFlag[0] = 0; sbrPitchInBins[0] = 0; } } ou se (id_aac == ID_CPE) { Se (bs_coupling) { se (sbrPatchingMode[0,1] == 0) { 1 sbrOversamplingFlag[0,1]; 1 se (sbrPitchInBinsFlag[0,1]) 1 sbrPitchInBins[0,1]; 7 ou sbrPitchInBins[0,1] = 0; } ou { sbrOversamplingFlag[0,1] = 0; sbrPitchInBins[0,1] = 0; } } ou { /* bs_coupling == 0 */ se (sbrPatchingMode[0] == 0) { 1 sbrOversamplingFlag[0]; 1 se (sbrPitchInBinsFlag[0]) 1 sbrPitchInBins[0]; 7 ou sbrPitchInBins[0] = 0; } ou { sbrOversamplingFlag[0] = 0;

sbrPitchInBins[0] = 0; } se (sbrPatchingMode[1] == 0) { 1 sbrOversamplingFlag[1]; 1 se (sbrPitchInBinsFlag[1]) 1 sbrPitchInBins[1]; 7 ou sbrPitchInBins[1] = 0; } ou { sbrOversamplingFlag[1] = 0; sbrPitchInBins[1] = 0; } } } } Nota: bs_sbr_preprocessing é definido conforme descrito na seção 6.2.12 de ISO/IEC 23003-3:2012. sbrPatchingMode[ch], sbrOversamplingFlag[ch], sbrPitchIn- BinsFlag[ch] e sbrPitchInBins[ch] são definidos conforme descrito na seção 7.5 do ISO/IEC 23003-3:2012.

[0100] A sintaxe acima habilita uma implementação eficiente de uma forma melhorada de replicação de banda espectral como transposição harmônica como uma extensão para um decodificador de legado. Especificamente, os dados de eSBR da Tabela 3 incluem apenas aqueles parâmetros necessários para realizar a forma me- lhorada de replicação de banda espectral que já não são suportados no fluxo de bits ou diretamente deriváveis de parâmetros já suportados no fluxo de bits. Todos os ou- tros parâmetros e dados de processamento necessários para realizar a forma melho- rada de replicação de banda espectral são extraídos de parâmetros pré-existentes em localizações já definidas no fluxo de bits.

[0101] Por exemplo, um decodificador em conformidade com MPEG-4 HE- AAC ou HE-AAC v2 pode ser estendido para incluir uma forma melhorada de replica- ção de banda espectral como transposição harmônica. Essa forma melhorada de re- plicação de banda espectral é adicional à forma de base de replicação de banda es- pectral já suportada pelo decodificador. No contexto de um decodificador em confor- midade com MPEG-4 HE-AAC ou HE-AAC v2, essa forma de base de replicação de banda espectral é a ferramenta de SBR de correção espectral de QMF conforme de- finido na Seção 4.6.18 do padrão de AAC MPEG-4.

[0102] Ao realizar a forma melhorada de replicação de banda espectral, um decodificador de HE-AAC estendido pode reusar qualquer um dos parâmetros de fluxo de bits já incluídos na carga útil de extensão de SBR do fluxo de bits. Os parâmetros específicos que podem ser reusados incluem, por exemplo, os vários parâmetros que determinam a tabela de banda de frequência principal. Esses parâmetros incluem bs_start_freq (parâmetro que determina o início de parâmetro de tabela de frequência principal), bs_stop_freq (parâmetro que determina a interrupção de tabela de frequên- cia principal), bs_freq_scale (parâmetro que determina o número de bandas de fre- quência por oitava), e bs_alter_scale (parâmetro que altera a escala das bandas de frequência). Os parâmetros que podem ser reusados também incluem parâmetros que determinam a tabela de banda de ruído (bs_noise_bands) e os parâmetros de tabela de banda limitadores (bs_limiter_bands). Consequentemente, em várias modalidades, pelo menos alguns dos parâmetros equivalentes especificados no padrão de USAC são omitidos do fluxo de bits, reduzindo, desse modo, a sobrecarga de controle no fluxo de bits. Tipicamente, quando um parâmetro especificado no padrão de AAC tem um parâmetro equivalente especificado no padrão de USAC, o parâmetro equivalente especificado no padrão de USAC tem o mesmo nome que o parâmetro especificado no padrão de AAC, por exemplo, o fator de escala de envelope EOrigMapped. Entretanto, o parâmetro equivalente especificado no padrão de USAC tem tipicamente um valor diferente, que é “sintonizado” com o processamento de SBR melhorada definido no padrão de USAC em vez de com o processamento de SBR definido no padrão de AAC.

[0103] A fim de aprimorar a qualidade subjetiva para conteúdo de áudio com estrutura de frequência harmônica e características tonais fortes, em particular, em baixas taxas de bits, a ativação de SBR melhorada é recomendada. Os valores do elemento de fluxo de bits correspondente (isto é, esbr_data()), que controla essas fer- ramentas podem ser determinados no codificador ao aplicar um mecanismo de clas- sificação dependente de sinal. Em geral, o uso do método de correção harmônica (sbrPatchingMode == 1) é preferencial para codificar sinais musicais em taxas de bits muito baixas, em que o codec de núcleo pode ser limitado consideravelmente em lar- gura de banda de áudio. Isso é especialmente verdadeiro se esses sinais incluírem uma estrutura harmônica acentuada. Em contrapartida, o uso do método de correção de SBR regular é preferencial para sinais de voz e misturados, uma vez que o mesmo fornece uma melhor conservação da estrutura temporal na voz.

[0104] A fim de aprimorar o desempenho do transpositor harmônico, uma etapa de pré-processamento pode ser ativada (bs_sbr_preprocessing == 1) que se esforça para evitar a introdução de descontinuidades espectrais do sinal que vai para o ajustador de envelope subsequente. A operação da ferramenta é benéfica para tipos de sinal em que o envelope espectral bruto do sinal de banda baixa que é usado para reconstrução de alta frequência exibe grandes variações de nível.

[0105] A fim de aprimorar a resposta transiente da correção de SBR harmô- nica, a sobreamostragem de domínio de frequência adaptativa de sinal pode ser apli- cada (sbrsbrOversamplingFlag== 1). Uma vez que a sobreamostragem de domínio de frequência adaptativa de sinal aumenta a complexidade computacional do transposi- tor, mas apenas traz benefícios para quadros que contêm elementos transientes, o uso dessa ferramenta é controlado pelo elemento de fluxo de bits, que é transmitido uma vez por quadro e por canal de SBR independente.

[0106] Um decodificador que opera no modo de SBR melhorada proposto pre- cisa tipicamente ter capacidade de comutar entre correção de SBR de legado e me- lhorada. Portanto, pode ser introduzido o atraso que pode ser tão longo quanto a du- ração de um quadro de áudio principal, dependendo da configuração de decodificador.

Tipicamente, o atraso tanto para correção de SBR de legado quanto melhorada será similar.

[0107] Além dos inúmeros parâmetros, outros elementos de dados também podem ser reusados por um decodificador de HE-AAC estendido ao realizar uma forma melhorada de replicação de banda espectral de acordo com as modalidades da invenção. Por exemplo, os dados de envelope e dados de piso de ruído também po- dem ser extraídos dos dados de bs_data_env (fatores de escala de envelope) e bs_noise_env (fatores de escala de piso de ruído) e usados durante a forma melho- rada de replicação de banda espectral.

[0108] Essencialmente, essas modalidades exploram os parâmetros de confi- guração e dados de envelope já suportados por um decodificador de HE-AAC ou HE- AAC v2 de legado na carga útil de extensão de SBR para habilitar uma forma melho- rada de replicação de banda espectral que exige o mínimo possível de dados trans- mitidos extras. Os metadados foram sintonizados originalmente com uma forma de base de HFR (por exemplo, a operação de translação espectral de SBR), mas, de acordo com modalidades, são usados para uma forma melhorada de HFR (por exem- plo, a transposição harmônica de eSBR). Conforme previamente discutido, os meta- dados representam, em geral, parâmetros operacionais (por exemplo, fatores de es- cala de envelope, fatores de escala de piso de ruído, parâmetros de grade de tempo/frequência, informações de adição de senoide, cruzamento variável de frequên- cia/banda, modo de filtração inversa, resolução de envelope, modo de suavização, modo de interpolação de frequência) sintonizados e destinados a serem usados com a forma de base de HFR (por exemplo, translação espectral linear). Entretanto, esses metadados, combinados com parâmetros de metadados adicionais específicos para a forma melhorada de HFR (por exemplo, transposição harmônica), podem ser usados para processar eficiente e eficazmente os dados de áudio usando a forma melhorada de HFR.

[0109] Consequentemente, decodificadores estendidos que suportam uma forma melhorada de replicação de banda espectral podem ser criados de uma maneira muito eficiente ao se basear em elementos de fluxo de bits já definidos (por exemplo, aqueles na carga útil de extensão de SBR) e adicionar apenas aqueles parâmetros necessários para suportar a forma melhorada de replicação de banda espectral (em uma carga útil de extensão de elemento de preenchimento). Esse recurso de redução de dados combinado com a colocação de parâmetros recentemente adicionados em um campo de dados reservados como um recipiente de extensão reduzem substanci- almente as barreiras para criar um decodificador que suporta uma forma melhorada de replicação de banda espectral ao garantir que o fluxo de bits seja retrocompatível com o decodificador de legado que não suporta a forma melhorada de replicação de banda espectral.

[0110] Na Tabela 3, o número na coluna direita indica o número de bits do parâmetro correspondente na coluna esquerda.

[0111] Em algumas modalidades, o tipo de objeto de SBR definido em MPEG- 4 AAC é atualizado para conter a Ferramenta de SBR e aspectos da Ferramenta de SBR melhorada (eSBR) conforme sinalizado no elemento de extensão de SBR (bs_extension_id== EXTENSION_ID_ESBR). Se um decodificador detectar e supor- tar esse elemento de extensão de SBR, o decodificador emprega os aspectos sinali- zados da Ferramenta de SBR melhorada. O tipo de objeto de SBR atualizado dessa maneira é chamado de melhoramentos de SBR.

[0112] Em algumas modalidades, a invenção é um método incluindo uma etapa de codificar dados de áudio para gerar um fluxo de bits codificados (por exem- plo, um fluxo de bits de AAC MPEG-4), incluindo a inclusão de metadados de eSBR em pelo menos um segmento de pelo menos um bloco do fluxo de bits codificado e dados de áudio em pelo menos um outro segmento do bloco. Em modalidades típicas, o método inclui uma etapa de multiplexar os dados de áudio com os metadados de eSBR em cada bloco do fluxo de bits codificado. Na decodificação típica do fluxo de bits codificado em um decodificador de eSBR, o decodificador extrai os metadados de eSBR do fluxo de bits (incluindo a análise e a demultiplexação dos metadados de eSBR e dos dados de áudio) e usa os metadados de eSBR para processar os dados de áudio para gerar um fluxo de dados de áudio decodificado.

[0113] Um outro aspecto da invenção consiste em um decodificador de eSBR configurado para realizar processamento de eSBR (por exemplo, usando pelo menos uma das ferramentas de eSBR conhecidas como transposição harmônica ou pré-ni- velamento) durante a decodificação de um fluxo de bits de áudio codificado (por exem- plo, um fluxo de bits de AAC MPEG-4) que não inclui metadados de eSBR. Um exem- plo de tal decodificador será descrito com referência à Figura 5.

[0114] O decodificador de eSBR (400) da Figura 5 inclui memória de armaze- namento temporário 201 (que é idêntica à memória 201 das Figuras 3 e 4), desforma- tador de carga útil de fluxo de bits 215 (que é idêntico ao desformatador 215 da Figura 4), subsistema de decodificação de áudio 202 (chamado às vezes de um estágio de decodificação “de núcleo” ou subsistema de decodificação “de núcleo”, e que é idên- tico ao subsistema de decodificação 202 da Figura 3), subsistema de geração de da- dos de controle de eSBR 401 e estágio de processamento de eSBR 203 (que é idên- tico ao estágio 203 da Figura 3) conectados conforme mostrado. Tipicamente, o de- codificador 400 também inclui outros elementos de processamento (não mostrados).

[0115] Na operação de decodificação 400, uma sequência de blocos de um fluxo de bits de áudio codificado (um fluxo de bits de AAC MPEG-4) recebida pelo decodificador 400 é expressada a partir do armazenamento temporário 201 para o desformatador 215.

[0116] O desformatador 215 é acoplado e configurado para demultiplexar cada bloco do fluxo de bits para extrair metadados de SBR (incluindo dados de enve- lope quantificados) e também, tipicamente, outros metadados do mesmo. O desfor- matador 215 é configurado para expressar pelo menos os metadados de SBR para processamento de eSBR estágio 203. O desformatador 215 também é acoplado e configurado para extrair dados de áudio de cada bloco do fluxo de bits, e expressar os dados de áudio extraídos para o subsistema de decodificação (estágio de decodi- ficação) 202.

[0117] O subsistema de decodificação de áudio 202 do decodificador 400 é configurado para decodificar os dados de áudio extraídos pelo desformatador 215 (tal decodificação pode ser chamada de uma operação de decodificação “de núcleo”) para gerar dados de áudio decodificados, e expressar os dados de áudio decodificados para estágio de processamento de eSBR 203. A decodificação é realizada no domínio de frequência. Tipicamente, um estágio final de processamento no subsistema 202 aplica uma transformação de domínio de tempo para domínio de frequência a dados de áudio de domínio de frequência decodificados, de modo que a saída de subsistema seja dados de áudio decodificados de domínio de tempo. O estágio 203 é configurado para aplicar ferramentas de SBR (e ferramentas de eSBR) indicadas pelos metadados de SBR (extraídos pelo desformatador 215) e por metadados de eSBR gerados no subsistema 401 aos dados de áudio decodificados (isto é, para realizar processa- mento de SBR e eSBR na saída do subsistema de decodificação 202 usando os me- tadados de SBR e eSBR) para gerar os dados de áudio completamente decodificados que são emitidos a partir do decodificador 400. Tipicamente, o decodificador 400 inclui uma memória (acessível pelo subsistema 202 e pelo estágio 203) que armazena os dados de áudio e metadados desformatados emitidos a partir do desformatador 215 (e, opcionalmente, também a partir do subsistema 401), e o estágio 203 é configurado para acessar os dados de áudio e metadados conforme necessário durante o proces- samento de SBR e eSBR. O processamento de SBR no estágio 203 pode ser consi- derado como sendo pós-processamento na saída do subsistema de decodificação de núcleo 202. Opcionalmente, o decodificador 400 também inclui um subsistema de mis- tura ascendente final (que pode aplicar ferramentas estéreas paramétricas (“PS”)

definidas no padrão de AAC MPEG-4, usando metadados de PS extraídos pelo des- formatador 215) que á acoplado e configurado para realizar mistura ascendente na saída do estágio 203 para áudio misturado de maneira ascendente completamente decodificado que é emitido a partir da APU 210.

[0118] O elemento estéreo paramétrico é uma ferramenta de codificação que representa um sinal estéreo usando uma mistura descendente linear dos canais es- querdo e direito do sinal estéreo e conjuntos de parâmetros espaciais que descreve a imagem estéreo. O elemento estéreo paramétrico emprega tipicamente três tipos de parâmetros espaciais: (1) diferenças de intensidade entre canais (IID) que descrevem as diferenças de intensidade entre os canais; (2) diferenças de fase entre canais (IPD) que descrevem as diferenças de fase entre os canais; e (3) coerência entre canais (ICC) que descrevem a coerência (ou similaridade) entre os canais. A coerência pode ser medida como o máximo da correlação cruzada como uma função de tempo ou fase. Esses três parâmetros habilitam, em geral, uma reconstrução de alta qualidade da imagem estéreo. Entretanto, os parâmetros de IPD especificam apenas as diferen- ças de fase relativas entre os canais do sinal de entrada e não indicam a distribuição dessas diferenças de fase nos canais esquerdo e direito Portanto, um quarto tipo de parâmetro que descreve um deslocamento de fase geral ou diferença de fase geral (OPD) pode ser usado adicionalmente. No processo de reconstrução estérea, seg- mentos em janelas consecutivas tanto do sinal de mistura descendente recebido, s[n], quanto de uma versão descorrelacionada do sinal de mistura descendente recebido, d[n], são processados em conjunto com os parâmetros espaciais para gerar os sinais reconstruídos esquerdo (lk(n)) e direito (rk(n)) de acordo com: lk(n)=H11(k,n)sk(n)+H21(k,n)dk(n) rk(n)=H12(k,n)sk(n)+H22(k,n)dk(n)

[0119] onde H11, H12, H21 e H22 são definidos por parâmetros estéreos. Os si- nais lk(n) e rk(n) são transformados finalmente de volta para o domínio de tempo por meio de uma transformação de frequência em tempo.

[0120] O subsistema de geração de dados de controle 401 da Figura 5 é aco- plado e configurado para detectar pelo menos uma propriedade do fluxo de bits de áudio codificado a ser decodificado, e gerar dados de controle de eSBR (que podem ser ou incluem metadados de eSBR de qualquer um dos tipos incluídos em fluxos de bits de áudio codificados de acordo com outras modalidades da invenção) em res- posta a pelo menos um resultado da etapa de detecção. Os dados de controle de eSBR são expressados para estágio 203 para acionar a aplicação de ferramentas de eSBR individuais ou combinações de ferramentas de eSBR mediante a detecção de uma propriedade específica (ou combinação de propriedades) do fluxo de bits, e/ou controlar a aplicação de tais ferramentas de eSBR. Por exemplo, a fim de controlar o desempenho de processamento de eSBR usando transposição harmônica, algumas modalidades de subsistema de geração de dados de controle 401 incluiriam: um de- tector musical (por exemplo, uma versão simplificada de um detector musical conven- cional) para definir o parâmetro sbrPatchingMode[ch] (e expressar o parâmetro defi- nido para estágio 203) em resposta à detecção de que o fluxo de bits é ou não indica- tivo de música; um detector transiente para definir o parâmetro sbrOversampling- Flag[ch] (e expressar o parâmetro definido para estágio 203) em resposta à detecção da presença ou ausência de elementos transientes no conteúdo de áudio indicado pelo fluxo de bits; e/ou um detector de tom para definir os parâmetros sbrPitchInBins- Flag[ch] e sbrPitchInBins[ch] (e expressar os parâmetros definidos para estágio 203) em resposta à detecção do tom de conteúdo de áudio indicado pelo fluxo de bits.

Outros aspectos da invenção consistem em métodos de decodificação de fluxo de bits de áudio realizados por qualquer modalidade do decodificador inventivo descrito nesse parágrafo e no parágrafo anterior.

[0121] Aspectos da invenção incluem um método de codificação ou decodifi- cação do tipo que qualquer modalidade da APU, sistema ou dispositivo inventivo é configurada (por exemplo, programada) para realização. Outros aspectos da invenção incluem um sistema ou dispositivo configurado (por exemplo, programado) para reali- zar qualquer modalidade do método inventivo, e um meio legível por computador (por exemplo, um disco) que armazena código (por exemplo, de uma maneira não transi- tória) para implementar qualquer modalidade do método inventivo ou etapas do mesmo. Por exemplo, o sistema inventivo pode ser ou incluir um processador de pro- pósito geral programável, processador de sinal digital ou microprocessador, progra- mado com software ou firmware e/ou, de outro modo, configurado para realizar qual- quer uma dentre uma variedade de operações em dados, incluindo uma modalidade do método inventivo ou etapas do mesmo. Tal processador de propósito geral pode ser ou incluir um sistema computacional incluindo um dispositivo de entrada, uma me- mória e conjunto de circuitos de processamento programado (e/ou, de outro modo, configurado) para realizar uma modalidade do método inventivo (ou etapas do mesmo) em resposta a dados expressados pelo mesmo.

[0122] Modalidades da presente invenção podem ser implementadas em hardware, firmware ou software, ou uma combinação de ambos (por exemplo, como um arranjo lógico programável). Salvo se especificado de outro modo, os algoritmos ou processos incluídos como parte da invenção não são relacionados inerentemente a qualquer computador particular ou a outro aparelho. Em particular, várias máquinas de propósito geral podem ser usadas com programas escritos de acordo com os en- sinamentos no presente documento, ou pode ser mais conveniente construir aparelho mais especializado (por exemplo, circuitos integrados) para realizar as etapas de mé- todo exigidas. Assim, a invenção pode ser implementada em um ou mais programas de computador que executam em um ou mais sistemas computacionais programáveis (por exemplo, uma implementação de qualquer um dos elementos da Figura 1 ou codificador 100 da Figura 2 (ou um elemento da mesma) ou decodificador 200 da Figura 3 (ou um elemento da mesma) ou decodificador 210 da Figura 4 (ou um ele- mento da mesma) ou decodificador 400 da Figura 5 (ou um elemento da mesma)), cada um compreendendo pelo menos um processador, pelo menos um sistema de armazenamento de dados (incluindo memória volátil e não volátil e/ou elementos de armazenamento), pelo menos um dispositivo ou porta de entrada, e pelo menos um dispositivo ou porta de saída. O código de programa é aplicado aos dados de entrada para realizar as funções descritas no presente documento e gerar informações de sa- ída. As informações de saída são aplicadas a um ou mais dispositivos de saída de um modo conhecido.

[0123] Cada tal programa pode ser implementado em qualquer linguagem de computador desejada (incluindo máquina, montagem ou linguagens de programação de procedimento, lógica ou orientada por objeto de alto nível) para se comunicar com o sistema computacional. Em qualquer caso, a linguagem pode ser uma linguagem compilada ou interpretada.

[0124] Por exemplo, quando implementadas por sequências de instrução de software de computador, várias funções e etapas de modalidades da invenção podem ser implementadas por sequências de instruções de software de múltiplas linhas que executam em hardware de processamento de sinal digital adequado, em cujo caso os vários dispositivos, etapas e funções das modalidades podem corresponder a porções das instruções de software.

[0125] Cada tal programa de computador é, de preferência, armazenado ou transferido por download para um meio ou dispositivo de armazenamento (por exem- plo, memória ou meios de estado sólido, ou meios magnéticos ou ópticos) legível por um computador programável de propósito geral ou especial, para configurar e operar o computador quando o meio ou dispositivo de armazenamento é lido pelo sistema computacional para realizar os procedimentos descritos no presente documento. O sistema inventivo também pode ser implementado como um meio de armazenamento legível por computador, configurado com (isto é, armazenando) um programa de com- putador, em que o meio de armazenamento assim configurado faz com que um sis- tema computacional opere de uma maneira específica e predeterminada para realizar as funções descritas no presente documento.

[0126] Diversas modalidades da invenção foram descritas. No entanto, será entendido que várias modificações podem ser feitas sem se afastar do escopo das reivindicações. Inúmeras modificações e variações da presente invenção são possí- veis à luz dos ensinamentos acima. Por exemplo, a fim de facilitar implementações eficientes, mudanças de fase podem ser usadas em combinação com os bancos de filtro de síntese e análise de QMF complexa. O banco de filtro de análise é responsável por filtrar o sinal de banda baixa de domínio de tempo gerado pelo decodificador de núcleo em uma pluralidade de sub-bandas (por exemplo, sub-bandas de QMF). O banco de filtro de síntese é responsável por combinar a banda alta regerada produzida pela técnica de HFR selecionada (conforme indicado pelo parâmetro sbrPatching- Mode recebido) com a banda baixa decodificada para produzir um sinal de áudio de saída de banda larga. Uma determinada implementação de banco de filtro que opera em um certo modo de taxa de amostra, por exemplo, operação de taxa dupla normal ou modo de SBR de amostragem inferior, não deve, entretanto, ter mudanças de fase que são dependentes de fluxo de bits. Os bancos de QMF usados em SBR são uma extensão exponencial complexa da teoria de bancos de filtro modulados por cosseno.

Pode ser mostrado que as restrições de cancelamento de réplica se tornam obsoletas ao estender banco de filtro modulado por cosseno com modulação exponencial com- plexa. Assim, para os bancos de QMF de SBR, tanto os filtros de análise, hk(n), quanto os filtros de síntese, fk(n), podem ser definidos por: 1 ℎ 𝑛 𝑓 𝑛 𝑝0 𝑛 exp 𝑖 𝑘 𝑛 ,0 𝑛 𝑁; 0 𝑘 𝑀 (1) 2 2

[0127] onde p0(n) é um filtro de protótipo simétrico ou assimétrico de valor real (tipicamente, um filtro de protótipo passa-baixa), M denota o número de canais e N é a ordem de filtro de protótipo. O número de canais usado no banco de filtro de análise pode ser diferente do número de canal usado no banco de filtro de síntese. Por exem- plo, o banco de filtro de análise pode ter 32 canais e o banco de filtro de síntese pode ter 64 canais. Ao operar o banco de filtro de síntese em modo de amostragem inferior, o banco de filtro de síntese pode ter apenas 32 canais. Uma vez que as amostras de sub-banda do banco de filtro são de valor complexo, uma etapa de mudança de fase possivelmente dependente de canal aditiva pode ser anexada ao banco de filtro de análise. Essas mudanças de fase extras precisam ser compensadas antes do banco de filtro de síntese. Embora os termos de mudança de fase em princípio possam ser de valores arbitrários sem destruir a operação da cadeia de análise/síntese de QMF, os mesmos também podem ser restritos a certos valores para verificação de confor- midade. O sinal de SBR será afetado pela escolha dos fatores de fase enquanto o sinal passa-baixa que vem do decodificador de núcleo não será. A qualidade de áudio do sinal de saída não é afetada.

[0128] Os coeficientes do filtro de protótipo, p0(n), podem ser definidos com um comprimento, L, de 640, conforme mostrado na Tabela 4 abaixo.

Tabela 4 n p0(n) n p0(n) n p0(n) 0 0,0000000000 214 0,0019765601 428 0,0117623832 1 -0,0005525286 215 -0,0032086896 429 0,0163701258 2 -0,0005617692 216 -0,0085711749 430 0,0207997072 3 -0,0004947518 217 -0,0141288827 431 0,0250307561 4 -0,0004875227 218 -0,0198834129 432 0,0290824006 5 -0,0004893791 219 -0,0258227288 433 0,0329583930 6 -0,0005040714 220 -0,0319531274 434 0,0366418116 7 -0,0005226564 221 -0,0382776572 435 0,0401458278 8 -0,0005466565 222 -0,0447806821 436 0,0434768782 9 -0,0005677802 223 -0,0514804176 437 0,0466303305 10 -0,0005870930 224 -0,0583705326 438 0,0495978676 11 -0,0006132747 225 -0,0654409853 439 0,0524093821

12 -0,0006312493 226 -0,0726943300 440 0,0550460034 13 -0,0006540333 227 -0,0801372934 441 0,0575152691 14 -0,0006777690 228 -0,0877547536 442 0,0598166570 15 -0,0006941614 229 -0,0955533352 443 0,0619602779 16 -0,0007157736 230 -0,1035329531 444 0,0639444805 17 -0,0007255043 231 -0,1116826931 445 0,0657690668 18 -0,0007440941 232 -0,1200077984 446 0,0674525021 19 -0,0007490598 233 -0,1285002850 447 0,0689664013 20 -0,0007681371 234 -0,1371551761 448 0,0703533073 21 -0,0007724848 235 -0,1459766491 449 0,0715826364 22 -0,0007834332 236 -0,1549607071 450 0,0726774642 23 -0,0007779869 237 -0,1640958855 451 0,0736406005 24 -0,0007803664 238 -0,1733808172 452 0,0744664394 25 -0,0007801449 239 -0,1828172548 453 0,0751576255 26 -0,0007757977 240 -0,1923966745 454 0,0757305756 27 -0,0007630793 241 -0,2021250176 455 0,0761748321 28 -0,0007530001 242 -0,2119735853 456 0,0765050718 29 -0,0007319357 243 -0,2219652696 457 0,0767204924 30 -0,0007215391 244 -0,2320690870 458 0,0768230011 31 -0,0006917937 245 -0,2423016884 459 0,0768173975 32 -0,0006650415 246 -0,2526480309 460 0,0767093490 33 -0,0006341594 247 -0,2631053299 461 0,0764992170 34 -0,0005946118 248 -0,2736634040 462 0,0761992479 35 -0,0005564576 249 -0,2843214189 463 0,0758008358 36 -0,0005145572 250 -0,2950716717 464 0,0753137336 37 -0,0004606325 251 -0,3059098575 465 0,0747452558 38 -0,0004095121 252 -0,3168278913 466 0,0741003642 39 -0,0003501175 253 -0,3278113727 467 0,0733620255 40 -0,0002896981 254 -0,3388722693 468 0,0725682583 41 -0,0002098337 255 -0,3499914122 469 0,0717002673 42 -0,0001446380 256 0,3611589903 470 0,0707628710 43 -0,0000617334 257 0,3723795546 471 0,0697630244 44 0,0000134949 258 0,3836350013 472 0,0687043828 45 0,0001094383 259 0,3949211761 473 0,0676075985 46 0,0002043017 260 0,4062317676 474 0,0664367512 47 0,0002949531 261 0,4175696896 475 0,0652247106 48 0,0004026540 262 0,4289119920 476 0,0639715898 49 0,0005107388 263 0,4402553754 477 0,0626857808 50 0,0006239376 264 0,4515996535 478 0,0613455171 51 0,0007458025 265 0,4629308085 479 0,0599837480 52 0,0008608443 266 0,4742453214 480 0,0585915683 53 0,0009885988 267 0,4855253091 481 0,0571616450 54 0,0011250155 268 0,4967708254 482 0,0557173648 55 0,0012577884 269 0,5079817500 483 0,0542452768 56 0,0013902494 270 0,5191234970 484 0,0527630746 57 0,0015443219 271 0,5302240895 485 0,0512556155

58 0,0016868083 272 0,5412553448 486 0,0497385755 59 0,0018348265 273 0,5522051258 487 0,0482165720 60 0,0019841140 274 0,5630789140 488 0,0466843027 61 0,0021461583 275 0,5738524131 489 0,0451488405 62 0,0023017254 276 0,5845403235 490 0,0436097542 63 0,0024625616 277 0,5951123086 491 0,0420649094 64 0,0026201758 278 0,6055783538 492 0,0405349170 65 0,0027870464 279 0,6159109932 493 0,0390053679 66 0,0029469447 280 0,6261242695 494 0,0374812850 67 0,0031125420 281 0,6361980107 495 0,0359697560 68 0,0032739613 282 0,6461269695 496 0,0344620948 69 0,0034418874 283 0,6559016302 497 0,0329754081 70 0,0036008268 284 0,6655139880 498 0,0315017608 71 0,0037603922 285 0,6749663190 499 0,0300502657 72 0,0039207432 286 0,6842353293 500 0,0286072173 73 0,0040819753 287 0,6933282376 501 0,0271859429 74 0,0042264269 288 0,7022388719 502 0,0257875847 75 0,0043730719 289 0,7109410426 503 0,0244160992 76 0,0045209852 290 0,7194462634 504 0,0230680169 77 0,0046606460 291 0,7277448900 505 0,0217467550 78 0,0047932560 292 0,7358211758 506 0,0204531793 79 0,0049137603 293 0,7436827863 507 0,0191872431 80 0,0050393022 294 0,7513137456 508 0,0179433381 81 0,0051407353 295 0,7587080760 509 0,0167324712 82 0,0052461166 296 0,7658674865 510 0,0155405553 83 0,0053471681 297 0,7727780881 511 0,0143904666 84 0,0054196775 298 0,7794287519 512 -0,0132718220 85 0,0054876040 299 0,7858353120 513 -0,0121849995 86 0,0055475714 300 0,7919735841 514 -0,0111315548 87 0,0055938023 301 0,7978466413 515 -0,0101150215 88 0,0056220643 302 0,8034485751 516 -0,0091325329 89 0,0056455196 303 0,8087695004 517 -0,0081798233 90 0,0056389199 304 0,8138191270 518 -0,0072615816 91 0,0056266114 305 0,8185776004 519 -0,0063792293 92 0,0055917128 306 0,8230419890 520 -0,0055337211 93 0,0055404363 307 0,8272275347 521 -0,0047222596 94 0,0054753783 308 0,8311038457 522 -0,0039401124 95 0,0053838975 309 0,8346937361 523 -0,0031933778 96 0,0052715758 310 0,8379717337 524 -0,0024826723 97 0,0051382275 311 0,8409541392 525 -0,0018039472 98 0,0049839687 312 0,8436238281 526 -0,0011568135 99 0,0048109469 313 0,8459818469 527 -0,0005464280 100 0,0046039530 314 0,8480315777 528 0,0000276045 101 0,0043801861 315 0,8497805198 529 0,0005832264 102 0,0041251642 316 0,8511971524 530 0,0010902329 103 0,0038456408 317 0,8523047035 531 0,0015784682

104 0,0035401246 318 0,8531020949 532 0,0020274176 105 0,0032091885 319 0,8535720573 533 0,0024508540 106 0,0028446757 320 0,8537385600 534 0,0028446757 107 0,0024508540 321 0,8535720573 535 0,0032091885 108 0,0020274176 322 0,8531020949 536 0,0035401246 109 0,0015784682 323 0,8523047035 537 0,0038456408 110 0,0010902329 324 0,8511971524 538 0,0041251642 111 0,0005832264 325 0,8497805198 539 0,0043801861 112 0,0000276045 326 0,8480315777 540 0,0046039530 113 -0,0005464280 327 0,8459818469 541 0,0048109469 114 -0,0011568135 328 0,8436238281 542 0,0049839687 115 -0,0018039472 329 0,8409541392 543 0,0051382275 116 -0,0024826723 330 0,8379717337 544 0,0052715758 117 -0,0031933778 331 0,8346937361 545 0,0053838975 118 -0,0039401124 332 0,8311038457 546 0,0054753783 119 -0,0047222596 333 0,8272275347 547 0,0055404363 120 -0,0055337211 334 0,8230419890 548 0,0055917128 121 -0,0063792293 335 0,8185776004 549 0,0056266114 122 -0,0072615816 336 0,8138191270 550 0,0056389199 123 -0,0081798233 337 0,8087695004 551 0,0056455196 124 -0,0091325329 338 0,8034485751 552 0,0056220643 125 -0,0101150215 339 0,7978466413 553 0,0055938023 126 -0,0111315548 340 0,7919735841 554 0,0055475714 127 -0,0121849995 341 0,7858353120 555 0,0054876040 128 0,0132718220 342 0,7794287519 556 0,0054196775 129 0,0143904666 343 0,7727780881 557 0,0053471681 130 0,0155405553 344 0,7658674865 558 0,0052461166 131 0,0167324712 345 0,7587080760 559 0,0051407353 132 0,0179433381 346 0,7513137456 560 0,0050393022 133 0,0191872431 347 0,7436827863 561 0,0049137603 134 0,0204531793 348 0,7358211758 562 0,0047932560 135 0,0217467550 349 0,7277448900 563 0,0046606460 136 0,0230680169 350 0,7194462634 564 0,0045209852 137 0,0244160992 351 0,7109410426 565 0,0043730719 138 0,0257875847 352 0,7022388719 566 0,0042264269 139 0,0271859429 353 0,6933282376 567 0,0040819753 140 0,0286072173 354 0,6842353293 568 0,0039207432 141 0,0300502657 355 0,6749663190 569 0,0037603922 142 0,0315017608 356 0,6655139880 570 0,0036008268 143 0,0329754081 357 0,6559016302 571 0,0034418874 144 0,0344620948 358 0,6461269695 572 0,0032739613 145 0,0359697560 359 0,6361980107 573 0,0031125420 146 0,0374812850 360 0,6261242695 574 0,0029469447 147 0,0390053679 361 0,6159109932 575 0,0027870464 148 0,0405349170 362 0,6055783538 576 0,0026201758 149 0,0420649094 363 0,5951123086 577 0,0024625616

150 0,0436097542 364 0,5845403235 578 0,0023017254 151 0,0451488405 365 0,5738524131 579 0,0021461583 152 0,0466843027 366 0,5630789140 580 0,0019841140 153 0,0482165720 367 0,5522051258 581 0,0018348265 154 0,0497385755 368 0,5412553448 582 0,0016868083 155 0,0512556155 369 0,5302240895 583 0,0015443219 156 0,0527630746 370 0,5191234970 584 0,0013902494 157 0,0542452768 371 0,5079817500 585 0,0012577884 158 0,0557173648 372 0,4967708254 586 0,0011250155 159 0,0571616450 373 0,4855253091 587 0,0009885988 160 0,0585915683 374 0,4742453214 588 0,0008608443 161 0,0599837480 375 0,4629308085 589 0,0007458025 162 0,0613455171 376 0,4515996535 590 0,0006239376 163 0,0626857808 377 0,4402553754 591 0,0005107388 164 0,0639715898 378 0,4289119920 592 0,0004026540 165 0,0652247106 379 0,4175696896 593 0,0002949531 166 0,0664367512 380 0,4062317676 594 0,0002043017 167 0,0676075985 381 0,3949211761 595 0,0001094383 168 0,0687043828 382 0,3836350013 596 0,0000134949 169 0,0697630244 383 0,3723795546 597 -0,0000617334 170 0,0707628710 384 -0,3611589903 598 -0,0001446380 171 0,0717002673 385 -0,3499914122 599 -0,0002098337 172 0,0725682583 386 -0,3388722693 600 -0,0002896981 173 0,0733620255 387 -0,3278113727 601 -0,0003501175 174 0,0741003642 388 -0,3168278913 602 -0,0004095121 175 0,0747452558 389 -0,3059098575 603 -0,0004606325 176 0,0753137336 390 -0,2950716717 604 -0,0005145572 177 0,0758008358 391 -0,2843214189 605 -0,0005564576 178 0,0761992479 392 -0,2736634040 606 -0,0005946118 179 0,0764992170 393 -0,2631053299 607 -0,0006341594 180 0,0767093490 394 -0,2526480309 608 -0,0006650415 181 0,0768173975 395 -0,2423016884 609 -0,0006917937 182 0,0768230011 396 -0,2320690870 610 -0,0007215391 183 0,0767204924 397 -0,2219652696 611 -0,0007319357 184 0,0765050718 398 -0,2119735853 612 -0,0007530001 185 0,0761748321 399 -0,2021250176 613 -0,0007630793 186 0,0757305756 400 -0,1923966745 614 -0,0007757977 187 0,0751576255 401 -0,1828172548 615 -0,0007801449 188 0,0744664394 402 -0,1733808172 616 -0,0007803664 189 0,0736406005 403 -0,1640958855 617 -0,0007779869 190 0,0726774642 404 -0,1549607071 618 -0,0007834332 191 0,0715826364 405 -0,1459766491 619 -0,0007724848 192 0,0703533073 406 -0,1371551761 620 -0,0007681371 193 0,0689664013 407 -0,1285002850 621 -0,0007490598 194 0,0674525021 408 -0,1200077984 622 -0,0007440941 195 0,0657690668 409 -0,1116826931 623 -0,0007255043

196 0,0639444805 410 -0,1035329531 624 -0,0007157736 197 0,0619602779 411 -0,0955533352 625 -0,0006941614 198 0,0598166570 412 -0,0877547536 626 -0,0006777690 199 0,0575152691 413 -0,0801372934 627 -0,0006540333 200 0,0550460034 414 -0,0726943300 628 -0,0006312493 201 0,0524093821 415 -0,0654409853 629 -0,0006132747 202 0,0495978676 416 -0,0583705326 630 -0,0005870930 203 0,0466303305 417 -0,0514804176 631 -0,0005677802 204 0,0434768782 418 -0,0447806821 632 -0,0005466565 205 0,0401458278 419 -0,0382776572 633 -0,0005226564 206 0,0366418116 420 -0,0319531274 634 -0,0005040714 207 0,0329583930 421 -0,0258227288 635 -0,0004893791 208 0,0290824006 422 -0,0198834129 636 -0,0004875227 209 0,0250307561 423 -0,0141288827 637 -0,0004947518 210 0,0207997072 424 -0,0085711749 638 -0,0005617692 211 0,0163701258 425 -0,0032086896 639 -0,0005525280 212 0,0117623832 426 0,0019765601 213 0,0069636862 427 0,0069636862

[0129] O filtro de protótipo, p0(n), também pode ser derivado da Tabela 4 em uma ou mais operações matemáticas como arredondamento, subamostragem, inter- polação e decimação.

[0130] Embora a sintonização de informações de controle relacionadas à SBR não dependa tipicamente dos detalhes da transposição (conforme discutido anterior- mente), em algumas modalidades, certos elementos dos dados de controle podem ser transmitidos simultaneamente no recipiente de extensão de eSBR (bs_extension_id ==EXTENSION_ID_ESBR) para aprimorar a qualidade do sinal regerado. Alguns dos elementos transmitidos simultaneamente podem incluir os dados de piso de ruído (por exemplo, fatores de escala de piso de ruído e um parâmetro que indica a direção, na direção de frequência ou tempo, de codificação delta para cada piso de ruído), os dados de filtração inversa (por exemplo, um parâmetro que indica o modo de filtração inversa selecionado a partir de nenhuma filtração inversa, um baixo nível de filtração inversa, um nível intermediário de filtração inversa, e um nível intenso de filtração in- versa filtrar), e o dados harmônicos ausentes (por exemplo, um parâmetro que indica se uma senoide deve ser adicionada a uma banda de frequência específica da banda alta regerada). Todos esses elementos se baseiam em uma emulação sintetizada do transpositor do decodificador realizada no codificador e, portanto, se sintonizada apro- priadamente com o transpositor selecionado pode aumentar a qualidade do sinal re- gerado.

[0131] Especificamente, em algumas modalidades, os dados harmônicos au- sentes e de controle de filtração inversa são transmitidos no recipiente de extensão de eSBR (juntamente com os outros parâmetros de fluxo de bits da Tabela 3) e sinto- nizados com o transpositor harmônico de eSBR. A taxa de bits adicional exigida para transmitir essas duas classes de metadados para o transpositor harmônico de eSBR é relativamente baixa. Portanto, o envio de dados harmônicos ausentes e/ou de con- trole de filtração inversa no recipiente de extensão de eSBR aumentará a qualidade de áudio produzida pelo transpositor enquanto apenas afeta minimamente a taxa de bits. Para garantir retrocompatibilidade com decodificadores de legado, os parâmetros sintonizados com a operação de translação espectral de SBR também podem ser en- viados no fluxo de bits como parte dos dados de SBR de controle usando sinalização implícita ou explícita.

[0132] A complexidade de um decodificador com os melhoramentos de SBR conforme descrito neste pedido precisa ser limitada para aumentar significativamente a complexidade computacional geral da implementação. De preferência, as PCU (MOP) para o tipo de objeto de SBR estão em ou abaixo de 4,5 ao usar a ferramenta de eSBR, e as RCU para o tipo de objeto de SBR estão em ou abaixo de 3 ao usar a ferramenta de eSBR. A potência de processamento aproximada é determinada em Unidades de Complexidade de Processador (PCU) especificadas em números inteiros de MOPS. O uso de RAM aproximado é determinado em Unidades de Complexidade de RAM (RCU) especificadas em números inteiros de kWords (1000 palavras). Os números de RCU não incluem armazenamentos temporários de trabalho que podem ser compartilhados entre diferentes objetos e/ou canais. Ademais, as PCU são proporcionais à frequência de amostragem. Os valores de PCU são determinados em MOPS (Milhões de Operações por Segundo) por canal, e valores de RCU em kWords por canal.

[0133] Para dados compactados, como áudio codificado por HE-AAC que pode ser decodificado por diferentes configurações de decodificador, é necessária atenção especial. Nesse caso, a decodificação pode ser feita de um modo retrocom- patível (apenas por AAC) assim como de um modo melhorado (por AAC+SBR). Se os dados compactados permitirem a decodificação tanto retrocompatível quanto melho- rada, e se o decodificador estiver operando de modo melhorado de modo que o mesmo esteja usando um pós-processador que insere algum atraso adicional (por exemplo, o pós-processador de SBR em HE-AAC), então, precisa garantir que esse atraso de tempo adicional incorrido em relação ao modo retrocompatível, conforme descrito por um valor correspondente de n, seja considerado ao apresentar a unidade de composição. A fim de garantir que os carimbos de data e hora de composição se- jam manuseados corretamente (de modo que o áudio permaneça sincronizado com outros meios), o atraso adicional introduzido pelo pós-processamento determinado em diversas amostras (por canal de áudio) na taxa de amostra de saída é 3010 quando o modo de operação de decodificador inclui os melhoramentos de SBR (incluindo eSBR) conforme descrito neste pedido. Portanto, para uma unidade de composição de áudio, o tempo de composição se aplica à amostra de áudio 3011-ésima dentro da unidade de composição quando o modo de operação de decodificador inclui os melhoramentos de SBR conforme descrito neste pedido.

[0134] A fim de aprimorar a qualidade subjetiva para conteúdo de áudio com estrutura de frequência harmônica e características tonais fortes, em particular, em baixas taxas de bits, os melhoramentos de SBR devem ser ativados. Os valores do elemento de fluxo de bits correspondente (isto é, esbr_data()), que controla essas fer- ramentas podem ser determinados no codificador ao aplicar um mecanismo de classificação dependente de sinal.

[0135] Em geral, o uso do método de correção harmônica (sbrPatchingMode == 0) é preferencial para codificar sinais musicais em taxas de bits muito baixas, em que o codec de núcleo pode ser limitado consideravelmente em largura de banda de áudio. Isso é especialmente verdadeiro se esses sinais incluírem uma estrutura har- mônica acentuada. Em contrapartida, o uso do método de correção de SBR regular é preferencial para sinais de voz e misturados, uma vez que o mesmo fornece uma melhor conservação da estrutura temporal na voz.

[0136] A fim de aprimorar o desempenho do transpositor de SBR MPEG-4, pode ser ativada uma etapa de pré-processamento (bs_sbr_preprocessing == 1) que evita a introdução de descontinuidades espectrais do sinal que vai para o ajustador de envelope subsequente. A operação da ferramenta é benéfica para tipos de sinal em que o envelope espectral bruto do sinal de banda baixa que é usado para recons- trução de alta frequência exibe grandes variações de nível.

[0137] A fim de aprimorar a resposta transiente da correção de SBR harmô- nica (sbrPatchingMode == 0), a sobreamostragem de domínio de frequência adapta- tiva de sinal pode ser aplicada (sbrOversamplingFlag == 1). Uma vez que a sobrea- mostragem de domínio de frequência adaptativa de sinal aumenta a complexidade computacional do transpositor, mas apenas traz benefícios para quadros que contêm elementos transientes, o uso dessa ferramenta é controlado pelo elemento de fluxo de bits, que é transmitido uma vez por quadro e por canal de SBR independente.

[0138] As recomendações de configurações de taxa de bits típicas para HE- AACv2 com melhoramentos de SBR (ou seja, habilitando o transpositor harmônico da ferramenta de eSBR) correspondem a 20 a 32 kbps para conteúdo de áudio estéreo em taxas de amostragem de 44,1 kHz ou 48 kHz. O ganho de qualidade subjetivo relativo dos melhoramentos de SBR aumenta em direção ao limite de taxa de bits inferior e um codificador apropriadamente configurado permite estender essa faixa em taxas de bits ainda inferiores. As taxas de bits fornecidas acima são apenas recomen- dações e podem ser adaptadas para requisitos de serviço específicos.

[0139] Um decodificador que opera no modo de SBR melhorada proposto pre- cisa tipicamente ter capacidade de comutar entre correção de SBR de legado e me- lhorada. Portanto, pode ser introduzido o atraso que pode ser tão longo quanto a du- ração de um quadro de áudio principal, dependendo da configuração de decodificador.

[0140] Deve ser entendido que, dentro do escopo das reivindicações anexas, a invenção pode ser praticada de modo diferente do modo descrito especificamente no presente documento. Quaisquer números de referência contidos nas reivindica- ções a seguir têm apenas propósito de ilustração e não devem ser usados para inter- pretar ou limitar as reivindicações de qualquer maneira.

[0141] Vários aspectos da presente invenção podem ser observados a partir das modalidades exemplificativas enumeradas a seguir (EEEs): EEE 1. Um método para realizar reconstrução de alta frequência de um sinal de áudio, o método compreendendo: receber um fluxo de bits de áudio codificado, o fluxo de bits de áudio codificado incluindo dados de áudio que representam uma porção de banda baixa do sinal de áudio e metadados de reconstrução de alta frequência; decodificar os dados de áudio para gerar um sinal de áudio de banda baixa decodificado; extrair do fluxo de bits de áudio codificado os metadados de reconstrução de alta frequência, os metadados de reconstrução de alta frequência incluindo parâme- tros operacionais para um processo de reconstrução de alta frequência, os parâmetros operacionais incluindo um parâmetro de modo de correção localizado em um recipi- ente de extensão retrocompatível do fluxo de bits de áudio codificado, em que um primeiro valor do parâmetro de modo de correção indica translação espectral e um segundo valor do parâmetro de modo de correção indica transposição harmônica por propagação de frequência de vocodificador de fase; filtrar o sinal de áudio de banda baixa decodificado para gerar um sinal de áudio de banda baixa filtrado; regerar uma porção de banda alta do sinal de áudio usando o sinal de áudio de banda baixa filtrado e os metadados de reconstrução de alta frequência, em que a regeração inclui translação espectral se o parâmetro de modo de correção for o pri- meiro valor e a regeração inclui transposição harmônica por propagação de frequência de vocodificador de fase se o parâmetro de modo de correção for o segundo valor; e combinar o sinal de áudio de banda baixa filtrado com a porção de banda alta regerada para formar um sinal de áudio de banda larga, em que a filtração, a regeração e a combinação são realizadas como uma operação de pós-processamento com um atraso de 3010 amostras por canal de áudio ou menos.

[0142] EEE 2. O método, de acordo com a EEE 1, em que o fluxo de bits de áudio codificado inclui adicionalmente um elemento de preenchimento com um iden- tificador indicando um início do elemento de preenchimento e dados de preenchimento após o identificador, em que os dados de preenchimento incluem o recipiente de ex- tensão retrocompatível.

[0143] EEE 3. O método, de acordo com a EEE 2, em que o identificador é um primeiro bit mais significativo transmitido de número inteiro não assinado de três bits e que tem um valor de 0x6.

[0144] EEE 4. O método, de acordo com a EEE 2 ou EEE 3, em que os dados de preenchimento incluem uma carga útil de extensão, a carga útil de extensão inclui dados de extensão de replicação de banda espectral e a carga útil de extensão é identificada com um primeiro bit mais significativo transmitido de número inteiro não assinado de quatro bits e que tem um valor de ‘1101’ ou ‘1110’, e, opcionalmente, em que os dados de extensão de replicação de banda espectral incluem: um cabeçalho de replicação de banda espectral opcional, dados de replicação de banda espectral após o cabeçalho, e um elemento de extensão de replicação de banda espectral após os dados de replicação de banda espectral, e em que o sinalizador é incluído no elemento de ex- tensão de replicação de banda espectral.

[0145] EEE 5. O método, de acordo com qualquer uma das EEEs 1 a 4, em que os metadados de reconstrução de alta frequência incluem fatores de escala de envelope, fatores de escala de piso de ruído, informações de grade de tempo/frequên- cia ou um parâmetro que indica uma frequência de cruzamento.

[0146] EEE 6. O método, de acordo com qualquer uma das EEEs 1 a 5, em que o recipiente de extensão retrocompatível inclui adicionalmente um sinalizador in- dicando se pré-processamento adicional é usado para evitar descontinuidades em um formato de um envelope espectral da porção de banda alta quando o parâmetro de modo de correção se iguala ao primeiro valor, em que um primeiro valor do sinalizador habilita o pré-processamento adicional e um segundo valor do sinalizador desabilita o pré-processamento adicional.

[0147] EEE 7. O método, de acordo com a EEE 6, em que o pré-processa- mento adicional inclui calcular uma curva de pré-ganho usando um coeficiente de filtro de previsão linear.

[0148] EEE 8. O método, de acordo com qualquer uma das EEEs 1 a 5, em que o recipiente de extensão retrocompatível inclui adicionalmente um sinalizador in- dicando se a sobreamostragem de domínio de frequência adaptativa de sinal deve ser aplicada quando o parâmetro de modo de correção se iguala ao segundo valor, em que um primeiro valor do sinalizador habilita a sobreamostragem de domínio de fre- quência adaptativa de sinal e um segundo valor do sinalizador desabilita a sobreamostragem de domínio de frequência adaptativa de sinal.

[0149] EEE 9. O método, de acordo com a EEE 8, em que a sobreamostragem de domínio de frequência adaptativa de sinal é aplicada apenas a quadros contendo um elemento transiente.

[0150] EEE 10. O método, de acordo com qualquer uma das EEEs anteriores, em que a transposição harmônica por propagação de frequência de vocodificador de fase é realizada com uma complexidade estimada em ou abaixo de 4,5 milhões de operações por segundo e 3 kWords de memória.

[0151] EEE 11. Um meio legível por computador não transitório contendo ins- truções que, quando executadas por um processador, realizam o método, conforme definido em qualquer uma das EEEs 1 a 10.

[0152] EEE 12. Um produto de programa de computador que tem instruções que, quando executadas por um dispositivo ou sistema computacional, fazem com que o dito dispositivo ou sistema computacional execute o método, conforme definido em qualquer uma das EEEs 1 a 10.

[0153] EEE 13. Uma unidade de processamento de áudio para realizar re- construção de alta frequência de um sinal de áudio, a unidade de processamento de áudio compreendendo: uma interface de entrada para receber um fluxo de bits de áudio codificado, o fluxo de bits de áudio codificado incluindo dados de áudio que representam uma por- ção de banda baixa do sinal de áudio e metadados de reconstrução de alta frequência; um decodificador de áudio de núcleo para decodificar os dados de áudio para gerar um sinal de áudio de banda baixa decodificado; um desformatador para extrair do fluxo de bits de áudio codificado os meta- dados de reconstrução de alta frequência, os metadados de reconstrução de alta fre- quência incluindo parâmetros operacionais para um processo de reconstrução de alta frequência, os parâmetros operacionais incluindo um parâmetro de modo de correção localizado em um recipiente de extensão retrocompatível do fluxo de bits de áudio codificado, em que um primeiro valor do parâmetro de modo de correção indica trans- lação espectral e um segundo valor do parâmetro de modo de correção indica trans- posição harmônica por propagação de frequência de vocodificador de fase; um banco de filtro de análise para filtrar o sinal de áudio de banda baixa decodificado para gerar um sinal de áudio de banda baixa filtrado; um regerador de alta frequência para reconstruir uma porção de banda alta do sinal de áudio usando o sinal de áudio de banda baixa filtrado e os metadados de reconstrução de alta frequência, em que a reconstrução inclui uma translação espectral se o parâmetro de modo de correção for o primeiro valor e a reconstrução inclui transposição harmônica por propagação de frequência de vocodificador de fase se o parâmetro de modo de correção for o segundo valor; e um banco de filtro de síntese para combinar o sinal de áudio de banda baixa filtrado com a porção de banda alta regerada para formar um sinal de áudio de banda larga, em que o banco de filtro de análise, o regerador de alta frequência e o banco de filtro de síntese são realizados em um pós-processador com um atraso de 3010 amostras por canal de áudio ou menos.

[0154] EEE 14. A unidade de processamento de áudio, de acordo com a EEE 13, em que a transposição harmônica por propagação de frequência de vocodificador de fase é realizada com uma complexidade estimada em ou abaixo de 4,5 milhões de operações por segundo e 3 kWords de memória.

Claims

REIVINDICAÇÕES

1. Método para realizar reconstrução de alta frequência de um sinal de áudio, sendo o método CARACTERIZADO pelo fato de que compreende: receber um fluxo de bits de áudio codificado, o fluxo de bits de áudio codificado incluindo dados de áudio que representam uma porção de banda baixa do sinal de áudio e metadados de reconstrução de alta frequência; decodificar os dados de áudio para gerar um sinal de áudio de banda baixa decodificado; extrair do fluxo de bits de áudio codificado os metadados de reconstrução de alta frequência, os metadados de reconstrução de alta frequência incluindo parâmetros operacionais para um processo de reconstrução de alta frequência, os parâmetros operacionais incluindo um parâmetro de modo de correção localizado em um recipiente de extensão retrocompatível do fluxo de bits de áudio codificado, em que um primeiro valor do parâmetro de modo de correção indica translação espectral e um segundo valor do parâmetro de modo de correção indica transposição harmônica por propagação de frequência de vocodificador de fase; filtrar o sinal de áudio de banda baixa decodificado para gerar um sinal de áudio de banda baixa filtrado; regerar uma porção de banda alta do sinal de áudio usando o sinal de áudio de banda baixa filtrado e os metadados de reconstrução de alta frequência, em que a regeração inclui translação espectral se o parâmetro de modo de correção for o primeiro valor e a regeração inclui transposição harmônica por propagação de frequência de vocodificador de fase se o parâmetro de modo de correção for o segundo valor; e combinar o sinal de áudio de banda baixa filtrado com a porção de banda alta regerada para formar um sinal de áudio de banda larga,

em que a filtração, a regeração e a combinação são realizadas como uma operação pós-processamento com um atraso de 3010 amostras por canal de áudio.

2. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que o fluxo de bits de áudio codificado inclui adicionalmente um elemento de preenchimento com um identificador indicando um início do elemento de preenchimento e dados de preenchimento após o identificador, em que os dados de preenchimento incluem o recipiente de extensão retrocompatível.

3. Método, de acordo com a reivindicação 2, CARACTERIZADO pelo fato de que o identificador é um primeiro bit mais significativo transmitido de número inteiro não assinado de três bits e que tem um valor de 0x6.

4. Método, de acordo com a reivindicação 2 ou 3, CARACTERIZADO pelo fato de que os dados de preenchimento incluem uma carga útil de extensão, a carga útil de extensão inclui dados de extensão de replicação de banda espectral, e a carga útil de extensão é identificada com um primeiro bit mais significativo transmitido de número inteiro não assinado de quatro bits e que tem um valor de ‘1101’ ou ‘1110’ e, opcionalmente, em que os dados de extensão de replicação de banda espectral incluem: um cabeçalho de replicação de banda espectral opcional, dados de replicação de banda espectral após o cabeçalho, e um elemento de extensão de replicação de banda espectral após os dados de replicação de banda espectral, e em que o sinalizador é incluído no elemento de extensão de replicação de banda espectral.

5. Método, de acordo com qualquer uma das reivindicações 1 a 4, CARACTERIZADO pelo fato de que os metadados de reconstrução de alta frequência incluem fatores de escala de envelope, fatores de escala de piso de ruído, informações de grade de tempo/frequência ou um parâmetro que indica uma frequência de cruzamento.

6. Método, de acordo com qualquer uma das reivindicações 1 a 5, CARACTERIZADO pelo fato de que o recipiente de extensão retrocompatível inclui adicionalmente um sinalizador que indica se pré-processamento adicional é usado para evitar descontinuidades em um formato de um envelope espectral da porção de banda alta quando o parâmetro de modo de correção é igual ao primeiro valor, em que um primeiro valor do sinalizador habilita o pré-processamento adicional e um segundo valor do sinalizador desabilita o pré-processamento adicional.

7. Método, de acordo com a reivindicação 6, CARACTERIZADO pelo fato de que o pré-processamento adicional inclui calcular uma curva de pré-ganho usando um coeficiente de filtro de previsão linear.

8. Método, de acordo com qualquer uma das reivindicações 1 a 5, CARACTERIZADO pelo fato de que o recipiente de extensão retrocompatível inclui adicionalmente um sinalizador que indica se a sobreamostragem de domínio de frequência adaptativa de sinal deve ser aplicada quando o parâmetro de modo de correção é igual ao segundo valor, em que um primeiro valor do sinalizador habilita a sobreamostragem de domínio de frequência adaptativa de sinal e um segundo valor do sinalizador desabilita a sobreamostragem de domínio de frequência adaptativa de sinal.

9. Método, de acordo com a reivindicação 8, CARACTERIZADO pelo fato de que a sobreamostragem de domínio de frequência adaptativa de sinal é aplicada apenas para quadros contendo um transiente.

10. Método, de acordo com qualquer uma das reivindicações anteriores, CARACTERIZADO pelo fato de que a transposição harmônica por propagação de frequência de vocodificador de fase é realizada com uma complexidade estimada de ou abaixo de 4,5 milhões de operações por segundo e 3 kWords de memória.

11. Método, de acordo com qualquer uma das reivindicações anteriores, CARACTERIZADO pelo fato de que a filtração do sinal de áudio de banda baixa decodificado para gerar um sinal de áudio de banda baixa filtrado compreende filtrar o sinal de áudio de banda baixa decodificado em uma pluralidade de sub-bandas usando um banco de filtro de análise de QMF complexo; e a combinação do sinal de áudio de banda baixa filtrado com a porção de banda alta regerada para formar um sinal de áudio de banda larga compreende usar um banco de filtro de síntese de QMF complexo.

12. Método, de acordo com a reivindicação 11, CARACTERIZADO pelo fato de que os filtros de análise hk(n) do banco de filtro de análise de QMF complexo e os filtros de síntese fk(n) do banco de filtro de síntese de QMF complexo são definidos por: 𝜋 1 𝑁 ℎ 𝑛 𝑓 𝑛 𝑝 𝑛 exp 𝑖 𝑘 𝑛 ,0 𝑛 𝑁; 0 𝑘 𝑀 𝑀 2 2 em que p0(n) é um filtro de protótipo de valor real, M denota um número de canais e N é uma ordem de filtro de protótipo.

13. Produto de programa de computador CARACTERIZADO pelo fato de que tem instruções que, quando executadas por um dispositivo ou sistema computacional, fazem com que o dito dispositivo ou sistema computacional execute o método, conforme definido em qualquer uma das reivindicações 1 a 12.

14. Unidade de processamento de áudio para realizar reconstrução de alta frequência de um sinal de áudio, sendo a unidade de processamento de áudio CARACTERIZADA pelo fato de que compreende: uma interface de entrada para receber um fluxo de bits de áudio codificado, o fluxo de bits de áudio codificado incluindo dados de áudio que representam uma porção de banda baixa do sinal de áudio e metadados de reconstrução de alta frequência; um decodificador de áudio de núcleo para decodificar os dados de áudio para gerar um sinal de áudio de banda baixa decodificado;

um desformatador para extrair do fluxo de bits de áudio codificado os metadados de reconstrução de alta frequência, os metadados de reconstrução de alta frequência incluindo parâmetros operacionais para um processo de reconstrução de alta frequência, os parâmetros operacionais incluindo um parâmetro de modo de correção localizado em um recipiente de extensão retrocompatível do fluxo de bits de áudio codificado, em que um primeiro valor do parâmetro de modo de correção indica translação espectral e um segundo valor do parâmetro de modo de correção indica transposição harmônica por propagação de frequência de vocodificador de fase; um banco de filtro de análise para filtrar o sinal de áudio de banda baixa decodificado para gerar um sinal de áudio de banda baixa filtrado; um regerador de alta frequência para reconstruir uma porção de banda alta do sinal de áudio usando o sinal de áudio de banda baixa filtrado e os metadados de reconstrução de alta frequência, em que a reconstrução inclui uma translação espectral se o parâmetro de modo de correção for o primeiro valor e a reconstrução inclui transposição harmônica por propagação de frequência de vocodificador de fase se o parâmetro de modo de correção for o segundo valor; e um banco de filtro de síntese para combinar o sinal de áudio de banda baixa filtrado com a porção de banda alta regerada para formar um sinal de áudio de banda larga, em que o banco de filtro de análise, o regerador de alta frequência e o banco de filtro de síntese são realizados em um pós-processador com um atraso de 3010 amostras por canal de áudio.

15. Unidade de processamento de áudio, de acordo com a reivindicação 14, CARACTERIZADA pelo fato de que a transposição harmônica por propagação de frequência de vocodificador de fase é realizada com uma complexidade estimada de ou abaixo de 4,5 milhões de operações por segundo e 3 kWords de memória.