BR122020018627B1 - Unidade de processamento de áudio para decodificação de fluxos de bits de áudio com metadados de replicação de banda espectral em pelo menos um elemento de preenchimento - Google Patents

Unidade de processamento de áudio para decodificação de fluxos de bits de áudio com metadados de replicação de banda espectral em pelo menos um elemento de preenchimento Download PDF

Info

Publication number
BR122020018627B1
BR122020018627B1 BR122020018627-5A BR122020018627A BR122020018627B1 BR 122020018627 B1 BR122020018627 B1 BR 122020018627B1 BR 122020018627 A BR122020018627 A BR 122020018627A BR 122020018627 B1 BR122020018627 B1 BR 122020018627B1
Authority
BR
Brazil
Prior art keywords
esbr
audio
metadata
data
bitstream
Prior art date
Application number
BR122020018627-5A
Other languages
English (en)
Inventor
Lars Villemoes
Heiko Purnhagen
Per Ekstrand
Original Assignee
Dolby International Ab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International Ab filed Critical Dolby International Ab
Publication of BR122020018627B1 publication Critical patent/BR122020018627B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation

Abstract

As modalidades referem-se a uma unidade de processamento de áudio que inclui uma memória intermediária, um desformatador de carga útil de fluxo de bits e um subsistema de decodificação. A memória intermediária armazena pelo menos um bloco de um fluxo de bits de áudio codificado. O bloco inclui um elemento de preenchimento, que começa com um identificador seguido de dados de preenchimento. Esses dados de preenchimento incluem pelo menos um sinalizador que identifica se o processamento de replicação de banda espectral melhorada (eSBR) deve ser executado no conteúdo de áudio do bloco. Um método correspondente para decodificar um fluxo de bits de áudio codificado também é fornecido.

Description

CAMPO TÉCNICO
[001]A invenção refere-se a processamento de sinal de áudio. Algumas modalidades se referem à codificação e decodificação de fluxos de bits de áudio (por exemplo, fluxos de bits tendo um formato MPEG-4 AAC) incluindo metadados para controlar a replicação de banda espectral melhorada (eSBR). Outras modalidades referem-se à decodificação de tais fluxos de bits pelos decodificadores antigos que não são configurados para executar um processamento de eSBR e que ignoram tais metadados, ou à decodificação de um fluxo de bits de áudio que não inclui tais metadados, inclusive pela geração de dados de controle de eSBR em resposta ao fluxo de bits.
ANTECEDENTES DA INVENÇÃO
[002]Um típico fluxo de bits de áudio inclui tanto dados de áudio (por exemplo, dados de áudio codificados), indicativos de um ou mais canais de conte-údo de áudio, como metadados indicativos de pelo menos uma característica dos dados de áudio ou conteúdo de áudio. Um formato bem conhecido para gerar um fluxo de bits de áudio codificado é o formato MPEG-4 de codificação de áudio avançada (AAC), descrito no padrão MPEG ISO/IEC 14496-3:2009. No padrão MPEG-4, AAC (advanced audio coding) significa "codificação de áudio avançada" e HE-AAC (high-efficiency advanced audio coding) significa "codificação de áudio avançada de alta eficiência".
[003]O padrão MPEG-4 AAC define vários perfis de áudio, o que determina quais objetos e ferramentas de codificação estão presentes em um codificador ou decodificador em conformidade. Três desses perfis de áudio são (1) o perfil AAC, (2) o perfil HE-AAC e (3) o perfil HE-AAC v2. O perfil AAC inclui a baixa complexidade de AAC (ou "AAC-LC") do tipo objeto. O objeto AAC-LC é a contraparte do perfil de baixa complexidade do MPEG-2 AAC, com alguns ajustes, e não inclui o tipo de ob-jeto de replicação de banda espectral ("SBR") nem o tipo de objeto estéreo paramé-trico ("PS"). O perfil HE-AAC é um superconjunto do perfil de AAC e inclui adicional-mente o objeto do tipo SBR. O perfil HE-AAC V2 é um superconjunto do perfil HE- AAC e inclui adicionalmente o objeto do tipo PS.
[004]O objeto do tipo SBR contém a ferramenta de replicação de banda espectral, que é uma ferramenta de codificação importante que melhora significati-vamente a eficiência da compressão dos codecs de áudio perceptuais. A SBR re-constrói os componentes de alta frequência de um sinal de áudio no lado de receptor (por exemplo, no decodificador). Assim, o codificador precisa apenas codificar e transmitir apenas componentes de baixa frequência, permitindo uma qualidade de áudio muito mais alta em baixas taxas de dados. A SBR se baseia na replicação das sequências de harmônicas, anteriormente truncadas para reduzir a taxa de dados, do sinal limitado de largura de banda disponível e dos dados de controle obtidos a partir do codificador. A razão entre os componentes semelhantes a ruído e tom é mantida pela filtragem adaptável inversa, bem como a adição opcional de ruído e sinusoidal. No padrão MPEG-4 AAC, a ferramenta SBR executa o reparo espectral, no qual um número de sub-bandas do filtro espelhado em quadratura (QMF) contíguas são copiadas a partir de uma porção de banda baixa transmitida de um sinal de áudio a uma porção de banda alta do sinal de áudio, que é gerada no decodificador.
[005]O reparo espectral pode não ser ideal para certos tipos de áudio, como um conteúdo musical com cruzamento relativamente baixo sobre as frequências. Assim, são necessárias técnicas para melhorar a replicação de banda espectral.
BREVE DESCRIÇÃO DE MODALIDADES DA INVENÇÃO
[006] Uma primeira classe de modalidades refere-se a unidades de proces-samento de áudio que incluem uma memória, um desformatador de carga útil de fluxo de bits e um subsistema de decodificação. A memória é configurada para ar-mazenar pelo menos um bloco de um fluxo de bits de áudio codificado (por exemplo, um fluxo de bits MPEG-4 AAC). O desformatador de carga útil de fluxo de bits é con-figurado para demultiplexar o bloco de áudio codificado. O subsistema de decodifi- cação é configurado para decodificar o conteúdo do bloco de áudio codificado. O bloco de áudio codificado inclui um elemento de preenchimento com um identificador que indica o início do elemento de preenchimento e os dados de preenchimento após o identificador. Os dados de preenchimento incluem pelo menos um sinalizador que identifica se o processamento da replicação de banda espectral melhorada (eSBR) deve ser executado no conteúdo de áudio do bloco de áudio codificado.
[007]Uma segunda classe de modalidades refere-se a métodos para deco-dificar um fluxo de bits de áudio codificado. O método inclui a recepção de pelo menos um bloco de um fluxo de bits de áudio codificado, a demultiplexação de ao menos algumas porções do pelo menos um bloco do fluxo de bits de áudio codifi-cado e a decodificação de pelo menos algumas porções do pelo menos um bloco do fluxo de bits de áudio codificado. O pelo menos um bloco do fluxo de bits de áudio codificado inclui um elemento de preenchimento com um identificador que indica o início do elemento de preenchimento e os dados de preenchimento após o identificador. Os dados de preenchimento incluem pelo menos um sinalizador que identifica se o processamento da replicação de banda espectral melhorada (eSBR) deve ser executado no conteúdo de áudio do pelo menos um bloco de fluxo de bits de áudio codificado.
[008]Outras classes de modalidades referem-se à codificação e transcodifi- cação de fluxos de bits de áudio contendo metadados que identificam se o proces-samento da replicação de banda espectral melhorada (eSBR) deve para ser execu- tado.
BREVE DESCRIÇÃO DOS DESENHOS
[009]A Figura 1 é um diagrama de blocos de uma modalidade de um sistema que pode ser configurado para executar uma modalidade do método da invenção.
[010]A Figura 2 é um diagrama de blocos de um codificador que é uma modalidade da unidade de processamento de áudio da invenção.
[011]A Figura 3 é um diagrama de blocos de um sistema incluindo um decodifi- cador que é uma modalidade da unidade de processamento de áudio da invenção, e, opcionalmente, também um pós-processador acoplado ao mesmo.
[012]A Figura 4 é um diagrama de blocos de um decodificador que é uma modalidade da unidade de processamento de áudio da invenção.
[013]A Figura 5 é um diagrama de blocos de um decodificador que é uma outra modalidade da unidade de processamento de áudio da invenção.
[014]A Figura 6 é um diagrama de blocos de outra modalidade da unidade de processamento de áudio da invenção.
[015]A Figura 7 é um diagrama de um bloco de um fluxo de bits MPEG-4 AAC que inclui os segmentos nos quais é dividido.
Notação e Nomenclatura
[016]Ao longo desta revelação, inclusive nas reivindicações, a expressão "executando uma operação 'sobre' um sinal ou dados" (por exemplo, filtragem, es-calonamento, transformação ou aplicação de ganho ao sinal ou dados) é usada em um sentido amplo para indicar a execução da operação diretamente sobre o sinal ou dados ou em uma versão processada do sinal ou dados (por exemplo, em uma versão do sinal que foi submetido à filtração e pré-processamento antes do de-sempenho da operação no mesmo).
[017]Ao longo desta revelação, inclusive nas reivindicações, a expressão "unidade de processamento de áudio" é usada em um sentido amplo, para indicar um sis- tema, dispositivo ou aparelho configurado para processar dados de áudio. Exemplos de unidades de processamento de áudio incluem, mas não se limitam a, codificadores (por exemplo, transcodificadores), decodificadores, codecs, sistemas de pré-processamento, sistemas de pós-processamento, sistemas de processamento de fluxo de bits (algumas vezes chamados de ferramentas de processamento de fluxo de bits). Virtualmente, todos os circuitos eletrônicos do consumidor, como telefones móveis, televisões, computadores portáteis e computadores tablete, contêm uma unidade de processamento de áudio.
[018]Ao longo da presente revelação, incluindo nas reivindicações, o termo "acopla" ou "acoplado" é usado em um sentido amplo para significar uma conexão indireta ou direta. Assim, se um primeiro dispositivo se acopla a um segundo dis-positivo, essa conexão pode ser através de uma conexão direta ou através de uma conexão indireta por meio de outros dispositivos e conexões. Além disso, compo-nentes que são integrados em ou com outros componentes também são acoplados um ao outro.
DESCRIÇÃO DETALHADA DAS MODALIDADES DA INVENÇÃO
[019]O padrão MPEG-4 AAC contempla que um fluxo de bits MPEG-4 AAC codificado inclui metadados indicativos de cada tipo de processamento de SBR a ser aplicado (caso algum deva ser aplicado) por um decodificador para decodificar con-teúdo de áudio do fluxo de bits, e/ou que controla tal processamento de SBR, e/ou é indicativo de pelo menos uma característica ou parâmetro de pelo menos uma fer-ramenta de SBR a ser usada para decodificar o conteúdo de áudio do fluxo de bits. Aqui, usamos a expressão "metadados de SBR" para indicar metadados desse tipo que são descritos ou mencionados no padrão MPEG-4 AAC.
[020]O nível superior de um fluxo de bits de MPEG-4 AAC é uma sequência de blocos de dados (elementos "raw_data_block"), sendo que cada um deles é um segmento de dados (mencionado, na presente invenção, como "bloco") que contém dados de áudio (geralmente durante um período de tempo de 1024 ou 960 amostras) e informações relacionadas e/ou outros dados. Na presente invenção, utiliza-se o termo "bloco" para denotar um segmento de um fluxo de bits MPEG-4 AAC que compreende dados de áudio (e metadados correspondentes e, opcionalmente, tam-bém outros dados relacionados) que determina ou é indicativo de um (mas não mais do que um) elemento "raw_data_block".
[021]Cada bloco de um fluxo de bits MPEG-4 AAC pode incluir um número de elementos sintáticos (sendo que cada um deles também é materializado no fluxo de bits como um segmento de dados). Sete tipos desses elementos sintáticos são definidos no padrão MPEG-4 AAC. Cada elemento sintático é identificado por um valor diferente do elemento de dados "id_syn_ele". Exemplos de elementos sintáticos incluem um "single_channel_element()", um "channel_pair_element()" e um "fill_element()". Um único elemento de canal é um recipiente incluindo dados de áudio de um único canal de áudio (um sinal de áudio monofônico). Um elemento de par de canais inclui dados de áudio de dois canais de áudio (isto é, um sinal de áudio estéreo).
[022]Um elemento de preenchimento é um recipiente de informações que in-clui um identificador (por exemplo, o valor do elemento indicado acima "id_syn_ele") seguido de dados, que são chamados de "dados de preenchimento". Os elementos de preenchimento têm sido historicamente usados para ajustar a taxa de bits instan-tânea dos fluxos de bits que deverão ser transmitidos ao longo de um canal de taxa constante. Ao se adicionar a quantidade adequada de dados de preenchimento em cada bloco, pode-se obter uma taxa de dados constante.
[023]De acordo com as modalidades da invenção, os dados de preenchimento podem incluir uma ou mais cargas úteis de extensão que estendem o tipo de dados (por exemplo, metadados) capazes de serem transmitidos em um fluxo de bits. Um decodifi- cador que recebe fluxos de bits com dados de preenchimento contendo um novo tipo de dados pode ser opcionalmente usado por um dispositivo de recepção do fluxo de bits (por exemplo, um decodificador) para estender a funcionalidade do dispositivo. Dessa forma, conforme pode ser entendido pelo versado na técnica, os elementos de preenchimento são um tipo especial de estrutura de dados e são diferentes das estruturas de dados usadas, geralmente, para transmitir dados de áudio (por exemplo, cargas úteis de áudio contendo dados de canal).
[024] Em algumas modalidades da invenção, o identificador usado para identificar um elemento de preenchimento pode consistir em um primeiro bit mais significativo transmitido de um número inteiro sem sinal de três bits ("uimsbf") tendo um valor de 0x6. Em um bloco, podem ocorrer vários exemplos do mesmo tipo de ele-mento sintático (por exemplo, vários elementos de preenchimento).
[025]Um outro padrão para a codificação de fluxos de bits de áudio é o padrão MPEG Unified Speech and Audio Coding (Fala unificada e codificação de áudio, USAC) (ISO/IEC 23003-3:2012). O padrão MPEG USAC descreve a codificação e decodifica- ção do conteúdo de áudio através do processamento de replicação de banda espectral (incluindo processamento de SBR conforme descrito no padrão MPEG-4 AAC e também incluindo outras formas melhoradas de processamento de replicação de banda espectral). Esse processamento aplica ferramentas de replicação de banda espectral (às vezes mencionadas neste documento como "ferramentas de SBR melhoradas" ou "ferramentas de eSBR") de uma versão expandida e otimizada do conjunto de ferramentas de SBR descritas no padrão MPEG-4 AAC. Dessa forma, eSBR (conforme definido no padrão USAC) é um aprimoramento de SBR (conforme definido no padrão MPEG-4 AAC).
[026]Aqui, usamos a expressão "processamento de SBR melhorada" (ou "processamento de eSBR") para denotar o processamento de replicação de banda espectral com o uso de ao menos uma ferramenta de eSBR (por exemplo, pelo menos uma ferramenta de eSBR que é descrita ou mencionada no padrão MPEG USAC) que não é descrita ou mencionada no padrão MPEG-4 AAC. Exemplos de tais ferramentas de eSBR são a transposição harmônica, o pré-processamento adicional de reparo de QMF ou "pré-achatamento" e a formatação de envelope temporal da amostra entre sub-bandas ou "inter-TES".
[027]Um fluxo de bits gerado de acordo com o padrão MPEG USAC (às vezes, aqui chamado de "fluxo de bits USAC") inclui conteúdo de áudio codificado e inclui, geralmente, metadados indicativos de cada tipo de processamento de replicação de banda espectral a ser aplicado por um decodificador para decodificar o conteúdo de áudio do fluxo de bits USAC e/ou os metadados que controlam tal processamento de replica- ção de banda espectral e/ou são indicativos de pelo menos uma característica ou parâmetro de pelo menos uma ferramenta de SBR e/ou ferramenta de eSBR a ser empregada para decodificar conteúdo de áudio do fluxo de bits USAC.
[028]Na presente invenção, usamos a expressão "metadados de SBR me-lhorada" (ou "metadados de eSBR") para designar metadados indicativos de cada tipo de processamento de replicação de banda espectral a ser aplicado por um de- codificador para decodificar conteúdo de áudio de um fluxo de bits de áudio codifi-cado (por exemplo, um fluxo de bits USAC) e/ou que controlam tal processamento de replicação de banda espectral e/ou que são indicativos de pelo menos uma ca-racterística ou parâmetro de pelo menos uma ferramenta de SBR e/ou ferramenta eSBR a ser empregada para decodificar tal conteúdo de áudio, mas que não é descrita ou mencionada no padrão MPEG-4 AAC. Um exemplo de metadados de eSBR são os metadados (indicativos de, ou para controlar, o processamento de replicação de banda espectral) que são descritos ou mencionados no padrão MPEG USAC mas não no padrão MPEG-4 AAC. Dessa forma, os metadados de eSBR da presente invenção designam metadados que não são metadados de SBR, e os metadados de SBR da presente invenção designam metadados que não são metadados de eSBR.
[029] Um fluxo de bits USAC pode incluir metadados de SBR e metadados de eSBR. Mais especificamente, um fluxo de bits USAC pode incluir metadados de eSBR que controlam o desempenho do processamento de eSBR através de um de- codificador, e os metadados de SBR que controlam o desempenho do processamen-to de SBR pelo decodificador. De acordo com modalidades típicas da presente in-venção, os metadados de eSBR (por exemplo, dados de configuração específicos para eSBR) são incluídos (de acordo com a presente invenção) em um fluxo de bits MPEG-4 AAC (por exemplo, no recipiente sbr_extension() no final da carga útil de SBR).
[030]O desempenho do processamento de eSBR, durante a decodificação de um fluxo de bits codificado com o uso de um conjunto de ferramentas de eSBR (que compreende pelo menos uma ferramenta de eSBR) por um decodificador, re-genera a banda de alta frequência do sinal de áudio, com base na replicação de se-quências de harmônicas que foram truncadas durante a decodificação. Tal proces-samento de eSBR geralmente ajusta o envelope espectral da banda de alta frequên-cia gerada e aplica filtragem inversa e adiciona ruído componentes sinusoidais para recriar as características espectrais do sinal de áudio original.
[031]De acordo com as modalidades típicas da invenção, os metadados de eSBR são incluídos (por exemplo, um pequeno número de bits de controle que são metadados de eSBR são incluídos) em um ou mais segmentos de metadados de um fluxo de bits de áudio codificado (por exemplo, um fluxo de bits MPEG-4 AAC) que também incluem dados de áudio codificados em outros segmentos (segmentos de dados de áudio). Geralmente, pelo menos um desses segmentos de metadados de cada bloco de fluxo de bits é (ou inclui) um elemento de preenchimento (incluindo um identificador indicando o início do elemento de preenchimento), e os metadados de eSBR são incluídos no elemento de preenchimento após o identificador.
[032]A Figura 1 é um diagrama de blocos de uma cadeia de processamento de áudio exemplificadora (um sistema de processamento de dados de áudio), em que um ou mais dos elementos do sistema podem ser configurados de acordo com uma modalidade da presente invenção. O sistema inclui os seguintes elementos, acoplados juntos conforme mostrado: codificador 1, subsistema de transferência 2, decodificador 3 e unidade de pós-processamento 4. Em variações do sistema mostrado, um ou mais dos elementos são omitidos ou unidades de processamento de dados de áudio adicionais são incluídas.
[033]Em algumas implementações, o codificador 1 (que, opcionalmente, inclui uma unidade de pré-processamento) é configurado para aceitar amostras de PCM (tempo-domínio) compreendendo conteúdo de áudio como entrada, e para produzir um fluxo de bits de áudio codificado (tendo um formato que é compatível com o padrão MPEG-4 AAC) que é indicativo do conteúdo de áudio. Os dados do fluxo de bits que são indicativos do conteúdo de áudio são, às vezes, chamados na presente invenção de "dados de áudio" ou "dados de áudio codificados". Se o codificador é configurado de acordo com uma modalidade típica da presente invenção, a saída do fluxo de bits de áudio do codificador inclui metadados de eSBR (e geralmente também outros metadados) bem como dados de áudio.
[034]Pode-se afirmar que uma ou mais saídas de fluxo de bits de áudio co-dificado do codificador 1 codificam o subsistema de produção de áudio codificado 2. O subsistema 2 é configurado para armazenar e/ou fornecer cada saída de fluxo de bits codificado do codificador 1. Uma saída de fluxo de bits de áudio codificado do codificador 1 pode ser armazenada pelo subsistema 2 (por exemplo, sob a forma de um disco de DVD ou Blu-Ray) ou transmitida pelo subsistema 2 (que pode implementar um enlace ou rede de transmissão) ou pode ser armazenada e trans-mitida pelo subsistema 2.
[035]O decodificador 3 é configurado para decodificar um fluxo de bits de áudio MPEG-4 AAC codificado (gerado pelo codificador 1) que o mesmo recebe através do subsistema 2. Em algumas modalidades, o decodificador 3 é configurado para extrair metadados de eSBR de cada bloco do fluxo de bits, e para decodificar o fluxo de bits (incluindo através da execução do processamento de eSBR usando os metadados de eSBR extraídos) para gerar dados de áudio decodificados (por exem-plo, fluxos de amostras de áudio PCM decodificado). Em algumas modalidades, o decodificador 3 é configurado para extrair metadados de SBR do fluxo de bits (mas para ignorar metadados de eSBR incluídos no fluxo de bits) e decodificar o fluxo de bits (incluindo pela execução do processamento de SBR com o uso dos metadados de SBR extraídos) para gerar dados de áudio decodificados (por exemplo, fluxos de amostras de áudio PCM decodificado). Geralmente, o decodificador 3 inclui uma memória intermediária (buffer) que armazena (por exemplo, de uma maneira não transitória) segmentos de fluxo de bits de áudio codificado recebido do subsistema 2.
[036]A unidade de pós-processamento da Figura 1 é configurada para aceitar um fluxo de dados de áudio decodificados a partir do decodificador 3 (por exemplo, amostras de áudio de PCM decodificado) para executar o pós-processamento no mesmo. A unidade de pós-processamento 4 pode também ser configurada para renderizar o conteúdo de áudio pós-processado (ou o áudio decodificado recebido do decodifica- dor 3) para playback por um ou mais dos alto-falantes.
[037]A Figura 2 é um diagrama de blocos de um codificador (100) que é uma modalidade da unidade de processamento de áudio da invenção. Qualquer um dos componentes ou elementos do codificador 100 pode ser implementado como um ou mais processos e/ou um ou mais circuitos (por exemplo, ASICs, FPGAs ou outros circuitos integrados) em hardware, software ou uma combinação de hardware e software. O codificador 100 inclui o codificador 105, etapa de preen- chedor/formatador 107, etapa de geração de metadados 106 e memória intermediária 109, conectados conforme mostrado. O codificador 100, também inclui, geralmente, outros elementos de processamento (não mostrados). O codificador 100 é configurado para converter um fluxo de bits de áudio de entrada em um fluxo de bits MPEG-4 AAC de saída codificado.
[038]O gerador de metadados 106 é acoplado e configurado para gerar (e/ou passar para a etapa 107) metadados (incluindo metadados de eSBR e metadados de SBR) para serem incluídos pela etapa 107 no fluxo de bits codificado para serem liberados pelo codificador 100.
[039]O codificador 105 é acoplado e configurado para codificar (por exemplo, ao executar a compressão no mesmo) os dados de áudio de entrada e para a asserção do áudio codificado resultante para a etapa 107 para inclusão no fluxo de bits codificados a serem liberados a partir da etapa 107.
[040]A etapa 107 é configurada para multiplexar o áudio codificado a partir do codificador 105 e os metadados 105 (incluindo metadados de eSBR e metadados de SBR) do gerador 106 para gerar o fluxo de bits codificado a ser liberado a partir da etapa 107, de preferência, de modo que o fluxo de bits codificado tenha um formato conforme especificado por uma das modalidades da presente invenção.
[041]A memória intermediária 109 é configurada para armazenar (por exemplo, de uma maneira não transitória) pelo menos um bloco da saída de fluxo de bits de áudio codificado da etapa 107, e uma sequência dos blocos do fluxo de bits de áudio codificado de tampão é, então, produzida pela memória intermediária 109 como saída do codificador 100 para um sistema de liberação.
[042]A Figura 3 é um diagrama de blocos de um sistema incluindo um decodifi- cador (200) que é uma modalidade da unidade de processamento de áudio da invenção, e, opcionalmente, também um pós-processador (300) acoplado à mesma. Qualquer um dos componentes ou elementos do decodificador 200 e do pós-processador 300 pode ser implementado como um ou mais processos e/ou um ou mais circuitos (por exemplo, ASICs, FPGAs ou outros circuitos integrados) em hardware, software ou uma combinação de hardware e software. O decodificador 200 compreende uma memória intermediária 201, um desformatador de carga útil de fluxo de bits (analisador) 205, um subsistema de decodificação de áudio 202 (às vezes chamado de etapa de decodifica- ção "central" ou subsistema de decodificação "central"), uma etapa de processamento de eSBR 203 e uma etapa de geração de bits de controle 204, conectada conforme mostrado. O decodificador 200 geralmente inclui, também, outros elementos de processamento (não mostrados).
[043]A memória intermediária (buffer) 201 armazena (por exemplo, de uma maneira não transitória) pelo menos um bloco de um fluxo de bits de áudio MPEG- 4 AAC codificado recebido pelo decodificador 200. No funcionamento do decodifi- cador 200, é feita asserção de uma sequência dos blocos do fluxo de bits do buffer 201 para o desformatador 205.
[044]Em variações da modalidade da Figura 3 (ou da modalidade da Figura 4 a ser descrita), uma APU que não é um decodificador (por exemplo, APU 500 da Figura 6) inclui uma memória intermediária (por exemplo, uma memória intermediária idêntica à memória intermediária 201) que armazena (por exemplo, de uma maneira não transitória) pelo menos um bloco de um fluxo de bits de áudio codificado (por exemplo, um fluxo de bits de áudio MPEG-4 AAC) do mesmo tipo recebido pela memória intermediária 201 da Figura 3 ou Figura 4 (isto é, um fluxo de bits de áudio codificado que inclui metadados de eSBR).
[045]Com referência novamente à Figura 3, o desformatador 205 é acoplado e configurado para demultiplexar cada bloco do fluxo de bits para extrair metadados de SBR (incluindo dados de envelope quantizados) e metadados de eSBR (e geralmente também outros metadados) dos mesmos, para asserção ao menos dos metadados de eSBR e dos metadados de SBR para a etapa de processamento de metadados de eSBR e, geralmente, também para asserção de outros metadados extraídos para decodificar o subsistema 202 (e opcionalmente também para controlar o gerador de bits 204). O desformatador 205 também é acoplado e configurado para extrair dados de áudio de cada bloco do fluxo de bits e para a asserção dos dados de áudio extraídos para o subsistema de decodificação (etapa de decodificação) 202.
[046]O sistema da Figura 3 também inclui, opcionalmente, o pós-processador 300. O pós-processador 300 inclui uma memória intermediária (buffer) 301 e outros elementos de processamento (não mostrados), incluindo pelo menos um elemento de processamento acoplado ao buffer 301. O buffer 301 armazena (por exemplo, de uma maneira não transitória) pelo menos um bloco (ou quadro) dos dados de áudio decodificados recebidos do pós-processador 300 do decodificador 200. Os elementos de processamento do pós-processador 300 são acoplados e configurados para receber e processar de forma adaptável uma sequência dos blocos (ou quadros) da saída de áudio decodificada da memória intermediária 301, usando a saída de metadados do subsistema de decodificação 202 (e/ou o desformatador 205) e/ou a saída de bits de controle da etapa 204 do decodificador 200.
[047]O subsistema de decodificação de áudio 202 do decodificador 200 é configurado para decodificar os dados de áudio extraídos pelo analisador 205 (tal decodifi- cação pode ser chamada de uma operação de decodificação "central") para gerar dados de áudio decodificados e para asserção dos dados de áudio decodificados para a etapa de processamento de eSBR 203. A decodificação é executada no domínio da frequência e geralmente inclui a quantização inversa seguida de processamento espectral. Geralmente, uma etapa final de processamento no subsistema 202 aplica uma transformada de domínio de frequência para domínio por tempo, para os dados de áudio decodificados de domínio da frequência, de modo que a saída do subsistema seja dados de áudio decodificados de domínio do tempo. A etapa 203 é configurada para aplicar as ferramentas de SBR e as ferramentas de eSBR indicadas pelos metadados de eSBR e a eSBR (extraída pelo analisador 205) para os dados de áudio decodificados (isto é, para executar o processamento de SBR e eSBR na saída do subsistema de decodificação 202 utilizando os metadados de SBR e eSBR) para gerar os dados de áudio totalmente decodificados que é a saída (por exemplo, para o pós-processador 300) a partir do decodificador 200. Geralmente, um decodificador 200 inclui uma memória (acessível pelo subsistema 202 e etapa 203) que armazena a saída de dados de áudio e metadados desformatados do desformatador 205 e a etapa 203 é configurada para acessar os dados e metadados de áudio (incluindo os metadados de SBR e metadados de eSBR), conforme necessário durante o processamento de SBR e eSBR. O processamento de SBR e o processamento de eSBR na etapa 203 podem ser considerados pós-processamento na saída do subsistema de decodificação central 202. Opcionalmente, o decodificador 200 inclui também um subsistema de upmixing (que pode aplicar ferramentas de estéreo paramétrico ("PS") definidas no padrão MPEG-4 AAC, usando metadados PS extraídos pelo desformatador 205 e/ou bits de controle gerados no subsistema 204) que é acoplado e configurado de modo a executar o upmixing na saída da etapa 203 para gerar [[d]] áudio com upmixing totalmente codificado que é produzido pelo decodificador 200. Alternativamente, o pós-processador 300 é configurado para executar o upmixing na saída do decodificador 200 (por exemplo, com o uso de metadados PS extraídos pelo desformatador 205 e/ou pelos bits de controle gerados no subsistema 204).
[048]Em resposta aos metadados extraídos pelo desformatador 205, o ge-rador de bits de controle 204 pode gerar dados de controle, e os dados de controle podem ser usados dentro do decodificador 200 (por exemplo, em um subsistema de upmixing final) e/ou pode ser feita asserção como saída do decodificador 200 (por exemplo, ao pós-processador 300 para uso em pós-processamento). Em resposta aos metadados extraídos do fluxo de bits de entrada (e opcionalmente também em resposta aos dados de controle), a etapa 204 pode gerar (e fazer asserção para o pós-processador 300) os bits de controle indicando que a saída de dados de áudio decodificados da etapa de processamento de eSBR 203 deve passar por um tipo específico de pós-processamento. Em algumas implementações, o de- codificador 200 é configurado para a asserção de metadados extraídos pelo des- formatador 205 do fluxo de bits de entrada para o pós-processador 300, e o pós- processador 300 é configurado para executar o pós-processamento na saída de dados de áudio decodificados do decodificador 200 usando os metadados.
[049]A Figura 4 é um diagrama de blocos de uma unidade de processamento de áudio ("APU") (210), que é uma outra modalidade da unidade de processamento de áudio da invenção. A APU 210 é um decodificador antigo que não é configurado para executar o processamento de eSBR. Qualquer dos componentes ou elementos da APU 210 podem ser implementados como um ou mais processos e/ou um ou mais circuitos (por exemplo, ASICs, FPGAs ou outros circuitos integrados), em hardware, software ou uma combinação de hardware e software. A APU 210 compreende uma memória intermediária 201, um desformatador de carga útil de fluxo de bits (analisador) 215, um subsistema de decodificação de áudio 202 (às vezes, chamado de etapa de decodificação "central" ou subsistema de decodifica- ção "central"), uma etapa de processamento de SBR 213, conectada conforme mostrado. A APU 210 inclui também, geralmente, outros elementos de processa-mento (não mostrados).
[050]Os elementos 201 e 202 da APU 210 são idênticos aos elementos do decodificador 200 numerados de forma idêntica (da Figura 3) e a descrição acima dos mesmos não será repetida. Na operação da APU 210, é feita a asserção de uma sequência de blocos de um fluxo de bits de áudio codificado (um fluxo de bits MPEG-4 AAC) recebido pela APU 210 da memória intermediária 210 para o des- formatador 215.
[051]O desformatador 215 é acoplado e configurado para demultiplexar cada bloco do fluxo de bits para extrair metadados de SBR (incluindo dados de envelope quantizados) e geralmente também outros metadados a partir dali, mas para ignorar os metadados de eSBR que podem ser incluídos no fluxo de bits de acordo com qualquer modalidade da presente invenção. O desformatador 215 é configurado para asserção de pelo menos os metadados de SBR para a etapa de processamento de SBR 213. O desformatador 215 também é acoplado e configurado para extrair dados de áudio de cada bloco do fluxo de bits e para a asserção dos dados de áudio extraídos para o subsistema de decodificação (etapa de decodificação) 202.
[052]O subsistema de decodificação de áudio 202 do decodificador 200 é configurado para decodificar os dados de áudio extraídos pelo desformatador 215 (tal decodificação pode ser chamada de operação de decodificação "central") para gerar dados de áudio decodificados e para a asserção dos dados de áudio decodificados para a etapa de processamento de SBR 213. A decodificação é executada no domínio da frequência. Geralmente, uma etapa final de processamento no sub-sistema 202 aplica uma transformada de domínio de frequência para domínio por tempo, para os dados de áudio decodificados de domínio da frequência, de modo que a saída do subsistema seja dados de áudio decodificados de domínio do tempo. A etapa 213 é configurada para aplicar as ferramentas de SBR (mas não as ferramentas de eSBR) indicadas pelos metadados de SBR (extraídos pelo desfor- matador 215) para os dados de áudio decodificados (isto é, para executar o pro-cessamento de SBR na saída do subsistema de decodificação 202 utilizando os metadados de SBR) para gerar os dados de áudio totalmente decodificados que é a saída (por exemplo, para o pós-processador 300) da APU 210. Geralmente, a APU 210 inclui uma memória (acessível pelo subsistema 202 e pela etapa 213) que armazena a saída de dados e metadados de áudio desformatados do desfor- matador 215 e a etapa 213 é configurada para acessar os dados e metadados de áudio (incluindo os metadados de SBR), conforme necessário durante o processamento de SBR. O processamento de SBR na etapa 213 pode ser considerado pós- processamento na saída do subsistema de decodificação central 202. Opcional-mente, a APU 210 inclui também um subsistema de upmixing (que pode aplicar ferramentas de estéreo paramétrico ("PS") definidas no padrão MPEG-4 AAC, usando metadados de PS extraídos pelo desformatador 205) que é acoplado e configurado de modo a executar o upmixing na saída da etapa 213 para gerar áudio com upmixing totalmente codificado [[d]] que é produzido pela APU 210. Alter-nativamente, um pós-processador é configurado para executar o upmixing na saída da APU 210 (por exemplo, com o uso de metadados de PS extraídos pelo desfor- matador 215 e/ou pelos bits de controle gerados na APU 210).
[053]Várias implementações de codificador 100, decodificador 200 e APU 210 são configuradas para executar diferentes modalidades do método da invenção.
[054] De acordo com algumas modalidades, metadados de eSBR são incluí-dos (por exemplo, um pequeno número de bits de controle que são metadados de eSBR são incluídos) em um fluxo de bits de áudio codificado (por exemplo, um fluxo de bits MPEG-4 AAC), de modo que os decodificadores antigos (que não são confi-gurados para analisar metadados de eSBR ou usar qualquer ferramenta de eSBR à qual os metadados de eSBR pertencem) possam ignorar os metadados de eSBR mas, no entanto, decodifiquem o fluxo de bits o máximo possível sem o uso de me-tadados de eSBR ou qualquer ferramenta de eSBR à qual os metadados de eSBR pertencem, Geralmente sem qualquer prejuízo significativo à qualidade de áudio de-codificado. Entretanto, decodificadores eSBR configurados para analisar o fluxo de bits para identificar os metadados de eSBR e usar pelo menos uma ferramenta de eSBR em resposta aos metadados de eSBR, apreciarão os benefícios do uso de pelo menos uma de tal ferramenta de eSBR. Portanto, as modalidades da invenção fornecem um meio para a transmissão eficiente dos dados ou metadados de controle da replicação de banda espectral melhorada (eSBR) de uma maneira retrocompatí- vel.
[055]Geralmente, os metadados de eSBR no fluxo de bits são indicativos (por exemplo, indicativos de pelo menos uma característica ou parâmetro de) de uma ou mais das seguintes ferramentas de eSBR (que são descritas no padrão MPEG USAC e que podem ou não ter sido aplicadas por um codificador durante a geração de fluxo de bits): • Transposição harmônica; • pré-processamento adicional de reparo de QMF (pré-achatamento); e • formatação de envelope temporal da amostra entre sub-bandas "inter- TES".
[056]Por exemplo, os metadados de eSBR incluídos no fluxo de bits podem ser indicativos de valores dos parâmetros (descritos no padrão MPEG USAC e na presente revelação): harmonicSBR[ch], sbrPatchingMode[ch], sbrOversamplingFlag[ch], sbrPit- chInBins[ch], sbrPitchInBins[ch], bs_interTes, bs_temp_shape[ch][env], bs_inter_temp_shape_mode[ch][env] e bs_sbr_preprocessing.
[057]Aqui, a notação X[ch], onde X é algum parâmetro, denota que o parâ-metro se refere ao canal ("ch") do conteúdo de áudio de um fluxo de bits codificado a ser decodificado. Por uma questão de simplicidade, às vezes a expressão [ch] é omi-tida e supõe-se que o parâmetro relevante se refira a um canal de conteúdo de áu-dio.
[058]Aqui, a notação X[ch][env], onde X é algum parâmetro, denota que o pa-râmetro se refere ao envelope ("env") SBR do canal ("ch") do conteúdo de áudio de um fluxo de bits codificado a ser decodificado. Por uma questão de simplicidade, às vezes, as expressões [env] e [ch] são omitidas e supõe-se que o parâmetro relevante se refira a um envelope de SBR de um canal de conteúdo de áudio.
[059]Conforme observado, o padrão MPEG USAC contempla que um fluxo de bits USAC inclui metadados de eSBR que controlam o desempenho do proces-samento de eSBR por um decodificador. Os metadados de eSBR incluem os se-guintes parâmetros de metadados de um bit: harmonicSBR; bs_interTES; e bs_pvc.
[060]O parâmetro "harmonicSBR" indica o uso do reparo harmônico (trans-posição harmônica) para SBR. Especificamente, harmonicSBR = 0 indica o reparo espectral não harmônico conforme descrito na Seção 4.6.18.6.3 do padrão MPEG- 4 AAC; e harmonicSBR = 1 indica o reparo de SBR harmônico (do tipo usado na eSBR, conforme descrito na Seção 7.5.3 ou 7.5.4 do padrão MPEG USAC). O reparo de SBR harmônico não é usado de acordo com a replicação de banda espectral não-eSBR (isto é, SBR que não é eSBR). Ao longo desta revelação, o reparo espectral é chamado de forma básica da replicação de banda espectral, enquanto a transposição harmônica é chamada de forma melhorada da replicação de banda espectral.
[061]O valor do parâmetro "bs_interTES" indica o uso da ferramenta inter- TES de eSBR.
[062]O valor do parâmetro "bs_pvc" indica o uso da ferramenta PVC de eSBR.
[063]Durante a decodificação de um fluxo de bits codificado, o desempenho da transposição harmônica durante uma etapa de processamento de eSBR da de- codificação (para cada canal, "ch", do conteúdo de áudio indicado pelo fluxo de bits) é controlado pelos seguintes parâmetros de metadados de eSBR: sbrPatchi- ngMode[ch]; sbrOversamplingFlag[ch]; sbrPitchInBinsFlag[ch]; e sbrPitchInBins[ch].
[064]O valor "sbrPatchingMode[ch]" indica o tipo de transpositor usado em eSBR: o valor sbrPatchingMode[ch] = 1 indica reparo não harmônico conforme des-crito na Seção 4.6.18.6.3 do padrão MPEG-4 AAC; o valor sbrPatchingMode[ch] = 0 indica reparo de SBR harmônico conforme descrito na Seção 7.5.3 ou 7.5.4 do pa-drão MPEG USAC.
[065]O valor "sbrOversamplingFlag[ch]" indica o uso da sobreamostragem do domínio da frequência adaptável do sinal em eSBR em combinação com o reparo de SBR harmônico com base em DFT, conforme descrito na Seção 7.5.3 do padrão MPEG USAC. Essa sinalização controla o tamanho dos DFTs que são utilizados no transpositor: 1 indica a sobreamostragem do domínio de frequência adaptável do sinal ativado conforme descrito na Seção 7.5.3.1 do padrão MPEG USAC; 0 indica a sobreamostragem do domínio de frequência adaptável do sinal desativado conforme descrito na Seção 7.5.3.1 do padrão MPEG USAC.
[066]O valor "sbrPitchInBinsFlag[ch]" controla a interpretação do parâmetro sbrPitchInBins[ch]: 1 indica que o valor em sbrPitchInBins[ch] é válido e maior que zero; 0 indica que o valor de sbrPitchInBins[ch] é definido como zero.
[067]O valor "sbrPitchInBins[ch]" controla a adição dos termos do produto transversal no transpositor harmônico de SBR. O valor sbrPitchinBins[ch] é um valor de número inteiro na faixa de [0,127] e representa a distância medida nos pontos de frequência de um DFT da linha 1536 atuando sobre a frequência da amostragem do codificador central.
[068]Caso um fluxo de bits MPEG-4 AAC seja indicativo de um par de canais de SBR cujos canais não são acoplados (em vez de um canal de SBR único), o fluxo de bits é indicativo de dois exemplos da sintaxe acima (para transposição harmônica ou não harmônica), um para cada canal do sbr_channel_pair_element().
[069]A transposição harmônica da ferramenta de eSBR geralmente aprimora a qualidade dos sinais de música decodificados a um cruzamento relativamente baixo em relação às frequências. A transposição não harmônica (isto é, reparos espectrais legados) geralmente aprimora os sinais de fala. Por conseguinte, um ponto de partida na decisão de que tipo de transposição é preferível para a codificação do conteúdo de áudio específico é selecionar o método de transposição dependendo da detecção de fa- la/música com a transposição harmônica sendo usada no conteúdo musical e no reparo espectral no conteúdo de fala.
[070]O desempenho do pré-achatamento durante o processamento de eSBR é controlado pelo valor de um parâmetro de metadados de eSBR de um bit conhecido "bs_sbr_preprocessing", no sentido de que o pré-achatamento ou é executado ou não executado dependendo do valor desse bit único. Quando o algoritmo de reparo SBR QMF, conforme descrito na Seção 4.6.18.6.3 do padrão MPEG-4 AAC, é usado, a etapa de pré-achatamento pode ser executada (quando indicada pelo parâmetro "bs_sbr_preprocessing") em um esforço para evitar descontinuidades no formato do envelope espectral de um sinal de alta frequência sendo inserido em um ajustador de envelope subsequente (o ajustador de envelope executa uma outra etapa do processamento de eSBR). O pré-achatamento geralmente melhora a operação da etapa de ajuste de envelope subsequente, resultando em um sinal de banda alta que é percebido como sendo mais estável.
[071]O desempenho da formatação de envelope temporal entre sub-bandas (a ferramenta "inter-TES") durante o processamento de eSBR em um decodificador é controlado pelos seguintes parâmetros de metadados de eSBR para cada envelope SBR ("env") de cada canal ("ch") de conteúdo de áudio de um fluxo de bits USAC que está sendo decodificado: bs_temp_shape[ch][env]; e bs_inter_temp_shape_mode[ch][env].
[072]A ferramenta inter-TES processa as amostras de sub-banda QMF subsequentes ao ajustador de envelope. Essa etapa de processamento formata o envelope temporal da banda de frequência mais alta com uma granularidade tem-poral mais fina que a do ajustador de envelope. Por meio da aplicação de um fator de ganho a cada amostra de sub-banda QMF em um envelope de SBR, inter-TES formata o envelope temporal entre as amostras de sub-banda QMF.
[073]O parâmetro "bs_temp_shape[ch][env]" é um sinalizador que sinaliza o uso de inter-TES. O parâmetro "bs_inter_temp_shape_mode[ch][env]" indica (conforme definido no padrão MPEG USAC) os valores do parâmetro Y em inter-TES.
[074] Espera-se que o requisito de taxa de dados geral para incluir em um fluxo de bits MPEG-4 AAC os metadados de eSBR indicativos das ferramentas de eSBR supracitadas (transposição harmônica, pré-achatamento e inter_TES) seja da ordem de algumas centenas de bits por segundo, devido ao fato de que apenas os dados de controle diferencial necessários para executar o processamento de eSBR são transmitidos de acordo com algumas modalidades da invenção. Decodificadores antigos podem ignorar essas informações pois as mesmas estão incluídas de uma maneira retrocompatível (como será explicado mais adiante). Portanto, o efeito pre-judicial sobre a taxa de bits associada à inclusão de metadados de eSBR é despre-zível, por várias razões, incluindo as seguintes: • A penalidade de taxa de bits (devido à inclusão dos metadados de eSBR) é uma fração muito pequena da taxa de bits total, devido ao fato de que apenas os dados de controle diferencial necessários para executar o processamento de eSBR são transmitidos (em vez de uma transmissão simultânea dos dados de controle de SBR); • O ajuste das informações de controle relacionadas a SBR geralmente não depende dos detalhes da transposição; e • a ferramenta inter-TES (empregada durante o processamento de eSBR) executa um pós-processamento de extremidade única do sinal transposto.
[075]Dessa forma, as modalidades da invenção fornecem um meio para a transmissão eficiente dos dados ou metadados de controle da replicação de banda espectral melhorada (eSBR) de uma maneira retrocompatível. Essa transmissão efi-ciente dos dados de controle de eSBR reduz os requisitos de memória nos decodifi- cadores, codificadores e transcodificadores que usam aspectos da invenção, que não têm efeito adverso tangível sobre a taxa de bits. Além disso, os requisitos de complexidade e processamento associados à execução de eSBR, de acordo com as modalidades da invenção, também são reduzidos porque os dados de SBR precisam ser processados apenas uma vez e não transmitidos simultaneamente, o que seria o caso se um eSBR fosse tratado como um tipo de objeto completamente separado em MPEG-4 AAC em vez de ser integrado ao codificador MPEG-4 AAC de uma maneira retrocompatível.
[076] Em seguida, com referência à Figura 7, são descritos os elementos de um bloco ("raw_data_block") de um fluxo de bits MPEG-4 AAC no qual os metada-dos de eSBR são incluídos de acordo com algumas modalidades da presente inven-ção. A Figura 7 é um diagrama de um bloco (um "raw_data_block") do fluxo de bits MPEG-4 AAC, mostrando alguns dos segmentos do mesmo.
[077] Um bloco de um fluxo de bits MPEG-4 AAC pode incluir pelo menos um "single_channel_element()" (por exemplo, o elemento de canal único mostrado na Figura 7), e/ou pelo menos um "channel_pair_element()" (não mostrado especificamente na Figura 7, embora possa estar presente), incluindo dados de áudio para um programa de áudio. O bloco pode incluir também vários dos "fill_elements" (por exemplo, elemento de preenchimento 1 e/ou elemento de preenchimento 2 da Figura 7) incluindo os dados (por exemplo, metadados) relacionados ao programa. Cada "single_channel_element()" inclui um identificador (por exemplo, "ID1" da Figura 7), indicando o início de um único elemento de canal, e pode incluir dados de áudio indicativos de um canal diferente de um programa de áudio multicanal. Cada "chan- nel_pair_element" inclui um identificador (não mostrado na Figura 7) indicando o início de um elemento de par de canais e pode incluir dados de áudio indicativos de dois canais do programa.
[078]Um fill_element (mencionado neste documento como um elemento de preenchimento) de um fluxo de bits MPEG-4 AAC inclui um identificador ("ID2" da Figura 7), indicando o início de um elemento de preenchimento e os dados de pre-enchimento após o identificador. O identificador ID2 pode consistir em um primeiro bit mais significativo transmitido de um número inteiro sem sinal ("uimsbf") de três bits tendo um valor de 0x6. Os dados de preenchimento podem incluir um elemento extension_payload() (algumas vezes chamados aqui como de carga útil de exten-são), cuja sintaxe é mostrada na Tabela 4.57 do padrão MPEG-4 AAC. Vários tipos de cargas úteis de extensão existem e são identificadas através do parâmetro "ex tension_type", que é um primeiro bit mais significativo transmitido de um número inteiro sem sinal ("uimsbf") de quatro bits.
[079]Os dados de preenchimento (por exemplo, uma carga útil de extensão dos mesmos) podem incluir um cabeçalho ou identificador (por exemplo, "header1" da Figura 7) que indica um segmento de dados de preenchimento que é indicativo de um objeto SBR (isto é, o cabeçalho inicializa um tipo de "objeto SBR", chamado de sbr_extension_data () no padrão MPEG-4 AAC). Por exemplo, uma carga útil de extensão de replicação de banda espectral (SBR) é identificada com o valor de carga de '1101' ou '1110' para o campo extension_type no cabeçalho com o identificador '1101' identificando uma carga útil de extensão com os dados SBR e '1110' identificando uma carga útil de extensão [[d]] com dados de SBR com uma verificação de redundância cíclica (CRC) para verificar a exatidão dos dados de SBR.
[080]Quando o cabeçalho (por exemplo, o campo extension_type) inicializa um tipo de objeto de SBR, os metadados de SBR (algumas vezes aqui chamados de "dados de replicação de banda espectral" chamados de sbr_data() no padrão MPEG-4 AAC) seguem o cabeçalho, e pelo menos um elemento de extensão de replicação de banda espectral (por exemplo, o "elemento de extensão de SBR" do elemento de preenchimento 1 da Figura 7) pode seguir os metadados de SBR. Tal elemento de extensão de replicação de banda espectral (um segmento de fluxo de bits) é chamado de recipiente "() sbr_extension" no padrão MPEG-4 AAC. Um elemento de extensão de replicação de banda espectral inclui, opcionalmente, um cabeçalho (por exemplo, "cabeçalho de extensão SBR" do elemento de preenchimento 1 da Figura 7).
[081]O padrão MPEG-4 AAC contempla que um elemento de extensão de replicação de banda espectral pode incluir dados PS (estéreo paramétrico) para dados de áudio de um programa. O padrão MPEG-4 AAC contempla que, quando o cabeçalho de um elemento de preenchimento (por exemplo, de uma carga útil de extensão do mesmo) inicializa um tipo de objeto SBR (assim como o "header1" da Figura 7) e um elemento de extensão de replicação de banda espectral do elemento de preenchimento inclui dados PS, o elemento de preenchimento (por exemplo, a carga útil de extensão do mesmo) inclui dados de replicação de banda espectral, e um parâmetro "bs_extension_id" cujo valor (isto é, bs_extension_id = 2) indica que os dados de PS são incluídos em um elemento de extensão de banda espectral do elemento de preenchimento.
[082] De acordo com algumas modalidades da presente invenção, os meta-dados de eSBR (por exemplo, um sinalizador indicativo de se o processamento de replicação de banda espectral aumentada (eSBR) deve ser executado no conteúdo de áudio do bloco) são incluídos em um elemento de extensão de replicação de banda espectral de um elemento de preenchimento. Por exemplo, tal sinalizador é indicado no elemento de preenchimento 1 da Figura 7, onde o sinalizador ocorre após o cabeçalho (o "cabeçalho de extensão SBR" do elemento de preenchimento 1) do "elemento de extensão SBR" do elemento de preenchimento 1. Opcionalmen-te, tal sinalizador e os metadados de eSBR adicionais são incluídos em um elemento de extensão de replicação de banda espectral após o cabeçalho do elemento de ex-tensão de replicação de banda espectral (por exemplo, no elemento de extensão SBR do elemento de preenchimento 1 na Figura 7, após o cabeçalho de extensão SBR). De acordo com algumas modalidades da presente invenção, um elemento de preenchimento que inclui metadados de eSBR inclui também um parâmetro "bs_extension_id" cujo valor (por exemplo, bs_extension_id = 3) indica que os meta-dados de eSBR são incluídos no elemento de preenchimento e que o processamen-to de eSBR deve ser executado no conteúdo de áudio do bloco relevante.
[083]De acordo com algumas modalidades da invenção, os metadados de eSBR são incluídos em um elemento de preenchimento (por exemplo, elemento de preenchimento 2 da Figura 7) de um fluxo de bits MPEG-4 AAC diferente de um ele- mento de extensão de replicação de banda espectral (elemento de extensão SBR) do elemento de preenchimento. Isso se deve ao fato de que os elementos de preenchi-mento que contêm um extension_payload() com dados de SBR ou dados de SBR com um CRC não contêm qualquer carga útil de extensão de qualquer outro tipo de extensão. Portanto, em modalidades onde os metadados de eSBR são armazenados na sua própria carga útil de extensão, um elemento de preenchimento separado é usado para armazenar os metadados de eSBR. Tal elemento de preenchimento inclui um identificador (por exemplo, "ID2" da Figura 7), indicando o início de um elemento de preenchimento e os dados de preenchimento após o identificador. Os dados de preenchimento podem incluir um elemento extension_payload() (algumas vezes chamados aqui como de carga útil de extensão), cuja sintaxe é mostrada na Tabela 4.57 do padrão MPEG-4 AAC. Os dados de preenchimento (por exemplo, uma carga útil de extensão dos mesmos) incluem um cabeçalho (por exemplo, "header2" do elemento de preenchimento 2 da Figura 7) que é indicativo de um objeto eSBR (isto é, o cabeçalho inicializa um tipo de objeto de replicação de banda espectral melhorada (eSBR)), e os dados de preenchimento (por exemplo, uma carga útil de extensão dos mesmos) incluem os metadados de eSBR após o cabeçalho. Por exemplo, o elemento de preenchimento 2 da Figura 7 inclui tal cabeçalho ("header2") e também inclui, após o cabeçalho, metadados de eSBR (isto é, o "sinalizador" no elemento de preenchimento 2, que é indicativo de se o processamento de replicação de banda espectral aumentada (eSBR) deve ser executado em conteúdo de áudio do bloco). Opcionalmente, os metadados de eSBR adicionais também são incluídos nos dados de preenchimento do elemento de preenchimento 2 da Figura 7 após o cabeçalho 2. Nas modalidades que são descritas no presente parágrafo, o cabeçalho (por exemplo, o cabeçalho 2 da Figura 7) tem um valor de identificação que não é um dos valores convencionais especificados na Tabela 4.57 do padrão MPEG-4 AAC, e em vez disso é indicativo de uma carga útil de extensão de eSBR (de modo que o campo extension_type do cabeçalho indica que os dados de preenchimen- to incluem metadados de eSBR).
[084] Em uma primeira classe de modalidades, a invenção é uma unidade de processamento de áudio (por exemplo, um decodificador), que compreende: uma memória (por exemplo, memória intermediária 201 da Figura 3 ou 4) configurada para armazenar pelo menos um bloco de um fluxo de bits de áudio codificado (por exemplo, pelo menos um bloco de um fluxo de bits MPEG-4 AAC); um desformatador de carga útil de fluxo de bits (por exemplo, o elemento 205 da Figura 3 ou o elemento 215 da Figura 4) acoplado à memória e configurado para demultiplexar ao menos uma porção do dito bloco do fluxo de bits; e um subsistema de decodificação (por exemplo, elementos 202 e 203 da Fi-gura 3, ou os elementos 202 e 213 da Figura 4), acoplado e configurado para de-codificar pelo menos uma porção do conteúdo de áudio do dito bloco do fluxo de bits, sendo que o bloco inclui: um elemento de preenchimento, que inclui um identificador indicando um início do elemento de preenchimento (por exemplo, o identificador "id_syn_ele" tendo valor 0x6, da Tabela 4.85 do padrão MPEG-4 AAC) e os dados de preenchimento após o identificador, sendo que os dados de preenchimento incluem: pelo menos um sinalizador identificando se o processamento da replicação de banda espectral melhorada (eSBR) deve ser executado no conteúdo de áudio do bloco (por exemplo, com o uso de dados de replicação de banda espectral e meta-dados de eSBR incluídos no bloco).
[085]O sinalizador são metadados de eSBR, e um exemplo de sinalizador é o indicador sbrPatchingMode. Um outro exemplo de sinalizador é o indicador harmo- nicSBR. Ambos os sinalizadores indicam se uma forma básica de replicação de banda espectral ou uma forma melhorada da replicação espectral deve ser executa-da nos dados de áudio do bloco. A forma básica de replicação espectral é o reparo espectral e a forma melhorada da replicação de banda espectral é a transposição harmônica.
[086]Em algumas modalidades, os dados de preenchimento também incluem metadados de eSBR adicionais (isto é, metadados de eSBR além do sinalizador).
[087]A memória pode ser uma memória intermediária (por exemplo, uma implementação da memória intermediária 201 da Figura 4) que armazena (por exemplo, de uma maneira não transitória) o pelo menos um bloco do fluxo de bits de áudio codificado.
[088]Estima-se que a complexidade do desempenho do processamento de eSBR (usando a transposição harmônica de eSBR, pré-achatamento e ferramentas inter_TES) por um decodificador de eSBR durante a decodificação de um fluxo de bits MPEG-4 AAC que inclui metadados de eSBR (indicativo dessas ferramentas de eSBR) seria a seguinte (para decodificação típica com os parâmetros indicados): o Transposição harmônica (16 kbp, 14.400/28.800 Hz) o com base em DFT: 3,68 WMOPS (ponderado em milhão de operações por segundo); o com base em QMF: 0,98 WMOPS; • pré-processamento de reparo de QMF (pré-achatamento): 0,1 WMOPS e • formatação de envelope temporal da amostra entre sub-bandas (inter- TES): No máximo WMOPS 0,16.
[089]Sabe-se que a transposição com base em DFT tem, geralmente, um de-sempenho melhor que a transposição com base em QMF para elementos transientes.
[090]De acordo com algumas modalidades da presente invenção, um elemento de preenchimento (de um fluxo de bits de áudio codificado) que inclui metadados de eSBR também inclui um parâmetro (por exemplo, um parâmetro de "bs_extension_id") cujo valor (por exemplo, bs_extension_id = 3) indica que os metadados de eSBR são incluídos no elemento de preenchimento e que o processamento de eSBR deve ser executado no conteúdo de áudio do bloco e/ou um parâmetro relevante (por exemplo, o mesmo parâmetro "bs_extension_id") cujo valor (por exemplo, bs_extension_id = 2) sinaliza que um recipiente sbr_extension() do elemento de preenchimento inclui dados de PS. Por exemplo, conforme indicado na Tabela 1 abaixo, tal parâmetro tendo o valor bs_extension_id = 2 pode indicar que um recipiente sbr_extension() do elemento de preenchimento inclui dados PS e tal parâmetro tendo o valor bs_extension_id = 3 pode indicar que o recipiente sbr_extension() do elemento de preenchimento inclui os metadados de eSBR:
Figure img0001
[091]De acordo com algumas modalidades da invenção, a sintaxe de cada elemento de extensão de replicação de banda espectral que inclui metadados de eSBR e/ou dados de PS é conforme indicado na Tabela 2 abaixo (em que "sbr_extension ()" designa um recipiente que é o elemento de extensão de replicação de banda espectral, "bs_extension_id" é conforme descrito na Tabela 1 acima, "ps_data" designa dados de PS e "esbr_data" designa metadados de eSBR):
Figure img0002
Figure img0003
[092]Em uma modalidade exemplificadora, o esbr_data() mencionado na Tabe-la 2 acima é indicativo de valores dos seguintes parâmetros de metadados: 1. cada um dos parâmetros de metadados de um bit descritos acima "harmoni- cSBR"; "bs_interTES"; e "bs_sbr_preprocessing"; 2. para cada canal ("ch") de conteúdo de áudio do fluxo de bits codificado a ser decodificado, cada um dos parâmetros descritos acima: "sbrPatchingMode[ch]"; "sbrO- versamplingFlag[ch]"; "sbrPitchInBinsFlag[ch]"; e "sbrPitchInBins[ch]"; e 3. para cada envelope SBR ("env") de cada canal ("ch") do conteúdo de áudio do fluxo de bits codificado a ser decodificado, cada um dos parâmetros descritos acima: "bs_temp_shape[ch][env]"; e "bs_inter_temp_shape_mode[ch][env]".
[093]Por exemplo, em algumas modalidades, o esbr_data() pode ter a sintaxe indicada na Tabela 3 para indicar esses parâmetros de metadados:
Figure img0004
Figure img0005
[094]A sintaxe acima possibilita uma implementação eficaz de uma forma melhorada da replicação de banda espectral, como transposição harmônica, como uma extensão para um decodificador antigo. Especificamente, os dados de eSBR da Tabela 3 incluem apenas os parâmetros necessários para executar a forma melhorada da replicação de banda espectral que não são suportados no fluxo de bits ou diretamente deriváveis dos parâmetros já suportados no fluxo de bits. Todos os outros parâmetros e dados de processamento necessários para executar a forma melhorada de replicação de banda espectral são extraídos de parâmetros pré-existente nos locais de fluxo de bits já definidos.
[095] Por exemplo, um decodificador em conformidade com MPEG-4 HE- AAC ou HE-AAC v2 pode ser expandido para incluir uma forma melhorada da repli- cação de banda espectral, como transposição harmônica. Essa forma melhorada de replicação de banda espectral é, em adição à forma básica de replicação de banda espectral, já suportada pelo decodificador. No contexto de um decodificador em conformidade com MPEG-4 HE-AAC ou HE-AAC v2, essa forma básica de replicação de banda espectral é a ferramenta de SBR espectral QMF conforme definido na Seção 4.6.18 do padrão MPEG-4 AAC.
[096]Na execução da forma melhorada da replicação de banda espectral, um decodificador HE-AAC expandido pode reutilizar muitos dos parâmetros de fluxo de bits já incluídos na carga útil da extensão SBR do fluxo de bits. Os parâmetros específicos que podem ser reutilizados incluem, por exemplo, os vários parâmetros que determinam a tabela da banda de frequência mestre. Esses parâmetros incluem bs_start_freq (parâmetro que determina o início do parâmetro da tabela de frequência mestre), bs_stop_freq (parâmetro que determina a interrupção da tabela de frequência mestre), bs_freq_scale (parâmetro que determina o número de bandas de frequência por oitava) e bs_alter_scale (parâmetro que altera a escala das bandas de frequência). Os parâmetros que podem ser reutilizados também incluem parâmetros que determinam a tabela de banda de ruído (bs_noise_bands) e os parâmetros limitadores da tabela de banda (bs_limiter_bands). Consequentemente, em várias modalidades, pelo menos alguns dos parâmetros equivalentes especificados no padrão USAC são omitidos do fluxo de bits reduzindo, assim, a sobrecarga de controle no fluxo de bits. Geralmente, onde um parâmetro especificado no padrão AAC tem um parâmetro equivalente especificado no padrão USAC, o parâmetro equivalente especificado no padrão USAC tem o mesmo nome do parâmetro especificado no padrão AAC, por exemplo o fator de escala do envelope Eong mapeado. Entretanto, o parâmetro equivalente especificado no padrão USAC geralmente tem um valor diferente, que é "ajustado" para o processamento de SBR melhorada definido no padrão USAC em vez de ser para processamento de SBR definido no padrão AAC.
[097]Em adição aos vários parâmetros, outros elementos de dados também podem ser reutilizados por um decodificador HE-AAC expandido na execução de uma forma melhorada da replicação de banda espectral de acordo com as modalidades da invenção. Por exemplo, os dados de envelope e os dados de piso de ruído podem também ser extraídos a partir dos dados bs_data_env e bs_noise_env e usados durante a forma melhorada da replicação de banda espectral.
[098]Em essência, essas modalidades exploram os parâmetros de configuração e os dados de envelope já suportados por um decodificador HE-AAC ou HE-AAC v2 antigo na carga útil da extensão de SBR para possibilitar uma forma melhorada de replicação de banda espectral que exige o mínimo possível de dados transmitidos. Consequentemente, os decodificadores expandidos que suportam uma forma melho-rada de replicação de banda espectral podem ser criados de uma maneira muito efici-ente contando com elementos de fluxo de bits já definidos (por exemplo, aqueles na carga útil de extensão de SBR) e adicionando apenas os parâmetros necessários para suportar a forma melhorada da replicação de banda espectral (em uma carga útil de extensão do elemento de preenchimento). Essa característica de redução de dados combinada com o posicionamento dos parâmetros recém-adicionados em um campo de dados reservado, como um recipiente de extensão, reduz substancialmente as barreiras para criar um decodificador que suporta uma forma melhorada de replicação de banda espectral assegurando que o fluxo de bits seja retrocompatível com o decodifi- cador antigo que não suporta a forma melhorada de replicação de banda espectral.
[099]Na Tabela 3, o número na coluna central indica o número de bits do parâ-metro correspondente na coluna da esquerda.
[0100]Em algumas modalidades, a invenção é um método que inclui uma etapa de codificar dados de áudio codificados para gerar um fluxo de bits codificado (por exemplo, um fluxo de bits MPEG-4 AAC), incluindo metadados de eSBR em pelo me-nos um segmento de pelo menos um bloco do fluxo de bits e dados de áudio codifica-dos e em pelo menos um outro segmento do bloco. Em modalidades típicas, o método inclui uma etapa de multiplexação de dados de áudio com os metadados de eSBR em cada bloco do fluxo de bits codificado. Na decodificação típica do fluxo de bits codificado em um decodificador de eSBR, o decodificador extrai os metadados de eSBR do fluxo de bits (incluindo análise e demultiplexação dos metadados de eSBR e dos dados de áudio) e usa os metadados de eSBR para processar os dados de áudio para gerar um fluxo de dados de áudio decodificados.
[0101]Um outro aspecto da invenção é um decodificador de eSBR configurado para executar o processamento de eSBR (por exemplo, com o uso de ao menos uma dentre as ferramentas de eSBR conhecidas, como transposição harmônica, pré- achatamento ou inter_TES) durante a decodificação de um fluxo de bits de áudio codifi-cado (por exemplo, um fluxo de bits de MPEG-4 AAC) que não inclui metadados de eSBR. Um exemplo de tal decodificador será descrito com referência à Figura 5.
[0102]O decodificador de eSBR (400) da Figura 5 inclui a memória intermediária 201 (que é idêntica à memória 201 das Figuras 3 e 4), o desformatador de carga útil de fluxo de bits 215 (que é idêntico ao desformatador da Figura 4), o subsistema de de- codificação de áudio 202 (às vezes chamado de etapa de decodificação "central" ou subsistema de decodificação "central", e que é idêntico ao subsistema de decodificação central 202 da Figura 3), o subsistema de geração de dados de controle eSBR 401, e a etapa de processamento de eSBR 203 (que é idêntica à etapa 203 da Figura 3), conec-tada conforme mostrado. Também, geralmente, o decodificador 400 inclui outros ele-mentos de processamento (não mostrados).
[0103]Na operação do decodificador 400, é feita a asserção de uma sequência de blocos de um fluxo de bits de áudio codificado (um fluxo de bits MPEG-4 AAC) recebidos pelo decodificador 400 da memória intermediária 210 para o desformata- dor 215.
[0104]O desformatador 215 é acoplado e configurado para a demultiplexa- ção de cada bloco do fluxo de bits para extrair metadados de SBR (incluindo dados de envelope quantizado) e geralmente também outros metadados a partir dali. O desformatador 215 é configurado para asserção de pelo menos os metadados de eSBR para a etapa de processamento de SBR 203. O desformatador 215 também é acoplado e configurado para extrair dados de áudio de cada bloco do fluxo de bits e para a asserção dos dados de áudio extraídos para o subsistema de decodi- ficação (etapa de decodificação) 202.
[0105]O subsistema de decodificação de áudio 202 do decodificador 400 é configurado para decodificar os dados de áudio extraídos pelo desformatador 215 (tal decodificação pode ser chamada de operação de decodificação "central") para gerar dados de áudio decodificados e para a asserção dos dados de áudio decodificados para a etapa de processamento de eSBR 203. A decodificação é executada no domínio da frequência. Geralmente, uma etapa final de processamento no subsistema 202 aplica uma transformada de domínio de frequência para domínio por tempo, para os dados de áudio decodificados de domínio da frequência, de modo que a saída do subsistema seja dados de áudio decodificados de domínio do tempo. A etapa 203 é configurada para aplicar as ferramentas de SBR (e as ferramentas de eSBR) indicadas pelos metadados de SBR (extraídos pelo desformatador 215) e pelos metadados de eSBR gerados no subsistema 401 para os dados de áudio decodificados (isto é, para executar o processamento de SBR e eSBR na saída do subsistema de decodificação 202 utilizando os metadados de SBR e eSBR) para gerar os dados de áudio totalmente decodificados que é a saída do decodificador 400. Geralmente, o decodificador 400 inclui uma memória (acessível pelo subsistema 202 e pela etapa 203) que armazena a saída de dados e metadados de áudio desformatados do desformatador 215 (e opcionalmente também o subsistema 401), e a etapa 203 é configurada para acessar os dados e metadados de áudio, conforme necessário durante o processamento de SBR e eSBR. O processamento de SBR na etapa 203 pode ser considerado pós-processamento na saída do subsistema de decodificação central 202. Opcionalmente, o decodificador 400 inclui também um subsistema de upmixing (que pode aplicar ferramentas de estéreo paramétrico ("PS") definidas no padrão MPEG-4 AAC, usando metadados de PS extraídos pelo desformatador 205) que é acoplado e configurado de modo a executar o upmixing na saída da etapa 203 para gerar áudio com upmixing totalmente codificado [[d]] que é produzido pela APU 210.
[0106]O subsistema de geração de dados de controle da Figura 5 é acoplado e configurado para detectar pelo menos uma propriedade do fluxo de bits de áudio codifi-cado a ser decodificado, e para gerar dados de controle de eSBR (que podem ser ou incluir metadados de eSBR de qualquer um dos tipos incluídos nos fluxos de bits de áudio codificado, de acordo com outras modalidades da invenção), em resposta a pelo menos um resultado da etapa de detecção. É feita a asserção dos dados de controle de eSBR para a etapa 203 para ativar a aplicação de ferramentas de eSBR individuais ou combinações de ferramentas de eSBR mediante a detecção de uma propriedade espe- cífica (ou combinação de propriedades) do fluxo de bits e/ou para controlar a aplicação de tais ferramentas de eSBR. Por exemplo, para controlar o desempenho do controle do processamento de eSBR usando a transposição harmônica, algumas modalidades do subsistema de geração de dados de controle 401 pode incluir: um detector de música (por exemplo, uma versão simplificada de um detector convencional de música) para definir o parâmetro o sbrPatchingMode[ch] (e asserção do conjunto de parâmetros para a etapa 203) em resposta à detecção de que o fluxo de bits é ou não indicativo de músi-ca; um detector temporário para definir o parâmetro sbrOversamplingFlag[ch] (e asser-ção do conjunto de parâmetros para a etapa 2013) em resposta à detecção da presença ou ausência de elementos transientes no conteúdo de áudio indicado pelo fluxo de bits; e/ou um detector de espaçamento para definir os parâmetros de sbrPitchInBins- Flag[ch] e sbrPitchInBins[ch] (e asserção do conjunto de parâmetros para a etapa 203) em resposta à detecção do espaçamento do conteúdo de áudio indicado pelo fluxo de bits. Outros aspectos da invenção são métodos de decodificação de fluxo de bits de áudio executados por qualquer modalidade do decodificador da invenção descrita neste parágrafo e no parágrafo anterior.
[0107]Os aspectos da invenção incluem um método de codificação ou de- codificação do tipo para o qual qualquer modalidade de APU, sistema ou dispositivo da invenção é configurada (por exemplo, programado) para executar. Outros aspectos da invenção incluem um sistema ou dispositivo configurado (por exemplo, programado) para executar qualquer modalidade do método da invenção, e uma mídia legível por computador (por exemplo, um disco) que armazena código (por exemplo, de uma maneira não-transitória) para implementar qualquer modalidade do método da invenção ou suas etapas. Por exemplo, o sistema da invenção pode ser ou incluir um processador programável de uso geral, um processador de sinal digital ou microprocessador, programados com software ou firmware, e/ou de outro modo configurados para executar qualquer de uma variedade de operações de da dos, incluindo uma modalidade do método da invenção ou suas etapas. Esse pro-cessador de uso geral pode ser ou incluir um sistema de computador incluindo um dispositivo de entrada de dados, uma memória e circuito de processamento programado (e/ou de outro modo configurado) para executar uma modalidade do método da invenção (ou suas etapas) em resposta aos dados a ele designado.
[0108]As modalidades da presente invenção podem ser implementadas em hardware, firmware, ou software, ou uma combinação de ambos (por exemplo, como uma matriz de lógica programável). A menos que de outro modo especificado, os algoritmos ou processos incluídos como parte da invenção não são inerentemente relacionados a qualquer computador ou outro aparelho específico. Em particular, várias máquinas de propósito geral podem ser usadas com programas escritos de acordo com os ensinamentos da presente invenção, ou pode ser mais conveniente construir aparelho mais especializado (por exemplo, circuitos integrados) para executar as etapas exigidas do método. Dessa forma, a invenção pode ser implementada em um ou mais programas de computador executado em um ou mais sistemas de computador programáveis (por exemplo, uma implementação de qualquer um dos elementos da Figura 1, ou o codificador 100 da Figura 2 (ou um elemento do mesmo), ou o decodificador 200 da Figura 3 (ou um elemento do mesmo) ou o decodificador 210 da Figura 4 (ou um elemento do mesmo) ou o de- codificador 400 da Figura 5 (ou a um elemento do mesmo)), cada um compreendendo pelo menos um processador, pelo menos um sistema de armazenamento de dados (incluindo memória volátil e não volátil e/ou elementos de armazenamento), pelo menos um dispositivo ou porta de entrada, e pelo menos um dispositivo ou porta de saída. O código de programa é aplicado para que os dados de entrada realizem as funções aqui descritas e gerar informações de saída. As informações de saída são aplicadas a um ou mais dispositivos de saída, de maneira conhecida.
[0109]Cada um desses programas pode ser implementado em qualquer linguagem de computador desejada (incluindo máquina, montagem ou de alto nível processual, lógica, ou linguagens de programação orientadas a objeto) para se comunicar com um sistema de computador. Em qualquer caso, a linguagem pode ser uma linguagem compilada ou interpretada.
[0110]Por exemplo, quando implementadas por sequências de instrução de software de computador, várias funções e etapas das modalidades da invenção podem ser implementadas por sequências de instruções de software multitarefa executadas em hardware de processamento de sinal digital adequado, no qual os vários dispositivos, etapas e funções das modalidades podem corresponder às porções das instruções de software.
[0111]Cada um desses programas de computador é de preferência armazenado em ou transferido para um meio ou dispositivo de armazenamento (por exemplo, memória ou meio de estado sólido, ou meio magnético ou óptico) legível por um computador programável de propósito geral ou especial, para configurar e operar o computador quando o meio ou dispositivo de armazenamento é lido pelo computador para executar os procedimentos aqui descritos. O sistema da invenção pode também ser implementado como uma mídia de armazenamento legível por computador, configurada com (ou seja, armazenamento) um programa de computador, onde a mídia de armazenamento assim configurada faz com que um sistema de computador funcione de uma maneira específica e predefinida para executar as funções aqui descritas.
[0112]Várias modalidades da invenção foram descritas. No entanto, deve- se compreender que várias modificações podem ser feitas sem que se desvie do espírito e escopo da invenção. Numerosas modificações e variações da presente invenção são possíveis à luz dos ensinamentos acima. Deve-se compreender que dentro do escopo das reivindicações em anexo, a invenção pode ser posta em prática de outro modo que não especificamente descrito aqui. Quaisquer números de referência contidos nas reivindicações a seguir são incluídos para propósitos ilus-trativos apenas e não devem ser usados para interpretar ou limitar as reivindicações em qualquer maneira que seja.

Claims (4)

1. Unidade de processamento de áudio (210), CARACTERIZADA por compre-ender: um desformatador de carga útil de fluxo de bits (215) configurado para de- multiplexar um bloco de um fluxo de bits de áudio codificado; um subsistema de decodificação (202) acoplado ao desformatador de carga útil de fluxo de bits (215) e configurado para decodificar pelo menos uma porção do bloco do fluxo de bits de áudio codificado, em que o bloco do fluxo de bits de áudio codificado inclui: um elemento de preenchimento com um identificador indicando um início do elemento de preenchimento e dados de preenchimento após o identificador, em que os dados de preenchimento incluem: pelo menos um sinalizador identificando se processamento de re- plicação de banda espectral melhorada (eSBR) deve ser executado no conteúdo de áudio do pelo menos um bloco do fluxo de bits de áudio codificado; e metadados de replicação de banda espectral melhorada despro-vidos de um ou mais parâmetros usados tanto para reparo espectral quanto para transposição harmônica, em que metadados de replicação de banda espectral melhorada são metadados configurados para pos-sibilitar pelo menos uma ferramenta de eSBR que é descrita no padrão MPEG USAC, sem ser descrita no padrão MPEG-4 AAC, em que os metadados de replicação de banda espectral melhorada incluem um parâmetro indicando se deve executar sobreamostragem de domínio de frequên-cia adaptável de sinal, e o sistema de decodificação (202) é adicionalmente configu-rado para executar sobreamostragem de domínio de frequência adaptável de sinal se o parâmetro indicar que a sobreamostragem de domínio de frequência adaptável de sinal deve ser executada.
2. Unidade de processamento de áudio, de acordo com a reivindicação 1, CARACTERIZADA pelo fato de que o fluxo de bits de áudio codificado é um fluxo de bits MPEG-4 AAC.
3. Unidade de processamento de áudio, de acordo com a reivindicação 1 ou 2, CARACTERIZADA pelo fato de que o identificador é um primeiro bit mais significativo transmitido de um número inteiro sem sinal de três bits e tendo um valor de 0x6.
4. Unidade de processamento de áudio, de acordo com a reivindicação 1 ou 2, CARACTERIZADA pelo fato de que os dados de preenchimento incluem uma carga útil de extensão, a carga útil de extensão inclui dados de extensão de replicação de banda espectral, e a carga útil de extensão é identificada com um primeiro bit mais significativo transmitido de um número inteiro sem sinal de quatro bits e tendo valor de "1101'' ou "1110" e, em que os dados de extensão de replicação de banda espectral incluem: um cabeçalho de replicação de banda espectral, dados de replicação de banda espectral após o cabeçalho, e um elemento de extensão de replicação de banda espectral após os dados de replicação de banda espectral, e em que o sinalizador é incluído no elemento de extensão de replicação de banda espectral.
BR122020018627-5A 2015-03-13 2016-03-10 Unidade de processamento de áudio para decodificação de fluxos de bits de áudio com metadados de replicação de banda espectral em pelo menos um elemento de preenchimento BR122020018627B1 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP15159067 2015-03-13
EP15159067.6 2015-03-13
US201562133800P 2015-03-16 2015-03-16
US62/133.800 2015-03-16
PCT/EP2016/055202 WO2016146492A1 (en) 2015-03-13 2016-03-10 Decoding audio bitstreams with enhanced spectral band replication metadata in at least one fill element

Publications (1)

Publication Number Publication Date
BR122020018627B1 true BR122020018627B1 (pt) 2022-11-01

Family

ID=52692473

Family Applications (9)

Application Number Title Priority Date Filing Date
BR112017019499-6A BR112017019499B1 (pt) 2015-03-13 2016-03-10 Unidade de processamento de áudio para decodificação de fluxos de bits de áudio com metadados de replicação de banda espectral em ao menos um elemento de preenchimento
BR122020018629-1A BR122020018629B1 (pt) 2015-03-13 2016-03-10 Unidade de processamento de áudio para decodificação de fluxos de bits de áudio com metadados de replicação de banda espectral em pelo menos um elemento de preenchimento
BR122020018676-3A BR122020018676B1 (pt) 2015-03-13 2016-03-10 Método para decodificar um fluxo de bits de áudio codificado através de demultiplexar e decodificar um bloco de um fluxo de bits de áudio codificado que inclui um elemento de preenchimento e um identificador
BR122020018731-0A BR122020018731B1 (pt) 2015-03-13 2016-03-10 Unidade de processamento de áudio para decodificar um fluxo de bits de áudio codificado configurado para demultiplexar e decodificar um bloco de um fluxo de bits de áudio codificado que inclui um elemento de preenchimento e um identificador
BR122020018736-0A BR122020018736B1 (pt) 2015-03-13 2016-03-10 Unidade de processamento de áudio para decodificar um fluxo de bits de áudio codificado
BR122020018627-5A BR122020018627B1 (pt) 2015-03-13 2016-03-10 Unidade de processamento de áudio para decodificação de fluxos de bits de áudio com metadados de replicação de banda espectral em pelo menos um elemento de preenchimento
BR122020018673-9A BR122020018673B1 (pt) 2015-03-13 2016-03-10 Método para decodificar um fluxo de bits de áudio codificado
BR112017018548-2A BR112017018548B1 (pt) 2015-03-13 2016-03-10 Unidade de processamento de áudio para decodificação de fluxos de bits de áudio com metadados de replicação de banda espectral em pelo menos um elemento de preenchimento
BR122019004614-0A BR122019004614B1 (pt) 2015-03-13 2016-03-10 Método de decodificação de um fluxo de bits de áudio codificado

Family Applications Before (5)

Application Number Title Priority Date Filing Date
BR112017019499-6A BR112017019499B1 (pt) 2015-03-13 2016-03-10 Unidade de processamento de áudio para decodificação de fluxos de bits de áudio com metadados de replicação de banda espectral em ao menos um elemento de preenchimento
BR122020018629-1A BR122020018629B1 (pt) 2015-03-13 2016-03-10 Unidade de processamento de áudio para decodificação de fluxos de bits de áudio com metadados de replicação de banda espectral em pelo menos um elemento de preenchimento
BR122020018676-3A BR122020018676B1 (pt) 2015-03-13 2016-03-10 Método para decodificar um fluxo de bits de áudio codificado através de demultiplexar e decodificar um bloco de um fluxo de bits de áudio codificado que inclui um elemento de preenchimento e um identificador
BR122020018731-0A BR122020018731B1 (pt) 2015-03-13 2016-03-10 Unidade de processamento de áudio para decodificar um fluxo de bits de áudio codificado configurado para demultiplexar e decodificar um bloco de um fluxo de bits de áudio codificado que inclui um elemento de preenchimento e um identificador
BR122020018736-0A BR122020018736B1 (pt) 2015-03-13 2016-03-10 Unidade de processamento de áudio para decodificar um fluxo de bits de áudio codificado

Family Applications After (3)

Application Number Title Priority Date Filing Date
BR122020018673-9A BR122020018673B1 (pt) 2015-03-13 2016-03-10 Método para decodificar um fluxo de bits de áudio codificado
BR112017018548-2A BR112017018548B1 (pt) 2015-03-13 2016-03-10 Unidade de processamento de áudio para decodificação de fluxos de bits de áudio com metadados de replicação de banda espectral em pelo menos um elemento de preenchimento
BR122019004614-0A BR122019004614B1 (pt) 2015-03-13 2016-03-10 Método de decodificação de um fluxo de bits de áudio codificado

Country Status (23)

Country Link
US (12) US10262668B2 (pt)
EP (10) EP3268961B1 (pt)
JP (8) JP6383501B2 (pt)
KR (11) KR102269858B1 (pt)
CN (22) CN109243474B (pt)
AR (10) AR103856A1 (pt)
AU (5) AU2016233669B2 (pt)
BR (9) BR112017019499B1 (pt)
CA (5) CA3210429A1 (pt)
CL (1) CL2017002268A1 (pt)
DK (6) DK4198974T3 (pt)
ES (4) ES2893606T3 (pt)
FI (3) FI4141866T3 (pt)
HU (4) HUE057225T2 (pt)
IL (3) IL295809B2 (pt)
MX (2) MX2017011490A (pt)
MY (1) MY184190A (pt)
PL (6) PL3657500T3 (pt)
RU (4) RU2760700C2 (pt)
SG (2) SG10201802002QA (pt)
TW (4) TWI758146B (pt)
WO (2) WO2016149015A1 (pt)
ZA (4) ZA201903963B (pt)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI758146B (zh) 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
TWI752166B (zh) * 2017-03-23 2022-01-11 瑞典商都比國際公司 用於音訊信號之高頻重建的諧波轉置器的回溯相容整合
US10573326B2 (en) * 2017-04-05 2020-02-25 Qualcomm Incorporated Inter-channel bandwidth extension
EP3729298A1 (en) 2017-12-19 2020-10-28 Dolby International AB Methods and apparatus systems for unified speech and audio decoding improvements
CN111670473A (zh) 2017-12-19 2020-09-15 杜比国际公司 用于统一语音及音频解码基于qmf的谐波移调器改进的方法及设备
TWI812658B (zh) 2017-12-19 2023-08-21 瑞典商都比國際公司 用於統一語音及音訊之解碼及編碼去關聯濾波器之改良之方法、裝置及系統
FI4120261T3 (fi) * 2018-01-26 2024-01-12 Dolby Int Ab Korkeataajuuden rekonstruktiotekniikoita audiosignaalien taaksepäin yhteensopivaan integrointiin
TWI702594B (zh) 2018-01-26 2020-08-21 瑞典商都比國際公司 用於音訊信號之高頻重建技術之回溯相容整合
AU2019257701A1 (en) 2018-04-25 2020-12-03 Dolby International Ab Integration of high frequency reconstruction techniques with reduced post-processing delay
SG11202010374VA (en) * 2018-04-25 2020-11-27 Dolby Int Ab Integration of high frequency audio reconstruction techniques
US11081116B2 (en) * 2018-07-03 2021-08-03 Qualcomm Incorporated Embedding enhanced audio transports in backward compatible audio bitstreams
AU2019323625A1 (en) * 2018-08-21 2021-04-15 Dolby International Ab Methods, apparatus and systems for generation, transportation and processing of immediate playout frames (ipfs)
KR102510716B1 (ko) * 2020-10-08 2023-03-16 문경미 양파를 이용한 잼의 제조방법 및 이로 제조된 양파잼
CN114051194A (zh) * 2021-10-15 2022-02-15 赛因芯微(北京)电子科技有限公司 一种音频轨道元数据和生成方法、电子设备及存储介质
WO2024012665A1 (en) * 2022-07-12 2024-01-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding of precomputed data for rendering early reflections in ar/vr systems
CN116528330B (zh) * 2023-07-05 2023-10-03 Tcl通讯科技(成都)有限公司 设备入网方法、装置、电子设备及计算机可读存储介质

Family Cites Families (102)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
DE19747132C2 (de) * 1997-10-24 2002-11-28 Fraunhofer Ges Forschung Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
GB0003960D0 (en) * 2000-02-18 2000-04-12 Pfizer Ltd Purine derivatives
TW524330U (en) 2001-09-11 2003-03-11 Inventec Corp Multi-purposes image capturing module
DE60208426T2 (de) * 2001-11-02 2006-08-24 Matsushita Electric Industrial Co., Ltd., Kadoma Vorrichtung zur signalkodierung, signaldekodierung und system zum verteilen von audiodaten
EP1444688B1 (en) 2001-11-14 2006-08-16 Matsushita Electric Industrial Co., Ltd. Encoding device and decoding device
AU2002352182A1 (en) * 2001-11-29 2003-06-10 Coding Technologies Ab Methods for improving high frequency reconstruction
CA2388352A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for frequency-selective pitch enhancement of synthesized speed
US7447631B2 (en) 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
US7043423B2 (en) * 2002-07-16 2006-05-09 Dolby Laboratories Licensing Corporation Low bit-rate audio coding systems and methods that use expanding quantizers with arithmetic coding
EP1414273A1 (en) 2002-10-22 2004-04-28 Koninklijke Philips Electronics N.V. Embedded data signaling
DE602004023917D1 (de) * 2003-02-06 2009-12-17 Dolby Lab Licensing Corp Kontinuierliche audiodatensicherung
KR100917464B1 (ko) 2003-03-07 2009-09-14 삼성전자주식회사 대역 확장 기법을 이용한 디지털 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치
RU2374703C2 (ru) * 2003-10-30 2009-11-27 Конинклейке Филипс Электроникс Н.В. Кодирование или декодирование аудиосигнала
KR100571824B1 (ko) * 2003-11-26 2006-04-17 삼성전자주식회사 부가정보 삽입된 mpeg-4 오디오 bsac부호화/복호화 방법 및 장치
US7668711B2 (en) * 2004-04-23 2010-02-23 Panasonic Corporation Coding equipment
DE102004046746B4 (de) * 2004-09-27 2007-03-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren zum Synchronisieren von Zusatzdaten und Basisdaten
PL1839297T3 (pl) * 2005-01-11 2019-05-31 Koninklijke Philips Nv Skalowalne kodowanie/dekodowanie sygnałów audio
KR100818268B1 (ko) * 2005-04-14 2008-04-02 삼성전자주식회사 오디오 데이터 부호화 및 복호화 장치와 방법
KR20070003574A (ko) * 2005-06-30 2007-01-05 엘지전자 주식회사 오디오 신호 인코딩 및 디코딩 방법 및 장치
EP1920437A4 (en) * 2005-07-29 2010-01-06 Lg Electronics Inc METHOD FOR SIGNALING CUTTING INFORMATION
US7643561B2 (en) * 2005-10-05 2010-01-05 Lg Electronics Inc. Signal processing using pilot based coding
KR100878766B1 (ko) * 2006-01-11 2009-01-14 삼성전자주식회사 오디오 데이터 부호화 및 복호화 방법과 장치
US7610195B2 (en) * 2006-06-01 2009-10-27 Nokia Corporation Decoding of predictively coded data using buffer adaptation
RU2420815C2 (ru) * 2006-10-25 2011-06-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для генерации значений подполос звукового сигнала и устройство и способ для генерации отсчетов звукового сигнала во временной области
JP4967618B2 (ja) * 2006-11-24 2012-07-04 富士通株式会社 復号化装置および復号化方法
US8295494B2 (en) * 2007-08-13 2012-10-23 Lg Electronics Inc. Enhancing audio with remixing capability
CN100524462C (zh) * 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
ATE500588T1 (de) * 2008-01-04 2011-03-15 Dolby Sweden Ab Audiokodierer und -dekodierer
AU2009221444B2 (en) * 2008-03-04 2012-06-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Mixing of input data streams and generation of an output data stream therefrom
MY155538A (en) 2008-07-11 2015-10-30 Fraunhofer Ges Forschung An apparatus and a method for generating bandwidth extension output data
MY178597A (en) * 2008-07-11 2020-10-16 Fraunhofer Ges Forschung Audio encoder, audio decoder, methods for encoding and decoding an audio signal, and a computer program
AU2009267525B2 (en) * 2008-07-11 2012-12-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio signal synthesizer and audio signal encoder
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
PL2146344T3 (pl) * 2008-07-17 2017-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sposób kodowania/dekodowania sygnału audio obejmujący przełączalne obejście
US8290782B2 (en) * 2008-07-24 2012-10-16 Dts, Inc. Compression of audio scale-factors by two-dimensional transformation
EP2224433B1 (en) 2008-09-25 2020-05-27 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
US8364471B2 (en) * 2008-11-04 2013-01-29 Lg Electronics Inc. Apparatus and method for processing a time domain audio signal with a noise filling flag
KR101336891B1 (ko) * 2008-12-19 2013-12-04 한국전자통신연구원 G.711 코덱의 음질 향상을 위한 부호화 장치 및 복호화 장치
CA3231911A1 (en) * 2009-01-16 2010-07-22 Dolby International Ab Cross product enhanced harmonic transposition
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
EP3751570B1 (en) * 2009-01-28 2021-12-22 Dolby International AB Improved harmonic transposition
US8457975B2 (en) * 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
KR20100089772A (ko) * 2009-02-03 2010-08-12 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
KR101367604B1 (ko) * 2009-03-17 2014-02-26 돌비 인터네셔널 에이비 적응형으로 선택가능한 좌/우 또는 미드/사이드 스테레오 코딩과 파라메트릭 스테레오 코딩의 조합에 기초한 진보된 스테레오 코딩
EP2239732A1 (en) * 2009-04-09 2010-10-13 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
EP2433278B1 (en) 2009-04-07 2020-06-03 Telefonaktiebolaget LM Ericsson (publ) Method and arrangement for providing a backwards compatible payload format
US8392200B2 (en) * 2009-04-14 2013-03-05 Qualcomm Incorporated Low complexity spectral band replication (SBR) filterbanks
TWI643187B (zh) * 2009-05-27 2018-12-01 瑞典商杜比國際公司 從訊號的低頻成份產生該訊號之高頻成份的系統與方法,及其機上盒、電腦程式產品、軟體程式及儲存媒體
US8515768B2 (en) 2009-08-31 2013-08-20 Apple Inc. Enhanced audio decoder
CN103559891B (zh) * 2009-09-18 2016-05-11 杜比国际公司 改进的谐波转置
RU2591661C2 (ru) * 2009-10-08 2016-07-20 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Многорежимный декодировщик аудио сигнала, многорежимный кодировщик аудио сигналов, способы и компьютерные программы с использованием кодирования с линейным предсказанием на основе ограничения шума
JP5771618B2 (ja) * 2009-10-19 2015-09-02 ドルビー・インターナショナル・アーベー 音声オブジェクトの区分を示すメタデータ時間標識情報
MX2012004593A (es) * 2009-10-20 2012-06-08 Fraunhofer Ges Forschung Codec multimodo de audio y codificacion de celp adaptada a este.
ES2531013T3 (es) * 2009-10-20 2015-03-10 Fraunhofer Ges Forschung Codificador de audio, decodificador de audio, método para codificar información de audio, método para decodificar información de audio y programa de computación que usa la detección de un grupo de valores espectrales previamente decodificados
MY166169A (en) * 2009-10-20 2018-06-07 Fraunhofer Ges Forschung Audio signal encoder,audio signal decoder,method for encoding or decoding an audio signal using an aliasing-cancellation
CA2779453C (en) * 2009-12-07 2015-12-22 Dolby Laboratories Licensing Corporation Decoding of multichannel audio encoded bit streams using adaptive hybrid transformation
TWI529703B (zh) * 2010-02-11 2016-04-11 杜比實驗室特許公司 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
CN102194457B (zh) * 2010-03-02 2013-02-27 中兴通讯股份有限公司 音频编解码方法、系统及噪声水平估计方法
CN103038819B (zh) 2010-03-09 2015-02-18 弗兰霍菲尔运输应用研究公司 用以使用补丁边界对准处理输入音频信号的装置及方法
DK2556504T3 (en) * 2010-04-09 2019-02-25 Dolby Int Ab MDCT-BASED COMPLEX PREVIEW Stereo Encoding
AU2011240239B2 (en) 2010-04-13 2014-06-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio or video encoder, audio or video decoder and related methods for processing multi-channel audio or video signals using a variable prediction direction
US8886523B2 (en) * 2010-04-14 2014-11-11 Huawei Technologies Co., Ltd. Audio decoding based on audio class with control code for post-processing modes
CN102947882B (zh) 2010-04-16 2015-06-17 弗劳恩霍夫应用研究促进协会 使用制导带宽扩展和盲带宽扩展生成宽带信号的装置、方法
CN102254560B (zh) * 2010-05-19 2013-05-08 安凯(广州)微电子技术有限公司 一种移动数字电视录像中的音频处理方法
KR101709095B1 (ko) * 2010-07-19 2017-03-08 돌비 인터네셔널 에이비 고주파 복원 동안 오디오 신호들의 프로세싱
US9047875B2 (en) 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
US9236063B2 (en) * 2010-07-30 2016-01-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dynamic bit allocation
US8489391B2 (en) 2010-08-05 2013-07-16 Stmicroelectronics Asia Pacific Pte., Ltd. Scalable hybrid auto coder for transient detection in advanced audio coding with spectral band replication
PL3975177T3 (pl) * 2010-09-16 2023-04-11 Dolby International Ab Rozszerzona transpozycja harmonicznych oparta na bloku podpasm wykorzystująca iloczyn wektorowy
CN102446506B (zh) * 2010-10-11 2013-06-05 华为技术有限公司 音频信号的分类识别方法及装置
WO2014124377A2 (en) 2013-02-11 2014-08-14 Dolby Laboratories Licensing Corporation Audio bitstreams with supplementary data and encoding and decoding of such bitstreams
US9093120B2 (en) * 2011-02-10 2015-07-28 Yahoo! Inc. Audio fingerprint extraction by scaling in time and resampling
CA2903681C (en) * 2011-02-14 2017-03-28 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Audio codec using noise synthesis during inactive phases
TWI469136B (zh) 2011-02-14 2015-01-11 Fraunhofer Ges Forschung 在一頻譜域中用以處理已解碼音訊信號之裝置及方法
KR101748756B1 (ko) * 2011-03-18 2017-06-19 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. 오디오 콘텐츠를 표현하는 비트스트림의 프레임들 내의 프레임 요소 배치
RU2571561C2 (ru) 2011-04-05 2015-12-20 Ниппон Телеграф Энд Телефон Корпорейшн Способ кодирования, способ декодирования, кодер, декодер, программа и носитель записи
EP2702589B1 (en) * 2011-04-28 2017-04-05 Dolby International AB Efficient content classification and loudness estimation
WO2012158333A1 (en) * 2011-05-19 2012-11-22 Dolby Laboratories Licensing Corporation Forensic detection of parametric audio coding schemes
WO2012160782A1 (ja) 2011-05-20 2012-11-29 パナソニック株式会社 ビットストリーム送信装置、ビットストリーム送受信システム、ビットストリーム受信装置、ビットストリーム送信方法、ビットストリーム受信方法及びビットストリーム
US20130006644A1 (en) * 2011-06-30 2013-01-03 Zte Corporation Method and device for spectral band replication, and method and system for audio decoding
TWI792203B (zh) * 2011-07-01 2023-02-11 美商杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
JP6155274B2 (ja) * 2011-11-11 2017-06-28 ドルビー・インターナショナル・アーベー 過剰サンプリングされたsbrを使ったアップサンプリング
JP6069341B2 (ja) * 2011-11-30 2017-02-01 ドルビー・インターナショナル・アーベー オーディオ・コーデックからの向上したクロマ抽出のための方法、エンコーダ、デコーダ、ソフトウェア・プログラム、記憶媒体
JP5817499B2 (ja) 2011-12-15 2015-11-18 富士通株式会社 復号装置、符号化装置、符号化復号システム、復号方法、符号化方法、復号プログラム、及び符号化プログラム
EP2631906A1 (en) 2012-02-27 2013-08-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Phase coherence control for harmonic signals in perceptual audio codecs
CA2870884C (en) 2012-04-17 2022-06-21 Sirius Xm Radio Inc. Systems and methods for implementing efficient cross-fading between compressed audio streams
EP2950308B1 (en) 2013-01-22 2020-02-19 Panasonic Corporation Bandwidth expansion parameter-generator, encoder, decoder, bandwidth expansion parameter-generating method, encoding method, and decoding method
BR112015017295B1 (pt) * 2013-01-28 2023-01-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Método e aparelho para reprodução de áudio normalizado de mídia com e sem metadados de ruído integrado em novos dispositivos de mídia
CA3013744C (en) 2013-01-29 2020-10-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Decoder for generating a frequency enhanced audio signal, method of decoding, encoder for generating an encoded signal and method of encoding using compact selection side information
CN103971694B (zh) * 2013-01-29 2016-12-28 华为技术有限公司 带宽扩展频带信号的预测方法、解码设备
PL3054446T3 (pl) * 2013-01-29 2024-02-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Koder audio, dekoder audio, sposób dostarczania kodowanej informacji audio, sposób dostarczania zdekodowanej informacji audio, program komputerowy i kodowana reprezentacja, stosujące adaptacyjne względem sygnału rozszerzenie szerokości pasma
TWI530941B (zh) * 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
ES2836194T3 (es) 2013-06-11 2021-06-24 Fraunhofer Ges Forschung Dispositivo y procedimiento para la extensión de ancho de banda para señales acústicas
TWM487509U (zh) * 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
EP2830065A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
EP2830047A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2881943A1 (en) * 2013-12-09 2015-06-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal with low computational resources
TWI758146B (zh) * 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
US10628134B2 (en) 2016-09-16 2020-04-21 Oracle International Corporation Generic-flat structure rest API editor
TWI752166B (zh) * 2017-03-23 2022-01-11 瑞典商都比國際公司 用於音訊信號之高頻重建的諧波轉置器的回溯相容整合
TWI702594B (zh) * 2018-01-26 2020-08-21 瑞典商都比國際公司 用於音訊信號之高頻重建技術之回溯相容整合

Also Published As

Publication number Publication date
JP6671429B2 (ja) 2020-03-25
AR114576A2 (es) 2020-09-23
CA2989595A1 (en) 2016-09-22
AU2018260941A1 (en) 2018-11-29
KR20210059806A (ko) 2021-05-25
CN109461453A (zh) 2019-03-12
CN108962269A (zh) 2018-12-07
BR122020018629B1 (pt) 2022-11-22
ZA202209998B (en) 2024-02-28
CN108899040A (zh) 2018-11-27
CN108899040B (zh) 2023-03-10
DK4141866T3 (da) 2024-03-18
AU2018260941B9 (en) 2020-09-24
FI3985667T3 (fi) 2023-05-25
JP7038747B2 (ja) 2022-03-18
KR102481326B1 (ko) 2022-12-28
CN109003616B (zh) 2023-06-16
EP3958259A1 (en) 2022-02-23
WO2016149015A1 (en) 2016-09-22
CA3051966C (en) 2021-12-14
US20200111502A1 (en) 2020-04-09
HUE057183T2 (hu) 2022-04-28
EP3268961B1 (en) 2020-01-01
KR20210145299A (ko) 2021-12-01
KR20210079406A (ko) 2021-06-29
CN109461452B (zh) 2023-04-07
EP3985667B1 (en) 2023-04-26
KR20180088755A (ko) 2018-08-06
US11842743B2 (en) 2023-12-12
BR122020018676B1 (pt) 2023-02-07
BR112017019499A2 (pt) 2018-05-15
KR20230005419A (ko) 2023-01-09
US11417350B2 (en) 2022-08-16
CN109243475A (zh) 2019-01-18
CN109273014A (zh) 2019-01-25
TWI758146B (zh) 2022-03-11
MX2017011490A (es) 2018-01-25
JP2018165844A (ja) 2018-10-25
JP6383501B2 (ja) 2018-08-29
JP2020101824A (ja) 2020-07-02
KR102321882B1 (ko) 2021-11-05
PL3657500T3 (pl) 2022-01-03
JP2023164629A (ja) 2023-11-10
FI4141866T3 (fi) 2024-03-22
US20200005804A1 (en) 2020-01-02
PL3268956T3 (pl) 2021-12-20
KR102255142B1 (ko) 2021-05-24
ZA201903963B (en) 2022-09-28
AU2018260941B2 (en) 2020-08-27
BR122020018673B1 (pt) 2023-05-09
US20200411024A1 (en) 2020-12-31
WO2016146492A1 (en) 2016-09-22
AR114575A2 (es) 2020-09-23
EP3958259B1 (en) 2022-10-19
EP3657500B1 (en) 2021-09-15
AR114574A2 (es) 2020-09-23
CA2989595C (en) 2019-10-15
AU2017251839B2 (en) 2018-11-15
CN109273016B (zh) 2023-03-28
BR112017018548A2 (pt) 2018-04-24
US10553232B2 (en) 2020-02-04
KR20180071418A (ko) 2018-06-27
AU2020277092A1 (en) 2020-12-17
CN109360575A (zh) 2019-02-19
IL295809B1 (en) 2023-12-01
US20180025737A1 (en) 2018-01-25
CA2978915C (en) 2018-04-24
DK3657500T3 (da) 2021-11-08
CN109065063A (zh) 2018-12-21
CA2978915A1 (en) 2016-09-22
AR114579A2 (es) 2020-09-23
US11367455B2 (en) 2022-06-21
KR102330202B1 (ko) 2021-11-24
CN109243474A (zh) 2019-01-18
JP2023029578A (ja) 2023-03-03
CN107408391B (zh) 2018-11-13
CN109273015B (zh) 2022-12-09
CL2017002268A1 (es) 2018-01-26
US10262669B1 (en) 2019-04-16
CN109273015A (zh) 2019-01-25
TW201643864A (zh) 2016-12-16
US11664038B2 (en) 2023-05-30
TW202226221A (zh) 2022-07-01
KR102530978B1 (ko) 2023-05-11
CN109461454B (zh) 2023-05-23
EP3598443B1 (en) 2021-03-17
BR112017018548B1 (pt) 2022-11-22
DK3958259T3 (da) 2022-12-05
US20180025738A1 (en) 2018-01-25
BR122019004614B1 (pt) 2023-03-14
US20220293115A1 (en) 2022-09-15
CN109003616A (zh) 2018-12-14
CN109461453B (zh) 2022-12-09
CN108899039A (zh) 2018-11-27
CN108899039B (zh) 2023-05-23
DK3598443T3 (da) 2021-04-19
KR101871643B1 (ko) 2018-06-26
US20210142813A1 (en) 2021-05-13
CA3135370C (en) 2024-01-02
CN109509479B (zh) 2023-05-09
AU2022204887A1 (en) 2022-07-28
CN109326295A (zh) 2019-02-12
BR122020018736B1 (pt) 2023-05-16
EP4198974B1 (en) 2024-02-07
EP3985667A1 (en) 2022-04-20
RU2018118173A (ru) 2018-11-02
TWI693594B (zh) 2020-05-11
RU2764186C2 (ru) 2022-01-14
CN107408391A (zh) 2017-11-28
EP4141866B1 (en) 2024-01-17
RU2760700C2 (ru) 2021-11-29
CA3135370A1 (en) 2016-09-22
CN109065062A (zh) 2018-12-21
EP4336499A3 (en) 2024-05-01
CN109360575B (zh) 2023-06-27
JP2018508830A (ja) 2018-03-29
CN108962269B (zh) 2023-03-03
ES2897660T3 (es) 2022-03-02
AR103856A1 (es) 2017-06-07
EP3958259B8 (en) 2022-11-23
TW202203206A (zh) 2022-01-16
CN109065062B (zh) 2022-12-16
US20180322889A1 (en) 2018-11-08
CN109273016A (zh) 2019-01-25
PL3958259T3 (pl) 2023-02-13
ZA201906647B (en) 2023-04-26
ES2933476T3 (es) 2023-02-09
JP6383502B2 (ja) 2018-08-29
PL3985667T3 (pl) 2023-07-17
CN109243475B (zh) 2022-12-20
MY184190A (en) 2021-03-24
EP3268961A1 (en) 2018-01-17
CN107430867B (zh) 2018-12-14
CN109410969A (zh) 2019-03-01
MX2020005843A (es) 2020-09-07
CN109273013A (zh) 2019-01-25
FI4198974T3 (fi) 2024-03-21
CN109065063B (zh) 2023-06-16
KR20220132653A (ko) 2022-09-30
EP3268956B1 (en) 2021-09-01
IL295809B2 (en) 2024-04-01
AR114578A2 (es) 2020-09-23
EP4141866A1 (en) 2023-03-01
EP3268956A1 (en) 2018-01-17
ES2893606T3 (es) 2022-02-09
CN109410969B (zh) 2022-12-20
PL3268961T3 (pl) 2020-05-18
CN109273013B (zh) 2023-04-04
US20190103123A1 (en) 2019-04-04
US10943595B2 (en) 2021-03-09
AU2017251839A1 (en) 2017-11-16
EP4328909A2 (en) 2024-02-28
US10262668B2 (en) 2019-04-16
EP3268956A4 (en) 2018-11-21
IL254195B (en) 2018-03-29
BR112017019499B1 (pt) 2022-11-22
CA3210429A1 (en) 2016-09-22
KR102269858B1 (ko) 2021-06-28
PL3598443T3 (pl) 2021-07-12
KR20170113667A (ko) 2017-10-12
RU2018118173A3 (pt) 2021-09-16
CN107430867A (zh) 2017-12-01
CN109360576A (zh) 2019-02-19
JP2018508831A (ja) 2018-03-29
CN109243474B (zh) 2023-06-16
AU2020277092B2 (en) 2022-06-23
KR101884829B1 (ko) 2018-08-03
IL307827A (en) 2023-12-01
CA3051966A1 (en) 2016-09-22
US10453468B2 (en) 2019-10-22
SG11201707459SA (en) 2017-10-30
DK4198974T3 (da) 2024-03-18
EP3598443A1 (en) 2020-01-22
HUE061857T2 (hu) 2023-08-28
ES2946760T3 (es) 2023-07-25
KR20170115101A (ko) 2017-10-16
AR114573A2 (es) 2020-09-23
EP4198974A1 (en) 2023-06-21
RU2658535C1 (ru) 2018-06-22
TWI771266B (zh) 2022-07-11
DK3985667T3 (da) 2023-05-22
AU2016233669B2 (en) 2017-11-02
CN109461452A (zh) 2019-03-12
AR114572A2 (es) 2020-09-23
AU2016233669A1 (en) 2017-09-21
EP3657500A1 (en) 2020-05-27
RU2018126300A3 (pt) 2021-11-11
JP7354328B2 (ja) 2023-10-02
US10134413B2 (en) 2018-11-20
EP4336499A2 (en) 2024-03-13
KR102585375B1 (ko) 2023-10-06
KR20210134434A (ko) 2021-11-09
RU2665887C1 (ru) 2018-09-04
JP2018165845A (ja) 2018-10-25
TW202242853A (zh) 2022-11-01
US20220293116A1 (en) 2022-09-15
US20230368805A1 (en) 2023-11-16
CN109273014B (zh) 2023-03-10
US20190172475A1 (en) 2019-06-06
EP4328909A3 (en) 2024-04-24
HUE060688T2 (hu) 2023-04-28
CN109360576B (zh) 2023-03-28
RU2018126300A (ru) 2019-03-12
ZA202106847B (en) 2023-03-29
JP6671430B2 (ja) 2020-03-25
KR102445316B1 (ko) 2022-09-21
CN109326295B (zh) 2023-06-20
HUE057225T2 (hu) 2022-04-28
IL295809A (en) 2022-10-01
SG10201802002QA (en) 2018-05-30
KR20230144114A (ko) 2023-10-13
BR122020018731B1 (pt) 2023-02-07
US10734010B2 (en) 2020-08-04
JP2022066477A (ja) 2022-04-28
AR114577A2 (es) 2020-09-23
IL254195A0 (en) 2017-10-31
CN109461454A (zh) 2019-03-12
AR114580A2 (es) 2020-09-23
CN109509479A (zh) 2019-03-22

Similar Documents

Publication Publication Date Title
JP7354328B2 (ja) 少なくとも一つの充填要素内の向上スペクトル帯域複製メタデータを用いたオーディオ・ビットストリームのデコード
BR112019014125B1 (pt) Método e decodificador para decodificar um fluxo de bits de áudio codificado e mídia legível por computador não transitória
JP7210658B2 (ja) オーディオ処理ユニットおよびエンコードされたオーディオ・ビットストリームをデコードする方法
BR122019004595B1 (pt) Unidade de processamento de áudio, método de decodificação de um fluxo de bits de áudio codificado e meio legível por computador não transitório
OA18768A (en) Decoding audio bitstreams with enhanced spectral band replication metadata in at least one fill element

Legal Events

Date Code Title Description
B350 Update of information on the portal [chapter 15.35 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 10/03/2016, OBSERVADAS AS CONDICOES LEGAIS

B25G Requested change of headquarter approved

Owner name: DOLBY INTERNATIONAL AB (IE)