BR112014016847B1 - Método de codificação de áudio, codificador de áudio, sistema e método para decodificar dados de áudio codificados - Google Patents

Método de codificação de áudio, codificador de áudio, sistema e método para decodificar dados de áudio codificados Download PDF

Info

Publication number
BR112014016847B1
BR112014016847B1 BR112014016847-4A BR112014016847A BR112014016847B1 BR 112014016847 B1 BR112014016847 B1 BR 112014016847B1 BR 112014016847 A BR112014016847 A BR 112014016847A BR 112014016847 B1 BR112014016847 B1 BR 112014016847B1
Authority
BR
Brazil
Prior art keywords
audio data
low frequency
band
data
compensation
Prior art date
Application number
BR112014016847-4A
Other languages
English (en)
Other versions
BR112014016847A2 (pt
BR112014016847A8 (pt
Inventor
Arijit Biswas
Vinay Melkote
Michael Schug
Grant A. Davidson
Mark S. Vinton
Original Assignee
Dolby Laboratories Licensing Corporation
Dolby International Ab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corporation, Dolby International Ab filed Critical Dolby Laboratories Licensing Corporation
Publication of BR112014016847A2 publication Critical patent/BR112014016847A2/pt
Publication of BR112014016847A8 publication Critical patent/BR112014016847A8/pt
Publication of BR112014016847B1 publication Critical patent/BR112014016847B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

método e sistema para codificar dados de áudio com compensação de baixa frequência adaptável. refere-se a um método para determinar a alocação de bits de mantissa de valores de dados de áudio de dados de domínio de frequência de áudio a serem codificados. o método de alocação inclui uma etapa de determinar valores de mascaramento para valores de dados de áudio, que são incluídos realizando-se compensação de baixa frequência adaptável nos dados de áudio de cada banda de frequência de um conjunto de bandas de baixa frequência dos dados de áudio. a compensação de baixa frequência adaptável inclui etapas de: realizar a detecção de tonalidade nos dados de áudio para gerar dados de controle de compensação indicativos e se cada banda de frequência no conjunto de bandas de baixa frequência tem conteúdo tonal proeminente; e realizar a compensação de baixa frequência nos dados de áudio em cada banda de frequência no conjunto de bandas de baixa frequência que tem conteúdo tonal proeminente conforme indicado pelos dados de controle de compensação, mas não realizar a compensação de baixa frequência nos dados de áudio em nenhuma outra banda de frequência no conjunto de bandas de baixa frequência.

Description

REFERÊNCIA CRUZADA A PEDIDOS RELACIONADOS
[001]Este pedido de patente reivindica o benefício do Pedido Provisório dos U.S. #No. 61/584.478, depositado em 9 de janeiro de 2012, intitulado "Method and System for Encoding Audio Data with Adaptive Low Frequency Compensation" e do Pedido de Patente dos U.S. #No. 13/588.890, depositado em 17 de agosto de 2012, intitulado "Method and System for Encoding Audio Data with Adaptive Low Frequency Compensation" cada um dos quais está incorporado ao presente documento a título de referência em sua integridade.
ANTECEDENTES DA INVENÇÃO CAMPO DA INVENÇÃO
[002]A invenção refere-se ao processamento de sinal de áudio e, mais particularmente, à codificação de dados de áudio com compensação de baixa frequência adaptável. Algumas modalidades da invenção são úteis para codificar dados de áudio em concordância com um dos formatos conhecidos como Dolby Digital (AC-3) e Dolby Digital Plus (E-AC-3), ou em concordância com outro formato de codificação. Dolby, Dolby Digital e Dolby Digital Plus são marcas registradas de Dolby Laboratories Licensing Corporation.
2.ANTECEDENTES DA INVENÇÃO
[003]Apesar de a invenção não ser limitada ao uso na codificação de dados de áudio em concordância com o formato AC-3 (Dolby Digital) (ou formato Dolby Digital Plus), por conveniência, será descrito em modalidades nas quais codifica um fluxo de bits de áudio em concordância com o formato AC-3. Um fluxo de bits codificado como AC-3 compreende de um a seis conteúdos de canais de áudio e metadados indicativos de pelo menos uma característica do conteúdo de áudio. O conteúdo de áudio são dados de áudio que foram comprimidos com o uso de codificação de áudio perceptível.
[004]Detalhes da codificação AC-3 (também conhecido como Dolby Digital) são bem conhecidos e são expostos em muitas referências publicadas, inclusive as seguintes:
[005]ATSC Standard A52/A: Digital Audio Compression Standard (AC-3), Revision A, Advanced Television Systems Committee, 20 de agosto de 2001;
[006]Flexible Perceptual Coding for Audio Transmission and Storage," por Craig C. Todd, et al,96th Convention of the Audio Engineering Society, 26 de fevereiro de 1994, Preprint 3796;
[007]"Design and Implementation of AC-3 Coders," por Steve Vernon, IEEE Trans. Consumer Electronics, Vol. 41, no 3, Agosto de 1995;
[008]"Dolby Digital Audio Coding Standards," capítulo do livro por Robert L. Andersen and Grant A. Davidson em The Digital Signal Processing Handbook, Segunda Edição, Vijay K. Madisetti, Editor- Chefe, CRC Press, 2009;
[009]"High Quality, Low-Rate Audio Transform Coding for Transmission and Multimedia Applications," por Bosi et al, Audio Engineering Society Preprint 3365, 93rd AES Convention, outubro de 1992; e
[0010]Patentes dos Estados Unidos da América #No. 5.583.962; 5.632.005; 5.633.981; 5.727.119; e 6.021.386.
[0011]Detalhes de codificação Dolby Digital (AC-3) e Dolby Digital Plus (às vezes denominado AC-3 aperfeiçoado ou "E-AC-3") são expostos em "Introduction to Dolby Digital Plus, an Enhancement to the Dolby Digital Coding System," AES Convention Paper 6196, 117th AES Convention, 28 de outubro de 2004, e na especificação Dolby Digital/Dolby Digital Plus (ATSC A/52:2010), disponível em http://www.atsc.org/cms/index.php/standards/published-standards.
[0012]Na codificação AC-3 de um fluxo de bits de áudio, blocos de amostras de áudio de entrada a serem codificados são submetidos a transformação do domínio tempo-frequência que resulta em blocos de dados de domínio da frequência, comumente referidos como coeficientes de transformada, coeficientes de frequência ou componentes de frequência, localizados em compartimento de frequência espaçados uniformemente. O coeficiente de frequência em cada compartimento é então convertido (por exemplo, no estágio 7 da BFPE do sistema da Figura 1) em um formato de ponto de flutuação que compreende um expoente e uma mantissa.
[0013]Modalidades típicas de codificadores AC-3 (e Dolby Digital Plus) (e outros codificadores de dados de áudio) implantam um modelo psicoacústico para analisar os dados de domínio da frequência em uma base em bandas (isto é, tipicamente 50 bandas não uniformes que se aproximam das bandas de frequência da bem conhecida escala psicoacústica conhecida como a escala de Bark) para determinar a melhor alocação de bits para cada mantissa. Os dados da mantissa são então quantizados (por exemplo, no quantizador 6 do sistema da Figura 1) para vários bits que corresponde à alocação de bits determinada. Os dados da mantissa quantizados são então formatados (por exemplo, no formatador 8 do sistema da Figura 1) em um fluxo de bits de saída codificado.
[0014]Tipicamente, a tarefa dos bits da mantissa é baseada na diferença entre um espectro de sinal refinado (representado por um valor de densidade espectral de potência ("PSD") para cada compartimento de frequência) e uma curva de mascaramento bruta (representada por um valor de máscara para cada banda de frequência). Também tipicamente, o modelo psicoacústico implanta a compensação de baixa frequência (algumas vezes referida como compensação "lowcomp" ou "lowcomp") para determinar valores de correção (algumas vezes denominados no presente documento como os valores de parâmetro de “lowcomp”) para corrigir os valores da curva de mascaramento para as bandas de baixa frequência. Cada valor de parâmetro de lowcomp pode ser subtraído de (ou de outra maneira aplicado a) um valor da curva de mascaramento preliminar para uma dentre as bandas de baixa frequência diferente, a fim de gerar um valor da curva de mascaramento final para a banda.
[0015]Conforme notado, a tarefa dos bits da mantissa na codificação de áudio pode se basear na diferença entre o espectro de sinal e uma curva de mascaramento. Um algoritmo simples para implantar a tal tarefa dos bits pode presumir que o ruído de quantização em uma banda de frequência em particular seja independente de tarefa dos bits nas bandas vizinhas. Entretanto, não é uma suposição tipicamente razoável, especialmente em frequências mais baixas, devido à seletividade de frequência finita e grau alto de sobreposição entre bandas no banco de filtros do decodificador, e devido ao vazamento a partir de uma banda em bandas vizinhas em frequências baixas, nas quais o declive da curva de mascaramento pode se igualar ou exceder o declive das abas de transição de banco de filtros.
[0016]Assim, o processo de tarefa dos bits da mantissa na codificação de áudio frequentemente inclui um processo de compensação de baixa frequência o qual determina uma curva de mascaramento corrigida. A curva de mascaramento corrigida é então usada para determinar um valor da razão sinal para máscara para cada componente de frequência dos dados de áudio.A compensação de baixa frequência é um processo de compensação de seletividade de decodificador para desempenho de codificação aprimorado em frequências baixas para sinais com componentes tonais proeminentes de baixa frequência. Tipicamente, a compensação de baixa frequência é uma correção de resposta do banco de filtros que, por conveniência, pode ser incorporada na computação da função de excitação a qual é usada para determinar os valores de sinal para máscara. Conforme será explicado em maiores detalhes abaixo, uma implantação típica de compensação de baixa frequência pesquisa por componentes de sinal de baixa frequência proeminentes ao procurar bandas de frequência com um valor de PSD que seja 12 dB a menos do que o valor de PSD para a próxima banda (frequência mais alta). Quando o tal valor de PSD é encontrado, o valor da função de excitação da banda é imediatamente reduzido em 18 dB (ou um montante de até 18 dB). Essa redução é então revertida vagarosamente em 3 dB por banda subsequente.
[0017]A Figura 1 é um codificador configurado para realizar a codificação AC-3 (ou AC-3 aperfeiçoado) em dados de áudio de entrada de domínio de tempo 1. O banco de filtros de análise 2 converte os dados de áudio de entrada de domínio de tempo 1 em dados de domínio de frequência de áudio 3, e o estágio 7 da codificação de ponto de flutuação de bloco (BFPE) gera uma representação do ponto de flutuação de cada componente de frequência de dados 3, que compreende um expoente e uma mantissa para cada compartimento de frequência. A saída de dados de domínio da frequência do estágio 7 será algumas vezes denominado no presente documento também como dados de domínio de frequência de áudio 3. A saída de dados de domínio de frequência de áudio do estágio 7 é então codificada, inclusive pela quantização de suas mantissas no quantizador 6 e acampamento de seus expoentes (no estágio de formação em tenda 10) e codificação (no estágio de codificação de expoente 11) dos expoentes do tipo tenda gerados no estágio 10. O formatador 8 gera um fluxo de bits 9 AC-3 (ou AC-3 aperfeiçoado) codificado em resposta à saída de dados quantizados do quantizador 6 e codificou a saída de dados de expoente diferenciais do estágio 11.
[0018]O quantizador 6 realiza a alocação de bits e a quantização com base nos dados de controle (que incluem dados de mascaramento) gerados pelo controlador 4. Os dados de mascaramento (que determinam uma curva de mascaramento) são gerados a partir dos dados de domínio da frequência 3, na base de um modelo psicoacústico (implantado pelo controlador 4) da audição humana e percepção auditiva. A modelagem psicoacústica considera os limiares dependentes de frequência da audição humana, e um fenômeno psicoacústico referido como mascaramento, em que um componente de frequência forte perto de um ou mais componentes de frequência mais fracos tende a mascarar os componentes mais fracos, a torna-los inaudíveis a um ouvinte humano. Isso torna possível omitir os componentes de frequência mais fracos quando codificar dados de áudio, e desse modo alcançar um grau mais alto de compressão, sem afetar contrariamente a qualidade percebida dos dados de áudio codificados (fluxo de bits 9). Os dados de mascaramento compreendem um valor da curva de mascaramento para cada banda de frequência dos dados de domínio de frequência de áudio 3. Esses valores da curva de mascaramento representam o nível do sinal mascarado pelo ouvido humano em cada banda de frequência. O quantizador 6 usa essas informações para decidir como usar melhor a quantidade disponível de bits de dados para representar os dados de domínio da frequência de cada banda de frequência do sinal de áudio de entrada.
[0019]O controlador 4 pode implantar um processo de compensação de baixa frequência convencional (algumas vezes denominado no presente documento como compensação “lowcomp”) para gerar valores de parâmetro de lowcomp) para corrigir os valores da curva de mascaramento para as bandas de baixa frequência. Os valores da curva de mascaramento corrigidos são usados para gerar o valor da razão sinal para máscara para cada componente de frequência dos dados de domínio de frequência de áudio 3. A compensação de baixa frequência é um recurso do modelo psicoacústico tipicamente implantado durante a codificação AC-3 (e Dolby Digital Plus) de dados de áudio. A compensação lowcomp aprimora a codificação de componentes altamente tonais de baixa frequência (dos dados de áudio de entrada a serem codificados) preferencialmente ao reduzir a máscara na região de frequência relevante e, em consequência, alocar mais bits para palavras de código empregadas para codificar tais componentes.
[0020]A compensação lowcomp determina um parâmetro de lowcomp para cada banda de baixa frequência. O parâmetro de lowcomp para cada banda é efetivamente subtraído a partir de um valor de “excitação” (o qual é determinado de uma maneira bem conhecida) para a banda, e os valores de diferença resultantes são usados para determinar os valores da curva de mascaramento corrigidos. Reduzir o valor de excitação para uma banda (por exemplo, subtraindo-se um parâmetro de lowcomp a partir do mesmo, ou aumentar o valor de um parâmetro de lowcomp que é subtraído a partir do mesmo) resulta no aumento da quantidade de bits alocados para a versão codificada do áudio na banda pela razão seguinte. Enquanto o valor de excitação para uma banda não é necessariamente igual ao valor de máscara final (corrigido) (o qual é efetivamente subtraído do valor de dados de áudio para a banda), isso é usado no cálculo do valor de máscara final (o valor de máscara final considera limiares de audição absolutos e potencialmente outra banda larga e/ou ajustes em banda). Uma vez que a quantidade de bits de codificação alocados para o áudio em uma banda é maior se a razão do "sinal para mascarar" para a banda for maior, reduzir o valor de máscara para uma banda aumentaria a quantidade de bits alocados para a versão codificada do áudio naquela banda. Portanto, reduzir o valor de excitação para uma banda geralmente leva a um valor de máscara reduzido para a banda e, consequentemente, um aumento na quantidade de bits alocados para aquela banda.
[0021]Será descrito a seguir em mais detalhes a maneira na qual a compensação lowcomp convencional seria tipicamente realizada pelo modelo psicoacústico (por exemplo, o modelo implantado pelo controlador 4 da Figura 1). O controlador 4 examinaria através das bandas de baixa frequência (na faixa de 0 Hz a 2,05 kHz, a 48 kHz de frequência de amostragem) para procurar por um aumento acentuado (12 dB) na densidade espectral de potência (PSD) entre a banda de frequência vigente e a banda seguinte (frequência mais alta), o que é uma característica de um componente tonal forte. Em resposta à identificação de um PSD em uma banda de baixa frequência como se fosse indicativo de um componente tonal forte, a compensação lowcomp é aplicada para fazer com que mais bits sejam alocados aos dados empregados para codificar o componente tonal de baixa frequência forte identificado.
[0022]Será entendido que, nas codificações AC-3 e Dolby Digital Plus, cada componente dos dados de domínio de frequência de áudio 3 (isto é, os conteúdos de cada compartimento de transformada) tem uma representação do ponto de flutuação que compreende uma mantissa e um expoente. Para simplificar o cálculo da curva de mascaramento, a família de codificadores Dolby Digital usa apenas os expoentes para derivar a curva de mascaramento. Ou, estabelecido alternadamente, a curva de mascaramento depende do coeficiente dos valores do expoente de transformada, mas é independente do coeficiente dos valores da mantissa de transformada. Devido ao fato da faixa de expoentes ser bem limitada (geralmente, valores inteiros de 0 a 24), os valores do expoente são mapeados em uma escala de PSD com uma faixa mais larga (geralmente, valores inteiros de 0 a 3.072) para os propósitos de computar a curva de mascaramento. Assim, os componentes de frequência com maior ruído (isto é, aqueles com um expoente de 0) são mapeados a um valor de PSD de 3.072, enquanto os componentes de dados de domínio da frequência mais brandos (isto é, aqueles com um expoente de 24) são mapeados a um valor de PSD de 0.
[0023]Sabe-se que, em Codificação Dolby Digital convencional (ou Dolby Digital Plus), expoentes diferenciais (isto é, a diferença entre expoentes consecutivos) são codificados no lugar de expoentes absolutos. Os expoentes diferenciais podem adotar apenas um dentre cincos valores: 2, 1, 0, -1 e -2. Se um expoente diferencial fora dessa faixa for encontrado, um dos expoentes que for subtraído é modificado de forma que o expoente diferencial (após a modificação) esteja dentro da faixa notada (esse método convencional é conhecido como "formação em tenda de expoente" ou "formação em tenda"). O estágio de formação em tenda 10 do codificador da Figura 1 gera expoentes do tipo tenda em resposta aos expoentes brutos atribuídos ao mesmo, realizando-se a tal operação de formação em tenda.
[0024]Deve-se considerar um exemplo de uma implantação típica de compensação lowcomp na qual o modelo psicoacústico (por exemplo, o modelo implantado pelo controlador 4 da Figura 1) examina através das bandas de baixa frequência, com a banda "N+1" que é a próxima banda, e a banda vigente, "N," que tem frequência mais baixa do que a próxima banda. O exame pode ser a partir da banda de frequência mais baixa até a banda número 22 e tipicamente não inclui a última banda de um canal de LFE (efeitos de baixa frequência). Se for determinado que o valor de PSD para a banda N+1 menos o valor de PSD para a banda N é igual a 256 (o que é indicativo de um aumento acentuado (12 dB) em PSD da banda vigente, N, para a próxima banda (frequência mais alta), N+1, a compensação lowcomp é realizada ao reduzir imediatamente o cálculo função de excitação para a banda vigente (isto é, reduzir o valor de excitação para a banda) em 18 dB. O valor de excitação para a banda é reduzido subtraindo-se um parâmetro de lowcomp igual a 384 a partir do valor de excitação que seria de outra maneira determinado para a banda. Essa redução do valor de excitação é revertida vagarosamente (por exemplo, em até 3 dB por banda subsequente).
[0025]Para as bandas subsequentes, isto é, bandas mais altas em frequência do que uma banda para a qual a lowcomp é habilitada inicialmente, se for determinado que a diferença em PSD entre uma banda e a próxima banda for menos do que 256, o parâmetro de lowcomp (que é subtraído a partir do valor de excitação para a banda) ou é mantido no mesmo valor da banda anterior ou reduzido a um valor mais baixo. Até que seja determinado primeiro (durante um exame através de todas as bandas de baixa frequência) que a diferença em PSD entre duas bandas adjacentes é igual a 256, a compensação lowcomp não é realizada (isto é, um parâmetro de lowcomp que tem o valor zero é "subtraído" dos valores de excitação para as bandas).
[0026]Embora o processo de Lowcomp convencional seja benéfico para sinais tonais com componentes de baixa frequência proeminentes, um obstáculo é que o critério de diferença de 12 dB em PSD que ativa a redução de máscara é frequentemente alcançado por uma grande quantidade de sinais atonais que têm conteúdo de baixa frequência. Dados de áudio que são indicativos de aplauso vindo de uma multidão são um exemplo bem conhecido de tal sinal atonal, e será denominado no presente documento como representação de um sinal atonal do tipo (o qual é distinguido a partir de um sinal tonal em modalidades típicas da presente invenção). Os inventores reconheceram que a redistribuição de bits de codificação a partir de frequências baixas a médias/altas (em relação à distribuição de bits de codificação que seria empregada em codificação AC-3 convencional ou codificação E-AC-3 com compensação lowcomp convencional) aprimora a qualidade percebida de aplauso e outros sinais atonais reproduzidos de acordo com a decodificação de versões codificadas em AC-3 (ou E-AC-3) dos sinais, e assim seria desejável desabilitar a compensação lowcomp de tais sinais atonais durante a codificação AC-3 ou E-AC-3 dos mesmos (isto é, seria desejável desligar a lowcomp durante a codificação de tais sinais). Os inventores também reconheceram que a inabilitação da compensação lowcomp durante a codificação de sinais tonais em AC-3 (ou E-AC-3) que têm conteúdo de baixa frequência (por exemplo, sinais produzidos por afinadores) durante a tal codificação degrada a qualidade percebida dos sinais tonais quando os mesmos forem reproduzidos de acordo com a decodificação de versões codificadas em AC-3 (ou E-AC-3) dos mesmos.
[0027]Assim, os inventores reconheceram que seria desejável implantar um codificador que possa aplicar de modo adaptável a compensação de baixa frequência durante a codificação de sinais de áudio que têm componentes tonais de baixa frequência proeminentes, mas não durante a codificação de sinais de áudio que não têm componentes tonais de baixa frequência proeminentes (por exemplo, sinais de aplauso ou outros sinais de áudio que tiverem conteúdo atonal de baixa frequência mas não conteúdo tonal de baixa frequência proeminente), e para fazê-lo de uma maneira que não exija mudanças de decodificador (isto é, de uma maneira que permita que um decodificador convencional decodifique o áudio codificado que foi gerado pelo codificador da invenção).
[0028]Alguns métodos de codificação de áudio convencionais, nos quais a tarefa dos bits da mantissa é baseada na diferença entre o espectro de sinal e uma curva de mascaramento, realizam pelo menos um processo de correção de valor de mascaramento, em adição à compensação de baixa frequência, durante a geração de valores de mascaramento para os dados de domínio de frequência de áudio de banda a serem codificados.
[0029]Por exemplo, alguns codificadores de áudio convencionais (por exemplo, codificadores AC-3 e E-AC-3) implantam alocação de bits delta, a qual é possibilita ajustar com parâmetros a curva de mascaramento para cada canal de áudio a ser codificado, em concordância com uma análise psicoacústica aprimorada adicional. O codificador transmite códigos de fluxo de bits adicionais designados como deltas, os quais comunicam as diferenças entre a curva de mascaramento empregada e uma curva de mascaramento padrão (isto é, a diferença entre o valor de mascaramento determinado pelo modelo de mascaramento padrão em cada frequência e o valor de mascaramento determinado pelo modelo de mascaramento aprimorado empregado de fato na mesma frequência).
[0030]A função de alocação de bits delta é tipicamente constrita a ser uma função de degrau (por exemplo, etapas de +6 dB até +18 dB). Cada escalonamento da etapa de degrau corresponde a um ajuste do nível de mascaramento para uma quantidade integral de meias bandas Bark contíguas. Etapas de degrau compreendem vários segmentos de comprimento variável não sobrepostos. Os segmentos são compactados para a eficácia de transmissão.
[0031]Uma aplicação convencional de alocação de bits delta é o processo BABNDNORM convencional para a correção do nível de mascaramento. No processo BABNDNORM (um exemplo de um processo de correção de valor de mascaramento), para bandas perceptíveis de número 29 e acima (dentre as bandas Bark de frequências empregadas em codificação AC-3 e AC-3 aperfeiçoado), a energia de sinal em cada banda perceptível usada para derivar a função de excitação é posta em escala por um valor proporcional ao inverso da largura da banda perceptível. Devido ao fato de todas as bandas perceptíveis abaixo da banda 29 terem largura de banda unitária (isto é, incluem apenas um único compartimento de frequência), não há necessidade de pôr energias de sinal para as bandas abaixo 29 em escala. Em frequências progressivamente mais altas, a função de excitação e, por conseguinte, o limiar de mascaramento estimado é diminuído. Isso aumenta a alocação de bits emfrequênciasmaisaltas, particularmenteno canal de acoplagem.Alguns codificadores de áudio os quais implantam codificação AC-3 (ou E-AC-3)sãoconfigurados para implantar o processoBABNDNORM como uma etapa da codificação.
[0032]A Figura 5 é um gráfico de valores de PSD de banda (energia perceptível) (a curva do topo) de dados de domínio de frequência de áudio de banda, um gráfico de valores de PSD de banda postos em escala (a segunda curva a partir do topo) gerados ao aplicar um processo BABNDNORM convencional aos dados de áudio, um gráfico de uma função de excitação (a terceira curva a partir do topo) gerado (por exemplo, por um codificador AC-3 ou E-AC-3 convencional) para o uso no mascaramento dos dados de áudio, e um gráfico de uma versão da função de excitação posta em escala (a curva da parte inferior) gerado (por exemplo, por um codificador AC-3 ou E-AC-3 convencional) aplicando-se um processo BABNDNORM convencional à função de excitação. Cada uma dentre as quatro curvas é representada em uma escala de banda perceptível (frequência Bark). É evidente que as duas curvas do topo começam a divergir uma da outra na banda 29, e que as duas curvas da parte inferior também começam a divergir uma da outra na banda 29.
[0033]A Figura 6 é um gráfico de um espectro de frequência de um sinal de áudio (a curva da Figura 6 que tem a faixa dinâmica mais larga), um gráfico de uma curva de mascaramento padrão para mascarar o sinal de áudio (a segunda curva da parte inferior), e um gráfico de uma versão da curva de mascaramento posta em escala (a curva da parte inferior) gerado (por exemplo, por um codificador AC-3 ou E-AC-3 convencional) aplicando-se um processo BABNDNORM convencional à curva de mascaramento. É evidente a partir da Figura 6 que em frequências progressivamente mais altas, o processo BABNDNORM diminui a curva de mascaramento em um montante maior.
BREVE DESCRIÇÃO DA INVENÇÃO
[0034]Em uma primeira classe de modalidades, a invenção é um método de alocação de bits de mantissa para determinar alocação de bits de mantissa do valor de dados de áudio de dados de domínio de frequência de áudio a serem codificados (que são inclusos por quantização submetida). O método de alocação inclui uma etapa de determinar valores de mascaramento para os valores de dados de áudio, que são inclusos ao realizar a compensação de baixa frequência adaptável nos dados de áudio de cada banda de frequência de um conjunto de bandas de baixa frequência dos dados de áudio, de tal forma que os valores de mascaramento sejam úteis para determinar valores de sinal para máscara os quais determinam a alocação de bits de mantissa para os ditos dados de áudio. A compensação de baixa frequência adaptável inclui as etapas de:
[0035]a) realizar a detecção de tonalidade nos dados de audio para gerar dados de controle de compensação indicativos de se cada banda de frequência no conjunto de bandas de baixa frequência tiver ou não conteúdo tonal proeminente; e
[0036]b) realizar a compensação de baixa frequência nos dados de áudio em cada banda de frequência no conjunto de bandas de baixa frequência que tem conteúdo tonal proeminente conforme indicado pelos dados de controle de compensação, que são incluídos pela correção de um valor de mascaramento preliminar para cada uma das ditas bandas de frequência que têm conteúdo tonal proeminente, mas que não realizam a compensação de baixa frequência nos dados de áudio em nenhuma outra banda de frequência no conjunto de bandas de baixa frequência, de forma que o valor de mascaramento para cada uma das outras ditas bandas de frequência seja um valor de mascaramento preliminar não corrigido.
[0037]Em algumas modalidades na primeira classe, a etapa (a) inclui uma etapa de realizar a detecção de tonalidade nos dados de áudio para gerar dados de controle de compensação indicativos de se cada banda de frequência de pelo menos um subconjunto das bandas de frequência dos dados de áudio (não necessariamente bandas de baixa frequência) tiver ou não conteúdo tonal proeminente, e a etapa de determinar valores de mascaramento para os valores de dados de áudio também incluir uma etapa de:
[0038](c) realizar um processo de correção de valor de mascaramento de uma primeira maneira para cada uma das ditas bandas de frequência dos dados de áudio que tiver conteúdo tonal proeminente conforme indicado pelos dados de controle de compensação, que incluem por correção de um valor de mascaramento preliminar para cada uma das ditas bandas de frequência que tiver conteúdo tonal proeminente, e realizar o processo de correção do valor de mascaramento de uma segunda maneira para cada uma das ditas bandas de frequência dos dados de áudio às quais faltem conteúdo tonal proeminente conforme indicado pelos dados de controle de compensação.
[0039]Por exemplo, o processo de correção do valor de mascaramento pode ser um processo BABNDNORM, cada uma das ditas bandas de frequência pode ser uma banda perceptível, e a etapa (c) pode incluir a etapa de realizar o processo BABNDNORM com uma primeira constante em escala para cada uma das ditas bandas de frequência que tiver conteúdo tonal proeminente, e realizar o processo BABNDNORM com uma segunda constante em escala para cada uma das ditas bandas de frequência às quais faltarem conteúdo tonal proeminente.
[0040]Outra modalidade da invenção é um método de codificação que inclui qualquer modalidade de tal método de alocação de mantissa.
[0041]Em uma segunda classe de modalidades, a invenção é um método de codificação de áudio o qual supera as limitações de métodos de codificação convencionais que aplicam a compensação de baixa frequência para todos os sinais de áudio de entrada (que incluem ambos os sinais com conteúdo tonal e atonal de baixa frequência), ou não aplicam a compensação de baixa frequência a nenhum sinal de áudio de entrada. Essas modalidades seletivamente (de modo adaptável) aplicam a compensação de baixa frequência durante a codificação de sinais de áudio que têm componentes tonais de baixa frequência proeminentes, mas não durante a codificação de sinais de áudio que não têm componentes tonais de baixa frequência proeminentes (por exemplo, aplauso ou outros sinais de áudio que tiverem conteúdo atonal de baixa frequência mas não conteúdo tonal de baixa frequência proeminente). A compensação de baixa frequência adaptável é realizada de uma maneira que permita que um decodificador realize a decodificação do áudio codificado sem que seja determinado (ou seja, informado dessa forma) se a compensação de baixa frequência foi aplicada durante a codificação ou não.
[0042]Uma típica modalidade na segunda classe é um método de codificação de áudio que inclui as etapas de:
[0043]a) realizar a detecção de tonalidade em dados de domínio de frequência de áudio para gerar dados de controle de compensação indicativos de se cada banda de baixa frequência de um conjunto de pelo menos algumas bandas de baixa frequência dos dados de áudio tiver ou não conteúdo tonal proeminente; e
[0044]b) realizar a compensação de baixa frequência para gerar um valor de mascaramento corrigido para os dados de áudio em cada uma das ditas bandas de baixa frequência que tiverem conteúdo tonal proeminente conforme indicado pelos dados de controle de compensação, e gerar um valor de mascaramento para os dados de áudio em cada outra banda de baixa frequência no conjunto sem realizar a compensação de baixa frequência.
[0045]Em algumas modalidades, o método de codificação de áudio é um método de codificação AC-3 ou AC-3 aperfeiçoado. Nessas modalidades, a compensação de baixa frequência é preferencialmente realizada (isto é, LIGADA ou habilitada) para as bandas de frequência de dados de áudio de entrada para a qual a lowcomp foi designada inicialmente (isto é, as bandas de frequência indicativas de conteúdo de baixa frequência proeminente, estático a longo prazo ("tonal")), e não é realizada (isto é, DESLIGADA ou efetivamente desabilitada) de outra maneira. Nessas modalidades, em resposta aos dados de controle de compensação que indicam que a compensação de baixa frequência não deve ser realizada em uma banda de frequência dos dados de áudio (por exemplo, os dados de controle de compensação que indicam que a banda inclui conteúdo de áudio atonal mas não conteúdo tonal proeminente), a etapa (b) preferencialmente inclui uma etapa de "nova formação em tenda" dos dados de áudio na dita banda para gerar dados de áudio modificados para a banda, sendo que os ditos dados de áudio modificados para a banda incluem um expoente modificado. A nova formação em tenda gera os dados de áudio modificados para a banda de tal forma que o expoente diferencial para a banda seja impedido de ser igual a -2 (por exemplo, de forma que o expoente dos dados de áudio na banda de frequência mais alta menos o expoente modificado dos dados de áudio modificados para a banda precise ser igual a 2, 1, 0 ou -1). Assim, a compensação lowcomp não seria aplicada à banda devido ao fato de que o critério para aplicar a compensação lowcomp à banda (um aumento de PSD de 12 dB para a banda, em relação à PSD para a próxima banda de frequência mais baixa) não seria alcançada (esse critério não poderia ser alcançado se o expoente dos dados de áudio modificados ("em nova formação em tenda") para a banda menos o expoente para a próxima banda de frequência mais baixa, é impedido de ser igual a -2).
[0046]Mais especificamente, em algumas das tais modalidades, para cada banda (a “N-ésima" banda) para a qual nova formação em tenda impede o expoente diferencial de ser igual a -2, sendo que a compensação lowcomp é "inaplicada" (ou desligada ou efetivamente desabilitada) no senso seguinte. O expoente modificado diferencial para a banda (que resulta a partir da nova formação em tenda) é -1, 0, 1 ou 2. Assim, se o expoente diferencial para banda anterior (frequência mais baixa) (a "(N-1)ésima" banda) fosse -2 (o que poderia acontecer se a etapa de detecção de tonalidade indicasse conteúdo tonal forte para a “(N-1)-ésima” banda para impedir a nova formação em tenda para a “(N-1)-ésima” banda, e a falta de conteúdo tonal para a “N-ésima” banda para ativar a nova formação em tenda para a “N- ésima” banda), e a lowcomp tivesse aplicado (na maneira convencional) um ajuste de máscara completo à “(N-1)-ésima” banda (isto é, a detecção tonal da invenção não impediu a lowcomp de assim fazê-lo), sendo que a lowcomp convencional (sem nova formação em tenda) aplicaria uma sequência de ajustes de máscara progressivamente menores (para uma pequena quantidade de bandas que seguem a “(N-1)-ésima” banda, que inclui a N-ésima banda) até que alcance uma banda para a qual a mesma faça um ajuste de zero (presumindo que nenhum dos expoentes diferenciais para essas bandas se iguale a -2). Nas modalidades descritas no presente parágrafo, quando a nova formação em tenda (em concordância com a invenção) impede o expoente diferencial para uma banda (a “N-ésima” banda) de ser igual a -2 (isto é, devido ao fato de a detecção tonal da invenção etapa indicar conteúdo atonal para a banda), se a lowcomp aplicou um ajuste de máscara à banda anterior (a “(N-1)-ésima” banda), a lowcomp é possibilitada de continuar sua sequência de ajustes de máscara progressivamente menores para a N-ésima banda (e possivelmente também para uma pequena quantidade de bandas subsequentes) até que alcance a primeira banda para a qual é feita um ajuste de zero. Nesse ponto, a lowcomp é impedida de fazer qualquer ajuste de máscara adicional até que a detecção tonal da invenção indique um sinal tonal.
[0047]Em outras modalidades, quando a etapa de detecção de tonalidade da invenção indica conteúdo atonal para qualquer banda de baixa frequência (ou para todas as bandas de baixa frequência, consideradas juntas) no conjunto para o qual a lowcomp seria aplicada convencionalmente, sendo que a compensação lowcomp é "inaplicada" (ou desligada ou efetivamente desabilitada) no senso seguinte. Em resposta à etapa de detecção de tonalidade da invenção que indica conteúdo atonal para pelo menos uma banda de baixa frequência no conjunto, sendo que a subtração de parâmetros de lowcomp diferentes de zero a partir da função de excitação para todas as bandas no conjunto termina (por exemplo, imediatamente). Nesse ponto, a lowcomp é impedida de fazer qualquer ajuste de máscara (até o início de uma nova varredura através das bandas de um próximo conjunto de dados de domínio de frequência de áudio).
[0048]Em algumas modalidades, os dados de controle de compensação indicam se cada banda de baixa frequência individual no conjunto tem conteúdo tonal proeminente, e a compensação de baixa frequência é seletivamente aplicada (ou inaplicada) para cada banda de baixa frequência individual no conjunto. Em outras modalidades, os dados de controle de compensação indicam se as bandas de baixa frequência no conjunto (consideradas juntas) têm conteúdo tonal proeminente, e a compensação de baixa frequência ou é aplicada a todas as bandas de baixa frequência no conjunto ou não é aplicada a nenhuma das bandas de baixa frequência no conjunto (a depender do conteúdo dos dados de controle de compensação).
[0049]Em algumas modalidades na segunda classe, a etapa (a) inclui uma etapa de realizar a detecção de tonalidade nos dados de áudio para gerar dados de controle de compensação indicativos de se cada banda de frequência de pelo menos um subconjunto das bandas de frequência (não necessariamente bandas de baixa frequência) dos dados de áudio tiver ou não conteúdo tonal proeminente, e a etapa de determinar valores de mascaramento para os valores de dados de áudio também inclui uma etapa de:
[0050](c) realizar um processo de correção de valor de mascaramento de uma primeira maneira para cada uma das ditas bandas de frequência dos dados de áudio que tiverem conteúdo tonal proeminente conforme indicado pelos dados de controle de compensação, e realizar o processo de correção do valor de mascaramento de uma segunda maneira para cada uma das ditas bandas de frequência dos dados de áudio às quais faltarem conteúdo tonal proeminente conforme indicado pelos dados de controle de compensação.
[0051]Por exemplo, o processo de correção do valor de mascaramento pode ser um processo BABNDNORM, sendo que cada uma das ditas bandas de frequência pode ser uma banda perceptível, e a etapa (c) pode incluir a etapa de realizar o processo BABNDNORM com uma primeira constante em escala para cada uma das ditas bandas de frequência que tiver conteúdo tonal proeminente, e realizar o processo BABNDNORM com uma segunda constante em escala para cada uma das ditas bandas de frequência às quais faltarem conteúdo tonal proeminente.
[0052]Em outra classe de modalidades, a invenção é um codificador deáudio configurado para gerar dados de audio codificados em resposta aos dados de domínio de frequência de áudio, são inclusos realizando-se a compensação de baixa frequência adaptável nos dados de áudio, sendo que o dito codificador inclui:
[0053]um detector de tonalidade (por exemplo, o elemento 15 da Figura 2) configurado para realizar a detecção de tonalidade nos dados de áudio para gerar dados de controle de compensação indicativos de se cada banda de baixa frequência de um conjunto de pelo menos algumas bandas de baixa frequência dos dados de áudio tiver ou não conteúdo tonal proeminente; e
[0054]um estágio de controle de compensação de baixa frequência (por exemplo, implantado pelo elemento 4 da Figura 2) acoplado e configurado para habilitar de modo adaptável (habilitar seletivamente ou desabilitar efetivamente), em resposta aos dados de controle de compensação, sendo que a aplicação de compensação de baixa frequência para cada banda de baixa frequência do conjunto de bandas de baixa frequência dos dados de áudio.
[0055]O detector de tonalidade é configurado para determinar se a compensação de baixa frequência deve ser aplicada a dados de áudio de cada banda de frequência do conjunto de bandas de baixa frequência (isto é, gerando-se dados de controle de compensação que indicam se a compensação de baixa frequência de cada banda de frequência do conjunto de bandas de baixa frequência deve ser ligada devido ao fato de a banda ter conteúdo tonal proeminente, ou desligada devido ao fato da banda ter falta de conteúdo tonal proeminente, durante a codificação dos dados de áudio do conjunto de bandas de baixa frequência). O estágio de controle de compensação de baixa frequência é configurado para habilitar de modo adaptável a aplicação de compensação de baixa frequência aos dados de áudio de cada banda do conjunto de bandas de baixa frequência em resposta aos dados de controle de compensação, de uma maneira que não exija mudanças de decodificador isto é, de uma maneira que permita que um decodificador realize a decodificação dos dados de áudio codificados sem que seja determinado (ou seja, informado dessa forma) se a compensação de baixa frequência foi aplicada a alguma banda de baixa frequência durante a codificação ou não.
[0056]Em resposta aos dados de controle de compensação que indicam que uma banda de frequência dos dados de áudio a serem codificados é indicativa de um sinal atonal (para o qual a compensação de baixa frequência deve ser desabilitada), uma modalidade preferencial do estágio de controle de compensação de baixa frequência "faz nova formação em tenda" dos dados de áudio da banda modificando-se artificialmente o expoente dos mesmos. A nova formação em tenda gera dados de áudio modificados para a banda de tal forma que o expoente diferencial para a banda é impedido de ser igual a -2 (por exemplo, de forma que o expoente modificado dos dados de áudio modificados para a banda, menos o expoente dos dados de áudio na próxima banda de frequência mais baixa precisa ser igual a 2,1, 0 ou -1). Em modalidades típicas do codificador, compensação lowcomp não seria aplicada à banda devido ao fato de o critério para aplicar a compensação lowcomp à banda (um aumento de PSD de 12 dB para a banda, em relação à PSD para a próxima banda de frequência mais baixa) não seria alcançada (esse critério não poderia ser alcançado se o expoente dos dados de áudio modificados para a banda, menos o expoente para a próxima banda de frequência mais baixa, for impedido de ser igual a -2).
[0057]Outro aspecto da invenção é um método para decodificar dados de áudio codificados, que inclui as etapas de receber um sinal indicativo de dados de áudio codificados, em que os dados de áudio codificados foram gerados codificando-se dados de áudio em concordância com qualquer modalidade do método de codificação da invenção, e decodificar os dados de áudio codificados para gerar um sinal indicativo dos dados de áudio. Outro aspecto da invenção é um sistema que inclui um codificador configurado (por exemplo, programado) para realizar qualquer modalidade do método de codificação da invenção para gerar dados de áudio codificados em resposta aos dados de áudio, e um decodificador configurado para decodificar dados de áudio codificados para recuperar os dados de áudio.
[0058]Outros aspectos da invenção incluem um sistema ou dispositivo (por exemplo, um codificador ou um processador) configurado (por exemplo, programado) para realizar qualquer modalidade do método da invenção, e um meio legível por computador (por exemplo, um disco) o qual armazena o código para implantar qualquer modalidade do método da invenção ou etapas do mesmo. Por exemplo, o sistema da invenção pode ser ou incluir um processador programável para propósitos gerais, processador de sinal digital, ou microprocessador, programado com software ou firmware e/ou de outra maneira configurado para realizar qualquer uma dentre uma variedade de operações em dados, que inclui uma modalidade do método da invenção ou etapas dos mesmos. Tal processador para propósitos gerais pode ser ou incluir um sistema de computador que inclui um dispositivo de entrada, uma memória, e circuito de processamento programado (e/ou de outra maneira configurado) para realizar uma modalidade do método da invenção (ou etapas do mesmo) em resposta aos dados atribuídos à mesma.
BREVE DESCRIÇÃO DOS DESENHOS
[0059]AFigura1éumdiagrama de blocosdeumsistema de codificação convencional.
[0060]AFigura2éumdiagrama de blocosdeumsistema de codificação configurado para realizar uma modalidade do método da invenção.
[0061]A Figura 3 é um gráfico de expoentes e expoentes do tipo tenda de dados de domínio de frequência de áudio indicativos de um sinal de afinador (tonal), como uma função de compartimento de frequência.
[0062]A Figura 4 é um gráfico de expoentes e expoentes do tipo tenda de dados de domínio de frequência de áudio indicativos de um sinal de aplauso (atonal), como uma função de compartimento de frequência.
[0063]A Figura 5 é um gráfico de valores de PSD de banda (energia perceptível) (a curva do topo) de dados de domínio de frequência de áudio de banda, um gráfico de valores de PSD de banda postos em escala (a segunda curva a partir do topo) gerados pela aplicação de um processo BABNDNORM convencional aos dados de áudio, um gráfico de uma função de excitação (a terceira curva a partir do topo) gerado para o uso no mascaramento dos dados de áudio, e um gráfico de uma versão da função de excitação posta em escala (a curva da parte inferior) gerado pela aplicação de um processo BABNDNORM convencional à função de excitação. Cada uma dentre as quatro curvas é representada em uma escala de banda perceptível (frequência Bark).
[0064]A Figura 6 é um gráfico de um espectro de frequência de um sinal de áudio, um gráfico de uma curva de mascaramento padrão para mascarar o sinal de áudio (a segunda curva a partir da parte inferior), e um gráfico de uma versão da curva de mascaramento posta em escala (a curva da parte inferior) gerado pela aplicação de um processo BABNDNORM convencional à curva de mascaramento.
[0065]A Figura 7 é um diagrama de blocos de um sistema que inclui um codificador configurado para realizar qualquer modalidade do método de codificação da invenção para gerar dados de áudio codificados em resposta aos dados de áudio, e um decodificador configurado para decodificar dados de áudio codificados para recuperar os dados de áudio.
DESCRIÇÃO DETALHADA DE MODALIDADES DA INVENÇÃO
[0066]Uma modalidade de um sistema configurado para implanter o método da invenção será descrita com referência à Figura 2. O sistema da Figura 2 é um codificador AC-3 (ou AC-3 aperfeiçoado), o qual é configurado para gerar um fluxo de bits de áudio AC-3 (ou AC-3 aperfeiçoado) codificado 9 em resposta aos dados de áudio de entrada de domínio de tempo 1. Os elementos 2, 4, 6, 7, 8, 10 e 11 do sistema da Figura 2 são idênticos aos elementos numerados de forma idêntica do sistema da Figura 1 descrito acima.
[0067]O banco de filtros de análise 2 converte os dados de audio de entrada de domínio de tempo 1 em dados de domínio de frequência de áudio 3, e o estágio 7 da BFPE gera uma representação do ponto de flutuação de cada componente de frequência de dados 3, que compreende um expoente e uma mantissa para cada compartimento de frequência. A saída de dados de domínio de frequência de áudio a partir do estágio 7 (algumas vezes também denominado no presente documento como dados de domínio de frequência de áudio 3) é então codificada, incluída pela quantização de suas mantissas no quantizador 6. O formatador 8 é configurado para gerar um fluxo de bits AC-3 (ou AC-3 aperfeiçoado) codificado 9 em resposta à saída de dados da mantissa quantizados do quantizador 6 e saída de dados de expoente diferenciais codificados a partir do estágio 11. O quantizador 6 realiza a alocação de bits e a quantização com base em dados de controle (que incluem dados de mascaramento) gerados pelo controlador 4.
[0068]O controlador 4 é configurado para realizar a compensação de baixa frequência em cada banda de baixa frequência de um conjunto de bandas de baixa frequência de dados de áudio 3 pela correção de um valor de mascaramento preliminar (um valor de excitação) para a dita banda. Os dados de mascaramento corrigidos atribuídos pelo controlador 4 ao quantizador 6 para a banda são determinados pelo de mascaramento corrigido para a dita banda.
[0069]Devido ao fato de o sistema da Figura 2 ser um codificador AC-3 (ou AC-3 aperfeiçoado), o controlador 4 implanta um modelo psicoacústico para analisar os dados de domínio da frequência na base de 50 bandas perceptíveis não uniformes, as quais se aproximam das bandas de frequência da bem conhecida escala de Bark. Outras modalidades da invenção empregam um modelo psicoacústico para analisar dados de domínio da frequência (e/ou implantam a compensação de baixa frequência e opcionalmente também outro processo de correção de valor de mascaramento) em outra base em bandas (isto é, na base de qualquer conjunto de bandas de frequência uniformes ou não uniformes).
[0070]O codificador da Figura 2 inclui o estágio de nova formação em tenda da invenção 18 e o detector de tonalidade 15. O estágio de formação em tenda 10 da Figura 2 é acoplado e configurado para atribuir os expoentes do tipo tenda os quais o mesmo gera para o detector de tonalidade 15 e para o estágio de nova formação em tenda 18. O estágio de nova formação em tenda 18 é configurado para gerar expoentes em nova formação em tenda os quais fazem com que o controlador 4 (em operação em resposta aos expoentes em nova formação em tenda) realize a compensação de baixa frequência em uma banda de frequência apenas em resposta aos dados de controle de compensação (gerados pelo detector 15 e atribuídos ao estágio 18) que indicarem que a compensação de baixa frequência deve realizada na banda. Em resposta aos dados de controle de compensação (gerados pelo detector 15 e atribuídos ao estágio 18) os quais indiquem que a compensação de baixa frequência não deve ser realizada em uma banda de frequência de dados de áudio 3, o controlador 4 não realiza a compensação de baixa frequência na banda e, no lugar disso, os dados de mascaramento atribuídos ao quantizador 6 pelo controlador 4 para a banda são determinados por um valor de mascaramento preliminar não corrigido (um valor de excitação) para a dita banda.
[0071]Os dados de mascaramento atribuídos pelo controlador 4 ao quantizador 6 para cada banda de frequência dos dados de domínio da frequência 3 compreendem um valor da curva de mascaramento para a banda. Os mesmos valores da curva de mascaramento representam o montante de sinal mascarado pelo ouvido humano em cada banda de frequência. Como no sistema da Figura 1, o quantizador 6 da Figura 2 usa essas informações para decidir como usar melhor a quantidade disponível de bits de dados para representar os componentes de cada banda de frequência do sinal de áudio de entrada.
[0072]Mais especificamente, o controlador 4 é configurado para computar valores de PSD em resposta aos expoentes em nova formação em tenda atribuídos ao mesmo a partir do estágio 18, para computar valores de PSD de banda em resposta aos valores de PSD, para computar a curva de mascaramento em resposta aos valores de PSD de banda, e para determinar dados de alocação de bits de mantissa (os "dados de mascaramento" indicados na Figura 2) em resposta à curva de mascaramento.
[0073]O codificador de áudio da Figura 2 é configurado para gerar dados de áudio codificados 9 incluídos com a realização da compensação de baixa frequência adaptável em dados de áudio 3. Para implantar tal compensação de baixa frequência adaptável, o sistema da Figura 2 inclui o estágio de detecção de tonalidade (detector de tonalidade) 15 e o estágio de nova formação em tenda adaptativo 18, acoplado conforme mostrado, e o controlador 4 realiza a compensação de baixa frequência em resposta a expoentes em nova formação em tenda gerados pelo estágio 18. O estágio de formação em tenda 10 é acoplado para receber expoentes brutos de dados de domínio de frequência de áudio 3 e configurado para determinar um expoente do tipo tenda para cada banda de baixa frequência do conjunto de bandas de baixa frequência de dados de áudio mencionado acima 3, de uma maneira a ser descrita em mais detalhes abaixo.
[0074]O detector de tonalidade 15 é acoplado para receber os expoentes dos dados de áudio originais (brutos) 3 e os expoentes do tipo tenda gerados pelo estágio 10 em resposta a esses expoentes originais durante uma varredura (da baixa frequência à alta) através do conjunto de bandas de baixa frequência de dados de áudio 3.
[0075]O estágio 10 é configurado para determinar a diferença entre os expoentes dos dados de domínio de frequência de áudio 3 para bandas de frequência de dados consecutivas 3 e para gerar uma versão em tenda de cada tal expoente (um expoente do tipo tenda). A formação em tenda é realizada na maneira convencional mencionada acima, durante uma varredura (da baixa frequência à alta) através dos dados de domínio da frequência 3 (que inclui as bandas de frequência do conjunto de bandas de baixa frequência no qual a compensação de baixa frequência adaptável está para ser realizada), de forma que um expoente do tipo tenda seja gerado para cada compartimento de frequência durante a varredura. O estágio 10 determina o expoente diferencial para cada banda (o expoente de cada "próximo" compartimento, "N+1" menos o expoente do compartimento “N” vigente (frequência mais baixa)). Se o expoente diferencial para o compartimento "N" for maior do que 2 (isto é, exp(N+1) - exp(N) > 2), então o estágio 10 determina que o expoente do tipo tenda para que o compartimento "N+1" seja o menor expoente (tentexp(N+1)) que satisfaz tentexp(N+1) - exp(N) = 2. Nesse caso, o expoente do tipo tenda para o compartimento N (tentexp(N)) é igual ao expoente original para o compartimento N (tentexp(N) = exp(N)), e o estágio 10 atribui ao estágio 18 o valor do expoente do tipo tenda diferencial 2 para o compartimento N. Se o expoente diferencial para o compartimento "N" for menos do que -2 (isto é, exp(N+1) - exp(N) < - 2), então o estágio 10 determina que o expoente do tipo tenda para o compartimento "N" seja o maior expoente (tentexp(N)) que satisfaz exp(N+1) - tentexp(N) = -2. Nesse caso, o expoente do tipo tenda para o compartimento N+1 (tentexp(N+1)) é igual ao expoente original para o compartimento N+1 (tentexp(N+1) = exp(N+1)) e o estágio 10 atribui ao estágio 18 o valor do expoente do tipo tenda diferencial -2 para o compartimento N.
[0076]O detector de tonalidade 15 é configurado para realizar a detecção de tonalidade nos expoentes originais que compreendem dados de áudio 3 e os expoentes do tipo tenda gerados pelo estágio 10 em resposta a esses expoentes originais durante uma varredura (da baixa frequência à alta) através do conjunto de bandas de baixa frequência de dados de áudio 3. A característica de elevações e quedas acentuadas dos valores de PSD (como uma função de frequência) de um sinal tonal implica que tal sinal é formado em tenda mais frequentemente do que um sinal atonal é (por exemplo, um sinal atonal indicativo de aplauso).
[0077]Por exemplo, a Figura 3 é um gráfico de expoentes e expoentes do tipo tenda de dados de domínio de frequência de áudio indicativo de um sinal tonal (um sinal de afinador), como uma função de compartimento de frequência. A Figura 4 é um gráfico de expoentes e expoentes do tipo tenda de dados de domínio de frequência de áudio indicativo de um sinal atonal (aplauso), também diagramado como uma função de compartimento de frequência. Nas frequências mais baixas, nas quais a compensação de baixa frequência é tipicamente realizada, cada compartimento (das Figuras 3 e 4) corresponde a uma banda de frequência única. Conforme evidenciado a partir da inspeção da Figura 3, há muitas bandas de frequência na faixa de baixa frequência (por exemplo, os compartimentos 7, 11, 14, 15, 20 e 23) nas quais há uma diferença diferente de zero entre um expoente e o expoente do tipo tenda correspondente (gerada a partir do expoente, por exemplo, pelo estágio 10) do sinal tonal. Conforme evidenciado a partir da inspeção da Figura 4, há menor quantidade de bandas de frequência na faixa de baixa frequência (compartimento 34 apenas) na qual houver uma diferença diferente de zero entre um expoente e o expoente do tipo tenda correspondente do sinal atonal.
[0078]Assim, uma típica modalidade de detector de tonalidade 15 determina uma medição de diferença média quadrática entre expoentes e expoentes do tipo tenda correspondentes de um conjunto de dados de domínio de frequência de áudio (ou outra medição indicativa da diferença entre expoentes e expoentes do tipo tenda correspondentes de tais dados). Por exemplo, durante uma varredura (da baixa frequência à alta) através das bandas de baixa frequência (do conjunto de bandas de baixa frequência de dados notado 3) a partir da primeira banda de frequência (mais baixa) através da banda N+1, sendo que uma implantação de detector 15 gera a medição de tonalidade para a que a banda N+1 seja a média das diferenças quadráticas entre o expoente original e o expoente do tipo tenda para cada banda na faixa a partir da primeira banda à banda N+1.
[0079]Tal medição de diferença média quadrática é empregada para determinar dados de controle de compensação, indicativos da tonalidade (presença ou falta de conteúdo tonal proeminente) do sinal de áudio na faixa de frequência da banda de frequência mais baixa através da banda de frequência vigente (banda N+1)). Para cada faixa de frequência (da banda de frequência mais baixa através da banda de frequência vigente), se a medição de diferença média quadrática (para a faixa de frequência) tiver um valor menor do que um limiar predeterminado específico (por exemplo, um limiar predeterminado experimentalmente), o detector 15 atribui (ao estágio 18) dados de controle de compensação com um primeiro valor (por exemplo, um bit binário igual a zero), para indicar um sinal de áudio atonal. Isso ativa a nova formação em tenda pelo estágio 18 do valor do expoente diferencial atribuído pelo estágio 10 para a banda vigente, que desse modo desliga uma lowcomp compatível com decodificador pelo controlador 4 (isto é, impedindo que o controlador 4 aplique a compensação de baixa frequência convencional na banda vigente). No exemplo descrito abaixo, o limiar é tirado para que seja 0,05.
[0080]Para cada faixa de frequência (da banda de frequência mais baixa através da banda de frequência vigente), se a medição de diferença média quadrática (para a faixa de frequência) tiver um valor mais alto ou igual ao limiar, o detector 15 atribui (ao estágio 18) dados de controle de compensação com um segundo valor (por exemplo, um bit binário igual a um), para indicar um sinal de áudio tonal. Isso desabilita a nova formação em tenda pelo estágio 18 do valor do expoente diferencial atribuído pelo estágio 10 para a banda vigente, que permite desse modo que esse valor (atribuído na saída do estágio 10) passe imutado através do estágio 18 para o controlador 4, e assim liga uma lowcomp compatível com decodificador pelo controlador 4 (isto é, permite que o controlador 4 aplique a compensação de baixa frequência convencional na banda vigente).
[0081]Em modalidades alternativas, o detector 15 gera os dados de controle de compensação em outra maneira, mas de tal forma que os dados de controle de compensação sejam indicativos da tonalidade (ou atonalidade) do sinal de áudio determinado pelos dados 3 em cada banda de frequência de dados 3, em cada banda de baixa frequência de dados 3 ou em uma faixa de frequência que compreenda um conjunto (ou subconjunto) das bandas de baixa frequência de dados 3 no qual a compensação de baixa frequência adaptável esteja para ser realizada. Por exemplo, em algumas modalidades, o detector 15 é implantado como um detector de tonalidade dedicado que opera na saída do estágio 7 da BFPE (não especificamente expoentes da saída do estágio 7 da BFPE e na saída de expoentes do tipo tenda do estágio 10).
[0082]Para outro exemplo, em algumas modalidades, o detector 15 (ou outro detector de tonalidade empregado em qualquer uma das modalidades) é um detector de aplauso configurado para gerar dados de controle de compensação indicativos de se um conjunto de bandas de baixa frequência de dados de áudio (por exemplo, se cada banda de baixa frequência do conjunto) representa aplauso ou não.Nesse contexto, "aplauso" é usado em um senso amplo o que pode denotar ou apenas aplauso ou aplauso e/ou uma aclamação.A compensação de baixa frequência seria desabilitada (desligada) para cada banda de frequência no conjunto que fosse indicativa de aplauso ou em todas as bandas no conjunto se pelo menos uma das bandas no conjunto fosse indicativa de aplauso, conforme indicado pelos dados de controle de compensação.A compensação de baixa frequência seria realizada nos dados de áudio em cada banda de frequência no conjunto que não fosse indicativa de aplauso conforme indicado pelos dados de controle de compensação.
[0083]Em resposta aos dados de controle de compensação a partir do detector 15 que indica um sinal de áudio atonal (por exemplo, indica que o sinal de áudio determinado pelos dados 3 é um sinal atonal na faixa de baixa frequência a partir da banda de frequência mais baixa de dados 3 através da banda vigente (banda N), sendo que o estágio 18 realiza a nova formação em tenda no expoente do tipo tenda da banda vigente. Especificamente, se o expoente do tipo tenda diferencial para a banda vigente (o expoente do tipo tenda da banda N+1 menos o expoente do tipo tenda da banda N for igual a -2 (o que é indicativo de um aumento acentuado (12 dB) em PSD da banda anterior, N, para banda vigente (frequência mais alta), N+1, sendo que o estágio 18 determina o expoente em nova formação do tipo tenda diferencial para que a banda "N+1" seja igual a -1. Assim, em resposta aos dados de controle de compensação a partir do detector 15 que indicam um sinal de áudio atonal (por exemplo, que indicam que o sinal de áudio determinado pelos dados 3 é um sinal atonal na faixa de baixa frequência a partir da banda de frequência mais baixa de dados 3 através da banda vigente (banda N) de dados 3), sendo que o controlador 4 não realiza a compensação de baixa frequência na banda de frequência vigente (N) de dados de áudio 3.
[0084]Em resposta aos dados de controle de compensação a partir do detector 15 que indicam um sinal de áudio tonal (por exemplo, que indicam que o sinal de áudio determinado pelos dados 3 é um sinal tonal na faixa de baixa frequência a partir da banda de frequência mais baixa de dados 3 através da banda vigente (banda N) de dados 3), o estágio 18 passa através para o controlador 4 a diferença do expoente do tipo tenda para a banda vigente (sem mudar a diferença do expoente do tipo tenda), e é permitido que o controlador 4 realize a compensação de baixa frequência na banda de frequência vigente (N) de dados de áudio 3. Especificamente, controlador 4 realiza a compensação de baixa frequência na banda de frequência vigente (N) de dados de áudio 3 se a diferença da saída de valor de diferença do expoente do tipo tenda do estágio 10 (e passada através para o controlador 4 por meio do estágio 18) para a banda for igual a -2.
[0085]Mais geralmente, o detector de tonalidade de modalidades típicas da invenção é configurado para determinar se a compensação de baixa frequência deve ser aplicada aos dados de áudio de cada banda de frequência de um conjunto de bandas de baixa frequência ou não (isto é, gerando-se dados de controle de compensação que indicam se a compensação de baixa frequência de cada banda de frequência do conjunto de bandas de baixa frequência deve ser ligada devido ao fato de a banda ter conteúdo tonal proeminente, ou desligada devido ao fato de a banda faltar com o conteúdo tonal proeminente, durante a codificação dos dados de áudio do conjunto de bandas de baixa frequência). O estágio de controle de compensação de baixa frequência de modalidades típicas da invenção é configurado para habilitar de modo adaptável a aplicação de compensação de baixa frequência aos dados de áudio de cada banda do conjunto de bandas de baixa frequência em resposta aos dados de controle de compensação, de uma maneira que não exija mudanças de decodificador isto é, de uma maneira que permita que um decodificador realize a decodificação dos dados de áudio codificados sem que seja determinado (ou seja, informado dessa forma) se a compensação de baixa frequência foi aplicada a alguma banda de baixa frequência durante a codificação ou não.
[0086]Em modalidades típicas, em resposta aos dados de controle de compensação que indicam que uma banda de frequência dos dados de áudio a serem codificados é indicativa de um sinal atonal (para o qual a compensação de baixa frequência deva ser desabilitada), uma modalidade preferencial do estágio de controle de compensação de baixa frequência "faz nova formação em tenda" aos dados em tenda de áudio (por exemplo, o expoente do tipo tenda diferencial) da banda modificando-se artificialmente o expoente diferencial relevante determinado pelos dados em tenda. A nova formação em tenda gera dados de áudio modificados para a banda de tal forma que o expoente diferencial modificado (em nova formação em tenda) para a banda seja impedido de ser igual a -2 (por exemplo, de forma que o expoente modificado dos dados de áudio modificados para a banda menos o expoente dos dados de áudio na próxima banda de frequência mais baixa precise ser igual a 2, 1, 0 ou -1). Em modalidades típicas do codificador da invenção, a compensação lowcomp não seria aplicada à banda devido ao fato de que o critério para aplicar a compensação lowcomp à banda (um aumento de PSD de 12 dB para a banda em relação à PSD para a próxima banda de frequência mais baixa) não seria alcançado (esse critério não poderia ser alcançado devido ao fato de o expoente dos dados de áudio modificados para a banda, menos o expoente para a próxima banda de frequência mais baixa, ser impedido de ser igual a -2).
[0087]A compensação de baixa frequência pode ser desligada (em concordância com as modalidades típicas da invenção) sem uma mudança de decodificador, modificando-se artificialmente ("nova formação em tenda") expoentes para as bandas de baixa frequência de tal forma que o expoente diferencial (para as bandas adjacentes de baixa frequência) nunca seja igual a -2 (isto é, para evitar um aumento de PSD de 12 dB durante um exame a partir das bandas de frequência mais baixas às mais altas), e assim evitar a aplicação de compensação lowcomp. Quando o detector de tonalidade da invenção indica um sinal atonal, os expoentes do tipo tenda para as bandas de baixa frequência estão em nova formação em tenda para tal efeito. Isso não exige mudança ao modelo psicoacústico empregado para gerar dados de mascaramento (razão sinal para máscaras) para quantizar os valores de mantissa, e por conseguinte, gera dados codificados que podem ser decodificados por decodificadores convencionais. Mais especificamente, durante a sondagem através das bandas de baixa frequência, com a banda "N+1" a ser a próxima banda, e a banda vigente ("N") que tem frequência mais baixa do que a próxima banda, Se for determinado preliminarmente que um expoente diferencial (o expoente para a banda N+1 menos o expoente para a banda N) é igual a -2, o expoente de uma das bandas é mudado ("em nova formação em tenda") de forma que o expoente diferencial dos valores do expoente modificados seja igual a -1 (isto é, um expoente modificado para a banda N+1 menos o expoente para a banda N é igual a -1, ou o expoente para a banda N+1 menos um expoente modificado para a banda N é igual a -1). Preferencialmente, se o expoente para a banda N+1 menos o expoente para a banda N for igual a -2, essa diferença é aumentada para -1 com a diminuição ("nova formação em tenda") do expoente para a banda N (a banda vigente) de forma que o expoente para a banda N+1 menos o expoente modificado para a banda N seja igual a -1. A última implantação da nova formação em tenda é tipicamente preferencial, uma vez que, geralmente, não é desejável aumentar os valores do expoente uma vez que há uma suposição de que as mantissas correspondentes podem ser inteiramente normalizadas. Aumentar um valor de expoente que corresponde a uma mantissa inteiramente normalizada resultaria em uma mantissa excessivamente normalizada, ou mantissa extraída (clipped), a qual é indesejável. Portanto, se o expoente para a banda N+1 menos o expoente para a banda N for igual a -2, a fim de aumentar essa diferença para -1, é tipicamente preferencialdiminuir por um o expoente para a banda N (preferencialmente a aumentar por um o expoente para a banda N+1).
[0088]Quando o detector de tonalidade da invenção indica um sinal tonal, os expoentes dos componentes de frequência de áudio de entrada não estão em nova formação em tenda e a compensação de baixa frequência é aplicada na maneira convencional ao sinal tonal (isto é, aos valores do tipo tenda convencionalmente indicativos do sinal tonal).
[0089]Os inventores realizaram um teste de audição o qual comparou o desempenho de um codificador E-AC-3 convencional com o de uma versão modificada do Codificador E-AC-3 (a implantação adaptável da compensação lowcomp do tipo descrito com referência à Figura 2). O teste mostrou os benefícios do último codificador (modificado) não apenas para sinais de aplauso testados, mas também para alguns sinais que não são de aplauso. Mais especificamente, a 192 kb/s com um limiar do detector de tonalidade igual a 0,05 (isto é, um detector de tonalidade configurado para gerar dados de controle que indicam um sinal atonal para o qual a compensação lowcomp deve desligada (por nova formação em tenda de expoentes dos dados de domínio de frequência de áudio a serem codificados) quando uma medição de diferença média quadrática entre expoentes e expoentes do tipo tenda do áudio do domínio de frequência tem um valor menor do que o limiar de 0,05), o percentual mediano de blocos para os quais a compensação lowcomp foi desligada foi 0,5% e 80%, para afinador (longo prazo, altamente tonal, baixa frequência) áudio de entrada e áudio de entrada de aplauso (altamente atonal, baixa frequência), respectivamente.
[0090]Conforme notado, a característica de elevação e queda acentuadas da PSD de um sinal tonal implica que tais sinais são formados em tenda mais frequentemente do que os sinais atonais, e assim, a diferença média quadrática entre expoentes e expoentes do tipo tenda podem servir como um indicador de tonalidade. Um valor de indicador de tonalidade menor do que um limiar específico (determinado experimentalmente) implica em sinais atonais para os quais a lowcomp deve ser desligada; e vice versa. Em implantações típicas, o valor de indicador de tonalidade é computado (por exemplo, pelo detector 15 da Figura 2) durante uma varredura através das bandas de frequência dos dados de áudio a serem codificados (por exemplo, dados 3 da Figura 2) até a frequência da banda de frequência vigente alcançar a frequência de início de acoplagem (quando a acoplagem estiver em uso). Se a Transformada Híbrida Adaptável (AHT) estiver em uso, a operação de processamento de lowcomp adaptável da invenção pode ser desabilitada, e o processamento de lowcomp convencional (não adaptável) pode ser realizado no lugar. A AHT é descrita na especificação Dolby Digital/Dolby Digital Plus referida acima, e no capítulo "Dolby Digital Codificação de áudio Standards" no livro The Digital Signal Processing Handbook, Segunda Edição por Robert L. Andersen e Grant A. Davidson, Vijay K. Madisetti, Editor-Chefe, CRC Press, 2009, referido acima.
[0091]Em uma primeira classe de modalidades, a invenção é um método de alocação de bits de mantissa para determinar alocação de bits de mantissa do valor de dados de áudio de dados de domínio de frequência de áudio a serem codificados (que são incluídos por quantização submetida). O método de alocação inclui uma etapa de determinar valores de mascaramento para os valores de dados de áudio (por exemplo, no controlador 4 da Figura 2), que são inclusos com a realização da compensação de baixa frequência adaptável nos dados de áudio de cada banda de frequência de um conjunto de bandas de baixa frequência dos dados de áudio, de tal forma que os valores de mascaramento sejam úteis para determinar valores de sinal para máscara, o que determina a alocação de bits de mantissa para os ditos dados de áudio. A compensação de baixa frequência adaptável inclui as etapas de:
[0092]a) realizar a detecção de tonalidade nos dados de áudio (por exemplo, no detector de tonalidade 15 da Figura 2) para gerar dados de controle de compensação indicativos de se cada banda de frequência no conjunto de bandas de baixa frequência tiver conteúdo tonal proeminente ou não; e
[0093]b) realizar a compensação de baixa frequência nos dados de áudio em cada banda de frequência no conjunto de bandas de baixa frequência que tiver conteúdo tonal proeminente conforme indicado pelos dados de controle de compensação, que são incluídos pela correção de um valor de mascaramento preliminar para cada uma das ditas bandas de frequência que tiver conteúdo tonal proeminente, mas não realizar a compensação de baixa frequência nos dados de áudio em nenhuma outra banda de frequência no conjunto de bandas de baixa frequência, de forma que o valor de mascaramento para cada outra das ditas bandas de frequência seja um valor de mascaramento preliminar não corrigido.
[0094]Em algumas modalidades na primeira classe, a etapa (a) inclui uma etapa de realizar a detecção de tonalidade (por exemplo, no detector de tonalidade 15 da Figura 2) nos dados de áudio para gerar dados de controle de compensação indicativos de se cada banda de frequência de pelo menos um subconjunto das bandas de frequência dos dados de áudio tiver ou não conteúdo tonal proeminente, e a etapa de determinar valores de mascaramento para os valores de dados de áudio também inclui uma etapa de:
[0095](c) realizar um processo de correção de valor de mascaramento de uma primeira maneira para cada uma das ditas bandas de frequência dos dados de áudio que tiverem conteúdo tonal proeminente conformeindicadopelos dadosde controlede compensação, que sãoincluídospelacorreçãodeum valorde mascaramento preliminar para cada uma das ditas bandas de frequência que tiver conteúdo tonal proeminente, e realizar o processo de correção do valor de mascaramento de uma segunda maneira para cada uma das ditas bandas de frequência dos dados de áudio às quais faltarem conteúdo tonal proeminente conforme indicado pelos dados de controle de compensação.
[0096]Por exemplo, o processo de correção do valor de mascaramento pode ser um processo BABNDNORM, cada uma das ditas bandas de frequência pode ser uma banda perceptível, e a etapa (c) pode incluir a etapa de realizar o processo BABNDNORM com uma primeira constante em escala para cada uma das ditas bandas de frequência que tiver conteúdo tonal proeminente, e realizar o processo BABNDNORM com uma segunda constante em escala para cada uma das ditas bandas de frequência às quais faltarem conteúdo tonal proeminente.
[0097]Outra modalidade da invenção é um método de codificação que inclui qualquer modalidade do tal método de alocação de mantissa.
[0098]Em uma segunda classe de modalidades, a invenção é um método de codificação de áudio o qual supera as limitações de métodos de codificação convencionais que aplicam a compensação de baixa frequência para todos os sinais de áudio de entrada (que incluem ambos os sinais com conteúdo tonal e atonal de baixa frequência), ou não aplicam a compensação de baixa frequência a nenhum sinal de áudio de entrada. Essas modalidades seletivamente (de modo adaptável) aplicam a compensação de baixa frequência durante a codificação de sinais de áudio que têm componentes tonais de baixa frequência proeminentes, mas não durante a codificação de sinais de áudio que não têm componentes tonais de baixa frequência proeminentes (por exemplo, aplauso ou outros sinais de áudio que têm conteúdo atonal de baixa frequência, mas não conteúdo tonal de baixa frequência proeminente). A compensação de baixa frequência adaptável é realizada de uma maneira que permita que um decodificador para realizar a decodificação do áudio codificado sem que seja determinado (ou seja, informado dessa forma) se a compensação de baixa frequência foi aplicada durante a codificação ou não.
[0099]Uma típica modalidade na segunda classe é um método de codificação de áudio que inclui as etapas de:
[00100] a) realizar a detecção de tonalidade em dados de domínio de frequência de áudio (por exemplo, no detector de tonalidade 15 da Figura 2) para gerar dados de controle de compensação indicativos de se cada banda de baixa frequência de um conjunto de pelo menos algumas bandas de baixa frequência dos dados de áudio tiver ou não conteúdo tonal proeminente; e
[00101] b) realizar a compensação de baixa frequência (por exemplo, no controlador 4 da Figura 2) para gerar um valor de mascaramento corrigido para os dados de áudio em cada uma das ditas bandas de baixa frequência que tiver conteúdo tonal proeminente conforme indicado pelos dados de controle de compensação, e gerar um valor de mascaramento para os dados de áudio em cada outra banda de baixa frequência no conjunto sem realizar a compensação de baixa frequência (por exemplo, no controlador 4 da Figura 2).
[00102] Em algumas modalidades na segunda classe, o método de codificação de áudio é um método de codificação AC-3 ou AC-3 aperfeiçoado. Nessas modalidades, a compensação de baixa frequência é preferencialmente realizada (isto é, é LIGADA ou habilitada) para as bandas de frequência de dados de áudio de entrada para as quais a lowcomp foi designada inicialmente (isto é, bandas de frequência indicativas de conteúdo de baixa frequência proeminentes, estáticas a longo prazo ("tonal")), e não é realizada (isto é, é DESLIGADA ou efetivamente desabilitada) de outra maneira. Nessas modalidades, em resposta aos dados de controle de compensação que indicam que a compensação de baixa frequência não deve ser realizada em uma banda de frequência dos dados de áudio (por exemplo, dados de controle de compensação que indicam que a banda inclui conteúdo de áudio atonal, mas não conteúdo tonal proeminente), a etapa (b) preferencialmente inclui uma etapa de "nova formação em tenda" dos dados de áudio na dita banda para gerar dados de áudio modificados para a banda, sendo que os ditos dados de áudio modificados para a banda incluem um expoente modificado. A nova formação em tenda gera os dados de áudio modificados para a banda de tal forma que o expoente diferencial para a banda é impedido de ser igual a -2 (por exemplo, de forma que o expoente modificado dos dados de áudio modificados para a banda, menos o expoente dos dados de áudio na próxima banda de frequência mais baixa precise ser igual a 2, 1, 0 ou -1). Assim, a compensação lowcomp não seria aplicada à banda devido ao fato de que o critério para aplicar compensação lowcomp à banda (um aumento de PSD de 12 dB para a banda, em relação à PSD para a próxima banda de frequência mais baixa) não seria alcançado (esse critério não poderia ser alcançado se o expoente dos dados de áudio modificado ("em nova formação em tenda") para a banda, menos o expoente para a próxima banda de frequência mais baixa, é impedido de ser igual a -2).
[00103] Em algumas modalidades na segunda classe, a etapa (a) inclui uma etapa de realizar a detecção de tonalidade (por exemplo, no detector de tonalidade 15 da Figura 2) nos dados de áudio para gerar dados de controle de compensação indicativos de se cada banda de frequência de pelo menos um subconjunto das bandas de frequência dos dados de áudio tiver ou não conteúdo tonal proeminente, e a etapa de determinar valores de mascaramento para os valores de dados de áudio também inclui uma etapa de:
[00104](c) realizar um processo de correção de valor de mascaramento (por exemplo, no controlador 4 da Figura 2) de uma primeira maneira para cada uma das ditas bandas de frequência dos dados de áudio que tiver conteúdo tonal proeminente conforme indicado pelos dados de controle de compensação, e realizar o processo de correção do valor de mascaramento de uma segunda maneira para cada uma das ditas bandas de frequência dos dados de áudio às quais faltarem conteúdo tonal proeminente conforme indicado pelos dados de controle de compensação.
[00105] Por exemplo, o processo de correção do valor de mascaramento pode ser um processo BABNDNORM, cada uma das ditas bandas de frequência pode ser uma banda perceptível, e a etapa (c) pode incluir a etapa de realizar o processo BABNDNORM com uma primeira constante em escala para cada uma das ditas bandas de frequência que tiver conteúdo tonal proeminente, e realizar o processo BABNDNORM com uma segunda constante em escala para cada uma das ditas bandas de frequência às quais faltarem conteúdo tonal proeminente.
[00106]Conforme notado, algumas modalidades do método de codificação da invenção (e método de alocação de bits de mantissa) usam os dados de controle de compensação da invenção para modificar aspectos BABNDNORM de codificação/decodificação.
[00107] Em uma classe de modalidades, o método de codificação da invenção usa dados de controle de compensação da invenção para modificar os aspectos BABNDNORM de codificação/decodificação conforme segue. Ambos os métodos de compensação de baixa frequência adaptativo da invenção e BABNDNORM têm um propósito similar, ou seja, redistribuir bits de codificação a frequências mais altas às custas de frequências mais baixas. Mas, BABNDNORM convencional está atrelado a um custo adicional de transmitir os deltas para o decodificador.
[00108] Para um uso otimizado de ambos a compensação de baixa frequência adaptável da invenção e BABNDNORM, o codificador é configurado para ajustar a constante em escala de BABNDNORM para uma banda perceptível com base na decisão de lowcomp adaptável para a banda. Por exemplo, em uma implantação do sistema da Figura 2, se os dados de controle de compensação gerados pelo detector de tonalidade 15 para uma banda indicarem que a compensação de baixa frequência deve ser desabilitada (desligada), um estágio de dados de mascaramento geração do controlador 4 escolhe a constante em escala de BABNDNORM (em resposta aos dados de controle de compensação) de tal forma que o limiar de mascaramento seja diminuído por um montante menor. Se os dados de controle de compensação gerados pelo detector de tonalidade 15 para uma banda indicarem que a compensação de baixa frequência deve ser habilitada (ligada), o estágio de dados de mascaramento geração escolhe a constante em escala de BABNDNORM (em resposta aos dados de controle de compensação) de tal forma que o limiar de mascaramento seja diminuído por um montante maior.
[00109] Em algumas modalidades do método da invenção, em que a etapa de detecção de tonalidade indicar conteúdo atonal para qualquer banda de baixa frequência (ou para todas as bandas de baixa frequência, consideradas juntas) no conjunto ao qual a lowcomp seria aplicada convencionalmente, a compensação lowcomp é "inaplicada" (desligada ou efetivamente desabilitada) no senso seguinte. Em resposta à etapa de detecção de tonalidade da invenção que indica conteúdo atonal para pelo menos uma banda de baixa frequência no conjunto, a subtração de parâmetros de lowcomp diferentes de zero a partir dos valores de excitação para todas as bandas no conjunto termina (por exemplo, imediatamente). Nesse ponto, a lowcomp é impedida de fazer qualquer ajuste de máscara (até o começo de uma nova varredura através das bandas de um próximo conjunto de dados de domínio de frequência de áudio).
[00110] Conforme notado acima, em algumas modalidades do método da invenção, os dados de controle de compensação indicam se cada banda de baixa frequência individual no conjunto tem conteúdo tonal proeminente ou não, e a compensação de baixa frequência é seletivamente aplicada (ou inaplicada) para cada banda de baixa frequência individual no conjunto. Em outras modalidades do método da invenção, os dados de controle de compensação indicam se as bandas de baixa frequência no conjunto (consideradas juntas) têm conteúdo tonal proeminente ou não, e a compensação de baixa frequência ou é aplicada a todas as bandas de baixa frequência no conjunto ou não é aplicada a nenhuma das bandas de baixa frequência no conjunto (a depender do conteúdo dos dados de controle de compensação). Uma classe de modalidades implanta uma decisão binária (banda larga) como para ativar ou desativar a lowcomp para uma região de baixa frequência inteira. Em algumas modalidades nessa classe, se a detecção de tonalidade indicar que a lowcomp deve ser desabilitada, a nova formação em tenda eliminará todos os expoentes diferenciais do valor -2 a partir da região de lowcomp de baixa frequência, de tal forma que o parâmetro de lowcomp seja sempre 0. Entretanto, outras modalidades do método da invenção implantam uma decisão de tonalidade mais refinada, de tal forma que a lowcomp seja possibilitada de permanecer ativa para algumas regiões de frequência da região de baixa frequência inteira, mas é desabilitada em outras.
[00111] Outro aspecto da invenção é um sistema que inclui um codificador configurado para realizar qualquer modalidade do método de codificação da invenção para gerar dados de áudio codificados em resposta aos dados de áudio, e um decodificador configurado para decodificar dados de áudio codificados para recuperar os dados de áudio. O sistema da Figura 7 é um exemplo do tal sistema. O sistema da Figura 7 inclui codificador 90, o qual é configurado (por exemplo, programado) para realizar qualquer modalidade do método de codificação da invenção para gerar dados de áudio codificados em resposta aos dados de áudio, subsistema de entrega 91, e decodificador 92. O subsistema de entrega 91 é configurado para armazenar os dados de áudio codificados gerados pelo codificador 90 e/ou para transmitir um sinal indicativo dos dados de áudio codificados. O decodificador 92 é acoplado e configurado (por exemplo, programado) para receber os dados de áudio codificados a partir do subsistema 91 (por exemplo, pela leitura ou recuperação dos dados de áudio codificados do armazenamento no subsistema 91, ou receber um sinal indicativo dos dados de áudio codificados que tem foi transmitido pelo subsistema 91), e para decodificar dados de áudio codificados para recuperar os dados de áudio (e tipicamente também para gerar e emitir um sinal indicativo dos dados de áudio).
[00112] Outro aspecto da invenção é um método (por exemplo, um método realizado pelo decodificador 92 da Figura 7) para decodificar dados de áudio codificados, que inclui as etapas de receber um sinal indicativo de dados de áudio codificados, em que os dados de áudio codificados tenham sido gerados pela codificação dos dados de áudio em concordância com qualquer modalidade do método de codificação da invenção, e decodificar os dados de áudio codificados para gerar um sinal indicativo dos dados de áudio.
[00113] A invenção pode ser implantada em hardware, firmware, software ou uma combinação de todos (por exemplo, como uma gama lógica programável). A menos que especificado de outra maneira, os algoritmos ou processos incluídos como parte da invenção não estão intrinsecamente relacionados a nenhum computador em particular ou outros aparelhos. Em particular, máquinas de propósitos gerais variadas podem ser usadas com programas escritos em concordância com os ensinamentos no presente documento, ou pode ser mais conveniente construir aparelhos mais especializados (por exemplo, circuitos integrados) para realizar etapas do método exigidas. Assim, a invenção pode ser implantada em um ou mais programas de computador que são executados em um ou mais sistemas de computador programáveis (por exemplo, um sistema de computador o qual implanta o codificador da Figura 2), cada um que compreende pelo menos um processador, pelo menos um sistema de armazenamento de dados (que inclui memória volátil e não volátil e/ou elementos de armazenamento), pelo menos um dispositivo de entrada ou porta, e pelo menos um dispositivo de saída ou porta. O código de programa é aplicado para inserir dados para realizar as funções descritas no presente documento e gerar informações de saída. As informações de saída são aplicadas a um ou mais dispositivos de saída, de modo conhecido.
[00114] Cada tal programa pode ser implantado em qualquer linguagem de computador desejada (que inclui máquina, montagem, ou alto nível processual, lógico, ou linguagem de programação orientada por objeto) para se comunicar com um sistema de computador. Em qualquer caso, a linguagem pode ser uma linguagem compilada ou interpretada.
[00115] Por exemplo, quando implantado por sequências de instruções de software de computador, funções variadas e etapas de modalidades da invenção podem ser implantadas por sequências de instruções de software Multi-Threaded executadas em hardware de processamento de sinal digital adequado, sendo que em tal caso, os dispositivos variados, as etapas e funções das modalidades podem corresponder a porções de instruções do software.
[00116] Cada tal programa de computador é preferencialmente armazenado ou transferido por download a meios ou dispositivos de armazenamento (por exemplo, memória ou meios de estado sólido, ou meios magnéticos ou óticos) legível por um computador programável de propósito geral ou especial para configurar e operar o computador quando os meios ou dispositivos de armazenamento for lido pelo sistema de computador para realizar os procedimentos descritos no presente documento. O sistema da invenção também pode ser implantado como um meio de armazenamento legível por computador, configurado com (isto é, que armazena) um programa de computador, em que o meio de armazenamento configurado de tal forma faz com que um sistema de computador opere em uma maneira específica e predeterminada para realizar as funções descritas no presente documento.
[00117] Várias modalidades da invenção foram descritas. Entretanto, será entendido que modificações variadas podem ser feitas sem que se afaste do espírito e escopo da invenção. Inúmeras modificações e variações da presente invenção são possíveis à luz dos ensinamentos acima. Deve-se entender que, dentro do escopo das concretizações, a invenção pode ser praticada de forma diferente da descrita especificamente no presente documento.

Claims (28)

1.Método de codificação de áudio caracterizado pelo fato de que inclui as etapas de: (a)realizar a detecção de tonalidade em dados de áudio no domínio da frequência para gerar dados de controle de compensação indicativos de se cada banda de baixa frequência de um conjunto de pelo menos algumas bandas de baixa frequência dos dados de áudio tem ou não conteúdo tonal proeminente; (b)para cada banda de baixa frequência, gerar um valor de mascaramento preliminar para os dados de áudio na banda; e (c)para cada banda de baixa frequência, determinar um valor de mascaramento para os dados de áudio na banda, em que o valor de mascaramento para os dados de áudio em cada banda de baixa frequência com conteúdo tonal proeminente, conforme indicado pelos dados de controle de compensação, é obtido realizando compensação de baixa frequência para corrigir o valor de mascaramento preliminar para os dados de áudio na banda, e o valor de mascaramento para os dados de áudio em cada outra banda de baixa frequência do conjunto é o valor de mascaramento preliminar para os dados de áudio na banda, em que os dados de áudio no domínio da frequência compreendem um valor de expoente para a referida cada banda de baixa frequência do conjunto, e a etapa (a) inclui uma etapa para determinar, para cada banda de baixa frequência do conjunto, uma medida de diferença entre expoentes e os expoentes do tipo tenda correspondentes dos dados de áudio.
2.Método, de acordo com a reivindicação 1, caracterizado pelo fato de que os dados de controle de compensação são indicativos de se pelo menos uma banda do conjunto representa ruído de multidão ou aplauso, e a etapa (c) inclui uma etapa de: gerar um valor de mascaramento, sem realizar a compensação de baixa frequência, para os dados de áudio em cada banda de baixa frequência do conjunto que representa aplauso ou ruído de multidão conforme indicado pelos dados de controle de compensação.
3.Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a etapa (b) inclui uma etapa de nova formação em tenda dos dados de áudio em cada banda de baixa frequência do conjunto à qual falta conteúdo tonal proeminente conforme indicado pelos dados de controle de compensação, para gerar dados de áudio modificados que incluem um expoente modificado para pelo menos uma das bandas de baixa frequência à qual falta conteúdo tonal proeminente.
4.Método, de acordo com a reivindicação 3, caracterizado pelo fato de que a etapa de nova formação em tenda gera o expoente modificado para pelo menos uma das bandas de baixa frequência à qual falta conteúdo tonal proeminente de tal forma que o expoente dos dados de áudio na próxima banda de frequência mais alta menos o expoente modificado precise ter um dos valores 2, 1, 0 e -1.
5.Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a etapa (a) inclui uma etapa de realizar a detecção de tonalidade nos dados de áudio para gerar dados de controle de compensação indicativos de se cada banda de frequência em pelo menos um subconjunto das bandas de frequência dos dados de áudio tem conteúdo tonal proeminente, o método também inclui uma etapa de: (d) executar um processo de correção do valor de mascaramento de uma primeira maneira para cada banda de frequência dos dados de áudio com conteúdo tonal proeminente, conforme indicado pelos dados de controle de compensação, e executar o processo de correção do valor de mascaramento de uma segunda maneira para cada banda de frequência dos dados de áudio que não possuem conteúdo tonal proeminente, conforme indicado pelos dados de controle de compensação.
6.Método, de acordo com a reivindicação 5, caracterizado pelo fato de que o processo de correção do valor de mascaramento é um processo BABNDNORM, e a etapa (d) inclui a etapa de executar o processo BABNDNORM com uma primeira constante de escalonamento para cada banda de frequência com conteúdo tonal proeminente e realizar o processo BABNDNORM com uma segunda constante de escalonamento para cada banda de frequência que carece de conteúdo tonal proeminente.
7.Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a medição de diferença é uma medição da diferença média quadrática entre expoentes e expoentes do tipo tenda correspondentes dos dados de áudio.
8.Método, de acordo com a reivindicação 1, caracterizado pelo fato de que os dados de controle de compensação indicam se cada banda de baixa frequência individual no conjunto tem conteúdo tonal proeminente e, na etapa (c), a compensação de baixa frequência é seletivamente realizada ou não realizada em cada banda de baixa frequência individual no conjunto.
9.Método, de acordo com a reivindicação 1, caracterizado pelo fato de que os dados de controle de compensação indicam se as bandas de baixa frequência no conjunto, consideradas juntas, têm conteúdo tonal proeminente, e a compensação de baixa frequência é realizada na etapa (c) em todas as bandas de baixa frequência no conjunto quando os dados de controle de compensação indicam que as bandas de baixa frequência no conjunto, consideradas juntas, têm conteúdo tonal proeminente.
10.Codificador de áudio configurado para gerar dados de áudio codificados em resposta aos dados de áudio de domínio de frequência, que são incluídos com a realização da compensação de baixa frequência adaptável nos dados de áudio, sendo que o codificador é caracterizado pelo fato de que inclui: um detector de tonalidade configurado para realizar detecção de tonalidade nos dados de áudio para gerar dados de controle de compensação indicativos de se cada banda de baixa frequência de um conjunto de pelo menos algumas bandas de baixa frequência dos dados de áudio têm conteúdo tonal proeminente; e um estágio de controle de compensação de baixa frequência acoplado e configurado para habilitar de modo adaptável, em resposta aos dados de controle de compensação, compensação de baixa frequência em cada banda de baixa frequência do conjunto de bandas de baixa frequência dos dados de áudio, inclusive gerando, para cada faixa de baixa frequência, um valor de mascaramento preliminar para os dados de áudio na banda e para cada banda de baixa frequência, determinar um valor de mascaramento para os dados de áudio na banda, em que o valor de mascaramento para os dados de áudio em cada banda de baixa frequência tendo conteúdo tonal proeminente conforme indicado pelos dados de controle de compensação é obtido realizando compensação de baixa frequência para corrigir o valor de mascaramento preliminar dos dados de áudio na banda, e o valor de mascaramento para os dados de áudio em cada outra banda de baixa frequência do conjunto é o valor de mascaramento preliminar para os dados de áudio na banda, em que os dados de áudio do domínio da frequência compreendem um valor de expoente para cada banda de baixa frequência do conjunto, e o detector de tonalidade é configurado para determinar, para cada faixa de baixa frequência do conjunto, uma medida da diferença entre os expoentes e os expoentes do tipo tenda correspondentes dos dados de áudio.
11.Codificador,deacordo com areivindicação10, caracterizadopelo fatodeque os dadosde controlede compensação são indicativos de se pelo menos uma banda do conjunto representa ruído de multidão ou aplauso.
12.Codificador,deacordocom areivindicação10, caracterizadopelo fatodeque o estágio de controlede compensação de baixa frequência é configurado para habilitar de modo adaptável a aplicação de compensação de baixa frequência aos dados de áudio de cada banda do conjunto de bandas de baixa frequência em resposta aos dados de controle de compensação, de uma maneira que permita que um decodificador realize a decodificação dos dados de áudio codificados sem que seja determinar ou ser informado se a compensação de baixa frequência foi aplicada a alguma banda de baixa frequência durante a codificação.
13.Codificador,deacordocom areivindicação10, caracterizadopelo fatodeque o estágio de controlede compensação de baixa frequência é configurado para realizar a nova formação em tenda dos dados de áudio em cada uma das bandas de baixa frequência às quais falta conteúdo tonal proeminente conforme indicado pelos dados de controle de compensação, para gerar dados de áudio modificados que incluam pelo menos um expoente modificado.
14.Codificador,deacordocom areivindicação13, caracterizadopelo fatodeque o estágio de controlede compensação de baixa frequência é configurado para realizar a nova formação em tenda dos dados de áudio em cada uma das bandas de baixa frequência às quais falta conteúdo tonal proeminente conforme indicado pelos dados de controle de compensação, que são incluídos pela geração do expoente modificado para pelo menos uma das bandas de baixa frequência à qual falta conteúdo tonal proeminente de tal forma que o expoente dos dados de áudio na próxima banda de frequência mais alta menos o expoente modificado precise ter um dos valores 2, 1, 0 e -1.
15.Codificador, de acordo com a reivindicação 10, caracterizado pelo fato de que a medição é uma medição de diferença de média quadrática entre expoentes e expoentes do tipo tenda correspondentes dos dados de áudio.
16.Codificador, de acordo com a reivindicação 10, caracterizado pelo fato de que o codificador é um processador configurado com um método que implanta o detector de tonalidade e o estágio de controle de compensação de baixa frequência.
17.Codificador, de acordo com a reivindicação 10, caracterizado pelo fato de que o codificador é um processador de sinal digital.
18.Codificador, de acordo com a reivindicação 10, caracterizado pelo fato de que o detector de tonalidade é configurado para executar detecção de tonalidade nos dados de áudio para gerar dados de controle de compensação indicativos de se cada banda de frequência, de pelo menos um subconjunto das bandas de frequência dos dados de áudio, tem conteúdo tonal proeminente, e em que o codificador inclui um estágio de correção do valor de mascaramento configurado para executar um processo de correção do valor de mascaramento de uma primeira maneira para cada faixa de frequência dos dados de áudio com conteúdo tonal proeminente, conforme indicado pelos dados de controle de compensação, e para executar o processo de correção de valor de mascaramento de uma segunda maneira para cada faixa de frequência dos dados de áudio que carece de conteúdo tonal proeminente, conforme indicado pelos dados de controle de compensação.
19.Codificador, de acordo com a reivindicação 18, caracterizado pelo fato de que o processo de correção do valor de mascaramento é um processo BABNDNORM, e o estágio de correção do valor de mascaramento é configurado para executar o processo BABNDNORM com uma primeira constante de escalonamento para cada faixa de frequência com conteúdo tonal proeminente e executar o processo BABNDNORM com uma segunda constante de escalonamento para cada faixa de frequência que carece de conteúdo tonal proeminente.
20.Sistema caracterizado pelo fato de que inclui: um codificador configurado para gerar dados de áudio codificados em resposta aos dados de áudio no domínio da frequência, que são incluídos com a realização de compensação de baixa frequência adaptável nos dados de áudio; e um decodificador configurado para decodificar dados de áudio codificados para recuperar os dados de áudio, sendo que o codificador inclui: um detector de tonalidade configurado para realizar a detecção de tonalidade nos dados de áudio para gerar dados de controle de compensação indicativos de se cada banda de baixa frequência de um conjunto de pelo menos algumas bandas de baixa frequência dos dados de áudio tem conteúdo tonal proeminente; e um estágio de controle de compensação de baixa frequência acoplado e configurado para habilitar de modo adaptável, em resposta aos dados de controle de compensação, compensação de baixa frequência para cada banda de baixa frequência do conjunto de bandas de baixa frequência dos dados de áudio, inclusive gerando, para cada faixa de baixa frequência, um valor de mascaramento preliminar para os dados de áudio na banda e para cada banda de baixa frequência, determinar um valor de mascaramento para os dados de áudio na banda, em que o valor de mascaramento para os dados de áudio em cada banda de baixa frequência tendo conteúdo tonal proeminente conforme indicado pelos dados de controle de compensação é obtido realizando compensação de baixa frequência para corrigir o valor de mascaramento preliminar dos dados de áudio na banda, e o valor de mascaramento para os dados de áudio em cada outra banda de baixa frequência do conjunto é o valor de mascaramento preliminar para os dados de áudio na banda, em que os dados de áudio do domínio da frequência compreendem um valor de expoente para cada banda de baixa frequência do conjunto, e o detector de tonalidade é configurado para determinar, para cada faixa de baixa frequência do conjunto, uma medida da diferença entre os expoentes e os expoentes do tipo tenda correspondentes dos dados de áudio.
21.Sistema, de acordo com a reivindicação 20, caracterizado pelo fato de que os dados de controle de compensação são indicativos de se pelo menos uma banda do conjunto representa ruído de multidão ou aplauso.
22.Sistema, de acordo com a reivindicação 20, caracterizado pelo fato de que o decodificador é configurado para decodificar os dados de áudio codificados sem determinar ou ser informado se a compensação de baixa frequência foi aplicada ou não a alguma banda de baixa frequência durante a codificação.
23.Sistema, de acordo com a reivindicação 20, caracterizado pelo fato de que o estágio de controle de compensação de baixa frequência é configurado para realizar a nova formação em tenda dos dados de áudio em cada uma das bandas de baixa frequência às quais falta conteúdo tonal proeminente conforme indicado pelos dados de controle de compensação, para gerar dados de áudio modificados que incluam pelo menos um expoente modificado.
24.Sistema, de acordo com a reivindicação 23, caracterizado pelo fato de que o estágio de controle de compensação de baixa frequência é configurado para realizar a nova formação em tenda dos dados de áudio em cada uma das bandas de baixa frequência às quais falta conteúdo tonal proeminente conforme indicado pelos dados de controle de compensação, que são incluídos pela geração do expoente modificado para pelo menos uma das bandas de baixa frequência à qual falta conteúdo tonal proeminente de tal forma que o expoente dos dados de áudio na banda de frequência mais alta menos o expoente modificado precise ter um dos valores 2, 1, 0, e -1.
25.Método para decodificar dados de áudio codificados, caracterizado pelo fato de que inclui as etapas de: receber um sinal indicativo dos dados de áudio codificados; e decodificar os dados de áudio codificados para gerar um sinal indicativo dos dados de áudio, em que os dados de áudio codificados foram gerados por: (a)realizar a detecção de tonalidade em dados de áudio no domínio da frequência para gerar dados de controle de compensação indicativos de que cada banda de baixa frequência de um conjunto de pelo menos algumas bandas de baixa frequência dos dados de áudio possui conteúdo tonal proeminente; (b)para cada banda de baixa frequência, gerar um valor de mascaramento preliminar para os dados de áudio na banda; e (c)para cada banda de baixa frequência, determinar um valor de máscara para os dados de áudio na banda, em que o valor de máscara para os dados de áudio em cada banda de baixa frequência com conteúdo tonal proeminente, conforme indicado pelos dados de controle de compensação, é obtido realizando compensação de baixa frequência para corrigir o valor de mascaramento preliminar para os dados de áudio na banda, e o valor de mascaramento para os dados de áudio em cada outra banda de baixa frequência no conjunto é o valor de mascaramento preliminar para os dados de áudio na banda, em que o os dados de áudio no domínio da frequência compreendem um valor de expoente para cada banda de baixa frequência do conjunto, e a etapa (a) inclui uma etapa para determinar, para cada banda de baixa frequência do conjunto, uma medida da diferença entre os expoentes e os expoentes do tipo tenda correspondentes de os dados de áudio.
26.Método, de acordo com a reivindicação 25, caracterizado pelo fato de que os dados de controle de compensação são indicativos de se pelo menos uma banda do conjunto representa ruído de multidão ou aplauso, e a etapa (c) inclui uma etapa de: gerar um valor de mascaramento, sem executar a compensação de baixa frequência, para os dados de áudio em cada banda de baixa frequência do conjunto que representa aplausos ou ruído de multidão, conforme indicado pelos dados de controle de compensação.
27.Método, de acordo com a reivindicação 25, caracterizado pelo fato de que a etapa (c) inclui uma etapa de nova formação em tenda dos dados de áudio em cada banda de frequência do conjunto à qual falta conteúdo tonal proeminente conforme indicado pelos dados de controle de compensação, para gerar dados de áudio modificados que incluem um expoente modificado para pelo menos uma das bandas de frequência às quais falta conteúdo tonal proeminente.
28.Método, de acordo com a reivindicação 27, caracterizado pelo fato de que a etapa de nova formação em tenda gera o expoente modificado para pelo menos uma das bandas de frequência às quais falta conteúdo tonal proeminente de tal forma que o expoente dos dados de áudio na próxima banda de frequência mais alta menos o expoente modificado precise ter um dos valores 2, 1, 0 e -1.
BR112014016847-4A 2012-01-09 2012-09-25 Método de codificação de áudio, codificador de áudio, sistema e método para decodificar dados de áudio codificados BR112014016847B1 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261584478P 2012-01-09 2012-01-09
US61/584,478 2012-01-09
US13/588,890 2012-08-17
US13/588,890 US8527264B2 (en) 2012-01-09 2012-08-17 Method and system for encoding audio data with adaptive low frequency compensation
PCT/US2012/057132 WO2013106098A1 (en) 2012-01-09 2012-09-25 Method and system for encoding audio data with adaptive low frequency compensation

Publications (3)

Publication Number Publication Date
BR112014016847A2 BR112014016847A2 (pt) 2017-06-13
BR112014016847A8 BR112014016847A8 (pt) 2017-07-04
BR112014016847B1 true BR112014016847B1 (pt) 2020-12-15

Family

ID=48744528

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112014016847-4A BR112014016847B1 (pt) 2012-01-09 2012-09-25 Método de codificação de áudio, codificador de áudio, sistema e método para decodificar dados de áudio codificados

Country Status (19)

Country Link
US (2) US8527264B2 (pt)
EP (1) EP2803067B1 (pt)
JP (2) JP5755379B2 (pt)
KR (1) KR101621704B1 (pt)
AR (1) AR088007A1 (pt)
AU (1) AU2012364749B2 (pt)
BR (1) BR112014016847B1 (pt)
CA (1) CA2858663C (pt)
CL (1) CL2014001805A1 (pt)
HK (1) HK1201976A1 (pt)
IL (1) IL233029A0 (pt)
IN (1) IN2014CN04457A (pt)
MX (1) MX335999B (pt)
MY (1) MY187728A (pt)
RU (1) RU2583717C1 (pt)
SG (1) SG11201402983UA (pt)
TW (1) TWI470621B (pt)
UA (1) UA110291C2 (pt)
WO (1) WO2013106098A1 (pt)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010013752A1 (ja) * 2008-07-29 2010-02-04 ヤマハ株式会社 演奏関連情報出力装置、演奏関連情報出力装置を備えるシステム、及び電子楽器
EP2770751B1 (en) * 2008-07-30 2017-09-06 Yamaha Corporation Audio signal processing device, audio signal processing system, and audio signal processing method
JP5782677B2 (ja) 2010-03-31 2015-09-24 ヤマハ株式会社 コンテンツ再生装置および音声処理システム
EP2573761B1 (en) 2011-09-25 2018-02-14 Yamaha Corporation Displaying content in relation to music reproduction by means of information processing apparatus independent of music reproduction apparatus
JP5494677B2 (ja) 2012-01-06 2014-05-21 ヤマハ株式会社 演奏装置及び演奏プログラム
KR101729930B1 (ko) 2013-02-14 2017-04-25 돌비 레버러토리즈 라이쎈싱 코오포레이션 업믹스된 오디오 신호들의 채널간 코히어런스를 제어하기 위한 방법
TWI618050B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
TWI618051B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於利用估計之空間參數的音頻訊號增強的音頻訊號處理方法及裝置
US9830917B2 (en) 2013-02-14 2017-11-28 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control
EP2980792A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an enhanced signal using independent noise-filling
JP6492915B2 (ja) * 2015-04-15 2019-04-03 富士通株式会社 符号化装置、符号化方法、及びプログラム
EP3288031A1 (en) 2016-08-23 2018-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding an audio signal using a compensation value
US11232804B2 (en) * 2017-07-03 2022-01-25 Dolby International Ab Low complexity dense transient events detection and coding
CN108616277B (zh) * 2018-05-22 2021-07-13 电子科技大学 一种多通道频域补偿的快速校正方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4817155A (en) * 1983-05-05 1989-03-28 Briar Herman P Method and apparatus for speech analysis
EP0520068B1 (en) 1991-01-08 1996-05-15 Dolby Laboratories Licensing Corporation Encoder/decoder for multidimensional sound fields
US5632005A (en) 1991-01-08 1997-05-20 Ray Milton Dolby Encoder/decoder for multidimensional sound fields
US5581653A (en) * 1993-08-31 1996-12-03 Dolby Laboratories Licensing Corporation Low bit-rate high-resolution spectral envelope coding for audio encoder and decoder
US5727119A (en) 1995-03-27 1998-03-10 Dolby Laboratories Licensing Corporation Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase
JPH10261964A (ja) * 1997-03-19 1998-09-29 Sanyo Electric Co Ltd 情報信号処理装置
CA2230188A1 (en) * 1998-03-27 1999-09-27 William C. Treurniet Objective audio quality measurement
EP1228569A1 (en) * 1999-10-30 2002-08-07 STMicroelectronics Asia Pacific Pte Ltd. A method of encoding frequency coefficients in an ac-3 encoder
US7395211B2 (en) * 2000-08-16 2008-07-01 Dolby Laboratories Licensing Corporation Modulating one or more parameters of an audio or video perceptual coding system in response to supplemental information
AU2211102A (en) * 2000-11-30 2002-06-11 Scient Generics Ltd Acoustic communication system
US7747655B2 (en) * 2001-11-19 2010-06-29 Ricoh Co. Ltd. Printable representations for time-based media
US7110941B2 (en) * 2002-03-28 2006-09-19 Microsoft Corporation System and method for embedded audio coding with implicit auditory masking
US7509257B2 (en) * 2002-12-24 2009-03-24 Marvell International Ltd. Method and apparatus for adapting reference templates
US7333930B2 (en) * 2003-03-14 2008-02-19 Agere Systems Inc. Tonal analysis for perceptual audio coding using a compressed spectral representation
US7516064B2 (en) 2004-02-19 2009-04-07 Dolby Laboratories Licensing Corporation Adaptive hybrid transform for signal analysis and synthesis
JP2006018023A (ja) * 2004-07-01 2006-01-19 Fujitsu Ltd オーディオ信号符号化装置、および符号化プログラム
EP2162880B1 (en) * 2007-06-22 2014-12-24 VoiceAge Corporation Method and device for estimating the tonality of a sound signal
US8396707B2 (en) 2007-09-28 2013-03-12 Voiceage Corporation Method and device for efficient quantization of transform information in an embedded speech and audio codec
KR20090122142A (ko) 2008-05-23 2009-11-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치

Also Published As

Publication number Publication date
MX335999B (es) 2016-01-07
MX2014007400A (es) 2015-03-05
US9275649B2 (en) 2016-03-01
HK1201976A1 (en) 2015-09-11
KR20140104470A (ko) 2014-08-28
AU2012364749B2 (en) 2015-08-13
BR112014016847A2 (pt) 2017-06-13
BR112014016847A8 (pt) 2017-07-04
SG11201402983UA (en) 2014-09-26
CN104040623A (zh) 2014-09-10
US20130179175A1 (en) 2013-07-11
JP6093801B2 (ja) 2017-03-08
UA110291C2 (en) 2015-12-10
WO2013106098A1 (en) 2013-07-18
JP2015504179A (ja) 2015-02-05
US8527264B2 (en) 2013-09-03
CL2014001805A1 (es) 2015-02-27
RU2583717C1 (ru) 2016-05-10
EP2803067A1 (en) 2014-11-19
IN2014CN04457A (pt) 2015-09-04
AU2012364749A1 (en) 2014-07-03
CA2858663C (en) 2017-03-14
EP2803067B1 (en) 2017-04-05
AR088007A1 (es) 2014-04-30
CA2858663A1 (en) 2013-07-18
MY187728A (en) 2021-10-14
KR101621704B1 (ko) 2016-05-17
JP2015187743A (ja) 2015-10-29
IL233029A0 (en) 2014-07-31
US20140324441A1 (en) 2014-10-30
TW201329961A (zh) 2013-07-16
TWI470621B (zh) 2015-01-21
JP5755379B2 (ja) 2015-07-29

Similar Documents

Publication Publication Date Title
BR112014016847B1 (pt) Método de codificação de áudio, codificador de áudio, sistema e método para decodificar dados de áudio codificados
RU2660605C2 (ru) Концепция заполнения шумом
US10311884B2 (en) Advanced quantizer
JP4794452B2 (ja) オーディオ符号化におけるmdctデータに基づくウィンドウタイプ決定方法
CN109313908B (zh) 用于对音频信号进行编码的音频编码器以及方法
AU2017201874A1 (en) Audio encoder and decoder
BR112015026963B1 (pt) Método para codificar um sinal de entrada de áudio de múltiplos canais, codificador de áudio configurado para gerar um sinal de áudio codificado, método para decodificar um sinal de áudio codificado e decodificador de áudio configurado para decodificar um sinal de áudio codificado
JP6332707B2 (ja) 符号化装置および符号化方法
KR101102016B1 (ko) 오디오 인코딩에서 짧은 윈도우를 그룹화하는 방법
BRPI0010672B1 (pt) uso de quantificação de ganho adaptativo e comprimentos de símbolo não-uniformes para uma codificação de áudio
CN104040623B (zh) 用于利用自适应低频补偿编码音频数据的方法和系统

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 25/09/2012, OBSERVADAS AS CONDICOES LEGAIS.

B25G Requested change of headquarter approved

Owner name: DOLBY LABORATORIES LICENSING CORPORATION (US) ; DOLBY INTERNATIONAL AB (IE)