BRPI0610441A2

BRPI0610441A2 - medição econÈmica de intencidade de áudio codificado

Info

Publication number: BRPI0610441A2
Application number: BRPI0610441-0A
Authority: BR
Inventors: Brett Graham Crockett; Michael John Smithers; Alan Jeffrey Seefeldt
Original assignee: Dolby Lab Licensing Corp
Priority date: 2005-04-13
Filing date: 2006-03-23
Publication date: 2010-06-22
Also published as: CN101161033A; JP5219800B2; CN100589657C; AU2006237476A1; ES2373741T3; US20090067644A1; HK1113452A1; MY147462A; US8239050B2; AU2006237476B2; BRPI0610441B1; EP1878307A1; MX2007012735A; CA2604796C; KR20070119683A; ATE527834T1; TW200641797A; TWI397903B; CA2604796A1; WO2006113047A1

Abstract

A presente invenção refere-se a medição da intensidade de áudio codificado em um fluxo de bits que inclui dados dos quais uma aproximação do espectro de potência do áudio pode ser derivada sem decodificar completamente o áudio é realizada pela derivação da aproximação do espectro de potência do áudio do referido fluxo de bits, sem decodificar completamente o áudio e pela determinação de uma intensidade aproximada do áudio em resposta à aproximação do espectro de potência do áudio. Os dados podem incluir representações brutas do áudio e representações mais finas associadas do áudio, a aproximação do espectro de potência do áudio sendo derivada das representações brutas do áudio. No caso de áudio codificado de sub-banda, as representações brutas do áudio podem compreender fatores de escala e as representações mais finas associadas do áudio podem compreender dados de amostra associados com cada fator de escala.

Description

Relatório Descritivo da Patente de Invenção para "MEDIÇÃOECONÔMICA DE INTENSIDADE DE ÁUDIO CODIFICADO".

Campo Técnico

A presente invenção refere-se ao processamento de sinal deáudio. Mais particularmente, refere-se a um cálculo econômico de uma me-dição objetiva de intensidade de áudio codificado de baixa taxa de bits, talcomo áudio codificado usando Dolby Digital (AC-3), Dolby Ditital Plus ouDolby E. "Dolby", "Dolby Digital", Dolby Digital Plus" e "Dolby E" são marcasde indústria e comércio de Dolby Laboratories Licensing Corporation. Aspec-tos da invenção também podem ser utilizáveis com outros tipos de codifica-ção de áudio.

Antecedentes da Técnica

Detalhes da codificação Dolby Digital são apresentados nas re-ferências a seguir:

ATSC Standard A52/A: Digital Áudio Compression Standard(AC-3), Revision A, Advanced Television Systems Committee, 20 de agostode 2001. O documento A/52A está disponível na World Wide Web (WWW -Rede Mundial), em http://www.atsc.org/standards.html.

Flexible Perceptual Coding for Audio Transmission and Storage,de Craig C. Todd, e outros, 96th Convention of the Audio Engineering Soci-ety, 26 de fevereiro de 1994, Pré-impressão 3796;

"Design and Implementation of AC-3 Coders", de Steve Vernon,IEEE Trans. Consumer Electronics, Vol. 41, N9 3, agosto de 1995.

"The AC-3 Multichannel Coder" de Mark Davis, Audio Engineer-ing Society, Pré-impressão 3774, 95th AES Convention, outubro de 1993.

"High Quality, Low-Rate Audio Transform Coding for Transmis-sion and Multimedia Applications", de Bosi e outros, Audio Engineering Soci-ety, Pré-impressão 3365, 93rd AES Convention, outubro de 1992.

Patentes norte-americanas 5.583.962; 5.632.005; 5.663.981;5.727.119; 5.909.664; e 6.021.386.

Detalhes da codificação Dolby Digital Plus são apresentados em"Introduction to Dolby Digital Plus, na Enhancement to the Dolby Digital Co-ding System", AES Convention Paper 6196, 117tn AES Convention, 28 deoutubro de 2004.

Detalhes da codificação Dolby E são apresentados em "EfficientBit Allocation, Quantization, and Coding in na Audio Distribution System",AES Pré-impressão 5068, 107th AES Conference, agosto de 1999 e "Profes-sional Audio Coder Optimized for Use with Vídeo", AES Pré-impressão 5033,107,h AES Conference, agosto de 1999.

Uma visão geral de vários codificadores perceptuais, incluindocodificadores Dolby, codificadores MPEG e outros, é apresentada em "Over-view of MPEG Audio: Current and Future Standards for Low-Bit-Rate AudioCoding", de Karlheinz Brandenburg e Marina Bosi, J. Audio Eng. Soe, Vol.45, Ne 1/2, janeiro/fevereiro, 1997.

Todas as referências citadas acima são aqui incorporadas atra-vés de referência, cada uma em sua totalidade.

Existem muitos métodos para medir, objetivamente, a intensida-de percebida de sinais de áudio. Exemplos de métodos incluem medidas depotência ponderada (tais como LeqA, LeqB, LeqC), bem como medidas deintensidade baseadas em psicoacústica, tais como "Acoustics - Method forCalculating Loudness Levei", ISO 532 (1975). Medidas de intensidade depotência ponderada processam o sinal de áudio de entrada através da apli-cação de um filtro predeterminado que enfatiza freqüências sensíveis, maisperceptivelmente, enquanto tira a ênfase de freqüências sensíveis menosperceptivelmente e, então, determina a média da potência do sinal filtradoatravés de uma extensão de tempo predeterminada. Métodos psicoacústi-cos, tipicamente, são mais complexos e objetivam modelar melhor o funcio-namento do ouvido humano. Isso é obtido pela divisão do sinal de áudio embandas de freqüência que imitam a resposta de freqüência e a sensitividadedo ouvido e, então, manipulando e integrando essas bandas, enquanto seleva em conta o fenômeno psicoacústico, tal como mascaramento de fre-qüência e temporal, bem como a percepção não linear de intensidade comintensidade de sinal variável. O objetivo de todos os métodos objetivos demedição de intensidade é derivar uma medição numérica da intensidade quecombina estreitamente com a percepção subjetiva da intensidade de um si-nal de áudio.

A codificação perceptual ou codificação de áudio de baixa taxade bits é usada, comumente para comprimir dados de sinais de áudio paraarmazenamento, transmissão e distribuição eficientes em aplicações, taiscomo televisão digital difundida e a sala de música on-line da Internet. A co-dificação perceptual obtém sua eficiência por meio da transformação do sinalde áudio em um espaço de informação, onde componentes de sinais e re-dundâncias, que são mascarados psicoacusticamente, podem ser facilmentedescartados. A informação restante é compactada em um fluxo ou arquivode informação digital. Tipicamente, a medição da intensidade do áudio re-presentado pelo áudio codificado de baixa taxa de bits requer decodificaçãoda recuperação de áudio no domínio de tempo (por exemplo, PCM), que po-de ser intensiva, computacionalmente. Contudo, alguns sinais codificadosperceptualmente de baixa taxa de bits contêm informação que pode ser útil aum método de medição de intensidade, assim, economizando o custo com-putacionalmente de decodificação completa do áudio. Dolby Digital (AC-3),Dolby Digital Plus e Dolby E estão entre esses sistemas de codificação deáudio.

Os codificadores de áudio perceptuais de baixa taxa de bitsDolby Digital, Dolby Digital Plus e Dolby E dividem sinais de áudio em seg-mentos de tempo de sobreposição, de janela (ou blocos de codificação deáudio) que são transformados em uma representação de domínio de fre-qüências. A representação de domínio de freqüências de coeficientes espec-trais é expressa por uma notação exponencial, compreendendo conjuntos deum expoente e mantissas associadas. Os expoentes, que funcionam na ma-neira de fatores de escala, são compactados no fluxo de áudio codificado.As mantissas representam os coeficientes espectrais após eles terem sidonormalizados pelos expoentes. Os expoentes são, então, passados atravésde um modelo perceptual de audição e usados para quantificar e compactaras mantissas no fluxo de áudio codificado. Com a decodificação, os expoen-tes são descompactados do fluxo de áudio codificado e, então, passadosatravés do mesmo modelo perceptual para determinar como descompactaras mantissas. As mantissas são, então, descompactadas, combinadas comos expoentes para criar uma representação de domínio de freqüências doáudio, que é, então, decodificada e convertida de volta a uma representaçãode domínio de tempo.

Como muitas medições de intensidade incluem cálculos de po-tências e espectro de potências, economias computacionais podem ser obti-das pela decodificação apenas parcial do áudio codificado e de baixa taxade bits e passando a informação parcialmente decodificada (tal como o es-pectro de potência) para a medição de intensidade. A invenção é útil quandohá uma necessidade de medir a intensidade, mas não de decodificar o áu-dio. Ela explora o fato de que uma medição de intensidade pode fazer usode uma versão aproximada do áudio, essa aproximação, usualmente, nãosendo adequada para audição. Um aspecto da presente invenção é o reco-nhecimento que uma representação bruta do áudio, que está disponível semdecodificar um fluxo de bits em muitos sistemas de codificação de áudio,pode proporcionar uma aproximação do espectro de áudio que é utilizável namedição da intensidade do áudio. Na codificação de áudio Dolby Digital,Dolby Digital Plus e Dolby E, expoentes proporcionam uma aproximação doespetro de potência do áudio. Similarmente, em certos outros sistemas decodificação, fatores de escala, envelopes espectrais e coeficientes preditivoslineares podem proporcionar uma aproximação do espetro de potência doáudio. Esses e outros aspectos e vantagens da invenção serão melhor com-preendidos à medida que o sumário e a descrição seguintes da invençãosão lidos e compreendidos.

A invenção proporciona uma medição computacionalmente eco-nômica da intensidade percebida de áudio codificado de baixa taxa de bits.Isso é obtido pela decodificação apenas parcial do material de áudio e pelapassagem da informação parcialmente decodificada para uma medição deintensidade. O método tira vantagem de propriedades específicas da infor-mação de áudio parcialmente decodificada, tais como os expoentes em codi-ficação de áudio Dolby Digital, Dolby Digital Plus e Dolby E.Um primeiro aspecto da invenção mede a intensidade de áudiocodificado em um fluxo de bits que inclui dados dos quais uma aproximaçãodo espetro de potência do áudio pode ser derivada sem decodificar comple-tamente o áudio através da derivação da aproximação do espetro de potên-cia do áudio do fluxo de bits sem decodificar completamente o áudio e de-terminando uma intensidade aproximada do áudio em resposta à aproxima-ção do espetro de potência do áudio.

Em outro aspecto da invenção, os dados podem incluir represen-tações brutas do áudio e representações mais finas associadas do áudio, emcujo caso, a aproximação do espetro de potência do áudio pode ser derivadadas representações brutas do áudio.

Em um outro aspecto da invenção, o áudio codificado em umfluxo de bits pode ser áudio codificado de sub-bandas, cada sub-banda ten-do um fator de escala e dados de amostra com ela associados e em que asrepresentações brutas do áudio compreendem fatores de escala e as repre-sentações mais finas associadas do áudio compreendem dados de amostraassociados com cada fator de escala.

Ainda em um outro aspecto da invenção, o fator de escala e osdados de amostra de cada sub-banda podem representar coeficientes es-pectrais na sub-banda por meio de notação exponencial em que o fator deescala compreende um expoente e os dados de amostra associados com-preendem mantissas.

Ainda em um outro aspecto da invenção, o áudio codificado emum fluxo de bits pode ser áudio codificado preditivo linear em que as repre-sentações brutas do áudio compreendem coeficientes preditivos lineares eas representações mais finas do áudio compreendem informação de excita-ção associada com os coeficientes preditivos lineares.

Ainda em outro aspecto da invenção, as representações brutasdo áudio podem compreender pelo menos um envelope espectral e as re-presentações mais finas do áudio podem compreender componentes espec-trais associados com o pelo menos um envelope espectral.

Ainda em outro aspecto da invenção, a determinação de umaintensidade aproximada do áudio em resposta à aproximação do espetro depotência do áudio pode incluir a aplicação de uma medição de intensidadede potência ponderada. A medição de intensidade de potência ponderadae estabelece a média da potência do áudio filtrado através do tempo.

Ainda em outro aspecto da invenção, a determinação de umaintensidade aproximada do áudio em resposta à aproximação do espetro depotência do áudio pode incluir a aplicação de uma medição de intensidadepsicoacústica. A medição de intensidade psicoacústica pode empregar ummodelo do ouvido humano para determinar intensidade específica em cadauma de uma pluralidade de bandas de freqüências similares às bandas críti-cas do ouvido humano. Em um ambiente de codificador de sub-banda, assub-bandas podem ser similares às bandas críticas do ouvido humano e amedição de intensidade psicoacústica pode empregar um modelo do ouvidohumano para determinar intensidade específica em cada uma das sub-bandas.

Aspectos da invenção incluem métodos que põem em prática asfunções acima, meios para pôr em prática as funções, aparelho para colocarem prática os métodos e um programa de computador, armazenado em ummeio legível em computador para fazer com que um computador realize osmétodos que põem em prática as funções acima.

Descrição dos Desenhos

A figura 1 mostra um diagrama em blocos funcional esquemáticode uma disposição geral para medição da intensidade de áudio codificado de baixa taxa de bits.

A figura 2 mostra um diagrama em blocos funcional esquemáticogeneralizado de um decodificar Dolby Digital, Dolby Digital Plus e Dolby E.

As figuras 3a e 3b mostram diagramas em blocos funcionais es-quemáticos de duas disposições gerais para calcular uma medição de volu-me/intesidade de som usando potência ponderada e medições baseadas empsicoacústico, respectivamente.

A figura 4 mostra ponderações de freqüência comuns usandasquando das medições da intensidade de som de acordo com a disposição doexemplo da figura 3a.

Figura 5 é um diagrama de blocos funcional esquemático mos-trando uma disposição geral mais econômica para medição da intensidadede som de áudio codificado de acordo com os aspectos da invenção.

As figuras 6a e 6b são diagramas de blocos funcionais esque-máticos da disposição mais econômica para medir a intensidade, incorpo-rando as disposições de intensidade mostradas nos exemplos das figuras 3ae 3b de acordo com os aspectos da invenção.

Melhor Modo para Realização da Invenção

Um benefício de aspectos da presente invenção é a medição daintensidade de áudio codificado de baixa taxa de bits, sem a necessidade dedecodificar completamente o áudio para PCM, decodificação que inclui eta-pas onerosas de processamento de decodificação, tais como alocação debits, de-quantização, uma transformação inversa, etc. Aspectos da invençãoreduzem grandemente as exigências de processamento sebre carga compu-tacional). Essa abordagem é benéfica, quando uma medição de intensidadeé desejada, mas o áudio decodificado não é necessário.

Aspectos da presente invenção são utilizáveis, por exemplo, emambientes, tais como, descritos em (1) Pedido de Patente Não-Provisório,pendente, dos Estados Unidos N.S. 10/884.117, depositado em 1 de julho de2004, intitulado "Method for Correcting Metadata Affecting the PlaybackLoudness and Dynamic Range of Audio Information," de Smithers e outros;(2) Pedido de Patente Provisório Norte-americano N.S. 60/xxx,xxx, deposita-do no mesmo dia que o presente pedido, intitulado "Audio Metadata Verifica-tion," de Brett Graham Crockett, Registro do Procurador DOLI 50 e (3) e nodesempenho da medição e correção de intensidade em um armazenamentode difusão ou cadeia de transmissão em que acesso ao áudio decodificadonão é necessário e não é desejável. O referido N.S. 10/884.177 e os referi-dos pedidos com Registro de Procurador DOL150 são aqui incorporadosatravés de referência em sua totalidade.

A economia de processamento proporcionada pelos aspectos dainvenção também ajuda a tornar possível realizar medição de intensidade ea correção de metadados (por exemplo, mudando um parâmetro DIALNORMpara o valor correto) em tempo real em um grande número de sinais de áu-dio comprimidos de dados de baixa taxa de bits. Freqüentemente, muitossinais de áudio codificados de baixa taxa de bits são multiplexados e trans-portados em fluxos de transporte de MPEG. A medição de intensidade deacordo com aspectos da presente invenção se torna medição de intensidadeem tempo real em um grande número de sinais de áudio comprimidos muitomais possível, quando comparado com as exigências de decodificação com-pleta dos sinais de áudio comprimidos para PCM a fim de realizar a mediçãode intensidade.

A figura 1 mostra uma disposição da técnica anterior para medi-ção de intensidade de áudio codificado. Os dados de áudio codificados ouinformação 101, tal como o áudio que foi codificado com baixa taxa de bits,são decodificados por um decodificador ou função de decodificação ("Deco-de" - Decodificar) 102 em, por exemplo, um sinal de áudio de PCM 103. Es-se sinal é, então, aplicado a um medidor de intensidade ou método ou algo-ritmo de medição ("Measure Loudness" - Medir Intensidade) 104, que geraum valor de intensidade medido 105.

A figura 2 mostra um diagrama em blocos, estrutural ou funcio-nal, da técnica anterior de um exemplo de um Decodificador 102. A estruturaou funções que ele mostra são representativos de decodificadores DolbyDigital, Dolby Digital Plus e Dolby E. Quadros de dados de áudio codificados101 são aplicados a um descompactador ou função de descompactação dedados ("Frame Sync, Error Detection & Frame Deformatting" - Sinc de Qua-dro, Detecção de Erro & Frame Deformatting") 202 que descompacta os da-dos aplicados em dados dê expoente 203, dados de mantissa 204 e outrainformação mista de alocação de bits 207. Os dados de expoente 203 sãoconvertidos em um espectro de potência log 206 por um dispositivo ou fun-ção ("Log Power Spectrum" - Espectro de Potência Log) 205 e este espectrode potência log é usado por um alocador de bits ou função de alocação debits ("Bit Allocation" Alocação de Bits) 208 para calcular sinal 209, que é ocomprimento, em bits, de cada mantissa quantificada. As mantissas são,então, dequantificadas e combinadas com os expoentes por um dispositivoou função ("De-Quantize Mantissas" - Dequantificar Mantissas) 210 e con-vertidas de volta para o domínio de tempo por um dispositivo ou função debanco de filtros inverso ("Inverse Filterbank" - Banco de Filtros Inverso) 212.Banco de filtros inverso corrente 212 também se sobrepõe e soma uma por-ção do resultado do Banco de Filtros Inverso corrente com o resultado doBanco de Filtros Inverso anterior (em tempo) para criar o sinal de áudio de-codificado 103. Em implementações práticas de decodificar, recursos decomputação significativos são requeridos pelos dispositivos ou funções deAlocação de Bits, Dequantificação de Mantissas e Banco de Filtros Inverso.Mais detalhes do processo de decodificação podem ser encontrados emumas das referências citadas acima.

As figuras 3a e 3b mostram disposições da técnica anterior paramedir, objetivamente, a intensidade de um sinal de áudio. Essas represen-tam variações de Medir Intensidade 104 (figura 1). Embora as figuras 3a e3b mostrem exemplos, respectivamente, de duas categorias gerais de técni-cas de medição objetiva de intensidade, a escolha de uma técnica de medi-ção objetiva particular não é crítica para a invenção e outras técnicas demedição objetiva de intensidade podem ser empregadas.

A figura 3a mostra um exemplo da disposição de medição depotência ponderada comumente usada na medição de intensidade. Um sinalde áudio 103 é passado através de uma função de filtro ou filtragem de pon-deração ("Weighting Filter" - Filtro de Ponderação) 302, que é destinado aenfatizar freqüências menos perceptivelmente sensitivas. A potência 305 dosinal filtrado 303 é calculada por um dispositivo ou função ("Potência") 304 eponderada durante um período de tempo por um dispositivo ou função ("Mé-dia") 306 para criar um valor de intensidade 105. Existe um número de dife-rentes características de filtro de ponderação padrão e alguns exemplos co-muns são mostrados na figura 4. Na prática, versões modificadas da dispo-sição da figura 3a são usadas, freqüentemente, as modificações, por exem-plo, impedindo períodos de tempo de silêncio de serem incluídos na média.

Técnicas baseadas em psicoacústica, freqüentemente, tambémsão usadas para medir a intensidade. A figura 3b mostra uma disposiçãotípica da técnica anterior dessa disposição baseada em psicoacústica. Umsinal de áudio 103 é filtrado por uma função de filtro ou filtragem de trans-missão ("Transmission Filter" - Filtro de Transmissão) 312 que representa aresposta de magnitude de variação de freqüência do ouvido externo e mé-dio. O sinal filtrado 313, então, é separado por um banco de filtros ou funçãode banco de filtros auditivos ("Auditory Filterbank" - Banco de Filtros Auditi-vos) 314 em bandas de freqüências que são equivalentes às bandas auditi-vas críticas, ou mais estreitas do que as mesmas. Isso pode ser realizadoatravés da realização de uma Transformação Rápida de Fourier (FFT) comoimplementado, por exemplo, por uma transformação discreta de freqüências(DFT) e, então, agrupando as bandas espaçadas linearmente em bandasque se aproximam das bandas críticas do ouvido (com em uma escala deERB ou Bark). Alternativamente, isso pode ser realizado por um único filtrode passagem de banda para cada banda de ERB ou Bark. Cada banda é,então, convertida por um dispositivo ou função "Excitação" 316 em um sinalde excitação 317, representando a quantidade de estímulos ou excitaçãoexperimentados pelo ouvido humano dentro da banda. A intensidade perce-bida ou a intensidade percebida para cada banda é, então, calculada da ex-citação por um dispositivo ou função ("Specific Loudness" - Intensidade Es-pecífica) 318 e a intensidade específica através de todas as bandas é soma-da por um somador ou função de soma ("Sum" - Soma) 320 para criar umamedição de intensidade 105 única. O processo de soma pode levar em con-sideração vários efeitos perceptuais, por exemplo, mascaramento de fre-qüência. Em implementações práticas desses métodos perceptuais, recur-sos computacionais significativos são requeridos para o filtro de transmissãoe banco de filtro auditivo.

A figura 5 mostra um diagrama em blocos de um aspecto dapresente invenção. Um sinal de áudio digital codificado 101 é decodificadoparcialmente por um dispositivo ou função decodificação parcial 502 e a in-tensidade é medida da informação parcialmente decodificada 503 por umdispositivo ou função medir intensidade 504. Dependendo de como a decodi-ficação parcial é realizada, a medição de intensidade 505 resultante podeser muito similar, mas não exatamente a mesma, à medição de intensidade105, calculada do sinal de áudio completamente decodificado 103 (figura 1).No contexto de implementações de Dolby Digital, Dolby Digital Plus e DolbyE de aspectos da invenção, a decodificação parcial pode incluir a omissãodos dispositivos ou funções de Alocação de Bits, Dequantificação de Mantis-sas e Banco de Filtros Inverso de um decodificar, tal como o exemplo da figura 2.

As figuras 6a e 6b mostram dois exemplos de implementaçõesda disposição geral da figura 5. Embora ambos possam empregar a mesmafunção ou dispositivo de decodificação parcial 502, cada um pode ter umafunção ou dispositivo medir volume 504 diferente - que, no exemplo da figura6a, é similar ao exemplo da figura 3a e que, no exemplo da figura 6a, é simi-lar ao exemplo da figura 6b. Em ambos os exemplos, a Decodificação Parci-al 502 extrai apenas os expoentes 203 do fluxo de áudio codificado e con-verte os expoentes em um espectro de potência 206. Essa extração podeser realizada por um dispositivo ou função ("Frame Sync, Error Detection &Frame De-Formatting") 202 como no exemplo da figura 2 e essa conversãopode ser realizada por um dispositivo ou função ("Low Power Spectrum")205 como no exemplo da figura 2. Não há exigência de de-quantificar asmantissas, realizar alocação de bits e realizar um banco de filtros inversos,como seria requerido para uma decodificação completa, conforme mostradono exemplo de decodificação da figura 2.

O exemplo da figura 6a inclui uma Medição de Intensidade 504,que pode ser uma versão modificada do medidor de intensidade ou funçãode medição de intensidade da figura 3a. Neste exemplo, uma filtragem deponderação modificada é aplicada no domínio de freqüências pelo aumentoou diminuição dos valores de potência em cada banda por um filtro de pon-deração ou função de filtragem ponderada ("Modified Weighting Filter") 601.Em contraste, o exemplo da figura 3a aplica filtragem de ponderação no do-mínio de tempo. Embora opere no domínio de freqüências, o Filtro de Pon-deração Modificada afeta o áudio da mesma maneira que o Filtro de Ponde-ração de domínio de tempo da figura 3a. O filtro 601 é "modificado" com re-lação ao filtro 302 da figura 3a no sentido de que opera em valores de ampli-tude log, em lugar de valores lineares e opera em uma escala de freqüêncianão linear em lugar de linear. O espectro de potência ponderada de freqüên-cia 602 é, então, convertido em potência linear e somado através de fre-qüência e a média determinada através do tempo por um dispositivo ou fun-ção - Converter, Somar, Tirar a Média 603 aplicando, por exemplo, a Equa-ção 5, abaixo. A saída é um valor de intensidade objetivo 505.

O exemplo da figura 6b inclui uma Medição de Intensidade 504,que pode ser uma versão modificada do medidor de intensidade ou funçãode medição de intensidade da figura 3b. Neste exemplo, um filtro de trans-missão ou função de filtragem modificada ("Filtro de Transmissão Modifica-do") 611 é aplicado diretamente no domínio de freqüências pelo aumento oudiminuição dos valores de potência log em cada banda. Em contraste, o e-xemplo da figura 3b aplica filtragem de ponderação no domínio de tempo.

Embora opere no domínio de freqüências, o Filtro de Transmissão Modifica-do afeta o áudio da mesma maneira que o Filtro de Transmissão de domíniode tempo da figura 3b. Um banco de filtros ou função de banco de filtros au-ditivos modificados ("Banco de Filtros Auditivos Modificados") 613 aceitacomo entrada o espectro de potência log espaçado de banda de freqüêncialinear e divide ou combina essas bandas linearmente espaçadas em umasaída de banco de filtros espaçados de banda crítica (por exemplo, bandasERB ou Bark) 315. Banco de Filtros Auditivos Modificados 613 também con-verte o sinal de potência em um sinal linear para o dispositivo ou função de("excitação") 316 seguinte. O Banco de Filtros Auditivos Modificados 613 é"modificado" com relação ao Banco de Filtros Auditivos 314 da figura 3b pelofato de que opera em valores de amplitude log em lugar de valores linearese converte esses valores de amplitude log em valores lineaares. Alternati-vamente, o agrupamento de bandas em bandas ERB ou Bark pode ser reali-zado no Banco de Filtros Auditivos Modificados 613 em lugar do Filtro deTransmissão Modificado 611. O exemplo da figura 6b também inclui umaIntensidade Específica 318 para cada banda e uma Soma 320, como no e-xemplo a figura 3b.

Para as disposições mostradas nas figuras 6a e 6b, economiacomputacional significativa é obtida porque a decodificação não requer alo-cação de bits, de-quantificação de mantissas e um banco de filtros inversos.Contudo, para as disposições da figura 6a e da figura 6b, a medição de in-tensidade objetiva resultante pode não ser exatamente a mesma que a me-dição calculada de áudio completamente decodificado. Isso é porque algumada informação de áudio é descartada e, assim, a informação de áudio usadapara a medição é incompleta. Quando aspectos da presente invenção sãoaplicados ao Dolby Digital, Dolby Digital Plus ou Dolby E, a informação demantissa é descartada e apenas os valores de expoentes grosseiramentequantificados são mantidos. Para Dolby Digital e Dolby Digital Plus os valo-res são quantificados em incrementos de 6 dB e para Dolby E eles sãoquantificados em incrementos de 3 dB. As etapas de quantificação menoresem Dolby E resultam em valores de expoentes quantificados mais finos e,consequentemente, uma estimativa mais precisa do espetro de potência.

Os codificadores perceptuais, freqüentemente, são destinados aalterar o comprimento dos segmentos de tempo de sobreposição, tambémchamado o tamanho do bloco, em conjunto com certas características dosinal de áudio. Por exemplo, Dolby Digital usa dois tamanhos de blocos - umbloco mais longo de 512 amostras, predominantemente, para sinais de áudioestacionários e um bloco mais curto de 256 amostras para sinais de áudiomais transiente. O resultado é que o número de bandas de freqüência e onúmero correspondente de valores de espectro de potência log 206 variabloco a bloco. Quando o tamanho do bloco é 512 amostras, há 256 bandase, quando o tamanho de bloco é 256 amostras, há 128 bandas.

Há muitas maneiras pelas quais os métodos propostos nas figu-ras 6a e 6b podem manipular blocos de tamanhos variáveis e cada maneiraleva a uma medição de intensidade resultante similar. Por exemplo, o Espec-tro de Potência Log 205 pode ser modificado para sair sempre um númeroconstante de bandas em uma taxa de blocos constante por meio da combi-nação ou da média de múltiplos blocos menores em blocos maiores e dis-persando a potência do número menor de bandas através do número maiorde bandas. Alternativamente, a Medição de Intensidade pode aceitar tama-nhos de blocos variáveis e ajustar, conseqüentemente, seus processos defiltragem, excitação, intensidade específica, determinação de média e soma,por exemplo, pelo ajuste das constantes de tempo.Exemplo de Medição de Potência Ponderada

Como um exemplo de aspectos da presente invenção, uma ver-são altamente econômica de um método de medição de intensidade de po-tência ponderada pode usar fluxos de bits de Dolby Digital e a medição deintensidade de potência ponderada LeqA. Neste exemplo altamente econô-mico, apenas os expoentes quantificados contidos em um fluxo de bits DolbyDigital são usados como uma estimativa do espectro de sinal de áudio pararealizar a medição de intensidade. Isso evita as exigências computacionaisadicionais de realização de alocação de bits para recrear a informação demantissa, o que, caso contrário, proporcionaria apenas uma estimativa ligei-ramente mais precisa do espectro do sinal.

Conforme representado nos exemplos das figuras 5 e 6a, o fluxode bits é parcialmente decodificado para recriar e extrair o espectro de po-tência log, calculado dos dados de expoente quantificados contidos no fluxode bits. O Dolby Digital realiza codificação de áudio de baixa taxa de bitsatravés de formação de janelas 512 consecutivas, 50% de amostras de áu-dio de PCM sobrepostas e realizando uma transformação de MDCT, resul-tando em 256 coeficientes de MDCT que são usados para criar o fluxo deáudio codificado de baixa taxa de bits. A decodificação parcial realizada nasfiguras 5 e 6a descompacta os dados de expoentes E(k) e converte os da-dos descompactados em 256 valores de espectro de potência log quantifica-dos, (P(k), que forma uma representação espectral bruta do sinal de áudio.Os valores de espectro de potência log, P(k), estão em unidades de dB. Aconversão é como segue:

<formula>formula see original document page 15</formula>

onde N= 256, o número de coeficientes de transformação para cada blocoem um fluxo de bits Dolby Digital. Para usar o espectro de potência log nacomputação da medição de intensidade de potência ponderada, o espectrode potência log é ponderado usando uma curva de intensidade apropriada,tal como uma das curvas de ponderação A-, B- ou C-, mostradas na figura 4.

Nesse caso, a medida de potência de LeqA está sendo computada e, por-tanto, a curva de ponderação A- é apropriada. Os valores de espectro depotência log P(k) são ponderados pela adição dos mesmos aos valores defreqüências de ponderação de A-, Aw(k), também em unidades de dB como

<formula>formula see original document page 16</formula>

Os valores de freqüências discretas de ponderação de A-, Aw(k),são criados pela computação dos valores de ganho de ponderação de A-para as freqüências distintas, /distinta» onde

<formula>formula see original document page 16</formula>

Onde

<formula>formula see original document page 16</formula>

e onde a freqüência de amostragem Fs é, tipicamente, igual a 48 kHz paraDolby Digital. Cada conjunto de valores de espectro de potência log ponde-rada, Pw(k) é, então, convertido de dB para potência linear e somado para10 criar estimativa de potência ponderada de A- PPOw das 512 amostras de áu-dio de PCM como

<formula>formula see original document page 16</formula>

Conforme mencionado previamente, cada fluxo de bits de DolbyDigital contém transformações consecutivas criadas por formação de janelasde 512 amostras de PCM com 50% de sobreposição e realização da trans-formação de MDCT. Portanto, uma aproximação da potência ponderada deA- total, Ptot, da baixa taxa de bits de áudio codificados em um fluxo de bitsDolby Digitai pode ser computada por meio da média dos valores de potên-cia através de todas as transformações no fluxo de bits Dolby Digital comosegue:

<formula>formula see original document page 16</formula>

onde M iguala o número total de transformações contidas no fluxo de bitsDolby Digital. A potência média é, então, convertida em unidades de dB co-mo segue:

<formula>formula see original document page 16</formula>

onde C é um deslocamento constante devido às mudanças de nível realiza-das no processo de transformação durante codificação do fluxo de bits DolbyDigital.

Exemplo de Medição Psicoacústica

Como outro exemplo de aspectos da presente invenção, umaversão altamente econômica de um método de medição de intensidade depotência ponderada pode usar fluxos de bits Dolby Digital e uma medição deintensidade psicoacústica. Nesse exemplo altamente econômico, como noanterior, apenas os expoentes quantificados contidos em um fluxo de bitsDolby Digital são usados como uma estimativa do espectro do sinal de áudiopara realizar a medição de intensidade. Como no outro exemplo, isso evitaas exigências computacionais adicionais de realização de alocação de bitspara recriar a informação de mantissa, que, de outro modo, apenas propor-cionaria uma estimativa ligeiramente mais precisa do espectro do sinal.

O Pedido de Patente Internacional N9 PCT/US2004/016964, de-positado em 27 de maio de 2004, Seefeldt e outros, publicado como WO2004/111994 A2, 23 de dezembro de 2004, pedido que designa os EstadosUnidos, descreve, entre outras coisas, uma medida objetiva de intensidadepercebida com base em um modelo psicoacústico. O referido pedido é aquiincorporado através de referência em sua totalidade. Os valores de espectrode potência log, P(k), derivados da decodificação parcial de um fluxo de bitsDolby Digital, podem servir como entradas para uma técnica, tal como noreferido pedido internacional, bem como outras medidas psicoacústicas simi-lares, em lugar do áudio de PCM original. Essa disposição é mostrada noexemplo da figura 6b. Tomando emprestada a terminologia e a notação doreferido pedido de PCT, um sinal de excitação E(b) aproximando-se da dis-tribuição de energia ao longo da membrana basilar do ouvido interno nabanda crítica b pode ser aproximada dos valores de espectro de potência logcomo segue:

<formula>formula see original document page 17</formula>

onde T(k) representa a resposta de freqüência do filtro de transmissão eHb(k) representa a resposta de freqüência da membrana basilar em uma lo-calização correspondente à banda crítica b, ambas as respostas sendo a-mostradas na freqüência correspondente ao bin de transformação k. Em se-guida, as excitações correspondentes a todas as transformações no fluxo debits Dolby Digital têm suas médias determinadas para produzir uma excita-ção total:

<formula>formula see original document page 18</formula>

Usando contornos de intensidade iguais, a excitação total emcada banda é transformada em um nível de excitação que gera a mesmaintensidade em 1 kHz. Intensidade específica, uma medição de intensidadeperceptual distribuída através da freqüência, é, então, computado da excita-ção transformada, Ên<Hz(b), através de uma linearidade não compressiva:

<formula>formula see original document page 18</formula>

onde TOikHz é o limite em silêncio em 1 kHz e as constantes G e a são esco-lhidas para corresponder aos dados gerados dos experimentos psicoacústi-cos descrevendo o crescimento da intensidade. Finalmente, a intensidadetotal, L, representada em unidades de sone, é computada pela soma da in-tensidade específica através de bandas:

<formula>formula see original document page 18</formula>

Para fins de ajuste do sinal de áudio, pode-se desejar computarum ganho correspondente, GCOrrespondência, que, quando multiplicado com osinal de áudio toma a intensidade do áudio ajustado igual a uma intensidadede referência, Lref, como medida pela técnica psicoacustica descrita. Comoa medição psicoacustica envolve uma não linearidade na computação deintensidade específica, uma solução de forma fechada para Gcornspondêncianão existe. Na verdade, uma técnica interativa descrita no referido pedido dePCT pode ser empregada em que o quadrado do ganho correspondente éajustado e multiplicado com a excitação total, £(b), até que a intensidadetotal correspondente, L, esteja dentro de uma diferença de limite com rela-ção à intensidade de referência, Lref- A intensidade do áudio pode, então,ser expressa em dB com relação à referência como:<formula>formula see original document page 19</formula>

Outros Codecs de Áudio Perceptíveis

Aspectos da presente invenção não estão limitados aos siste-mas de codificação Dolby Digital, Dolby Digital Plus e Dolby E. Sinais de áu-dio codificados, usando certos outros sistemas de codificação, em que umaaproximação do espectro de potência do áudio é proporcionada, por exem-plo, fatores de escala, envelopes espectrais e coeficientes preditivos linea-res, que podem ser recuperados de um fluxo de bits codificado, sem decodi-ficar completamente o fluxo de bits para produzir áudio, também podem sebeneficiar de aspectos da presente invenção.

Erro no Cálculo de Potência de Expoentes Dolby Digital

Os expoentes Dolby Digital E(k) representam uma quantificaçãobruta do logaritmo dos coeficientes de espectro de MDCT. Há um número defontes de erro, quando usando esses valores como um espectro de potênciabruto.

Primeiro, no Dolby Digital, o próprio processo de quantificaçãoresulta em erro médio de, aproximadamente, 2,7 dB, quando comparando osvalores do espectro de potência gerado dos expoentes (veja equação 1, a-cima) e os valores de potência, calculados diretamente dos coeficientes deMDCT. Esse erro médio, que foi determinado, experimentalmente, pode serincorporado no deslocamento constante C na Equação 7, acima.

Em segundo lugar, sob certas condições de sinal, tais comotransientes, valores de expoentes são agrupados através de freqüência (re-ferido como modos "D25" e "D45", no documento A/52A, citado acima). Esseagrupamento através de freqüência faz com que o erro médio de expoenteseja menos predizível e, assim, mais difícil de levar em conta pela incorpora-ção na constante C da Equação 7. Na prática, erro devido a esse agrupa-mento pode ser ignorado por duas razões: (1) o agrupamento é usado rara-mente e (2) a natureza dos sinais para os quais o agrupamento é usado re-sulta em um erro médio medido, que é similar ao caso de média não deter-minada.Implementação

A invenção pode ser implementada em hardware ou software, ouuma combinação de ambos (por exemplo, arranjos lógicos programáveis). Amenos que de outro modo especificado, os algoritmos ou processos incluí-dos como parte da invenção não estão, inerentemente, relacionados comqualquer computador particular ou outro aparelho. Em particular, várias má-quinas para fins gerais podem ser usadas como programas escritos de acor-do com os ensinamentos aqui, ou pode ser mais conveniente construir apa-relho mais especializado (por exemplo, circuitos integrados) para realizar asetapas do método requeridas. Desse modo, a invenção pode ser implemen-tada em um ou mais programas de computador, executando em um ou maissistemas de computador programáveis, cada um compreendendo pelo me-nos um processador, pelo menos um sistema de armazenamento de dados(incluindo memória não volátil e/ ou elementos de armazenamento), pelomenos um dispositivo ou porta de entrada e pelo menos um dispositivo ouporta de saída. O código de programa é aplicado aos dados de entrada pararealizar as funções aqui descritas e gerar informação de saída. A informaçãode saída é aplicada a um ou mais dispositivos de saída, de modo conhecido.

Cada um desses programas pode ser implementado em qual-quer linguagem de computador desejada (incluindo máquina, montagem, ouprocedimento de nível elevado, lógica ou linguagens de programação orien-tadas em objeto) para se comunicar com um sistema de computador. Emqualquer caso, a linguagem pode ser uma linguagem compilada ou interpre-tada.

Será apreciado que algumas etapas ou funções mostradas nasfiguras exemplificativas realizam múltiplas subetapas e também podem sermostradas como múltiplas etapas ou funções, em lugar de uma etapa oufunção. Também será apreciado que vários dispositivos, funções, etapas eprocessos mostrados e descritos aqui em vários exemplos podem ser mos-trados combinados ou separados de outras maneiras que não conformemostrado nas várias figuras. Por exemplo, quando implementadas por se-qüências de instrução de software de computador, várias funções e etapasdas figuras exemplificativas podem ser implementadas por seqüências deinstrução de software multiencadeadas, executando em hardware de pro-cessamento de sinal digital adequado, em cujo caso os vários dispositivos efunções nos exemplos mostrados nas figuras pode corresponder às porçõesdas instruções de software.

Cada programa desse computador, de preferência, é armazena-do ou baixado para um meio ou dispositivo de armazenamento (por exem-plo, memória de estado sólido ou média, ou meios magnéticos ou óticos)legíveis por um computador programável para fins gerais ou especiais paraconfiguração e operação do computador quando os meios ou dispositivo dearmazenamento é lido pelo sistema de computador para realizar os proce-dimentos aqui descritos. O sistema da invenção também pode ser conside-rado para ser implementado como um meio de armazenamento legível emcomputador, configurado com um programa de computador, onde o meio dearmazenamento assim configurado faz com que um sistema de computadoropere em uma maneira específica e predeterminada para realizar as funçõesaqui descritas.

Um número de modalidades da invenção foi descrito. Não obs-tante, será compreendido que várias modificações podem ser feitas, semafastamento do espírito e do escopo da invenção. Por exemplo, algumas dasetapas aqui descritas podem ser independentes de ordem e, assim, pode serrealizado em uma ordem diferente daquela descrita.

Claims

1. Método para medir a intensidade de áudio codificado em umfluxo de bits que inclui dados dos quais uma aproximação do espectro depotência do áudio pode ser derivada, sem decodificar completamente o áu-dio, compreendendo:derivação da referida aproximação do espectro de potência doáudio do referido fluxo de bits sem decodificar completamente o áudio; edeterminação de uma intensidade aproximada do áudio em res-posta à aproximação do espectro de potência do áudio.

2. Método, de acordo com a reivindicação 1, em que os referidosdados incluem representações brutas do áudio e representações mais finasassociadas do áudio e em que a referida aproximação do espectro de potên-cia do áudio é derivada das representações brutas do áudio.

3. Método, de acordo com a reivindicação 2, em que o áudio co-difiçado em um fluxo de bits é áudio codificado de sub-banda, tendo umapluralidade de sub-bandas de freqüência, cada sub-banda tendo um fator deescala e dados de amostra associados com os mesmos e em que as repre-sentações brutas do áudio compreendem fatores de escala e as representa-ções mais finas associadas do áudio compreendem dados de amostra asso-ciados com cada fator de escala.

4. Método, de acordo com a reivindicação 3, em que o fator deescala e os dados de amostra de cada sub-banda representam coeficientesespectrais na sub-banda pela notação exponencial em que o fato de escalacompreende um expoente e os dados de amostra associados compreendemmantissas.

5. Método, de acordo com qualquer uma das reivindicações de 1a 4, em que o referido fluxo de bits é um fluxo de bits codificado de AC-3.

6. Método, de acordo com a reivindicação 2, em que o áudio co-dificado em um fluxo de bits é áudio codificado preditivo linear no qual asrepresentações brutas do áudio compreendem informação de excitação as-sociada com os coeficientes preditivos lineares.

7. Método, de acordo com a reivindicação 3, em que as repre-sentações brutas do áudio compreendem pelo menos um envelope espectrale as representações mais finas do áudio compreendem componentes espec-trais associados com o referido pelo menos um envelope espectral.

8. Método, de acordo com qualquer uma das reivindicações de 1a 7, em que a determinação de uma intensidade aproximada do áudio emresposta à aproximação do espectro de potência do áudio inclui aplicação deuma medição de intensidade de potência ponderada.

9. Método, de acordo com a reivindicação 8, em que a mediçãode intensidade de potência ponderada emprega um filtro que tira ênfase defreqüências menos perceptíveis e determina a média da potência do áudiofiltrado através do tempo.

10. Método, de acordo com qualquer uma das reivindicações de 1 a 7, em que a determinação de uma intensidade aproximada do áudio emresposta à aproximação do espectro de potência do áudio inclui a aplicaçãode uma medição de intensidade psicoacustica.

11. Método, de acordo com a reivindicação 10, em que a medi-ção de intensidade psicoacustica emprega um modelo do ouvido humanopara determinar intensidade específica em cada uma de uma pluralidade debandas de freqüência similares às bandas críticas do ouvido humano.

12. Método, de acordo com qualquer uma das reivindicações de 3 a 5, em que a determinação de uma intensidade aproximada do áudio emresposta à aproximação do espectro de potência do áudio inclui a aplicaçãode uma medição de intensidade psicoacustica.

13. Método, de acordo com a reivindicação 12, em que as referi-das sub-bandas são similares às bandas críticas do ouvido humano e a me-dição de intensidade psicoacustica emprega um modelo do ouvido humanopara determinar intensidade específica em cada uma das sub-bandas.

14. Aparelho para medir a intensidade de áudio codificado emum fluxo de bits que inclui dados dos quais uma aproximação do espectro depotência do áudio pode ser derivada sem decodificar completamente o áu-dio, compreendendo:meios para derivação da referida aproximação do espectro depotência do áudio do referido fluxo de bits sem decodificar completamente oáudio; emeios para determinar uma intensidade aproximada do áudio emresposta à aproximação do espectro de potência do áudio.

15. Aparelho, de acordo com a reivindicação 14, em que os refe-ridos dados incluem representações brutas do áudio e representações maisfinas associadas do áudio e em que a referida aproximação do espectro depotência do áudio é derivada das representações brutas do áudio.

16. Aparelho, de acordo com a reivindicação 15, em que o áudiocodificado em um fluxo de bits é áudio codificado de sub-banda, tendo umapluralidade de sub-bandas de freqüências, cada sub-banda tendo um fatorde escala e dados de amostra com ela associados e em que as representa-ções brutas do áudio compreendem fatores de escala e as representaçõesmais finas associadas do áudio compreendem dados de amostra associadoscom cada fator de escala.

17. Aparelho, de acordo com a reivindicação 16, em que o fatorde escala e os dados de amostra de cada sub-banda representam coeficien-tes espectrais na sub-banda pela notação exponencial em que o fato de es-cala compreende um expoente e os dados de amostra associados compre-endem mantissas.

18. Aparelho, de acordo com qualquer uma das reivindicaçõesde 14 a 17, em que o referido fluxo de bits é um fluxo de bits codificado deAC-3.

19. Aparelho, de acordo com a reivindicação 15, em que o áudiocodificado em um fluxo de bits é áudio codificado preditivo linear no qual asrepresentações brutas do aúdio compreendem coeficientes preditivos linea-res e as representações mais finas do áudio compreendem informação deexcitação associada com os coeficientes preditivos lineares.

20. Aparelho, de acordo com a reivindicação 15, em que as re-presentações brutas do áudio compreendem pelo menos um envelope es-pectral e as representações mais finas do áudio compreendem componentesespectrais associados com o referido pelo menos um envelope espectral.

21. Aparelho, de acordo com qualquer uma das reivindicaçõesde 14 a 20, em que os referidos meios para determinação de uma intensida-de aproximada do áudio em resposta à aproximação do espectro de potên-cia do áudio incluem meios para a aplicação de uma medição de intensidadede potência ponderada.

22. Aparelho, de acordo com a reivindicação 21, em que a medi-ção de intensidade de potência ponderada emprega um filtro que tira ênfasede freqüências menos perceptíveis e determina as médias da potência doáudio filtrado através do tempo.

23. Aparelho, de acordo com qualquer uma das reivindicaçõesde 14 a 20, em que os referidos meios para a determinação de uma intensi-dade aproximada do áudio em resposta à aproximação do espectro de po-tência do áudio incluem meios para a aplicação de uma medição de intensi-dade psicoacustica.

24. Aparelho, de acordo com a reivindicação 23, em que a medi-ção de intensidade psicoacustica emprega um modelo do ouvido humanopara determinar intensidade específica em cada uma de uma pluralidade debandas de freqüências similares às bandas críticas do ouvido humano.

25. Método, de acordo com qualquer uma das reivindicações de-16 a 18, em que os referidos meios para a determinação de uma intensidadeaproximada do áudio em resposta à aproximação do espectro de potênciado áudio incluem a aplicação de uma medição de intensidade psicoacustica.

26. Aparelho, de acordo com a reivindicação 25, em que as refe-ridas sub-bandas são similares às bandas críticas do ouvido humano e amedição de intensidade psicoacustica emprega um modelo do ouvido huma-no para determinar intensidade específica em cada uma das sub-bandas.

27. Aparelho adaptado para realizar os métodos como definidosem qualquer uma das reivindicações de 1 a 13.

28. Programa de computador, armazenado em um meio legívelem computador para fazer um computador realizar os métodos como defini-dos em qualquer uma das reivindicações de 1 a 13.