BRPI0610441A2 - medição econÈmica de intencidade de áudio codificado - Google Patents
medição econÈmica de intencidade de áudio codificado Download PDFInfo
- Publication number
- BRPI0610441A2 BRPI0610441A2 BRPI0610441-0A BRPI0610441A BRPI0610441A2 BR PI0610441 A2 BRPI0610441 A2 BR PI0610441A2 BR PI0610441 A BRPI0610441 A BR PI0610441A BR PI0610441 A2 BRPI0610441 A2 BR PI0610441A2
- Authority
- BR
- Brazil
- Prior art keywords
- audio
- intensity
- representations
- approximation
- power spectrum
- Prior art date
Links
- 238000005259 measurement Methods 0.000 title claims description 60
- 238000001228 spectrum Methods 0.000 claims abstract description 52
- 230000004044 response Effects 0.000 claims abstract description 17
- 238000000034 method Methods 0.000 claims description 43
- 230000003595 spectral effect Effects 0.000 claims description 18
- 230000005284 excitation Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 41
- 230000005236 sound signal Effects 0.000 description 27
- 230000009466 transformation Effects 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000000691 measurement method Methods 0.000 description 7
- 238000001914 filtration Methods 0.000 description 6
- 230000036961 partial effect Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000013139 quantization Methods 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000000844 transformation Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 241000211181 Manta Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 230000037007 arousal Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 210000000721 basilar membrane Anatomy 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 210000000883 ear external Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 210000004379 membrane Anatomy 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- XOFYZVNMUHMLCC-ZPOLXVRWSA-N prednisone Chemical group O=C1C=C[C@]2(C)[C@H]3C(=O)C[C@](C)([C@@](CC4)(O)C(=O)CO)[C@@H]4[C@@H]3CCC2=C1 XOFYZVNMUHMLCC-ZPOLXVRWSA-N 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/13—Aspects of volume control, not necessarily automatic, in stereophonic sound systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
A presente invenção refere-se a medição da intensidade de áudio codificado em um fluxo de bits que inclui dados dos quais uma aproximação do espectro de potência do áudio pode ser derivada sem decodificar completamente o áudio é realizada pela derivação da aproximação do espectro de potência do áudio do referido fluxo de bits, sem decodificar completamente o áudio e pela determinação de uma intensidade aproximada do áudio em resposta à aproximação do espectro de potência do áudio. Os dados podem incluir representações brutas do áudio e representações mais finas associadas do áudio, a aproximação do espectro de potência do áudio sendo derivada das representações brutas do áudio. No caso de áudio codificado de sub-banda, as representações brutas do áudio podem compreender fatores de escala e as representações mais finas associadas do áudio podem compreender dados de amostra associados com cada fator de escala.
Description
Relatório Descritivo da Patente de Invenção para "MEDIÇÃOECONÔMICA DE INTENSIDADE DE ÁUDIO CODIFICADO".
Campo Técnico
A presente invenção refere-se ao processamento de sinal deáudio. Mais particularmente, refere-se a um cálculo econômico de uma me-dição objetiva de intensidade de áudio codificado de baixa taxa de bits, talcomo áudio codificado usando Dolby Digital (AC-3), Dolby Ditital Plus ouDolby E. "Dolby", "Dolby Digital", Dolby Digital Plus" e "Dolby E" são marcasde indústria e comércio de Dolby Laboratories Licensing Corporation. Aspec-tos da invenção também podem ser utilizáveis com outros tipos de codifica-ção de áudio.
Antecedentes da Técnica
Detalhes da codificação Dolby Digital são apresentados nas re-ferências a seguir:
ATSC Standard A52/A: Digital Áudio Compression Standard(AC-3), Revision A, Advanced Television Systems Committee, 20 de agostode 2001. O documento A/52A está disponível na World Wide Web (WWW -Rede Mundial), em http://www.atsc.org/standards.html.
Flexible Perceptual Coding for Audio Transmission and Storage,de Craig C. Todd, e outros, 96th Convention of the Audio Engineering Soci-ety, 26 de fevereiro de 1994, Pré-impressão 3796;
"Design and Implementation of AC-3 Coders", de Steve Vernon,IEEE Trans. Consumer Electronics, Vol. 41, N9 3, agosto de 1995.
"The AC-3 Multichannel Coder" de Mark Davis, Audio Engineer-ing Society, Pré-impressão 3774, 95th AES Convention, outubro de 1993.
"High Quality, Low-Rate Audio Transform Coding for Transmis-sion and Multimedia Applications", de Bosi e outros, Audio Engineering Soci-ety, Pré-impressão 3365, 93rd AES Convention, outubro de 1992.
Patentes norte-americanas 5.583.962; 5.632.005; 5.663.981;5.727.119; 5.909.664; e 6.021.386.
Detalhes da codificação Dolby Digital Plus são apresentados em"Introduction to Dolby Digital Plus, na Enhancement to the Dolby Digital Co-ding System", AES Convention Paper 6196, 117tn AES Convention, 28 deoutubro de 2004.
Detalhes da codificação Dolby E são apresentados em "EfficientBit Allocation, Quantization, and Coding in na Audio Distribution System",AES Pré-impressão 5068, 107th AES Conference, agosto de 1999 e "Profes-sional Audio Coder Optimized for Use with Vídeo", AES Pré-impressão 5033,107,h AES Conference, agosto de 1999.
Uma visão geral de vários codificadores perceptuais, incluindocodificadores Dolby, codificadores MPEG e outros, é apresentada em "Over-view of MPEG Audio: Current and Future Standards for Low-Bit-Rate AudioCoding", de Karlheinz Brandenburg e Marina Bosi, J. Audio Eng. Soe, Vol.45, Ne 1/2, janeiro/fevereiro, 1997.
Todas as referências citadas acima são aqui incorporadas atra-vés de referência, cada uma em sua totalidade.
Existem muitos métodos para medir, objetivamente, a intensida-de percebida de sinais de áudio. Exemplos de métodos incluem medidas depotência ponderada (tais como LeqA, LeqB, LeqC), bem como medidas deintensidade baseadas em psicoacústica, tais como "Acoustics - Method forCalculating Loudness Levei", ISO 532 (1975). Medidas de intensidade depotência ponderada processam o sinal de áudio de entrada através da apli-cação de um filtro predeterminado que enfatiza freqüências sensíveis, maisperceptivelmente, enquanto tira a ênfase de freqüências sensíveis menosperceptivelmente e, então, determina a média da potência do sinal filtradoatravés de uma extensão de tempo predeterminada. Métodos psicoacústi-cos, tipicamente, são mais complexos e objetivam modelar melhor o funcio-namento do ouvido humano. Isso é obtido pela divisão do sinal de áudio embandas de freqüência que imitam a resposta de freqüência e a sensitividadedo ouvido e, então, manipulando e integrando essas bandas, enquanto seleva em conta o fenômeno psicoacústico, tal como mascaramento de fre-qüência e temporal, bem como a percepção não linear de intensidade comintensidade de sinal variável. O objetivo de todos os métodos objetivos demedição de intensidade é derivar uma medição numérica da intensidade quecombina estreitamente com a percepção subjetiva da intensidade de um si-nal de áudio.
A codificação perceptual ou codificação de áudio de baixa taxade bits é usada, comumente para comprimir dados de sinais de áudio paraarmazenamento, transmissão e distribuição eficientes em aplicações, taiscomo televisão digital difundida e a sala de música on-line da Internet. A co-dificação perceptual obtém sua eficiência por meio da transformação do sinalde áudio em um espaço de informação, onde componentes de sinais e re-dundâncias, que são mascarados psicoacusticamente, podem ser facilmentedescartados. A informação restante é compactada em um fluxo ou arquivode informação digital. Tipicamente, a medição da intensidade do áudio re-presentado pelo áudio codificado de baixa taxa de bits requer decodificaçãoda recuperação de áudio no domínio de tempo (por exemplo, PCM), que po-de ser intensiva, computacionalmente. Contudo, alguns sinais codificadosperceptualmente de baixa taxa de bits contêm informação que pode ser útil aum método de medição de intensidade, assim, economizando o custo com-putacionalmente de decodificação completa do áudio. Dolby Digital (AC-3),Dolby Digital Plus e Dolby E estão entre esses sistemas de codificação deáudio.
Os codificadores de áudio perceptuais de baixa taxa de bitsDolby Digital, Dolby Digital Plus e Dolby E dividem sinais de áudio em seg-mentos de tempo de sobreposição, de janela (ou blocos de codificação deáudio) que são transformados em uma representação de domínio de fre-qüências. A representação de domínio de freqüências de coeficientes espec-trais é expressa por uma notação exponencial, compreendendo conjuntos deum expoente e mantissas associadas. Os expoentes, que funcionam na ma-neira de fatores de escala, são compactados no fluxo de áudio codificado.As mantissas representam os coeficientes espectrais após eles terem sidonormalizados pelos expoentes. Os expoentes são, então, passados atravésde um modelo perceptual de audição e usados para quantificar e compactaras mantissas no fluxo de áudio codificado. Com a decodificação, os expoen-tes são descompactados do fluxo de áudio codificado e, então, passadosatravés do mesmo modelo perceptual para determinar como descompactaras mantissas. As mantissas são, então, descompactadas, combinadas comos expoentes para criar uma representação de domínio de freqüências doáudio, que é, então, decodificada e convertida de volta a uma representaçãode domínio de tempo.
Como muitas medições de intensidade incluem cálculos de po-tências e espectro de potências, economias computacionais podem ser obti-das pela decodificação apenas parcial do áudio codificado e de baixa taxade bits e passando a informação parcialmente decodificada (tal como o es-pectro de potência) para a medição de intensidade. A invenção é útil quandohá uma necessidade de medir a intensidade, mas não de decodificar o áu-dio. Ela explora o fato de que uma medição de intensidade pode fazer usode uma versão aproximada do áudio, essa aproximação, usualmente, nãosendo adequada para audição. Um aspecto da presente invenção é o reco-nhecimento que uma representação bruta do áudio, que está disponível semdecodificar um fluxo de bits em muitos sistemas de codificação de áudio,pode proporcionar uma aproximação do espectro de áudio que é utilizável namedição da intensidade do áudio. Na codificação de áudio Dolby Digital,Dolby Digital Plus e Dolby E, expoentes proporcionam uma aproximação doespetro de potência do áudio. Similarmente, em certos outros sistemas decodificação, fatores de escala, envelopes espectrais e coeficientes preditivoslineares podem proporcionar uma aproximação do espetro de potência doáudio. Esses e outros aspectos e vantagens da invenção serão melhor com-preendidos à medida que o sumário e a descrição seguintes da invençãosão lidos e compreendidos.
A invenção proporciona uma medição computacionalmente eco-nômica da intensidade percebida de áudio codificado de baixa taxa de bits.Isso é obtido pela decodificação apenas parcial do material de áudio e pelapassagem da informação parcialmente decodificada para uma medição deintensidade. O método tira vantagem de propriedades específicas da infor-mação de áudio parcialmente decodificada, tais como os expoentes em codi-ficação de áudio Dolby Digital, Dolby Digital Plus e Dolby E.Um primeiro aspecto da invenção mede a intensidade de áudiocodificado em um fluxo de bits que inclui dados dos quais uma aproximaçãodo espetro de potência do áudio pode ser derivada sem decodificar comple-tamente o áudio através da derivação da aproximação do espetro de potên-cia do áudio do fluxo de bits sem decodificar completamente o áudio e de-terminando uma intensidade aproximada do áudio em resposta à aproxima-ção do espetro de potência do áudio.
Em outro aspecto da invenção, os dados podem incluir represen-tações brutas do áudio e representações mais finas associadas do áudio, emcujo caso, a aproximação do espetro de potência do áudio pode ser derivadadas representações brutas do áudio.
Em um outro aspecto da invenção, o áudio codificado em umfluxo de bits pode ser áudio codificado de sub-bandas, cada sub-banda ten-do um fator de escala e dados de amostra com ela associados e em que asrepresentações brutas do áudio compreendem fatores de escala e as repre-sentações mais finas associadas do áudio compreendem dados de amostraassociados com cada fator de escala.
Ainda em um outro aspecto da invenção, o fator de escala e osdados de amostra de cada sub-banda podem representar coeficientes es-pectrais na sub-banda por meio de notação exponencial em que o fator deescala compreende um expoente e os dados de amostra associados com-preendem mantissas.
Ainda em um outro aspecto da invenção, o áudio codificado emum fluxo de bits pode ser áudio codificado preditivo linear em que as repre-sentações brutas do áudio compreendem coeficientes preditivos lineares eas representações mais finas do áudio compreendem informação de excita-ção associada com os coeficientes preditivos lineares.
Ainda em outro aspecto da invenção, as representações brutasdo áudio podem compreender pelo menos um envelope espectral e as re-presentações mais finas do áudio podem compreender componentes espec-trais associados com o pelo menos um envelope espectral.
Ainda em outro aspecto da invenção, a determinação de umaintensidade aproximada do áudio em resposta à aproximação do espetro depotência do áudio pode incluir a aplicação de uma medição de intensidadede potência ponderada. A medição de intensidade de potência ponderadae estabelece a média da potência do áudio filtrado através do tempo.
Ainda em outro aspecto da invenção, a determinação de umaintensidade aproximada do áudio em resposta à aproximação do espetro depotência do áudio pode incluir a aplicação de uma medição de intensidadepsicoacústica. A medição de intensidade psicoacústica pode empregar ummodelo do ouvido humano para determinar intensidade específica em cadauma de uma pluralidade de bandas de freqüências similares às bandas críti-cas do ouvido humano. Em um ambiente de codificador de sub-banda, assub-bandas podem ser similares às bandas críticas do ouvido humano e amedição de intensidade psicoacústica pode empregar um modelo do ouvidohumano para determinar intensidade específica em cada uma das sub-bandas.
Aspectos da invenção incluem métodos que põem em prática asfunções acima, meios para pôr em prática as funções, aparelho para colocarem prática os métodos e um programa de computador, armazenado em ummeio legível em computador para fazer com que um computador realize osmétodos que põem em prática as funções acima.
Descrição dos Desenhos
A figura 1 mostra um diagrama em blocos funcional esquemáticode uma disposição geral para medição da intensidade de áudio codificado de baixa taxa de bits.
A figura 2 mostra um diagrama em blocos funcional esquemáticogeneralizado de um decodificar Dolby Digital, Dolby Digital Plus e Dolby E.
As figuras 3a e 3b mostram diagramas em blocos funcionais es-quemáticos de duas disposições gerais para calcular uma medição de volu-me/intesidade de som usando potência ponderada e medições baseadas empsicoacústico, respectivamente.
A figura 4 mostra ponderações de freqüência comuns usandasquando das medições da intensidade de som de acordo com a disposição doexemplo da figura 3a.
Figura 5 é um diagrama de blocos funcional esquemático mos-trando uma disposição geral mais econômica para medição da intensidadede som de áudio codificado de acordo com os aspectos da invenção.
As figuras 6a e 6b são diagramas de blocos funcionais esque-máticos da disposição mais econômica para medir a intensidade, incorpo-rando as disposições de intensidade mostradas nos exemplos das figuras 3ae 3b de acordo com os aspectos da invenção.
Melhor Modo para Realização da Invenção
Um benefício de aspectos da presente invenção é a medição daintensidade de áudio codificado de baixa taxa de bits, sem a necessidade dedecodificar completamente o áudio para PCM, decodificação que inclui eta-pas onerosas de processamento de decodificação, tais como alocação debits, de-quantização, uma transformação inversa, etc. Aspectos da invençãoreduzem grandemente as exigências de processamento sebre carga compu-tacional). Essa abordagem é benéfica, quando uma medição de intensidadeé desejada, mas o áudio decodificado não é necessário.
Aspectos da presente invenção são utilizáveis, por exemplo, emambientes, tais como, descritos em (1) Pedido de Patente Não-Provisório,pendente, dos Estados Unidos N.S. 10/884.117, depositado em 1 de julho de2004, intitulado "Method for Correcting Metadata Affecting the PlaybackLoudness and Dynamic Range of Audio Information," de Smithers e outros;(2) Pedido de Patente Provisório Norte-americano N.S. 60/xxx,xxx, deposita-do no mesmo dia que o presente pedido, intitulado "Audio Metadata Verifica-tion," de Brett Graham Crockett, Registro do Procurador DOLI 50 e (3) e nodesempenho da medição e correção de intensidade em um armazenamentode difusão ou cadeia de transmissão em que acesso ao áudio decodificadonão é necessário e não é desejável. O referido N.S. 10/884.177 e os referi-dos pedidos com Registro de Procurador DOL150 são aqui incorporadosatravés de referência em sua totalidade.
A economia de processamento proporcionada pelos aspectos dainvenção também ajuda a tornar possível realizar medição de intensidade ea correção de metadados (por exemplo, mudando um parâmetro DIALNORMpara o valor correto) em tempo real em um grande número de sinais de áu-dio comprimidos de dados de baixa taxa de bits. Freqüentemente, muitossinais de áudio codificados de baixa taxa de bits são multiplexados e trans-portados em fluxos de transporte de MPEG. A medição de intensidade deacordo com aspectos da presente invenção se torna medição de intensidadeem tempo real em um grande número de sinais de áudio comprimidos muitomais possível, quando comparado com as exigências de decodificação com-pleta dos sinais de áudio comprimidos para PCM a fim de realizar a mediçãode intensidade.
A figura 1 mostra uma disposição da técnica anterior para medi-ção de intensidade de áudio codificado. Os dados de áudio codificados ouinformação 101, tal como o áudio que foi codificado com baixa taxa de bits,são decodificados por um decodificador ou função de decodificação ("Deco-de" - Decodificar) 102 em, por exemplo, um sinal de áudio de PCM 103. Es-se sinal é, então, aplicado a um medidor de intensidade ou método ou algo-ritmo de medição ("Measure Loudness" - Medir Intensidade) 104, que geraum valor de intensidade medido 105.
A figura 2 mostra um diagrama em blocos, estrutural ou funcio-nal, da técnica anterior de um exemplo de um Decodificador 102. A estruturaou funções que ele mostra são representativos de decodificadores DolbyDigital, Dolby Digital Plus e Dolby E. Quadros de dados de áudio codificados101 são aplicados a um descompactador ou função de descompactação dedados ("Frame Sync, Error Detection & Frame Deformatting" - Sinc de Qua-dro, Detecção de Erro & Frame Deformatting") 202 que descompacta os da-dos aplicados em dados dê expoente 203, dados de mantissa 204 e outrainformação mista de alocação de bits 207. Os dados de expoente 203 sãoconvertidos em um espectro de potência log 206 por um dispositivo ou fun-ção ("Log Power Spectrum" - Espectro de Potência Log) 205 e este espectrode potência log é usado por um alocador de bits ou função de alocação debits ("Bit Allocation" Alocação de Bits) 208 para calcular sinal 209, que é ocomprimento, em bits, de cada mantissa quantificada. As mantissas são,então, dequantificadas e combinadas com os expoentes por um dispositivoou função ("De-Quantize Mantissas" - Dequantificar Mantissas) 210 e con-vertidas de volta para o domínio de tempo por um dispositivo ou função debanco de filtros inverso ("Inverse Filterbank" - Banco de Filtros Inverso) 212.Banco de filtros inverso corrente 212 também se sobrepõe e soma uma por-ção do resultado do Banco de Filtros Inverso corrente com o resultado doBanco de Filtros Inverso anterior (em tempo) para criar o sinal de áudio de-codificado 103. Em implementações práticas de decodificar, recursos decomputação significativos são requeridos pelos dispositivos ou funções deAlocação de Bits, Dequantificação de Mantissas e Banco de Filtros Inverso.Mais detalhes do processo de decodificação podem ser encontrados emumas das referências citadas acima.
As figuras 3a e 3b mostram disposições da técnica anterior paramedir, objetivamente, a intensidade de um sinal de áudio. Essas represen-tam variações de Medir Intensidade 104 (figura 1). Embora as figuras 3a e3b mostrem exemplos, respectivamente, de duas categorias gerais de técni-cas de medição objetiva de intensidade, a escolha de uma técnica de medi-ção objetiva particular não é crítica para a invenção e outras técnicas demedição objetiva de intensidade podem ser empregadas.
A figura 3a mostra um exemplo da disposição de medição depotência ponderada comumente usada na medição de intensidade. Um sinalde áudio 103 é passado através de uma função de filtro ou filtragem de pon-deração ("Weighting Filter" - Filtro de Ponderação) 302, que é destinado aenfatizar freqüências menos perceptivelmente sensitivas. A potência 305 dosinal filtrado 303 é calculada por um dispositivo ou função ("Potência") 304 eponderada durante um período de tempo por um dispositivo ou função ("Mé-dia") 306 para criar um valor de intensidade 105. Existe um número de dife-rentes características de filtro de ponderação padrão e alguns exemplos co-muns são mostrados na figura 4. Na prática, versões modificadas da dispo-sição da figura 3a são usadas, freqüentemente, as modificações, por exem-plo, impedindo períodos de tempo de silêncio de serem incluídos na média.
Técnicas baseadas em psicoacústica, freqüentemente, tambémsão usadas para medir a intensidade. A figura 3b mostra uma disposiçãotípica da técnica anterior dessa disposição baseada em psicoacústica. Umsinal de áudio 103 é filtrado por uma função de filtro ou filtragem de trans-missão ("Transmission Filter" - Filtro de Transmissão) 312 que representa aresposta de magnitude de variação de freqüência do ouvido externo e mé-dio. O sinal filtrado 313, então, é separado por um banco de filtros ou funçãode banco de filtros auditivos ("Auditory Filterbank" - Banco de Filtros Auditi-vos) 314 em bandas de freqüências que são equivalentes às bandas auditi-vas críticas, ou mais estreitas do que as mesmas. Isso pode ser realizadoatravés da realização de uma Transformação Rápida de Fourier (FFT) comoimplementado, por exemplo, por uma transformação discreta de freqüências(DFT) e, então, agrupando as bandas espaçadas linearmente em bandasque se aproximam das bandas críticas do ouvido (com em uma escala deERB ou Bark). Alternativamente, isso pode ser realizado por um único filtrode passagem de banda para cada banda de ERB ou Bark. Cada banda é,então, convertida por um dispositivo ou função "Excitação" 316 em um sinalde excitação 317, representando a quantidade de estímulos ou excitaçãoexperimentados pelo ouvido humano dentro da banda. A intensidade perce-bida ou a intensidade percebida para cada banda é, então, calculada da ex-citação por um dispositivo ou função ("Specific Loudness" - Intensidade Es-pecífica) 318 e a intensidade específica através de todas as bandas é soma-da por um somador ou função de soma ("Sum" - Soma) 320 para criar umamedição de intensidade 105 única. O processo de soma pode levar em con-sideração vários efeitos perceptuais, por exemplo, mascaramento de fre-qüência. Em implementações práticas desses métodos perceptuais, recur-sos computacionais significativos são requeridos para o filtro de transmissãoe banco de filtro auditivo.
A figura 5 mostra um diagrama em blocos de um aspecto dapresente invenção. Um sinal de áudio digital codificado 101 é decodificadoparcialmente por um dispositivo ou função decodificação parcial 502 e a in-tensidade é medida da informação parcialmente decodificada 503 por umdispositivo ou função medir intensidade 504. Dependendo de como a decodi-ficação parcial é realizada, a medição de intensidade 505 resultante podeser muito similar, mas não exatamente a mesma, à medição de intensidade105, calculada do sinal de áudio completamente decodificado 103 (figura 1).No contexto de implementações de Dolby Digital, Dolby Digital Plus e DolbyE de aspectos da invenção, a decodificação parcial pode incluir a omissãodos dispositivos ou funções de Alocação de Bits, Dequantificação de Mantis-sas e Banco de Filtros Inverso de um decodificar, tal como o exemplo da figura 2.
As figuras 6a e 6b mostram dois exemplos de implementaçõesda disposição geral da figura 5. Embora ambos possam empregar a mesmafunção ou dispositivo de decodificação parcial 502, cada um pode ter umafunção ou dispositivo medir volume 504 diferente - que, no exemplo da figura6a, é similar ao exemplo da figura 3a e que, no exemplo da figura 6a, é simi-lar ao exemplo da figura 6b. Em ambos os exemplos, a Decodificação Parci-al 502 extrai apenas os expoentes 203 do fluxo de áudio codificado e con-verte os expoentes em um espectro de potência 206. Essa extração podeser realizada por um dispositivo ou função ("Frame Sync, Error Detection &Frame De-Formatting") 202 como no exemplo da figura 2 e essa conversãopode ser realizada por um dispositivo ou função ("Low Power Spectrum")205 como no exemplo da figura 2. Não há exigência de de-quantificar asmantissas, realizar alocação de bits e realizar um banco de filtros inversos,como seria requerido para uma decodificação completa, conforme mostradono exemplo de decodificação da figura 2.
O exemplo da figura 6a inclui uma Medição de Intensidade 504,que pode ser uma versão modificada do medidor de intensidade ou funçãode medição de intensidade da figura 3a. Neste exemplo, uma filtragem deponderação modificada é aplicada no domínio de freqüências pelo aumentoou diminuição dos valores de potência em cada banda por um filtro de pon-deração ou função de filtragem ponderada ("Modified Weighting Filter") 601.Em contraste, o exemplo da figura 3a aplica filtragem de ponderação no do-mínio de tempo. Embora opere no domínio de freqüências, o Filtro de Pon-deração Modificada afeta o áudio da mesma maneira que o Filtro de Ponde-ração de domínio de tempo da figura 3a. O filtro 601 é "modificado" com re-lação ao filtro 302 da figura 3a no sentido de que opera em valores de ampli-tude log, em lugar de valores lineares e opera em uma escala de freqüêncianão linear em lugar de linear. O espectro de potência ponderada de freqüên-cia 602 é, então, convertido em potência linear e somado através de fre-qüência e a média determinada através do tempo por um dispositivo ou fun-ção - Converter, Somar, Tirar a Média 603 aplicando, por exemplo, a Equa-ção 5, abaixo. A saída é um valor de intensidade objetivo 505.
O exemplo da figura 6b inclui uma Medição de Intensidade 504,que pode ser uma versão modificada do medidor de intensidade ou funçãode medição de intensidade da figura 3b. Neste exemplo, um filtro de trans-missão ou função de filtragem modificada ("Filtro de Transmissão Modifica-do") 611 é aplicado diretamente no domínio de freqüências pelo aumento oudiminuição dos valores de potência log em cada banda. Em contraste, o e-xemplo da figura 3b aplica filtragem de ponderação no domínio de tempo.
Embora opere no domínio de freqüências, o Filtro de Transmissão Modifica-do afeta o áudio da mesma maneira que o Filtro de Transmissão de domíniode tempo da figura 3b. Um banco de filtros ou função de banco de filtros au-ditivos modificados ("Banco de Filtros Auditivos Modificados") 613 aceitacomo entrada o espectro de potência log espaçado de banda de freqüêncialinear e divide ou combina essas bandas linearmente espaçadas em umasaída de banco de filtros espaçados de banda crítica (por exemplo, bandasERB ou Bark) 315. Banco de Filtros Auditivos Modificados 613 também con-verte o sinal de potência em um sinal linear para o dispositivo ou função de("excitação") 316 seguinte. O Banco de Filtros Auditivos Modificados 613 é"modificado" com relação ao Banco de Filtros Auditivos 314 da figura 3b pelofato de que opera em valores de amplitude log em lugar de valores linearese converte esses valores de amplitude log em valores lineaares. Alternati-vamente, o agrupamento de bandas em bandas ERB ou Bark pode ser reali-zado no Banco de Filtros Auditivos Modificados 613 em lugar do Filtro deTransmissão Modificado 611. O exemplo da figura 6b também inclui umaIntensidade Específica 318 para cada banda e uma Soma 320, como no e-xemplo a figura 3b.
Para as disposições mostradas nas figuras 6a e 6b, economiacomputacional significativa é obtida porque a decodificação não requer alo-cação de bits, de-quantificação de mantissas e um banco de filtros inversos.Contudo, para as disposições da figura 6a e da figura 6b, a medição de in-tensidade objetiva resultante pode não ser exatamente a mesma que a me-dição calculada de áudio completamente decodificado. Isso é porque algumada informação de áudio é descartada e, assim, a informação de áudio usadapara a medição é incompleta. Quando aspectos da presente invenção sãoaplicados ao Dolby Digital, Dolby Digital Plus ou Dolby E, a informação demantissa é descartada e apenas os valores de expoentes grosseiramentequantificados são mantidos. Para Dolby Digital e Dolby Digital Plus os valo-res são quantificados em incrementos de 6 dB e para Dolby E eles sãoquantificados em incrementos de 3 dB. As etapas de quantificação menoresem Dolby E resultam em valores de expoentes quantificados mais finos e,consequentemente, uma estimativa mais precisa do espetro de potência.
Os codificadores perceptuais, freqüentemente, são destinados aalterar o comprimento dos segmentos de tempo de sobreposição, tambémchamado o tamanho do bloco, em conjunto com certas características dosinal de áudio. Por exemplo, Dolby Digital usa dois tamanhos de blocos - umbloco mais longo de 512 amostras, predominantemente, para sinais de áudioestacionários e um bloco mais curto de 256 amostras para sinais de áudiomais transiente. O resultado é que o número de bandas de freqüência e onúmero correspondente de valores de espectro de potência log 206 variabloco a bloco. Quando o tamanho do bloco é 512 amostras, há 256 bandase, quando o tamanho de bloco é 256 amostras, há 128 bandas.
Há muitas maneiras pelas quais os métodos propostos nas figu-ras 6a e 6b podem manipular blocos de tamanhos variáveis e cada maneiraleva a uma medição de intensidade resultante similar. Por exemplo, o Espec-tro de Potência Log 205 pode ser modificado para sair sempre um númeroconstante de bandas em uma taxa de blocos constante por meio da combi-nação ou da média de múltiplos blocos menores em blocos maiores e dis-persando a potência do número menor de bandas através do número maiorde bandas. Alternativamente, a Medição de Intensidade pode aceitar tama-nhos de blocos variáveis e ajustar, conseqüentemente, seus processos defiltragem, excitação, intensidade específica, determinação de média e soma,por exemplo, pelo ajuste das constantes de tempo.Exemplo de Medição de Potência Ponderada
Como um exemplo de aspectos da presente invenção, uma ver-são altamente econômica de um método de medição de intensidade de po-tência ponderada pode usar fluxos de bits de Dolby Digital e a medição deintensidade de potência ponderada LeqA. Neste exemplo altamente econô-mico, apenas os expoentes quantificados contidos em um fluxo de bits DolbyDigital são usados como uma estimativa do espectro de sinal de áudio pararealizar a medição de intensidade. Isso evita as exigências computacionaisadicionais de realização de alocação de bits para recrear a informação demantissa, o que, caso contrário, proporcionaria apenas uma estimativa ligei-ramente mais precisa do espectro do sinal.
Conforme representado nos exemplos das figuras 5 e 6a, o fluxode bits é parcialmente decodificado para recriar e extrair o espectro de po-tência log, calculado dos dados de expoente quantificados contidos no fluxode bits. O Dolby Digital realiza codificação de áudio de baixa taxa de bitsatravés de formação de janelas 512 consecutivas, 50% de amostras de áu-dio de PCM sobrepostas e realizando uma transformação de MDCT, resul-tando em 256 coeficientes de MDCT que são usados para criar o fluxo deáudio codificado de baixa taxa de bits. A decodificação parcial realizada nasfiguras 5 e 6a descompacta os dados de expoentes E(k) e converte os da-dos descompactados em 256 valores de espectro de potência log quantifica-dos, (P(k), que forma uma representação espectral bruta do sinal de áudio.Os valores de espectro de potência log, P(k), estão em unidades de dB. Aconversão é como segue:
<formula>formula see original document page 15</formula>
onde N= 256, o número de coeficientes de transformação para cada blocoem um fluxo de bits Dolby Digital. Para usar o espectro de potência log nacomputação da medição de intensidade de potência ponderada, o espectrode potência log é ponderado usando uma curva de intensidade apropriada,tal como uma das curvas de ponderação A-, B- ou C-, mostradas na figura 4.
Nesse caso, a medida de potência de LeqA está sendo computada e, por-tanto, a curva de ponderação A- é apropriada. Os valores de espectro depotência log P(k) são ponderados pela adição dos mesmos aos valores defreqüências de ponderação de A-, Aw(k), também em unidades de dB como
<formula>formula see original document page 16</formula>
Os valores de freqüências discretas de ponderação de A-, Aw(k),são criados pela computação dos valores de ganho de ponderação de A-para as freqüências distintas, /distinta» onde
<formula>formula see original document page 16</formula>
Onde
<formula>formula see original document page 16</formula>
e onde a freqüência de amostragem Fs é, tipicamente, igual a 48 kHz paraDolby Digital. Cada conjunto de valores de espectro de potência log ponde-rada, Pw(k) é, então, convertido de dB para potência linear e somado para10 criar estimativa de potência ponderada de A- PPOw das 512 amostras de áu-dio de PCM como
<formula>formula see original document page 16</formula>
Conforme mencionado previamente, cada fluxo de bits de DolbyDigital contém transformações consecutivas criadas por formação de janelasde 512 amostras de PCM com 50% de sobreposição e realização da trans-formação de MDCT. Portanto, uma aproximação da potência ponderada deA- total, Ptot, da baixa taxa de bits de áudio codificados em um fluxo de bitsDolby Digitai pode ser computada por meio da média dos valores de potên-cia através de todas as transformações no fluxo de bits Dolby Digital comosegue:
<formula>formula see original document page 16</formula>
onde M iguala o número total de transformações contidas no fluxo de bitsDolby Digital. A potência média é, então, convertida em unidades de dB co-mo segue:
<formula>formula see original document page 16</formula>
onde C é um deslocamento constante devido às mudanças de nível realiza-das no processo de transformação durante codificação do fluxo de bits DolbyDigital.
Exemplo de Medição Psicoacústica
Como outro exemplo de aspectos da presente invenção, umaversão altamente econômica de um método de medição de intensidade depotência ponderada pode usar fluxos de bits Dolby Digital e uma medição deintensidade psicoacústica. Nesse exemplo altamente econômico, como noanterior, apenas os expoentes quantificados contidos em um fluxo de bitsDolby Digital são usados como uma estimativa do espectro do sinal de áudiopara realizar a medição de intensidade. Como no outro exemplo, isso evitaas exigências computacionais adicionais de realização de alocação de bitspara recriar a informação de mantissa, que, de outro modo, apenas propor-cionaria uma estimativa ligeiramente mais precisa do espectro do sinal.
O Pedido de Patente Internacional N9 PCT/US2004/016964, de-positado em 27 de maio de 2004, Seefeldt e outros, publicado como WO2004/111994 A2, 23 de dezembro de 2004, pedido que designa os EstadosUnidos, descreve, entre outras coisas, uma medida objetiva de intensidadepercebida com base em um modelo psicoacústico. O referido pedido é aquiincorporado através de referência em sua totalidade. Os valores de espectrode potência log, P(k), derivados da decodificação parcial de um fluxo de bitsDolby Digital, podem servir como entradas para uma técnica, tal como noreferido pedido internacional, bem como outras medidas psicoacústicas simi-lares, em lugar do áudio de PCM original. Essa disposição é mostrada noexemplo da figura 6b. Tomando emprestada a terminologia e a notação doreferido pedido de PCT, um sinal de excitação E(b) aproximando-se da dis-tribuição de energia ao longo da membrana basilar do ouvido interno nabanda crítica b pode ser aproximada dos valores de espectro de potência logcomo segue:
<formula>formula see original document page 17</formula>
onde T(k) representa a resposta de freqüência do filtro de transmissão eHb(k) representa a resposta de freqüência da membrana basilar em uma lo-calização correspondente à banda crítica b, ambas as respostas sendo a-mostradas na freqüência correspondente ao bin de transformação k. Em se-guida, as excitações correspondentes a todas as transformações no fluxo debits Dolby Digital têm suas médias determinadas para produzir uma excita-ção total:
<formula>formula see original document page 18</formula>
Usando contornos de intensidade iguais, a excitação total emcada banda é transformada em um nível de excitação que gera a mesmaintensidade em 1 kHz. Intensidade específica, uma medição de intensidadeperceptual distribuída através da freqüência, é, então, computado da excita-ção transformada, Ên<Hz(b), através de uma linearidade não compressiva:
<formula>formula see original document page 18</formula>
onde TOikHz é o limite em silêncio em 1 kHz e as constantes G e a são esco-lhidas para corresponder aos dados gerados dos experimentos psicoacústi-cos descrevendo o crescimento da intensidade. Finalmente, a intensidadetotal, L, representada em unidades de sone, é computada pela soma da in-tensidade específica através de bandas:
<formula>formula see original document page 18</formula>
Para fins de ajuste do sinal de áudio, pode-se desejar computarum ganho correspondente, GCOrrespondência, que, quando multiplicado com osinal de áudio toma a intensidade do áudio ajustado igual a uma intensidadede referência, Lref, como medida pela técnica psicoacustica descrita. Comoa medição psicoacustica envolve uma não linearidade na computação deintensidade específica, uma solução de forma fechada para Gcornspondêncianão existe. Na verdade, uma técnica interativa descrita no referido pedido dePCT pode ser empregada em que o quadrado do ganho correspondente éajustado e multiplicado com a excitação total, £(b), até que a intensidadetotal correspondente, L, esteja dentro de uma diferença de limite com rela-ção à intensidade de referência, Lref- A intensidade do áudio pode, então,ser expressa em dB com relação à referência como:<formula>formula see original document page 19</formula>
Outros Codecs de Áudio Perceptíveis
Aspectos da presente invenção não estão limitados aos siste-mas de codificação Dolby Digital, Dolby Digital Plus e Dolby E. Sinais de áu-dio codificados, usando certos outros sistemas de codificação, em que umaaproximação do espectro de potência do áudio é proporcionada, por exem-plo, fatores de escala, envelopes espectrais e coeficientes preditivos linea-res, que podem ser recuperados de um fluxo de bits codificado, sem decodi-ficar completamente o fluxo de bits para produzir áudio, também podem sebeneficiar de aspectos da presente invenção.
Erro no Cálculo de Potência de Expoentes Dolby Digital
Os expoentes Dolby Digital E(k) representam uma quantificaçãobruta do logaritmo dos coeficientes de espectro de MDCT. Há um número defontes de erro, quando usando esses valores como um espectro de potênciabruto.
Primeiro, no Dolby Digital, o próprio processo de quantificaçãoresulta em erro médio de, aproximadamente, 2,7 dB, quando comparando osvalores do espectro de potência gerado dos expoentes (veja equação 1, a-cima) e os valores de potência, calculados diretamente dos coeficientes deMDCT. Esse erro médio, que foi determinado, experimentalmente, pode serincorporado no deslocamento constante C na Equação 7, acima.
Em segundo lugar, sob certas condições de sinal, tais comotransientes, valores de expoentes são agrupados através de freqüência (re-ferido como modos "D25" e "D45", no documento A/52A, citado acima). Esseagrupamento através de freqüência faz com que o erro médio de expoenteseja menos predizível e, assim, mais difícil de levar em conta pela incorpora-ção na constante C da Equação 7. Na prática, erro devido a esse agrupa-mento pode ser ignorado por duas razões: (1) o agrupamento é usado rara-mente e (2) a natureza dos sinais para os quais o agrupamento é usado re-sulta em um erro médio medido, que é similar ao caso de média não deter-minada.Implementação
A invenção pode ser implementada em hardware ou software, ouuma combinação de ambos (por exemplo, arranjos lógicos programáveis). Amenos que de outro modo especificado, os algoritmos ou processos incluí-dos como parte da invenção não estão, inerentemente, relacionados comqualquer computador particular ou outro aparelho. Em particular, várias má-quinas para fins gerais podem ser usadas como programas escritos de acor-do com os ensinamentos aqui, ou pode ser mais conveniente construir apa-relho mais especializado (por exemplo, circuitos integrados) para realizar asetapas do método requeridas. Desse modo, a invenção pode ser implemen-tada em um ou mais programas de computador, executando em um ou maissistemas de computador programáveis, cada um compreendendo pelo me-nos um processador, pelo menos um sistema de armazenamento de dados(incluindo memória não volátil e/ ou elementos de armazenamento), pelomenos um dispositivo ou porta de entrada e pelo menos um dispositivo ouporta de saída. O código de programa é aplicado aos dados de entrada pararealizar as funções aqui descritas e gerar informação de saída. A informaçãode saída é aplicada a um ou mais dispositivos de saída, de modo conhecido.
Cada um desses programas pode ser implementado em qual-quer linguagem de computador desejada (incluindo máquina, montagem, ouprocedimento de nível elevado, lógica ou linguagens de programação orien-tadas em objeto) para se comunicar com um sistema de computador. Emqualquer caso, a linguagem pode ser uma linguagem compilada ou interpre-tada.
Será apreciado que algumas etapas ou funções mostradas nasfiguras exemplificativas realizam múltiplas subetapas e também podem sermostradas como múltiplas etapas ou funções, em lugar de uma etapa oufunção. Também será apreciado que vários dispositivos, funções, etapas eprocessos mostrados e descritos aqui em vários exemplos podem ser mos-trados combinados ou separados de outras maneiras que não conformemostrado nas várias figuras. Por exemplo, quando implementadas por se-qüências de instrução de software de computador, várias funções e etapasdas figuras exemplificativas podem ser implementadas por seqüências deinstrução de software multiencadeadas, executando em hardware de pro-cessamento de sinal digital adequado, em cujo caso os vários dispositivos efunções nos exemplos mostrados nas figuras pode corresponder às porçõesdas instruções de software.
Cada programa desse computador, de preferência, é armazena-do ou baixado para um meio ou dispositivo de armazenamento (por exem-plo, memória de estado sólido ou média, ou meios magnéticos ou óticos)legíveis por um computador programável para fins gerais ou especiais paraconfiguração e operação do computador quando os meios ou dispositivo dearmazenamento é lido pelo sistema de computador para realizar os proce-dimentos aqui descritos. O sistema da invenção também pode ser conside-rado para ser implementado como um meio de armazenamento legível emcomputador, configurado com um programa de computador, onde o meio dearmazenamento assim configurado faz com que um sistema de computadoropere em uma maneira específica e predeterminada para realizar as funçõesaqui descritas.
Um número de modalidades da invenção foi descrito. Não obs-tante, será compreendido que várias modificações podem ser feitas, semafastamento do espírito e do escopo da invenção. Por exemplo, algumas dasetapas aqui descritas podem ser independentes de ordem e, assim, pode serrealizado em uma ordem diferente daquela descrita.
Claims (28)
1. Método para medir a intensidade de áudio codificado em umfluxo de bits que inclui dados dos quais uma aproximação do espectro depotência do áudio pode ser derivada, sem decodificar completamente o áu-dio, compreendendo:derivação da referida aproximação do espectro de potência doáudio do referido fluxo de bits sem decodificar completamente o áudio; edeterminação de uma intensidade aproximada do áudio em res-posta à aproximação do espectro de potência do áudio.
2. Método, de acordo com a reivindicação 1, em que os referidosdados incluem representações brutas do áudio e representações mais finasassociadas do áudio e em que a referida aproximação do espectro de potên-cia do áudio é derivada das representações brutas do áudio.
3. Método, de acordo com a reivindicação 2, em que o áudio co-difiçado em um fluxo de bits é áudio codificado de sub-banda, tendo umapluralidade de sub-bandas de freqüência, cada sub-banda tendo um fator deescala e dados de amostra associados com os mesmos e em que as repre-sentações brutas do áudio compreendem fatores de escala e as representa-ções mais finas associadas do áudio compreendem dados de amostra asso-ciados com cada fator de escala.
4. Método, de acordo com a reivindicação 3, em que o fator deescala e os dados de amostra de cada sub-banda representam coeficientesespectrais na sub-banda pela notação exponencial em que o fato de escalacompreende um expoente e os dados de amostra associados compreendemmantissas.
5. Método, de acordo com qualquer uma das reivindicações de 1a 4, em que o referido fluxo de bits é um fluxo de bits codificado de AC-3.
6. Método, de acordo com a reivindicação 2, em que o áudio co-dificado em um fluxo de bits é áudio codificado preditivo linear no qual asrepresentações brutas do áudio compreendem informação de excitação as-sociada com os coeficientes preditivos lineares.
7. Método, de acordo com a reivindicação 3, em que as repre-sentações brutas do áudio compreendem pelo menos um envelope espectrale as representações mais finas do áudio compreendem componentes espec-trais associados com o referido pelo menos um envelope espectral.
8. Método, de acordo com qualquer uma das reivindicações de 1a 7, em que a determinação de uma intensidade aproximada do áudio emresposta à aproximação do espectro de potência do áudio inclui aplicação deuma medição de intensidade de potência ponderada.
9. Método, de acordo com a reivindicação 8, em que a mediçãode intensidade de potência ponderada emprega um filtro que tira ênfase defreqüências menos perceptíveis e determina a média da potência do áudiofiltrado através do tempo.
10. Método, de acordo com qualquer uma das reivindicações de 1 a 7, em que a determinação de uma intensidade aproximada do áudio emresposta à aproximação do espectro de potência do áudio inclui a aplicaçãode uma medição de intensidade psicoacustica.
11. Método, de acordo com a reivindicação 10, em que a medi-ção de intensidade psicoacustica emprega um modelo do ouvido humanopara determinar intensidade específica em cada uma de uma pluralidade debandas de freqüência similares às bandas críticas do ouvido humano.
12. Método, de acordo com qualquer uma das reivindicações de 3 a 5, em que a determinação de uma intensidade aproximada do áudio emresposta à aproximação do espectro de potência do áudio inclui a aplicaçãode uma medição de intensidade psicoacustica.
13. Método, de acordo com a reivindicação 12, em que as referi-das sub-bandas são similares às bandas críticas do ouvido humano e a me-dição de intensidade psicoacustica emprega um modelo do ouvido humanopara determinar intensidade específica em cada uma das sub-bandas.
14. Aparelho para medir a intensidade de áudio codificado emum fluxo de bits que inclui dados dos quais uma aproximação do espectro depotência do áudio pode ser derivada sem decodificar completamente o áu-dio, compreendendo:meios para derivação da referida aproximação do espectro depotência do áudio do referido fluxo de bits sem decodificar completamente oáudio; emeios para determinar uma intensidade aproximada do áudio emresposta à aproximação do espectro de potência do áudio.
15. Aparelho, de acordo com a reivindicação 14, em que os refe-ridos dados incluem representações brutas do áudio e representações maisfinas associadas do áudio e em que a referida aproximação do espectro depotência do áudio é derivada das representações brutas do áudio.
16. Aparelho, de acordo com a reivindicação 15, em que o áudiocodificado em um fluxo de bits é áudio codificado de sub-banda, tendo umapluralidade de sub-bandas de freqüências, cada sub-banda tendo um fatorde escala e dados de amostra com ela associados e em que as representa-ções brutas do áudio compreendem fatores de escala e as representaçõesmais finas associadas do áudio compreendem dados de amostra associadoscom cada fator de escala.
17. Aparelho, de acordo com a reivindicação 16, em que o fatorde escala e os dados de amostra de cada sub-banda representam coeficien-tes espectrais na sub-banda pela notação exponencial em que o fato de es-cala compreende um expoente e os dados de amostra associados compre-endem mantissas.
18. Aparelho, de acordo com qualquer uma das reivindicaçõesde 14 a 17, em que o referido fluxo de bits é um fluxo de bits codificado deAC-3.
19. Aparelho, de acordo com a reivindicação 15, em que o áudiocodificado em um fluxo de bits é áudio codificado preditivo linear no qual asrepresentações brutas do aúdio compreendem coeficientes preditivos linea-res e as representações mais finas do áudio compreendem informação deexcitação associada com os coeficientes preditivos lineares.
20. Aparelho, de acordo com a reivindicação 15, em que as re-presentações brutas do áudio compreendem pelo menos um envelope es-pectral e as representações mais finas do áudio compreendem componentesespectrais associados com o referido pelo menos um envelope espectral.
21. Aparelho, de acordo com qualquer uma das reivindicaçõesde 14 a 20, em que os referidos meios para determinação de uma intensida-de aproximada do áudio em resposta à aproximação do espectro de potên-cia do áudio incluem meios para a aplicação de uma medição de intensidadede potência ponderada.
22. Aparelho, de acordo com a reivindicação 21, em que a medi-ção de intensidade de potência ponderada emprega um filtro que tira ênfasede freqüências menos perceptíveis e determina as médias da potência doáudio filtrado através do tempo.
23. Aparelho, de acordo com qualquer uma das reivindicaçõesde 14 a 20, em que os referidos meios para a determinação de uma intensi-dade aproximada do áudio em resposta à aproximação do espectro de po-tência do áudio incluem meios para a aplicação de uma medição de intensi-dade psicoacustica.
24. Aparelho, de acordo com a reivindicação 23, em que a medi-ção de intensidade psicoacustica emprega um modelo do ouvido humanopara determinar intensidade específica em cada uma de uma pluralidade debandas de freqüências similares às bandas críticas do ouvido humano.
25. Método, de acordo com qualquer uma das reivindicações de-16 a 18, em que os referidos meios para a determinação de uma intensidadeaproximada do áudio em resposta à aproximação do espectro de potênciado áudio incluem a aplicação de uma medição de intensidade psicoacustica.
26. Aparelho, de acordo com a reivindicação 25, em que as refe-ridas sub-bandas são similares às bandas críticas do ouvido humano e amedição de intensidade psicoacustica emprega um modelo do ouvido huma-no para determinar intensidade específica em cada uma das sub-bandas.
27. Aparelho adaptado para realizar os métodos como definidosem qualquer uma das reivindicações de 1 a 13.
28. Programa de computador, armazenado em um meio legívelem computador para fazer um computador realizar os métodos como defini-dos em qualquer uma das reivindicações de 1 a 13.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US67138105P | 2005-04-13 | 2005-04-13 | |
US60/671,381 | 2005-04-13 | ||
PCT/US2006/010823 WO2006113047A1 (en) | 2005-04-13 | 2006-03-23 | Economical loudness measurement of coded audio |
Publications (2)
Publication Number | Publication Date |
---|---|
BRPI0610441A2 true BRPI0610441A2 (pt) | 2010-06-22 |
BRPI0610441B1 BRPI0610441B1 (pt) | 2019-01-02 |
Family
ID=36636608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BRPI0610441A BRPI0610441B1 (pt) | 2005-04-13 | 2006-03-23 | medição econômica de intensidade de áudio codificado |
Country Status (16)
Country | Link |
---|---|
US (1) | US8239050B2 (pt) |
EP (1) | EP1878307B1 (pt) |
JP (1) | JP5219800B2 (pt) |
KR (1) | KR101265669B1 (pt) |
CN (1) | CN100589657C (pt) |
AT (1) | ATE527834T1 (pt) |
AU (1) | AU2006237476B2 (pt) |
BR (1) | BRPI0610441B1 (pt) |
CA (1) | CA2604796C (pt) |
ES (1) | ES2373741T3 (pt) |
HK (1) | HK1113452A1 (pt) |
IL (1) | IL186046A (pt) |
MX (1) | MX2007012735A (pt) |
MY (1) | MY147462A (pt) |
TW (1) | TWI397903B (pt) |
WO (1) | WO2006113047A1 (pt) |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7610205B2 (en) | 2002-02-12 | 2009-10-27 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
US7461002B2 (en) | 2001-04-13 | 2008-12-02 | Dolby Laboratories Licensing Corporation | Method for time aligning audio signals using characterizations based on auditory events |
US7711123B2 (en) | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
AU2005219956B2 (en) | 2004-03-01 | 2009-05-28 | Dolby Laboratories Licensing Corporation | Multichannel audio coding |
US7508947B2 (en) | 2004-08-03 | 2009-03-24 | Dolby Laboratories Licensing Corporation | Method for combining audio signals using auditory scene analysis |
EP1805891B1 (en) | 2004-10-26 | 2012-05-16 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
MX2007015118A (es) | 2005-06-03 | 2008-02-14 | Dolby Lab Licensing Corp | Aparato y metodo para codificacion de senales de audio con instrucciones de decodificacion. |
TWI517562B (zh) | 2006-04-04 | 2016-01-11 | 杜比實驗室特許公司 | 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式 |
JP5129806B2 (ja) | 2006-04-27 | 2013-01-30 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 特定ラウドネスに基づく聴覚イベント検出を使用する音声ゲイン制御 |
EP2082480B1 (en) | 2006-10-20 | 2019-07-24 | Dolby Laboratories Licensing Corporation | Audio dynamics processing using a reset |
JP4862136B2 (ja) * | 2006-12-08 | 2012-01-25 | 株式会社Jvcケンウッド | 音声信号処理装置 |
US8275153B2 (en) * | 2007-04-16 | 2012-09-25 | Evertz Microsystems Ltd. | System and method for generating an audio gain control signal |
ES2377719T3 (es) | 2007-07-13 | 2012-03-30 | Dolby Laboratories Licensing Corporation | Procesamiento de audio utilizando un análisis de escenas auditivas y oblicuidad espectral. |
EP2232700B1 (en) | 2007-12-21 | 2014-08-13 | Dts Llc | System for adjusting perceived loudness of audio signals |
JP5270006B2 (ja) * | 2008-12-24 | 2013-08-21 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 周波数領域におけるオーディオ信号ラウドネス決定と修正 |
US9055374B2 (en) * | 2009-06-24 | 2015-06-09 | Arizona Board Of Regents For And On Behalf Of Arizona State University | Method and system for determining an auditory pattern of an audio segment |
US8538042B2 (en) * | 2009-08-11 | 2013-09-17 | Dts Llc | System for increasing perceived loudness of speakers |
TWI409802B (zh) * | 2010-04-14 | 2013-09-21 | Univ Da Yeh | 音頻特徵處理方法及其裝置 |
US8731216B1 (en) * | 2010-10-15 | 2014-05-20 | AARIS Enterprises, Inc. | Audio normalization for digital video broadcasts |
TW202405797A (zh) * | 2010-12-03 | 2024-02-01 | 美商杜比實驗室特許公司 | 音頻解碼裝置、音頻解碼方法及音頻編碼方法 |
US9620131B2 (en) | 2011-04-08 | 2017-04-11 | Evertz Microsystems Ltd. | Systems and methods for adjusting audio levels in a plurality of audio signals |
JP6185457B2 (ja) * | 2011-04-28 | 2017-08-23 | ドルビー・インターナショナル・アーベー | 効率的なコンテンツ分類及びラウドネス推定 |
US9312829B2 (en) | 2012-04-12 | 2016-04-12 | Dts Llc | System for adjusting loudness of audio signals in real time |
US9378748B2 (en) | 2012-11-07 | 2016-06-28 | Dolby Laboratories Licensing Corp. | Reduced complexity converter SNR calculation |
DE13750900T1 (de) * | 2013-01-08 | 2016-02-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verbesserung der Sprachverständlichkeit bei Hintergrundrauschen durch SII-abhängige Amplifikation und Kompression |
CN203134365U (zh) * | 2013-01-21 | 2013-08-14 | 杜比实验室特许公司 | 用于利用响度处理状态元数据处理音频的音频解码器 |
PL2901449T3 (pl) | 2013-01-21 | 2018-05-30 | Dolby Laboratories Licensing Corp | Koder i dekoder audio z metadanymi głośności i granicy programu |
JP2016520854A (ja) * | 2013-03-21 | 2016-07-14 | インテレクチュアル ディスカバリー カンパニー リミテッド | オーディオ信号大きさの制御方法及び装置 |
CN104681034A (zh) * | 2013-11-27 | 2015-06-03 | 杜比实验室特许公司 | 音频信号处理 |
US9503803B2 (en) | 2014-03-26 | 2016-11-22 | Bose Corporation | Collaboratively processing audio between headset and source to mask distracting noise |
ES2916254T3 (es) | 2014-10-10 | 2022-06-29 | Dolby Laboratories Licensing Corp | Sonoridad de programa basada en la presentación, independiente de la transmisión |
US10070219B2 (en) * | 2014-12-24 | 2018-09-04 | Hytera Communications Corporation Limited | Sound feedback detection method and device |
KR101712334B1 (ko) | 2016-10-06 | 2017-03-03 | 한정훈 | 화음 음정 정확도 평가 방법 및 장치 |
US10375131B2 (en) | 2017-05-19 | 2019-08-06 | Cisco Technology, Inc. | Selectively transforming audio streams based on audio energy estimate |
US11594241B2 (en) * | 2017-09-26 | 2023-02-28 | Sony Europe B.V. | Method and electronic device for formant attenuation/amplification |
US11330370B2 (en) * | 2018-02-15 | 2022-05-10 | Dolby Laboratories Licensing Corporation | Loudness control methods and devices |
CN111045633A (zh) * | 2018-10-12 | 2020-04-21 | 北京微播视界科技有限公司 | 用于检测音频信号的响度的方法和装置 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4953112A (en) * | 1988-05-10 | 1990-08-28 | Minnesota Mining And Manufacturing Company | Method and apparatus for determining acoustic parameters of an auditory prosthesis using software model |
US5632005A (en) | 1991-01-08 | 1997-05-20 | Ray Milton Dolby | Encoder/decoder for multidimensional sound fields |
WO1992012607A1 (en) | 1991-01-08 | 1992-07-23 | Dolby Laboratories Licensing Corporation | Encoder/decoder for multidimensional sound fields |
GB2272615A (en) * | 1992-11-17 | 1994-05-18 | Rudolf Bisping | Controlling signal-to-noise ratio in noisy recordings |
JPH06324093A (ja) | 1993-05-14 | 1994-11-25 | Sony Corp | オーディオ信号のスペクトル表示装置 |
US5623577A (en) * | 1993-07-16 | 1997-04-22 | Dolby Laboratories Licensing Corporation | Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions |
US5727119A (en) | 1995-03-27 | 1998-03-10 | Dolby Laboratories Licensing Corporation | Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase |
JP3519859B2 (ja) * | 1996-03-26 | 2004-04-19 | 三菱電機株式会社 | 符号器及び復号器 |
US6430533B1 (en) * | 1996-05-03 | 2002-08-06 | Lsi Logic Corporation | Audio decoder core MPEG-1/MPEG-2/AC-3 functional algorithm partitioning and implementation |
US6185309B1 (en) * | 1997-07-11 | 2001-02-06 | The Regents Of The University Of California | Method and apparatus for blind separation of mixed and convolved sources |
WO1999012292A1 (en) * | 1997-08-29 | 1999-03-11 | Sgs-Thomson Microelectronics Asia Pacific (Pte) Ltd. | Fast synthesis sub-band filtering method for digital signal decoding |
CN1214690C (zh) * | 1997-09-05 | 2005-08-10 | 雷克西康公司 | 5-2-5矩阵编码器和解码器系统 |
JP2000075897A (ja) * | 1998-08-28 | 2000-03-14 | Nippon Telegr & Teleph Corp <Ntt> | 符号化された音声データの削減方法、及び装置、及びそのプログラムを格納した記録媒体 |
JP2001141748A (ja) | 1999-11-17 | 2001-05-25 | Sony Corp | 信号レベル表示装置 |
US6778966B2 (en) * | 1999-11-29 | 2004-08-17 | Syfx | Segmented mapping converter system and method |
FR2802329B1 (fr) * | 1999-12-08 | 2003-03-28 | France Telecom | Procede de traitement d'au moins un flux binaire audio code organise sous la forme de trames |
AUPQ952700A0 (en) * | 2000-08-21 | 2000-09-14 | University Of Melbourne, The | Sound-processing strategy for cochlear implants |
JP3811605B2 (ja) * | 2000-09-12 | 2006-08-23 | 三菱電機株式会社 | 電話装置 |
JP2002268687A (ja) * | 2001-03-07 | 2002-09-20 | Matsushita Electric Ind Co Ltd | 情報量変換装置及び情報量変換方法 |
GB2385420A (en) * | 2002-02-13 | 2003-08-20 | Broadcast Project Res Ltd | Measuring the perceived loudness of an audio signal |
DE10236694A1 (de) * | 2002-08-09 | 2004-02-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren |
CN2582311Y (zh) * | 2002-11-29 | 2003-10-22 | 张毅 | 音调响度测试仪 |
DE602004023917D1 (de) | 2003-02-06 | 2009-12-17 | Dolby Lab Licensing Corp | Kontinuierliche audiodatensicherung |
DE602004008455T2 (de) | 2003-05-28 | 2008-05-21 | Dolby Laboratories Licensing Corp., San Francisco | Verfahren, vorrichtung und computerprogramm zur berechung und einstellung der wahrgenommenen lautstärke eines audiosignals |
US7912226B1 (en) * | 2003-09-12 | 2011-03-22 | The Directv Group, Inc. | Automatic measurement of audio presence and level by direct processing of an MPEG data stream |
-
2006
- 2006-03-22 TW TW095109828A patent/TWI397903B/zh active
- 2006-03-23 WO PCT/US2006/010823 patent/WO2006113047A1/en active Application Filing
- 2006-03-23 CA CA2604796A patent/CA2604796C/en active Active
- 2006-03-23 AU AU2006237476A patent/AU2006237476B2/en active Active
- 2006-03-23 KR KR1020077023404A patent/KR101265669B1/ko active IP Right Grant
- 2006-03-23 AT AT06739542T patent/ATE527834T1/de not_active IP Right Cessation
- 2006-03-23 CN CN200680012139A patent/CN100589657C/zh active Active
- 2006-03-23 JP JP2008506480A patent/JP5219800B2/ja active Active
- 2006-03-23 BR BRPI0610441A patent/BRPI0610441B1/pt active IP Right Grant
- 2006-03-23 MX MX2007012735A patent/MX2007012735A/es active IP Right Grant
- 2006-03-23 US US11/918,552 patent/US8239050B2/en active Active
- 2006-03-23 EP EP06739542A patent/EP1878307B1/en active Active
- 2006-03-23 ES ES06739542T patent/ES2373741T3/es active Active
- 2006-04-07 MY MYPI20061585A patent/MY147462A/en unknown
-
2007
- 2007-09-18 IL IL186046A patent/IL186046A/en active IP Right Grant
-
2008
- 2008-03-27 HK HK08103410.8A patent/HK1113452A1/xx unknown
Also Published As
Publication number | Publication date |
---|---|
CN101161033A (zh) | 2008-04-09 |
JP5219800B2 (ja) | 2013-06-26 |
CN100589657C (zh) | 2010-02-10 |
AU2006237476A1 (en) | 2006-10-26 |
ES2373741T3 (es) | 2012-02-08 |
US20090067644A1 (en) | 2009-03-12 |
HK1113452A1 (en) | 2008-10-03 |
MY147462A (en) | 2012-12-14 |
US8239050B2 (en) | 2012-08-07 |
AU2006237476B2 (en) | 2009-12-17 |
BRPI0610441B1 (pt) | 2019-01-02 |
EP1878307A1 (en) | 2008-01-16 |
MX2007012735A (es) | 2008-01-11 |
CA2604796C (en) | 2014-06-03 |
KR20070119683A (ko) | 2007-12-20 |
ATE527834T1 (de) | 2011-10-15 |
TW200641797A (en) | 2006-12-01 |
TWI397903B (zh) | 2013-06-01 |
CA2604796A1 (en) | 2006-10-26 |
WO2006113047A1 (en) | 2006-10-26 |
EP1878307B1 (en) | 2011-10-05 |
KR101265669B1 (ko) | 2013-05-23 |
IL186046A (en) | 2011-11-30 |
JP2008536192A (ja) | 2008-09-04 |
IL186046A0 (en) | 2008-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
BRPI0610441A2 (pt) | medição econÈmica de intencidade de áudio codificado | |
JP7050976B2 (ja) | 高度なスペクトラム拡張を使用して量子化ノイズを低減するための圧縮伸張装置および方法 | |
CN101410892B (zh) | 改进的离散余弦变换域中的音频信号响度测量及修改 | |
RU2649940C2 (ru) | Устройство и способ для декодирования или кодирования звукового сигнала с использованием значений информации энергии для полосы частот восстановления | |
US6934677B2 (en) | Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands | |
KR100958144B1 (ko) | 오디오 압축 | |
KR20090122142A (ko) | 오디오 신호 처리 방법 및 장치 | |
US10332527B2 (en) | Method and apparatus for encoding and decoding audio signal | |
JP2002182695A (ja) | 高能率符号化方法及び装置 | |
Dhas et al. | Designing a Hybrid Codec with the help of Integer-MDCT and to estimate the audio quality by means of SPL and CR | |
Jagadeesh et al. | Psychoacoustic model-1 implementation for mpeg audio encoder using wavelet packet decomposition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
B09A | Decision: intention to grant [chapter 9.1 patent gazette] | ||
B16A | Patent or certificate of addition of invention granted [chapter 16.1 patent gazette] |
Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 02/01/2019, OBSERVADAS AS CONDICOES LEGAIS. |