BRPI0610441B1 - medição econômica de intensidade de áudio codificado - Google Patents
medição econômica de intensidade de áudio codificado Download PDFInfo
- Publication number
- BRPI0610441B1 BRPI0610441B1 BRPI0610441A BRPI0610441A BRPI0610441B1 BR PI0610441 B1 BRPI0610441 B1 BR PI0610441B1 BR PI0610441 A BRPI0610441 A BR PI0610441A BR PI0610441 A BRPI0610441 A BR PI0610441A BR PI0610441 B1 BRPI0610441 B1 BR PI0610441B1
- Authority
- BR
- Brazil
- Prior art keywords
- audio
- intensity
- fact
- representations
- bands
- Prior art date
Links
- 238000005259 measurement Methods 0.000 title claims description 51
- 238000001228 spectrum Methods 0.000 claims abstract description 46
- 230000004044 response Effects 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 43
- 230000005284 excitation Effects 0.000 claims description 15
- 230000003595 spectral effect Effects 0.000 claims description 13
- 230000001419 dependent effect Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 41
- 230000005236 sound signal Effects 0.000 description 28
- 230000005540 biological transmission Effects 0.000 description 14
- 230000009466 transformation Effects 0.000 description 12
- 230000036961 partial effect Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000000691 measurement method Methods 0.000 description 7
- 238000001914 filtration Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000000844 transformation Methods 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000011002 quantification Methods 0.000 description 3
- 210000000721 basilar membrane Anatomy 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 210000003027 ear inner Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/13—Aspects of volume control, not necessarily automatic, in stereophonic sound systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
medição econômica de intensidade de áudio codificado. a presente invenção refere-se a medição da intensidade de áudio codificado em um fluxo de bits que inclui dados dos quais uma aproximação do espectro de potência do áudio pode ser derivada sem decodificar completamente o áudio é realizada pela derivação da aproximação do espectro de potência do áudio do referido fluxo de bits, sem decodificar completamente o áudio e pela determinação de uma intensidade aproximada do áudio em resposta à aproximação do espectro de potência do áudio. os dados podem incluir representações brutas do áudio e representações mais finas associadas do áudio, a aproximação do espectro de potência do áudio sendo derivada das representações brutas do áudio. no caso de áudio codificado de sub-banda, as representações brutas do áudio podem compreender fatores de escala e as representações mais finas associadas do áudio podem compreender dados de amostra associados com cada fator de escala.
Description
MEDIÇÃO
ECONÔMICA DE INTENSIDADE DE ÁUDIO CODIFICADO.
Campo Técnico
A presente invenção refere-se ao processamento de sinal de áudio. Mais particularmente, refere-se a um. cálculo econômico de uma medição objetiva de intensidade de áudio codificado de baixa taxa de bits, tal como áudio codificado usando Dolby Digital (AC-3), Dolby Ditital Plus ou Dolby E. Dolby, Dolby Digital, Dolby Digital Plus e Dolby E são marcas de indústria e comércio de Dolby Laboratories Licensing Corporation. Aspec0 tos da invenção também podem ser utilizáveis com outros tipos de codificação de áudio.
Antecedentes da Técnica
Detalhes da codificação Dolby Digital são apresentados nas referências a seguir:
ATSC Standard A52/A: Digital Áudio Compression Standard (AC-3), Revision A, Advanced Television Systems Committee, 20 de agosto de 2001. O documento A/52A está disponível na World Wide Web (WWW Rede Mundial), em http://www.atsc.org/standards.html.
Flexible Perceptual Coding for Audio Transmission and Storage, de Craig C. Todd, e outros, 96th Convention of the Audio Engineering Society, 26 de fevereiro de 1994, Pré-impressão 3796;
Design and Implementation of AC-3 Coders, de Steve Vernon, IEEE Trans. Consumer Electronics, Voi 3, agosto de 1995. ____
The AC-3 Multichannel Coder1' de Mark Davis, Audio Enginee25 ring Society, Pré-impressão 3774, 95th AES Convention, outubro de 1993.
High Quality, Low-Rate Audio Transform Coding for Transmission and Multimedia Applications, de Bosi e outros, Audio Engineering Society, Pré-impressão 3365, 93rd AES Convention, outubro de 1992.
Patentes norte-americanas 5.583.962; 5.632.005; 5.663.981;
5.727.119; 5.909.664; e 6.021.386.
Detalhes da codificação Dolby Digital Plus são apresentados em Introduction to Dolby Digital Plus, na Enhancement to the Dolby Digital Co2 ding System, AES Convention Paper 6196, 117th o^'da%„ °°v y
AES Convention, 28 de^”^ outubro de 2004.
Detalhes da codificação Dolby E são apresentados em Efficient Bit Allocation, Quantization, and Coding in na Audio Distribution System, AES Pré-impressão 5068, 107th AES Conference, agosto de 1999 e Professional Audio Coder Optimized for Use with Vídeo, AES Pré-impressão 5033, 107th AES Conference, agosto de 1999.
Uma visão geral de vários codificadores perceptuais, incluindo codificadores Dolby, codificadores MPEG e outros, é apresentada em Overview of MPEG Audio: Current and Future Standards for Low-Bit-Rate Audio Coding1', de Karlheinz Brandenburg e Marina Bosi, J. Audio Eng. Soc., Vol. 45, N° 1/2, janeiro/fevereiro, 1997.
Existem muitos métodos para medir, objetivamente, a intensidade percebida de sinais de áudio. Exemplos de métodos incluem medidas de potência ponderada (tais como LeqA, LeqB, LeqC), bem como medidas de intensidade baseadas em psicoacústica, tais como Acoustics - Method for Calculating Loudness LeveF, ISO 532 (1975). Medidas de intensidade de potência ponderada processam o sinal de áudio de entrada através da aplicação de um filtro predeterminado que enfatiza freqüências sensíveis, mais perceptivelmente, enquanto tira a ênfase de freqüências sensíveis menos perceptivelmente e, então, determina a média da potência do sinal filtrado através de uma extensão de tempo predeterminada. Métodos psicoacústicos, tipicamente, são mais complexos e objetivam modelar melhor o funcionamento do ouvido humano. Isso é obtido pela divisão do sinal de áudio em bandas de freqüência que imitam a resposta de freqüência e a sensitividade do ouvido e, então, manipulando e integrando essas bandas, enquanto se leva em conta o fenômeno psicoacústico, tal como mascaramento de freqüência e temporal, bem como a percepção não linear de intensidade com intensidade de sinal variável. O objetivo de todos os métodos objetivos de medição de intensidade é derivar uma medição numérica da intensidade que combina estreitamente com a percepção subjetiva da intensidade de um sinal de áudio.
<·^\ da ,ο ,Ζ , Ρ· - * -1L.JÍ Rub;$ %<? A codificação perceptual ou codificação de áudio de baixa taxa de bits é usada, comumente para comprimir dados de sinais de áudio para armazenamento, transmissão e distribuição eficientes em aplicações, tais como televisão digital difundida e a sala de música on-line da Internet, A co5 dificação perceptual obtém sua eficiência por meio da transformação do sinal de áudio em um espaço de informação, onde componentes de sinais e redundâncias, que são mascarados psicoacusticamente, podem ser facilmente descartados. A informação restante é compactada em um fluxo ou arquivo de informação digital. Tipicamente, a medição da intensidade do áudio re^0 presentado pelo áudio codificado de baixa taxa de bits requer decodificação da recuperação de áudio no domínio de tempo (por exemplo, PCM), que pode ser intensiva, computacionalmente. Contudo, alguns sinais codificados perceptualmente de baixa taxa de bits contêm informação que pode ser útil a um método de medição de intensidade, assim, economizando o custo com15 putacionalmente de decodificação completa do áudio. Dolby Digital (AC-3),
Dolby Digital Plus e Dolby E estão entre esses sistemas de codificação de áudio.
Os codificadores de áudio perceptuais de baixa taxa de bits Dolby Digital, Dolby Digital Plus e Dolby E dividem sinais de áudio em seg20 mentos de tempo de sobreposição, de janela (ou blocos de codificação de áudio) que são transformados em uma representação de domínio de freqüências. A representação de domínio de frequências de coeficientes espectrais é expressa por uma notação exponencial, compreendendo conjuntos de um expoente e mantissas associadas. Os expoentes, que funcionam na ma25 neira de fatores de escala, são compactados no fluxo de áudio codificado.
As mantissas representam os coeficientes espectrais após eles terem sido normalizados pelos expoentes. Os expoentes são, então, passados através de um modelo perceptual de audição e usados para quantificar e compactar as mantissas no fluxo de áudio codificado. Com a decodificação, os expoen30 tes são descompactados do fluxo de áudio codificado e, então, passados através do mesmo modelo perceptual para determinar como descompactar as mantissas. As mantissas são, então, descompactadas, combinadas com os expoentes para criar uma representação de domínio de frequências do áudio, que é, então, decodificada e convertida de volta a uma representação de domínio de tempo.
Como muitas medições de intensidade incluem cálculos de po5 tências e espectro de potências, economias computacionais podem ser obtidas pela decodificação apenas parcial do áudio codificado e de baixa taxa de bits e passando a informação parcialmente decodificada (tal como o espectro de potência) para a medição de intensidade. A invenção é útil quando há uma necessidade de medir a intensidade, mas não de decodificar o áu|l0 dio. Ela explora o fato de que uma medição de intensidade pode fazer uso de uma versão aproximada do áudio, essa aproximação, usualmente, não sendo adequada para audição. Um aspecto da presente invenção é o reconhecimento que uma representação bruta do áudio, que está disponível sem decodificar um fluxo de bits em muitos sistemas de codificação de áudio, 15 pode proporcionar uma aproximação do espectro de áudio que é utilizável na medição da intensidade do áudio. Na codificação de áudio Dolby Digital, Dolby Digital Plus e Dolby E, expoentes proporcionam uma aproximação do espetro de potência do áudio. Similarmente, em certos outros sistemas de codificação, fatores de escala, envelopes espectrais e coeficientes preditivos 20 lineares podem proporcionar uma aproximação do espetro de potência do áudio. Esses e outros aspectos e vantagens da invenção serão melhor compreendidos à medida que o sumário e a descrição seguintes da invenção são lidos e compreendidos.____ ____________________
O documento US 2001/0027393 descreve um sistema de áudio conferência constituído de N terminais conectados respectivamente a uma unidade de controle multiponto. Cada terminal é constituído de um codificador cuja entrada recebe dados de áudio para transmitir a outros terminais e cuja saída é conectada a uma entrada da unidade de controle multiponto. Cada terminal também tem um decodificador cuja entrada é conectada à saída da unidade de controle multiponto e cuja saída entrega dados que são transmitidos ao terminal considerado pelos outros terminais. A unidade de controle multiponto é essencialmente constituída de um combinador que <V
-· η=· o combina os sinais presentes em suas entradas e entrega à entrada do decodificador de um terminal um sinal representativo da soma dos sinais entregues respectivamente por todos os decodificadores dos N terminais, exceto para o sinal vindo daquele terminal. A unidade de controle multiponto também tem N decodificadores parciais cujo objetivo é receber, respectivamente, os quadros de áudio produzidos pelos N terminais para decodificá-los e assim entregá-los às entradas do combinador. A unidade de controle multiponto tem N recodificadores parciais tendo saídas respectivamente conectadas às entradas dos decodificadores dos terminais e tendo entradas conec #10 tadas às saídas do combinador. O documento descreve calcular a energia total em cada banda de freqüência,
É um objetivo da presente invenção proporcionar uma medição computacionalmente econômica da intensidade percebida de áudio codificado de baixa taxa de bits.
Este objetivo é obtido pelo método de acordo com a reivindicação 1, As modalidades preferidas da invenção estão definidas nas reivindicações dependentes
Por conseguinte, o objetivo é obtido apenas decodificando parcialmente o material de áudio e passando a informação parcialmente decodificada á medição de intensidade de áudio. O método tira vantagem de propriedades específicas da informação de áudio parcialmente decodificada, tais como os expoentes em codificação de áudio Dolby Digital, Dolby Digital Plus e Dolby E. ___ ___ __ ____ ___________ ____
Um primeiro aspecto da invenção mede a intensidade de áudio codificado em um fluxo de bits que inclui dados dos quais uma aproximação do espetro de potência do áudio pode ser derivada sem decodificar completamente o áudio através da derivação da aproximação do espetro de potência do áudio do fluxo de bits sem decodificar completamente o áudio e determinando uma intensidade aproximada do áudio em resposta à aproximação do espetro de potência do áudio.
Em outro aspecto da invenção, os dados podem incluir representações brutas do áudio e representações mais finas associadas do áudio, em ί „ Aí. J • Rub:
cujo caso, a aproximação do espetro de potência do áudio pode ser dewa$a. v das representações brutas do áudio.
Em um outro aspecto da invenção, o áudio codificado em um fluxo de bits pode ser áudio codificado de sub-bandas, cada sub-banda ten5 do um fator de escala e dados de amostra com ela associados e em que as representações brutas do áudio compreendem fatores de escala e as representações mais finas associadas do áudio compreendem dados de amostra associados com cada fator de escala.
Ainda em um outro aspecto da invenção, o fator de escala e os |θ dados de amostra de cada sub-banda podem representar coeficientes espectrais na sub-banda por meio de notação exponencial em que o fator de escala compreende um expoente e os dados de amostra associados compreendem mantissas.
Ainda em um outro aspecto da invenção, o áudio codificado em 15 um fluxo de bits pode ser áudio codificado preditivo linear em que as representações brutas do áudio compreendem coeficientes preditivos lineares e as representações mais finas do áudio compreendem informação de excitação associada com os coeficientes preditivos lineares.
Ainda em outro aspecto da invenção, as representações brutas
do áudio podem compreender pelo menos um envelope espectral e as representações mais finas do áudio podem compreender componentes espectrais associados com o pelo menos um envelope espectral.
Ainda em outro aspecto da invenção, a determinação de uma intensidade aproximada do áudio em resposta à aproximação do espetro de 25 potência do áudio pode incluir a aplicação de uma medição de intensidade de potência ponderada. A medição de intensidade de potência ponderada pode empregar um filtro que tira a ênfase de menos frequências perceptíveis e estabelece a média da potência do áudio filtrado através do tempo.
Ainda em outro aspecto da invenção, a determinação de uma intensidade aproximada do áudio em resposta à aproximação do espetro de potência do áudio pode incluir a aplicação de uma medição de intensidade psicoacústica. A medição de intensidade psicoacústica pode empregar um
F.s Ó 1 % / modelo do ouvido humano para determinar intensidade específica em cada° uma de uma pluralidade de bandas de freqüências similares às bandas críticas do ouvido humano. Em um ambiente de codificador de sub-banda, as sub-bandas podem ser similares às bandas críticas do ouvido humano e a 5 medição de intensidade psicoacústica pode empregar um modelo do ouvido humano para determinar intensidade específica em cada uma das subbandas.
Aspectos da invenção incluem métodos que põem em prática as funções acima, meios para pôr em prática as funções, aparelho para colocar |θ em prática os métodos e um programa de computador, armazenado em um meio legível em computador para fazer com que um computador realize os métodos que põem em prática as funções acima.
Descrição dos Desenhos
A figura 1 mostra um diagrama em blocos funcional esquemático 15 de uma disposição geral para medição da intensidade de áudio codificado de baixa taxa de bits.
A figura 2 mostra um diagrama em blocos funcional esquemático generalizado de um decodificar Dolby Digital, Dolby Digital Plus e Dolby E.
As figuras 3a e 3b mostram diagramas em blocos funcionais es20 quemáticos de duas disposições gerais para calcular uma medição de volume/intesidade de som usando potência ponderada e medições baseadas em psicoacústico, respectivamente.
A figura 4 mostra ponderações de freqüência comuns usandas quando das medições da intensidade de som de acordo com a disposição do 25 exemplo da figura 3a.
Figura 5 é um diagrama de blocos funcional esquemático mostrando uma disposição geral mais econômica para medição da intensidade de som de áudio codificado de acordo com os aspectos da invenção.
As figuras 6a e 6b são diagramas de blocos funcionais esque30 máticos da disposição mais econômica para medir a intensidade, incorporando as disposições de intensidade mostradas nos exemplos das figuras 3a e 3b de acordo com os aspectos da invenção.
Um benefício de aspectos da presente invenção é a medição da
Melhor Modo para Realização da Invenção intensidade de áudio codificado de baixa taxa de bits, sem a necessidade de decodificar completamente o áudio para PCM, decodificação que inclui eta5 pas onerosas de processamento de decodificação, tais como alocação de bits, dequantização, uma transformação inversa, etc. Aspectos da invenção reduzem grandemente as exigências de processamento sobrecarga computacional). Essa abordagem é benéfica, quando uma medição de intensidade é desejada, mas o áudio decodificado não é necessário.
ho Aspectos da presente invenção são utilizáveis, por exemplo, em ambientes, tais como, descritos em (1) Pedido de Patente Não-Provisório, pendente, dos Estados Unidos N.S. 10/884.117, depositado em 1 de julho de 2004, intitulado Method for Correcting Metadata Affecting the Playback Loudness and Dynamic Range of Audio Information, de Smithers e outros;
(2) Pedido de Patente Provisório Norte-americano N.S. 60/xxx,xxx, depositado no mesmo dia que o presente pedido, intitulado 'Audio Metadata Verification,” de Brett Graham Crockett, Registro do Procurador DOLI 50 e (3) e no desempenho da medição e correção de intensidade em um armazenamento de difusão ou cadeia de transmissão em que acesso ao áudio decodificado não é necessário e não é desejável. O referido N.S. 10/884.177 e os referidos pedidos com Registro de Procurador DOL150 são aqui incorporados através de referência em sua totalidade.
A economia de processamento proporcionada pelos aspectos da invenção também ajuda a tornar possível realizar medição de intensidade e 25 a correção de metadados (por exemplo, mudando um parâmetro DIALNORM para o valor correto) em tempo real em um grande número de sinais de áudio comprimidos de dados de baixa taxa de bits. Freqüentemente, muitos sinais de áudio codificados de baixa taxa de bits são multiplexados e transportados em fluxos de transporte de MPEG. A medição de intensidade de 30 acordo com aspectos da presente invenção se torna medição de intensidade em tempo real em um grande número de sinais de áudio comprimidos muito mais possível, quando comparado com as exigências de decodificação com
pleta dos sinais de áudio comprimidos para PCM a fim de realizar a medição de intensidade.
A figura 1 mostra uma disposição da técnica anterior para medição de intensidade de áudio codificado. Os dados de áudio codificados ou informação 101, tal como o áudio que foi codificado com baixa taxa de bits, são decodificados por um decodificador ou função de decodificação (Decode - Decodificar) 102 em, por exemplo, um sinal de áudio de PCM 103. Esse sinal é, então, aplicado a um medidor de intensidade ou método ou algoritmo de medição (Measure Loudness - Medir Intensidade) 104, que gera ^0 um valor de intensidade medido 105.
A figura 2 mostra um diagrama em blocos, estrutural ou funcional, da técnica anterior de um exemplo de um Decodificador 102. A estrutura ou funções que ele mostra são representativos de decodificadores Dolby Digital, Dolby Digital Plus e Dolby E. Quadros de dados de áudio codificados 15 101 são aplicados a um descompactador ou função de descompactação de dados (Frame Sync, Error Detection & Frame Deformatting - Sinc de Quadro, Detecção de Erro & Deformatação de Quadro) 202 que descompacta os dados aplicados em dados de expoente 203, dados de mantissa 204 e outra informação mista de alocação de bits 207. Os dados de expoente 203 20 são convertidos em um espectro de potência log 206 por um dispositivo ou função (Log Power Spectrum - Espectro de Potência Log) 205 e este espectro de potência log é usado por um alocador de bits ou função de alocação de bits (Bit Allocation Alocação de Bits) 208 para calcular sinal 209,____ que é o comprimento, em bits, de cada mantissa quantificada. As mantissas são, então, dequantificadas e combinadas com os expoentes por um dispositivo ou função (De-Quantize Mantissas - Dequantificar Mantissas) 210 e convertidas de volta para o domínio de tempo por um dispositivo ou função de banco de filtros inverso (Inverse Filterbank - Banco de Filtros Inverso) 212. Banco de filtros inverso corrente 212 também se sobrepõe e soma uma porção do resultado do Banco de Filtros Inverso corrente com o resultado do Banco de Filtros Inverso anterior (em tempo) para criar o sinal de áudio decodificado 103. Em implementações práticas de decodificar, recursos de computação significativos são requeridos pelos dispositivos ou funções de Alocação de Bits, Dequantificação de Mantissas e Banco de Filtros Inverso. Mais detalhes do processo de decodificação podem ser encontrados em umas das referências citadas acima.
As figuras 3a e 3_b mostram disposições da técnica anterior para medir, objetivamente, a intensidade de um sinal de áudio. Essas representam variações de Medir Intensidade 104 (figura 1). Embora as figuras 3a e
3b mostrem exemplos, respectivamente, de duas categorias gerais de técni-
cas de medição objetiva de intensidade, a escolha de uma técnica de medição objetiva particular não é crítica para a invenção e outras técnicas de medição objetiva de intensidade podem ser empregadas.
A figura 3a mostra um exemplo da disposição de medição de potência ponderada comumente usada na medição de intensidade. Um sinal de áudio 103 é passado através de uma função de filtro ou filtragem de pon15 deração (Weighting Filie?' - Filtro de Ponderação) 302, que é destinado a enfatizar frequências menos perceptivelmente sensitivas. A potência 305 do sinal filtrado 303 é calculada por um dispositivo ou função (Potência) 304 e ponderada durante um período de tempo por um dispositivo ou função (Mé dia) 306 para criar um valor de intensidade 105. Existe um número de dife20 rentes características de filtro de ponderação padrão e alguns exemplos comuns são mostrados na figura 4. Na prática, versões modificadas da disposição da figura 3a são usadas, freqüentemente, as modificações, por exemplo, impedindoperíodosjde tempo de silêncio de serem incluídos na média.
Técnicas baseadas em psicoacústica, freqüentemente, também são usadas para medir a intensidade. A figura 3b mostra uma disposição típica da técnica anterior dessa disposição baseada em psicoacústica. Um sinal de áudio 103 é filtrado por uma função de filtro ou filtragem de transmissão (Transmission Filte?' - Filtro de Transmissão) 312 que representa a resposta de magnitude de variação de freqüência do ouvido externo e mé30 dio. O sinal filtrado 313, então, é separado por um banco de filtros ou função de banco de filtros auditivos (Auditory Filterbank'' - Banco de Filtros Auditivos) 314 em bandas de freqüências que são equivalentes ás bandas auditi11
Gpeç d«
A) °o ./ vas críticas, ou mais estreitas do que as mesmas. Isso pode ser realizadoras através da realização de uma Transformação Rápida de Fourier (FFT) como implementado, por exemplo, por uma transformação discreta de frequências (DFT) e, então, agrupando as bandas espaçadas linearmente em bandas que se aproximam das bandas críticas do ouvido (com em uma escala de
ERB ou Bark). Alternativamente, isso pode ser realizado por um único filtro de passagem de banda para cada banda de ERB ou Bark. Cada banda é, então, convertida por um dispositivo ou função Excitação 316 em um sinal
de excitação 317, representando a quantidade de estímulos ou excitação experimentados pelo ouvido humano dentro da banda. A intensidade percebida ou a intensidade percebida para cada banda é, então, calculada da ex citação por um dispositivo ou função (Specific Loudness - Intensidade Específica) 318 e a intensidade específica através de todas as bandas é somada por um somador ou função de soma (Sum - Soma) 320 para criar uma medição de intensidade 105 única. O processo de soma pode levar em consideração vários efeitos perceptuais, por exemplo, mascaramento de freqüência. Em implementações práticas desses métodos perceptuais, recursos computacionais significativos são requeridos para o filtro de transmissão e banco de filtro auditivo.
A figura 5 mostra um diagrama em blocos de um aspecto da presente invenção. Um sinal de áudio digital codificado 101 é decodificado parcialmente por um dispositivo ou função decodificação parcial 502 e a intensidade é medida dajnformação parcialmente decodificada_J)03 .por um dispositivo ou função medir intensidade 504. Dependendo de como a decodi25 ficação parcial é realizada, a medição de intensidade 505 resultante pode ser muito similar, mas não exatamente a mesma, à medição de intensidade 105, calculada do sinal de áudio completamente decodificado 103 (figura 1). No contexto de implementações de Dolby Digital, Dolby Digital Plus e Dolby E de aspectos da invenção, a decodificação parcial pode incluir a omissão dos dispositivos ou funções de Alocação de Bits, Dequantificação de Mantissas e Banco de Filtros Inverso de um decodificar, tal como o exemplo da figura 2.
U f
-· fis. _—- a %
%s-^'
As figuras 6a e 6b mostram dois exemplos de implementações da disposição geral da figura 5. Embora ambos possam empregar a mesma função ou dispositivo de decodificação parcial 502, cada um pode ter uma função ou dispositivo medir volume 504 diferente - que, no exemplo da figura 5 6a, é similar ao exemplo da figura 3a e que. no exemplo da figura 6a, é similar ao exemplo da figura 6b. Em ambos os exemplos, a Decodificação Parcial 502 extrai apenas os expoentes 203 do fluxo de áudio codificado e con verte os expoentes em um espectro de potência 206. Essa extração pode
ser realizada por um dispositivo ou função (Frame Sync, Error Detection &
Frame De-Formatting) 202 como no exemplo da figura 2 e essa conversão pode ser realizada por um dispositivo ou função (Low Power Spectrum)
205 como no exemplo da figura 2. Não há exigência de de-quantificar as mantissas, realizar alocação de bits e realizar um banco de filtros inversos, como seria requerido para uma decodificação completa, conforme mostrado 15 no exemplo de decodificação da figura 2.
O exemplo da figura 6a inclui uma Medição de Intensidade 504, que pode ser uma versão modificada do medidor de intensidade ou função de medição de intensidade da figura 3a. Neste exemplo, uma filtragem de ponderação modificada é aplicada no domínio de freqüências pelo aumento 20 ou diminuição dos valores de potência em cada banda por um filtro de ponderação ou função de filtragem ponderada (Modified Weighting Filter”) 601. Em contraste, o exemplo da figura 3a aplica filtragem de ponderação no domínio de tempo. Emboraopereno domínio de freqüências, o Filtro de Ponderação Modificada afeta o áudio da mesma maneira que o Filtro de Ponde25 ração de domínio de tempo da figura 3a. O filtro 601 é modificado com relação ao filtro 302 da figura 3a no sentido de que opera em valores de amplitude log, em (ugar de valores lineares e opera em uma escala de freqüência não linear em lugar de linear. O espectro de potência ponderada de freqüência 602 é, então, convertido em potência linear e somado através de fre30 qüência e a média determinada através do tempo por um dispositivo ou função - Converter, Somar, Tirar a Média 603 aplicando, por exemplo, a Equação 5, abaixo. A saída é um valor de intensidade objetivo 505.
O exemplo da figura 6b inclui uma Medição de Intensidade 504, que pode ser uma versão modificada do medidor de intensidade ou função de medição de intensidade da figura 3b. Neste exemplo, um filtro de transmissão ou função de filtragem modificada (Filtro de Transmissão Modificado) 611 é aplicado diretamente no domínio de frequências pelo aumento ou diminuição dos valores de potência log em cada banda. Em contraste, o exemplo da figura 3b aplica filtragem de ponderação no domínio de tempo. Embora opere no domínio de frequências, o Filtro de Transmissão Modificado afeta o áudio da mesma maneira que o Filtro de Transmissão de domínio de tempo da figura 3b. Um banco de filtros ou função de banco de filtros auditivos modificados (Banco de Filtros Auditivos Modificados) 613 aceita como entrada o espectro de potência log espaçado de banda de freqüência linear e divide ou combina essas bandas linearmente espaçadas em uma saída de banco de filtros espaçados de banda critica (por exemplo, bandas ERB ou Bark) 315. Banco de Filtros Auditivos Modificados 613 também converte o sinal de potência em um sinal linear para o dispositivo ou função de (excitação) 316 seguinte. O Banco de Filtros Auditivos Modificados 613 é modificado com relação ao Banco de Filtros Auditivos 314 da figura 3b pelo fato de que opera em valores de amplitude log em lugar de valores lineares e converte esses valores de amplitude log em valores lineaares. Alternativamente, o agrupamento de bandas em bandas ERB ou Bark pode ser realizado no Banco de Filtros Auditivos Modificados 613 em lugar do Filtro de Transmissão Modificado 611. Q exemplo da figura 6b também inclui uma Intensidade Específica 318 para cada banda e uma Soma 320, como no e xemplo a figura 3b.
Para as disposições mostradas nas figuras 6a e 6b, economia computacionai significativa é obtida porque a decodificação não requer alocação de bits, dequantificação de mantissas e um banco de filtros inversos. Contudo, para as disposições da figura 6a e da figura 6b, a medição de in30 tensidade objetiva resultante pode não ser exatamente a mesma que a medição calculada de áudio completamente decodificado. Isso é porque alguma da informação de áudio é descartada e, assim, a informação de áudio usada
θ Rub:__-Ar^. η?Λ«Α para a medição é incompleta. Quando aspectos da presente invenção são 1 aplicados ao Dolby Digital, Dolby Digital Plus ou Dolby E, a informação de mantissa é descartada e apenas os valores de expoentes grosseiramente quantificados são mantidos. Para Dolby Digital e Dolby Digital Plus os valores são quantificados em incrementos de 6 dB e para Dolby -E eles são quantificados em incrementos de 3 dB. As etapas de quantificação menores em Dolby E resultam em valores de expoentes quantificados mais finos e, consequentemente, uma estimativa mais precisa do espetro de potência.
Os codificadores perceptuais, freqüentemente, são destinados a alterar o comprimento dos segmentos de tempo de sobreposição, também chamado o tamanho do bloco, em conjunto com certas características do sinal de áudio. Por exemplo, Dolby Digital usa dois tamanhos de blocos - um bloco mais longo de 512 amostras, predominantemente, para sinais de áudio estacionários e um bloco mais curto de 256 amostras para sinais de áudio mais transiente. O resultado é que o número de bandas de freqüência e o número correspondente de valores de espectro de potência log 206 varia bloco a bloco. Quando o tamanho do bloco é 512 amostras, há 256 bandas e, quando o tamanho de bloco é 256 amostras, há 128 bandas.
Há muitas maneiras pelas quais os métodos propostos nas figuras 6a e 6b podem manipular blocos de tamanhos variáveis e cada maneira leva a uma medição de intensidade resultante similar. Por exemplo, o Espectro de Potência Log 205 pode ser modificado para sair sempre um número constante de bandas em uma taxa de blocos constante por meio da combi-__ nação ou da média de múltiplos blocos menores em blocos maiores e dispersando a potência do número menor de bandas através do número maior de bandas. Alternativamente, a Medição de Intensidade pode aceitar tamanhos de blocos variáveis e ajustar, conseqüentemente, seus processos de filtragem, excitação, intensidade específica, determinação de média e soma, por exemplo, pelo ajuste das constantes de tempo.
Exemplo de Medição de Potência Ponderada
Como um exemplo de aspectos da presente invenção, uma versão altamente econômica de um método de medição de intensidade de po15 cal da a
-v-* téncia ponderada pode usar fluxos de bits de Dolby Digital e a medição de<, intensidade de potência ponderada LeqA. Neste exemplo altamente econômico, apenas os expoentes quantificados contidos em um fluxo de bits Dolby
Digital são usados como uma estimativa do espectro de sinal de áudio para realizar a medição de intensidade. Isso evita as exigências computacionais adicionais de realização de alocação de bits para recrear a informação de mantissa, o que, caso contrário, proporcionaria apenas uma estimativa ligeiramente mais precisa do espectro do sinal.
Conforme representado nos exemplos das figuras 5 e 6a, o fluxo de bits é parcialmente decodificado para recriar e extrair o espectro de potência log, calculado dos dados de expoente quantificados contidos no fluxo de bits. O Dolby Digital realiza codificação de áudio de baixa taxa de bits através de formação de janelas 512 consecutivas, 50% de amostras de áudio de PCM sobrepostas e realizando uma transformação de MDCT, resul15 tando em 256 coeficientes de MDCT que são usados para criar o fluxo de áudio codificado de baixa taxa de bits. A decodificação parcial realizada nas figuras 5 e 6a descompacta os dados de expoentes E(k) e converte os dados descompactados em 256 valores de espectro de potência log quantificados, (P(k), que forma uma representação espectral bruta do sinal de áudio.
Os valores de espectro de potência log, P(k), estão em unidades de dB. A conversão é como segue:
P(k) = -E(k) · 20 4ogl0(2) 0 < k < N (1)
- oncte N= 256, o número de coeficientes de transformação para cada blõco em um fluxo de bits Dolby Digital. Para usar o espectro de potência log na computação da medição de intensidade de potência ponderada, o espectro 25 de potência log é ponderado usando uma curva de intensidade apropriada, tal como uma das curvas de ponderação A-, B- ou C-, mostradas na figura 4. Nesse caso, a medida de potência de LeqA está sendo computada e, portanto, a curva de ponderação A- é apropriada. Os valores de espectro de potência log P(k) são ponderados pela adição dos mesmos aos valores de 30 frequências de ponderação de A-, Aw(k), também em unidades de dB como
P„f (k) = P(k) + Aiy (fc) 0 < k < N (2)
Os valores de freqüéncias discretas de ponderação de A-, Aw(k), são criados pela computação dos valores de ganho de ponderação de Apara as freqüéncias distintas, /distinta- onde
F | 0</c<N | (3) |
Onde | ||
F~ F* 2·Ν | 0</c<N | (4) |
e onde a freqüência de amostragem Fs é, tipicamente, igual a 48 kHz para
Dolby Digital. Cada conjunto de valores de espectro de potência log ponderada, Pw(k) é, então, convertido de dB para potência linear e somado para criar estimativa de potência ponderada de A- Ppow das 512 amostras de áu dio de PCM como =ΣιοΛίΛ,',Ο) Á-«0 (5)
Conforme mencionado previamente, cada fluxo de bits de Dolby
Digital contém transformações consecutivas criadas por formação de janelas de 512 amostras de PCM com 50% de sobreposição e realização da transformação de MDCT. Portanto, uma aproximação da potência ponderada de A- total, Ptot, da baixa taxa de bits de áudio codificados em um fluxo de bits
Dolby Digital pode ser computada por meio da média dos valores de potência através de todas as transformações no fluxo de bits Dolby Digital como segue:
onde M iguala o número total de transformações contidas no fluxo de bits Dolby Digital. A potência média é, então, convertida em unidades de dB co20 mo segue:
(7) onde C é um deslocamento constante devido às mudanças de nível realizadas no processo de transformação durante codificação do fluxo de bits Dolby Digital.
Exemplo de Medição Psicoacústica
Como outro exemplo de aspectos da presente invenção, uma versão altamente econômica de um método de medição de intensidade de potência ponderada pode usar fluxos de bits Dolby Digital e uma medição de intensidade psicoacústica. Nesse exemplo altamente econômico, como no 5 anterior, apenas os expoente_s quantificados contidos em um fluxo de bits
Dolby Digital são usados como uma estimativa do espectro do sinal de áudio para realizar a medição de intensidade. Como no outro exemplo, isso evita as exigências computacionais adicionais de realização de alocação de bits
para recriar a informação de mantissa, que, de outro modo, apenas proporcionaria uma estimativa ligeiramente mais precisa do espectro do sinal.
O Pedido de Patente Internacional N° PCT/US2004/016964, depositado em 27 de maio de 2004, Seefeldt e outros, publicado como WO 2004/111994 A2, 23 de dezembro de 2004, pedido que designa os Estados Unidos, descreve, entre outras coisas, uma medida objetiva de intensidade 15 percebida com base em um modelo psicoacústico. O referido pedido é aqui incorporado através de referência em sua totalidade. Os valores de espectro de potência log, P(k), derivados da decodificação parcial de um fluxo de bits Dolby Digital, podem servir como entradas para uma técnica, tal como no referido pedido internacional, bem como outras medidas psicoacústicas simi20 lares, em lugar do áudio de PCM original. Essa disposição é mostrada no > exemplo da figura 6b. Tomando emprestada a terminologia e a notação do referido pedido de PCT, um sinal de excitação E(b) aproximando-se da distribuição de energia ao longo da membrana basilar do ouvido interno na banda crítica b pode ser aproximada dos valores de espectro de potência log como segue:
£(Ζ>) = Σ|Τ(Α)|>ά(Λ)|!1Ο««''0 k
(8) onde T(k) representa a resposta de freqüência do filtro de transmissão e Hb(k) representa a resposta de freqüência da membrana basilar em uma localização correspondente à banda crítica b, ambas as respostas sendo amostradas na freqüência correspondente ao bin de transformação k. Em se30 guida, as excitações correspondentes a todas as transformações no fluxo de bits Dolby Digital têm suas médias determinadas para produzir uma excita-
(9) ção total:
Usando contornos de intensidade iguais, a excitação total em cada banda é transformada em um nível de excitação que gera a mesma intensidade em 1 kHz. intensidade específica, uma medição de intensidade perceptual distribuída através da freqüência, é, então, computado da excitação transformada, E1knz (b), através de uma linearidade não compressiva:
ι.»#) Y
J (10) onde TOfkHz é o limite em silêncio em 1kHz e as constantes Gea são escolhidas para corresponder aos dados gerados dos experimentos psicoacústicos descrevendo o crescimento da intensidade. Finalmente, a intensidade 10 total, L, representada em unidades de sone, é computada pela soma da intensidade específica através de bandas:
L^N(S) (11) b
Para fins de ajuste do sinal de áudio, pode-se desejar computar um ganho correspondente, Gcorrespondência, que, quando multiplicado com o sinal de áudio torna a intensidade do áudio ajustado igual a uma intensidade
de referência, LREF) como medida pela técnica psicoacústica descrita. Como a medição psicoacústica envolve uma não linearidade na computação de intensidade específica, uma solução de forma fechada para G correspondência não existe. Na verdade, uma técnica interativa descrita no referido pedido de
PCT pode ser empregada em que o quadrado do ganho correspondente é 20 ajustado e multiplicado com a excitação total, Ê(b), até que a intensidade total correspondente, L, esteja dentro de uma diferença de limite com relação à intensidade de referência, LREf· A intensidade do áudio pode, então, ser expressa em dB com relação à referência como:
Γ
LdB = 20log10 (12)
G correspondência —
Outros Codecs de Áudio Perceptíveis
Aspectos da presente invenção não estão limitados aos sistemas de codificação Dolby Digital, Dolby Digital Plus e Dolby E. Sinais de áudio codificados, usando certos outros sistemas de codificação, em que uma 5 aproximação do espectro de potência do áudio é proporcionada, por exemplo, fatores de escala, envelopes espectrais e coeficientes preditivos lineares, que podem ser recuperados de um fluxo de bits codificado, sem decodificar completamente o fluxo de bits para produzir áudio, também podem se beneficiar de aspectos da presente invenção.
Erro no Cálculo de Potência de Expoentes Dolby Digital
Os expoentes Dolby Digital E(k) representam uma quantificação bruta do logaritmo dos coeficientes de espectro de MDCT. Há um número de fontes de erro, quando usando esses valores como um espectro de potência bruto.
Primeiro, no Dolby Digital, o próprio processo de quantificação resulta em erro médio de, aproximadamente, 2,7 dB, quando comparando os valores do espectro de potência gerado dos expoentes (veja equação 1, acima) e os valores de potência, calculados diretamente dos coeficientes de MDCT. Esse erro médio, que foi determinado, experimentalmente, pode ser 20 incorporado no deslocamento constante C na Equação 7, acima.
Em segundo lugar, sob certas condições de sinal, tais como transientes, valores de expoentes são agrupados através de freqüência (referido como modos D25 e D45, no documento A/52A, citado acima). Esse agrupamento através de freqüência faz com que o erro médio de expoente 25 seja menos predizível e, assim, mais difícil de levar em conta pela incorporação na constante C da Equação 7. Na prática, o erro devido a esse agrupamento pode ser ignorado por duas razões: (1) o agrupamento é usado raramente e (2) a natureza dos sinais para os quais o agrupamento é usado resulta em um erro médio medido, que é similar ao caso de média não deter30 minada.
Implementação
A invenção pode ser implementada em hardware ou software, ou
-cr 0 &4,· %
Ο./Λ uma combinação de ambos (por exemplo, arranjos lógicos programáveis). A ~ menos que de outro modo especificado, os algoritmos ou processos incluídos como parte da invenção não estão, inerentemente, relacionados com qualquer computador particular ou outro aparelho. Em particular, várias máquinas para fins gerais podem ser usadas como programas escritos de acordo com os ensinamentos aqui, ou pode ser mais conveniente construir aparelho mais especializado (por exemplo, circuitos integrados) para realizar as etapas do método requeridas. Desse modo, a invenção pode ser implementada em um ou mais programas de computador, executando em um ou mais sistemas de computador programáveis, cada um compreendendo pelo menos um processador, pelo menos um sistema de armazenamento de dados (incluindo memória não volátil e/ ou elementos de armazenamento), pelo menos um dispositivo ou porta de entrada e pelo menos um dispositivo ou porta de saída. O código de programa é aplicado aos dados de entrada para realizar as funções aqui descritas e gerar informação de saída. A informação de saída é aplicada a um ou mais dispositivos de saída, de modo conhecido.
Cada um desses programas pode ser implementado em qualquer linguagem de computador desejada (incluindo máquina, montagem, ou procedimento de nível elevado, lógica ou linguagens de programação orientadas em objeto) para se comunicar com um sistema de computador. Em qualquer caso, a linguagem pode ser uma linguagem compilada ou interpretada.
Será apreciado que algumas etapas ou funções mostradas nas figuras exemplificativas realizam múltiplas subetapas e também podem ser mostradas como múltiplas etapas ou funções, em lugar de uma etapa ou função. Também será apreciado que vários dispositivos, funções, etapas e processos mostrados e descritos aqui em vários exemplos podem ser mostrados combinados ou separados de outras maneiras que não conforme mostrado nas várias figuras. Por exemplo, quando implementadas por se30 qüências de instrução de software de computador, várias funções e etapas das figuras exemplificativas podem ser implementadas por seqüências de instrução de software multiencadeadas, executando em hardware de pro
cessamento de sinal digital adequado, em cujo caso os vários dispositivos e funções nos exemplos mostrados nas figuras pode corresponder às porções das instruções de software.
Cada programa desse computador, de preferência, é armazena5 do ou baixado para um meio ou dispositivo de armazenamento (por exemplo, memória de estado sólido ou média, ou meios magnéticos ou óticos) legíveis por um computador programável para fins gerais ou especiais para configuração e operação do computador quando os meios ou dispositivo de
armazenamento é lido pelo sistema de computador para realizar os procedimentos aqui descritos. O sistema da invenção também pode ser considerado para ser implementado como um meio de armazenamento legível em computador, configurado com um programa de computador, onde o meio de armazenamento assim configurado faz com que um sistema de computador opere em uma maneira específica e predeterminada para realizar as funções aqui descritas.
Um número de modalidades da invenção foi descrito. Não obstante, será compreendido que várias modificações podem ser feitas, sem afastamento do espírito e do escopo da invenção. Por exemplo, algumas das etapas aqui descritas podem ser independentes de ordem e, assim, pode ser realizado em uma ordem diferente daquela descrita,
Claims (1)
- REIVINDICAÇÕES1. Método para medir a intensidade de áudio codificado em um
fluxo de dados, caracterizado por compreender as seguintes etapas: aproximar o espectro de potência do áudio sem decodificar 5 completamente o áudio; e aproximar a intensidade do áudio a partir da aproximação do espectro de potência. 2. Método, de acordo com a reivindicação 1, caracterizado pelo >° fato de que os referidos dados incluem representações brutas do áudio e representações mais finas associadas do áudio, e em que a referida aproximação do espectro de potência do áudio é derivada das representações brutas do áudio, 3. Método, de acordo com a reivindicação 2, caracterizado pelo fato de que o áudio é sub-banda codificada, usando sub-bandas de freqüên- 15 cia, cada uma das sub-bandas de frequência tendo um fator de escala e dados de amostra associados com os mesmos, e em que as representações brutas do áudio compreendem fatores de escala e as representações mais finas associadas do áudio compreendem dados de amostra associados com cada fator de escala. 20 r 4. Método, de acordo com a reivindicação 3, caracterizado pelo fato de que o fator de escala e os dados de amostra de cada sub-banda representam coeficientes espectrais na sub-banda pela notação exponencial em que o fator de escala compreende um expoente e os dados de amostra____ associados compreendem mantissas. 25 5. Método, de acordo com qualquer uma das reivindicações de 1 a 4, caracterizado pelo fato de que o áudio é AC-3 codificado. 6. Método, de acordo com a reivindicação 2, caracterizado pelo fato de que o áudio codificado é codificado preditivo linear onde as representações brutas do áudio compreendem coeficientes preditivos lineares, e 30 as representações mais finas do áudio compreendem informação de excitação associada com os coeficientes preditivos lineares. 7. Método, de acordo com a reivindicação 2, caracterizado pelo Ο9-. ./ 'Ο \V‘ ^<7^ .. vC?fato de que as representações brutas do áudio compreendem um envelope ’ espectral, e as representações mais finas do áudio compreendem componentes espectrais associados com o envelope espectral.8. Método, de acordo com qualquer uma das reivindicações de 1 a 7, caracterizado pelo fato de que aproximar o áudio inclui aplicar uma medição de intensidade de potência ponderada.9. Método, de acordo com a reivindicação 8, caracterizado pelo fato de que a medição de intensidade de potência ponderada emprega um filtro que tira ênfase de freqüências menos perceptíveis e determina a média da potência do áudio filtrado ao longo do tempo.10. Método, de acordo com qualquer uma das reivindicações de1 a 7, caracterizado pelo fato de que aproximar a intensidade do áudio em resposta à aproximação do espectro de potência do áudio inclui aplicar uma medição de intensidade psicoacústica.11. Método, de acordo com a reivindicação 10, caracterizado pelo fato de que a medição de intensidade psicoacústica emprega um modelo do ouvido humano para determinar intensidade específica em cada uma de uma pluralidade de bandas de freqüência similares às bandas críticas do20 ouvido humano.12. Método, de acordo com a reivindicação 10 como dependente da reivindicação 3 ou 4 caracterizado pelo fato de que as sub-bandas são similares às bandas críticas do ouvido humano e_______ ___________ .a medição de intensidade psicoacústica emprega um modelo do25 ouvido humano para determinar intensidade específica em cada uma das sub-bandas.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US67138105P | 2005-04-13 | 2005-04-13 | |
US60/671,381 | 2005-04-13 | ||
PCT/US2006/010823 WO2006113047A1 (en) | 2005-04-13 | 2006-03-23 | Economical loudness measurement of coded audio |
Publications (2)
Publication Number | Publication Date |
---|---|
BRPI0610441A2 BRPI0610441A2 (pt) | 2010-06-22 |
BRPI0610441B1 true BRPI0610441B1 (pt) | 2019-01-02 |
Family
ID=36636608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BRPI0610441A BRPI0610441B1 (pt) | 2005-04-13 | 2006-03-23 | medição econômica de intensidade de áudio codificado |
Country Status (16)
Country | Link |
---|---|
US (1) | US8239050B2 (pt) |
EP (1) | EP1878307B1 (pt) |
JP (1) | JP5219800B2 (pt) |
KR (1) | KR101265669B1 (pt) |
CN (1) | CN100589657C (pt) |
AT (1) | ATE527834T1 (pt) |
AU (1) | AU2006237476B2 (pt) |
BR (1) | BRPI0610441B1 (pt) |
CA (1) | CA2604796C (pt) |
ES (1) | ES2373741T3 (pt) |
HK (1) | HK1113452A1 (pt) |
IL (1) | IL186046A (pt) |
MX (1) | MX2007012735A (pt) |
MY (1) | MY147462A (pt) |
TW (1) | TWI397903B (pt) |
WO (1) | WO2006113047A1 (pt) |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7610205B2 (en) | 2002-02-12 | 2009-10-27 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
US7461002B2 (en) | 2001-04-13 | 2008-12-02 | Dolby Laboratories Licensing Corporation | Method for time aligning audio signals using characterizations based on auditory events |
US7711123B2 (en) | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
CA2992097C (en) | 2004-03-01 | 2018-09-11 | Dolby Laboratories Licensing Corporation | Reconstructing audio signals with multiple decorrelation techniques and differentially coded parameters |
US7508947B2 (en) | 2004-08-03 | 2009-03-24 | Dolby Laboratories Licensing Corporation | Method for combining audio signals using auditory scene analysis |
AU2005299410B2 (en) | 2004-10-26 | 2011-04-07 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
MX2007015118A (es) | 2005-06-03 | 2008-02-14 | Dolby Lab Licensing Corp | Aparato y metodo para codificacion de senales de audio con instrucciones de decodificacion. |
TWI517562B (zh) | 2006-04-04 | 2016-01-11 | 杜比實驗室特許公司 | 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式 |
DE602007011594D1 (de) | 2006-04-27 | 2011-02-10 | Dolby Lab Licensing Corp | Tonverstärkungsregelung mit erfassung von publikumsereignissen auf der basis von spezifischer lautstärke |
JP4940308B2 (ja) | 2006-10-20 | 2012-05-30 | ドルビー ラボラトリーズ ライセンシング コーポレイション | リセットを用いるオーディオダイナミクス処理 |
JP4862136B2 (ja) * | 2006-12-08 | 2012-01-25 | 株式会社Jvcケンウッド | 音声信号処理装置 |
US8275153B2 (en) * | 2007-04-16 | 2012-09-25 | Evertz Microsystems Ltd. | System and method for generating an audio gain control signal |
US8396574B2 (en) | 2007-07-13 | 2013-03-12 | Dolby Laboratories Licensing Corporation | Audio processing using auditory scene analysis and spectral skewness |
CN102017402B (zh) * | 2007-12-21 | 2015-01-07 | Dts有限责任公司 | 用于调节音频信号的感知响度的系统 |
ATE552651T1 (de) * | 2008-12-24 | 2012-04-15 | Dolby Lab Licensing Corp | Audiosignallautheitbestimmung und modifikation im frequenzbereich |
US9055374B2 (en) * | 2009-06-24 | 2015-06-09 | Arizona Board Of Regents For And On Behalf Of Arizona State University | Method and system for determining an auditory pattern of an audio segment |
US8538042B2 (en) | 2009-08-11 | 2013-09-17 | Dts Llc | System for increasing perceived loudness of speakers |
TWI409802B (zh) * | 2010-04-14 | 2013-09-21 | Univ Da Yeh | 音頻特徵處理方法及其裝置 |
US8731216B1 (en) * | 2010-10-15 | 2014-05-20 | AARIS Enterprises, Inc. | Audio normalization for digital video broadcasts |
TWI733583B (zh) * | 2010-12-03 | 2021-07-11 | 美商杜比實驗室特許公司 | 音頻解碼裝置、音頻解碼方法及音頻編碼方法 |
US9620131B2 (en) | 2011-04-08 | 2017-04-11 | Evertz Microsystems Ltd. | Systems and methods for adjusting audio levels in a plurality of audio signals |
US9135929B2 (en) | 2011-04-28 | 2015-09-15 | Dolby International Ab | Efficient content classification and loudness estimation |
US9312829B2 (en) | 2012-04-12 | 2016-04-12 | Dts Llc | System for adjusting loudness of audio signals in real time |
RU2610588C2 (ru) * | 2012-11-07 | 2017-02-13 | Долби Интернешнл Аб | Вычисление отношения сигнал-шум конвертора с уменьшенной сложностью |
JP6162254B2 (ja) * | 2013-01-08 | 2017-07-12 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 背景ノイズにおけるスピーチ了解度を増幅及び圧縮により向上させる装置と方法 |
IL287218B (en) | 2013-01-21 | 2022-07-01 | Dolby Laboratories Licensing Corp | Audio encoder and decoder with program loudness and boundary metada |
CN112652316B (zh) * | 2013-01-21 | 2023-09-15 | 杜比实验室特许公司 | 利用响度处理状态元数据的音频编码器和解码器 |
WO2014148848A2 (ko) * | 2013-03-21 | 2014-09-25 | 인텔렉추얼디스커버리 주식회사 | 오디오 신호 크기 제어 방법 및 장치 |
CN104681034A (zh) * | 2013-11-27 | 2015-06-03 | 杜比实验室特许公司 | 音频信号处理 |
US9503803B2 (en) | 2014-03-26 | 2016-11-22 | Bose Corporation | Collaboratively processing audio between headset and source to mask distracting noise |
EP3518236B8 (en) * | 2014-10-10 | 2022-05-25 | Dolby Laboratories Licensing Corporation | Transmission-agnostic presentation-based program loudness |
US10070219B2 (en) * | 2014-12-24 | 2018-09-04 | Hytera Communications Corporation Limited | Sound feedback detection method and device |
KR101712334B1 (ko) | 2016-10-06 | 2017-03-03 | 한정훈 | 화음 음정 정확도 평가 방법 및 장치 |
US10375131B2 (en) | 2017-05-19 | 2019-08-06 | Cisco Technology, Inc. | Selectively transforming audio streams based on audio energy estimate |
WO2019063547A1 (en) * | 2017-09-26 | 2019-04-04 | Sony Europe Limited | METHOD AND ELECTRONIC DEVICE FOR ATTENUATION / AMPLIFICATION OF FORMER |
WO2019161191A1 (en) * | 2018-02-15 | 2019-08-22 | Dolby Laboratories Licensing Corporation | Loudness control methods and devices |
CN111045633A (zh) * | 2018-10-12 | 2020-04-21 | 北京微播视界科技有限公司 | 用于检测音频信号的响度的方法和装置 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4953112A (en) | 1988-05-10 | 1990-08-28 | Minnesota Mining And Manufacturing Company | Method and apparatus for determining acoustic parameters of an auditory prosthesis using software model |
US5632005A (en) | 1991-01-08 | 1997-05-20 | Ray Milton Dolby | Encoder/decoder for multidimensional sound fields |
WO1992012607A1 (en) | 1991-01-08 | 1992-07-23 | Dolby Laboratories Licensing Corporation | Encoder/decoder for multidimensional sound fields |
GB2272615A (en) | 1992-11-17 | 1994-05-18 | Rudolf Bisping | Controlling signal-to-noise ratio in noisy recordings |
JPH06324093A (ja) * | 1993-05-14 | 1994-11-25 | Sony Corp | オーディオ信号のスペクトル表示装置 |
US5623577A (en) * | 1993-07-16 | 1997-04-22 | Dolby Laboratories Licensing Corporation | Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions |
US5727119A (en) | 1995-03-27 | 1998-03-10 | Dolby Laboratories Licensing Corporation | Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase |
JP3519859B2 (ja) * | 1996-03-26 | 2004-04-19 | 三菱電機株式会社 | 符号器及び復号器 |
US6430533B1 (en) | 1996-05-03 | 2002-08-06 | Lsi Logic Corporation | Audio decoder core MPEG-1/MPEG-2/AC-3 functional algorithm partitioning and implementation |
US6185309B1 (en) | 1997-07-11 | 2001-02-06 | The Regents Of The University Of California | Method and apparatus for blind separation of mixed and convolved sources |
EP1016231B1 (en) * | 1997-08-29 | 2007-10-10 | STMicroelectronics Asia Pacific Pte Ltd. | Fast synthesis sub-band filtering method for digital signal decoding |
JP2004507904A (ja) * | 1997-09-05 | 2004-03-11 | レキシコン | 5−2−5マトリックス・エンコーダおよびデコーダ・システム |
JP2000075897A (ja) * | 1998-08-28 | 2000-03-14 | Nippon Telegr & Teleph Corp <Ntt> | 符号化された音声データの削減方法、及び装置、及びそのプログラムを格納した記録媒体 |
JP2001141748A (ja) * | 1999-11-17 | 2001-05-25 | Sony Corp | 信号レベル表示装置 |
US6675125B2 (en) | 1999-11-29 | 2004-01-06 | Syfx | Statistics generator system and method |
FR2802329B1 (fr) * | 1999-12-08 | 2003-03-28 | France Telecom | Procede de traitement d'au moins un flux binaire audio code organise sous la forme de trames |
AUPQ952700A0 (en) | 2000-08-21 | 2000-09-14 | University Of Melbourne, The | Sound-processing strategy for cochlear implants |
JP3811605B2 (ja) * | 2000-09-12 | 2006-08-23 | 三菱電機株式会社 | 電話装置 |
JP2002268687A (ja) * | 2001-03-07 | 2002-09-20 | Matsushita Electric Ind Co Ltd | 情報量変換装置及び情報量変換方法 |
GB2385420A (en) * | 2002-02-13 | 2003-08-20 | Broadcast Project Res Ltd | Measuring the perceived loudness of an audio signal |
DE10236694A1 (de) * | 2002-08-09 | 2004-02-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren |
CN2582311Y (zh) * | 2002-11-29 | 2003-10-22 | 张毅 | 音调响度测试仪 |
DE602004023917D1 (de) | 2003-02-06 | 2009-12-17 | Dolby Lab Licensing Corp | Kontinuierliche audiodatensicherung |
KR101164937B1 (ko) | 2003-05-28 | 2012-07-12 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 오디오 신호의 인식된 라우드니스를 계산 및 조정하는방법, 장치 및 컴퓨터 프로그램 |
US7912226B1 (en) * | 2003-09-12 | 2011-03-22 | The Directv Group, Inc. | Automatic measurement of audio presence and level by direct processing of an MPEG data stream |
-
2006
- 2006-03-22 TW TW095109828A patent/TWI397903B/zh active
- 2006-03-23 MX MX2007012735A patent/MX2007012735A/es active IP Right Grant
- 2006-03-23 JP JP2008506480A patent/JP5219800B2/ja active Active
- 2006-03-23 CA CA2604796A patent/CA2604796C/en active Active
- 2006-03-23 ES ES06739542T patent/ES2373741T3/es active Active
- 2006-03-23 KR KR1020077023404A patent/KR101265669B1/ko active IP Right Grant
- 2006-03-23 EP EP06739542A patent/EP1878307B1/en active Active
- 2006-03-23 AU AU2006237476A patent/AU2006237476B2/en active Active
- 2006-03-23 AT AT06739542T patent/ATE527834T1/de not_active IP Right Cessation
- 2006-03-23 WO PCT/US2006/010823 patent/WO2006113047A1/en active Application Filing
- 2006-03-23 US US11/918,552 patent/US8239050B2/en active Active
- 2006-03-23 CN CN200680012139A patent/CN100589657C/zh active Active
- 2006-03-23 BR BRPI0610441A patent/BRPI0610441B1/pt active IP Right Grant
- 2006-04-07 MY MYPI20061585A patent/MY147462A/en unknown
-
2007
- 2007-09-18 IL IL186046A patent/IL186046A/en active IP Right Grant
-
2008
- 2008-03-27 HK HK08103410.8A patent/HK1113452A1/xx unknown
Also Published As
Publication number | Publication date |
---|---|
HK1113452A1 (en) | 2008-10-03 |
BRPI0610441A2 (pt) | 2010-06-22 |
CN100589657C (zh) | 2010-02-10 |
WO2006113047A1 (en) | 2006-10-26 |
US20090067644A1 (en) | 2009-03-12 |
KR20070119683A (ko) | 2007-12-20 |
US8239050B2 (en) | 2012-08-07 |
ATE527834T1 (de) | 2011-10-15 |
MX2007012735A (es) | 2008-01-11 |
AU2006237476B2 (en) | 2009-12-17 |
CA2604796C (en) | 2014-06-03 |
MY147462A (en) | 2012-12-14 |
KR101265669B1 (ko) | 2013-05-23 |
AU2006237476A1 (en) | 2006-10-26 |
IL186046A (en) | 2011-11-30 |
JP5219800B2 (ja) | 2013-06-26 |
EP1878307B1 (en) | 2011-10-05 |
JP2008536192A (ja) | 2008-09-04 |
TW200641797A (en) | 2006-12-01 |
TWI397903B (zh) | 2013-06-01 |
EP1878307A1 (en) | 2008-01-16 |
IL186046A0 (en) | 2008-02-09 |
ES2373741T3 (es) | 2012-02-08 |
CN101161033A (zh) | 2008-04-09 |
CA2604796A1 (en) | 2006-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
BRPI0610441B1 (pt) | medição econômica de intensidade de áudio codificado | |
EP2002426B1 (en) | Audio signal loudness measurement and modification in the mdct domain | |
US6934677B2 (en) | Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands | |
CN111009249B (zh) | 编码器/解码器、编码/解码方法和非瞬时性存储介质 | |
JP4673882B2 (ja) | 推定値を決定するための方法および装置 | |
US20110075855A1 (en) | method and apparatus for processing audio signals | |
CN106847303B (zh) | 支持谐波音频信号的带宽扩展的方法、设备和记录介质 | |
KR20060088542A (ko) | 오디오 인코딩에서 mdct 데이터에 기초한 윈도우유형의 결정 방법 | |
JPWO2012046447A1 (ja) | 符号化装置、復号装置、符号化方法及び復号方法 | |
US8217811B2 (en) | Bitcount determination for iterative signal coding | |
Dhas et al. | Designing a Hybrid Codec with the help of Integer-MDCT and to estimate the audio quality by means of SPL and CR | |
Jeong et al. | Wordlength optimization of an MPEG-2 audio decoder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
B09A | Decision: intention to grant [chapter 9.1 patent gazette] | ||
B16A | Patent or certificate of addition of invention granted [chapter 16.1 patent gazette] |
Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 02/01/2019, OBSERVADAS AS CONDICOES LEGAIS. |