BRPI0610441B1 - medição econômica de intensidade de áudio codificado - Google Patents

medição econômica de intensidade de áudio codificado Download PDF

Info

Publication number
BRPI0610441B1
BRPI0610441B1 BRPI0610441A BRPI0610441A BRPI0610441B1 BR PI0610441 B1 BRPI0610441 B1 BR PI0610441B1 BR PI0610441 A BRPI0610441 A BR PI0610441A BR PI0610441 A BRPI0610441 A BR PI0610441A BR PI0610441 B1 BRPI0610441 B1 BR PI0610441B1
Authority
BR
Brazil
Prior art keywords
audio
intensity
fact
representations
bands
Prior art date
Application number
BRPI0610441A
Other languages
English (en)
Inventor
Jeffrey Seefeldt Alan
Graham Crockett Brett
John Smithers Michael
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=36636608&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=BRPI0610441(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of BRPI0610441A2 publication Critical patent/BRPI0610441A2/pt
Publication of BRPI0610441B1 publication Critical patent/BRPI0610441B1/pt

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

medição econômica de intensidade de áudio codificado. a presente invenção refere-se a medição da intensidade de áudio codificado em um fluxo de bits que inclui dados dos quais uma aproximação do espectro de potência do áudio pode ser derivada sem decodificar completamente o áudio é realizada pela derivação da aproximação do espectro de potência do áudio do referido fluxo de bits, sem decodificar completamente o áudio e pela determinação de uma intensidade aproximada do áudio em resposta à aproximação do espectro de potência do áudio. os dados podem incluir representações brutas do áudio e representações mais finas associadas do áudio, a aproximação do espectro de potência do áudio sendo derivada das representações brutas do áudio. no caso de áudio codificado de sub-banda, as representações brutas do áudio podem compreender fatores de escala e as representações mais finas associadas do áudio podem compreender dados de amostra associados com cada fator de escala.

Description

MEDIÇÃO
ECONÔMICA DE INTENSIDADE DE ÁUDIO CODIFICADO.
Campo Técnico
A presente invenção refere-se ao processamento de sinal de áudio. Mais particularmente, refere-se a um. cálculo econômico de uma medição objetiva de intensidade de áudio codificado de baixa taxa de bits, tal como áudio codificado usando Dolby Digital (AC-3), Dolby Ditital Plus ou Dolby E. Dolby, Dolby Digital, Dolby Digital Plus e Dolby E são marcas de indústria e comércio de Dolby Laboratories Licensing Corporation. Aspec0 tos da invenção também podem ser utilizáveis com outros tipos de codificação de áudio.
Antecedentes da Técnica
Detalhes da codificação Dolby Digital são apresentados nas referências a seguir:
ATSC Standard A52/A: Digital Áudio Compression Standard (AC-3), Revision A, Advanced Television Systems Committee, 20 de agosto de 2001. O documento A/52A está disponível na World Wide Web (WWW Rede Mundial), em http://www.atsc.org/standards.html.
Flexible Perceptual Coding for Audio Transmission and Storage, de Craig C. Todd, e outros, 96th Convention of the Audio Engineering Society, 26 de fevereiro de 1994, Pré-impressão 3796;
Design and Implementation of AC-3 Coders, de Steve Vernon, IEEE Trans. Consumer Electronics, Voi 3, agosto de 1995. ____
The AC-3 Multichannel Coder1' de Mark Davis, Audio Enginee25 ring Society, Pré-impressão 3774, 95th AES Convention, outubro de 1993.
High Quality, Low-Rate Audio Transform Coding for Transmission and Multimedia Applications, de Bosi e outros, Audio Engineering Society, Pré-impressão 3365, 93rd AES Convention, outubro de 1992.
Patentes norte-americanas 5.583.962; 5.632.005; 5.663.981;
5.727.119; 5.909.664; e 6.021.386.
Detalhes da codificação Dolby Digital Plus são apresentados em Introduction to Dolby Digital Plus, na Enhancement to the Dolby Digital Co2 ding System, AES Convention Paper 6196, 117th o^'da%„ °°v y
AES Convention, 28 de^”^ outubro de 2004.
Detalhes da codificação Dolby E são apresentados em Efficient Bit Allocation, Quantization, and Coding in na Audio Distribution System, AES Pré-impressão 5068, 107th AES Conference, agosto de 1999 e Professional Audio Coder Optimized for Use with Vídeo, AES Pré-impressão 5033, 107th AES Conference, agosto de 1999.
Uma visão geral de vários codificadores perceptuais, incluindo codificadores Dolby, codificadores MPEG e outros, é apresentada em Overview of MPEG Audio: Current and Future Standards for Low-Bit-Rate Audio Coding1', de Karlheinz Brandenburg e Marina Bosi, J. Audio Eng. Soc., Vol. 45, N° 1/2, janeiro/fevereiro, 1997.
Existem muitos métodos para medir, objetivamente, a intensidade percebida de sinais de áudio. Exemplos de métodos incluem medidas de potência ponderada (tais como LeqA, LeqB, LeqC), bem como medidas de intensidade baseadas em psicoacústica, tais como Acoustics - Method for Calculating Loudness LeveF, ISO 532 (1975). Medidas de intensidade de potência ponderada processam o sinal de áudio de entrada através da aplicação de um filtro predeterminado que enfatiza freqüências sensíveis, mais perceptivelmente, enquanto tira a ênfase de freqüências sensíveis menos perceptivelmente e, então, determina a média da potência do sinal filtrado através de uma extensão de tempo predeterminada. Métodos psicoacústicos, tipicamente, são mais complexos e objetivam modelar melhor o funcionamento do ouvido humano. Isso é obtido pela divisão do sinal de áudio em bandas de freqüência que imitam a resposta de freqüência e a sensitividade do ouvido e, então, manipulando e integrando essas bandas, enquanto se leva em conta o fenômeno psicoacústico, tal como mascaramento de freqüência e temporal, bem como a percepção não linear de intensidade com intensidade de sinal variável. O objetivo de todos os métodos objetivos de medição de intensidade é derivar uma medição numérica da intensidade que combina estreitamente com a percepção subjetiva da intensidade de um sinal de áudio.
<·^\ da ,ο ,Ζ , Ρ· - * -1L.JÍ Rub;$ %<? A codificação perceptual ou codificação de áudio de baixa taxa de bits é usada, comumente para comprimir dados de sinais de áudio para armazenamento, transmissão e distribuição eficientes em aplicações, tais como televisão digital difundida e a sala de música on-line da Internet, A co5 dificação perceptual obtém sua eficiência por meio da transformação do sinal de áudio em um espaço de informação, onde componentes de sinais e redundâncias, que são mascarados psicoacusticamente, podem ser facilmente descartados. A informação restante é compactada em um fluxo ou arquivo de informação digital. Tipicamente, a medição da intensidade do áudio re^0 presentado pelo áudio codificado de baixa taxa de bits requer decodificação da recuperação de áudio no domínio de tempo (por exemplo, PCM), que pode ser intensiva, computacionalmente. Contudo, alguns sinais codificados perceptualmente de baixa taxa de bits contêm informação que pode ser útil a um método de medição de intensidade, assim, economizando o custo com15 putacionalmente de decodificação completa do áudio. Dolby Digital (AC-3),
Dolby Digital Plus e Dolby E estão entre esses sistemas de codificação de áudio.
Os codificadores de áudio perceptuais de baixa taxa de bits Dolby Digital, Dolby Digital Plus e Dolby E dividem sinais de áudio em seg20 mentos de tempo de sobreposição, de janela (ou blocos de codificação de áudio) que são transformados em uma representação de domínio de freqüências. A representação de domínio de frequências de coeficientes espectrais é expressa por uma notação exponencial, compreendendo conjuntos de um expoente e mantissas associadas. Os expoentes, que funcionam na ma25 neira de fatores de escala, são compactados no fluxo de áudio codificado.
As mantissas representam os coeficientes espectrais após eles terem sido normalizados pelos expoentes. Os expoentes são, então, passados através de um modelo perceptual de audição e usados para quantificar e compactar as mantissas no fluxo de áudio codificado. Com a decodificação, os expoen30 tes são descompactados do fluxo de áudio codificado e, então, passados através do mesmo modelo perceptual para determinar como descompactar as mantissas. As mantissas são, então, descompactadas, combinadas com os expoentes para criar uma representação de domínio de frequências do áudio, que é, então, decodificada e convertida de volta a uma representação de domínio de tempo.
Como muitas medições de intensidade incluem cálculos de po5 tências e espectro de potências, economias computacionais podem ser obtidas pela decodificação apenas parcial do áudio codificado e de baixa taxa de bits e passando a informação parcialmente decodificada (tal como o espectro de potência) para a medição de intensidade. A invenção é útil quando há uma necessidade de medir a intensidade, mas não de decodificar o áu|l0 dio. Ela explora o fato de que uma medição de intensidade pode fazer uso de uma versão aproximada do áudio, essa aproximação, usualmente, não sendo adequada para audição. Um aspecto da presente invenção é o reconhecimento que uma representação bruta do áudio, que está disponível sem decodificar um fluxo de bits em muitos sistemas de codificação de áudio, 15 pode proporcionar uma aproximação do espectro de áudio que é utilizável na medição da intensidade do áudio. Na codificação de áudio Dolby Digital, Dolby Digital Plus e Dolby E, expoentes proporcionam uma aproximação do espetro de potência do áudio. Similarmente, em certos outros sistemas de codificação, fatores de escala, envelopes espectrais e coeficientes preditivos 20 lineares podem proporcionar uma aproximação do espetro de potência do áudio. Esses e outros aspectos e vantagens da invenção serão melhor compreendidos à medida que o sumário e a descrição seguintes da invenção são lidos e compreendidos.____ ____________________
O documento US 2001/0027393 descreve um sistema de áudio conferência constituído de N terminais conectados respectivamente a uma unidade de controle multiponto. Cada terminal é constituído de um codificador cuja entrada recebe dados de áudio para transmitir a outros terminais e cuja saída é conectada a uma entrada da unidade de controle multiponto. Cada terminal também tem um decodificador cuja entrada é conectada à saída da unidade de controle multiponto e cuja saída entrega dados que são transmitidos ao terminal considerado pelos outros terminais. A unidade de controle multiponto é essencialmente constituída de um combinador que <V
η=· o combina os sinais presentes em suas entradas e entrega à entrada do decodificador de um terminal um sinal representativo da soma dos sinais entregues respectivamente por todos os decodificadores dos N terminais, exceto para o sinal vindo daquele terminal. A unidade de controle multiponto também tem N decodificadores parciais cujo objetivo é receber, respectivamente, os quadros de áudio produzidos pelos N terminais para decodificá-los e assim entregá-los às entradas do combinador. A unidade de controle multiponto tem N recodificadores parciais tendo saídas respectivamente conectadas às entradas dos decodificadores dos terminais e tendo entradas conec #10 tadas às saídas do combinador. O documento descreve calcular a energia total em cada banda de freqüência,
É um objetivo da presente invenção proporcionar uma medição computacionalmente econômica da intensidade percebida de áudio codificado de baixa taxa de bits.
Este objetivo é obtido pelo método de acordo com a reivindicação 1, As modalidades preferidas da invenção estão definidas nas reivindicações dependentes
Por conseguinte, o objetivo é obtido apenas decodificando parcialmente o material de áudio e passando a informação parcialmente decodificada á medição de intensidade de áudio. O método tira vantagem de propriedades específicas da informação de áudio parcialmente decodificada, tais como os expoentes em codificação de áudio Dolby Digital, Dolby Digital Plus e Dolby E. ___ ___ __ ____ ___________ ____
Um primeiro aspecto da invenção mede a intensidade de áudio codificado em um fluxo de bits que inclui dados dos quais uma aproximação do espetro de potência do áudio pode ser derivada sem decodificar completamente o áudio através da derivação da aproximação do espetro de potência do áudio do fluxo de bits sem decodificar completamente o áudio e determinando uma intensidade aproximada do áudio em resposta à aproximação do espetro de potência do áudio.
Em outro aspecto da invenção, os dados podem incluir representações brutas do áudio e representações mais finas associadas do áudio, em ί „ Aí. J • Rub:
cujo caso, a aproximação do espetro de potência do áudio pode ser dewa$a. v das representações brutas do áudio.
Em um outro aspecto da invenção, o áudio codificado em um fluxo de bits pode ser áudio codificado de sub-bandas, cada sub-banda ten5 do um fator de escala e dados de amostra com ela associados e em que as representações brutas do áudio compreendem fatores de escala e as representações mais finas associadas do áudio compreendem dados de amostra associados com cada fator de escala.
Ainda em um outro aspecto da invenção, o fator de escala e os |θ dados de amostra de cada sub-banda podem representar coeficientes espectrais na sub-banda por meio de notação exponencial em que o fator de escala compreende um expoente e os dados de amostra associados compreendem mantissas.
Ainda em um outro aspecto da invenção, o áudio codificado em 15 um fluxo de bits pode ser áudio codificado preditivo linear em que as representações brutas do áudio compreendem coeficientes preditivos lineares e as representações mais finas do áudio compreendem informação de excitação associada com os coeficientes preditivos lineares.
Ainda em outro aspecto da invenção, as representações brutas
do áudio podem compreender pelo menos um envelope espectral e as representações mais finas do áudio podem compreender componentes espectrais associados com o pelo menos um envelope espectral.
Ainda em outro aspecto da invenção, a determinação de uma intensidade aproximada do áudio em resposta à aproximação do espetro de 25 potência do áudio pode incluir a aplicação de uma medição de intensidade de potência ponderada. A medição de intensidade de potência ponderada pode empregar um filtro que tira a ênfase de menos frequências perceptíveis e estabelece a média da potência do áudio filtrado através do tempo.
Ainda em outro aspecto da invenção, a determinação de uma intensidade aproximada do áudio em resposta à aproximação do espetro de potência do áudio pode incluir a aplicação de uma medição de intensidade psicoacústica. A medição de intensidade psicoacústica pode empregar um
F.s Ó 1 % / modelo do ouvido humano para determinar intensidade específica em cada° uma de uma pluralidade de bandas de freqüências similares às bandas críticas do ouvido humano. Em um ambiente de codificador de sub-banda, as sub-bandas podem ser similares às bandas críticas do ouvido humano e a 5 medição de intensidade psicoacústica pode empregar um modelo do ouvido humano para determinar intensidade específica em cada uma das subbandas.
Aspectos da invenção incluem métodos que põem em prática as funções acima, meios para pôr em prática as funções, aparelho para colocar |θ em prática os métodos e um programa de computador, armazenado em um meio legível em computador para fazer com que um computador realize os métodos que põem em prática as funções acima.
Descrição dos Desenhos
A figura 1 mostra um diagrama em blocos funcional esquemático 15 de uma disposição geral para medição da intensidade de áudio codificado de baixa taxa de bits.
A figura 2 mostra um diagrama em blocos funcional esquemático generalizado de um decodificar Dolby Digital, Dolby Digital Plus e Dolby E.
As figuras 3a e 3b mostram diagramas em blocos funcionais es20 quemáticos de duas disposições gerais para calcular uma medição de volume/intesidade de som usando potência ponderada e medições baseadas em psicoacústico, respectivamente.
A figura 4 mostra ponderações de freqüência comuns usandas quando das medições da intensidade de som de acordo com a disposição do 25 exemplo da figura 3a.
Figura 5 é um diagrama de blocos funcional esquemático mostrando uma disposição geral mais econômica para medição da intensidade de som de áudio codificado de acordo com os aspectos da invenção.
As figuras 6a e 6b são diagramas de blocos funcionais esque30 máticos da disposição mais econômica para medir a intensidade, incorporando as disposições de intensidade mostradas nos exemplos das figuras 3a e 3b de acordo com os aspectos da invenção.
Um benefício de aspectos da presente invenção é a medição da
Melhor Modo para Realização da Invenção intensidade de áudio codificado de baixa taxa de bits, sem a necessidade de decodificar completamente o áudio para PCM, decodificação que inclui eta5 pas onerosas de processamento de decodificação, tais como alocação de bits, dequantização, uma transformação inversa, etc. Aspectos da invenção reduzem grandemente as exigências de processamento sobrecarga computacional). Essa abordagem é benéfica, quando uma medição de intensidade é desejada, mas o áudio decodificado não é necessário.
ho Aspectos da presente invenção são utilizáveis, por exemplo, em ambientes, tais como, descritos em (1) Pedido de Patente Não-Provisório, pendente, dos Estados Unidos N.S. 10/884.117, depositado em 1 de julho de 2004, intitulado Method for Correcting Metadata Affecting the Playback Loudness and Dynamic Range of Audio Information, de Smithers e outros;
(2) Pedido de Patente Provisório Norte-americano N.S. 60/xxx,xxx, depositado no mesmo dia que o presente pedido, intitulado 'Audio Metadata Verification,” de Brett Graham Crockett, Registro do Procurador DOLI 50 e (3) e no desempenho da medição e correção de intensidade em um armazenamento de difusão ou cadeia de transmissão em que acesso ao áudio decodificado não é necessário e não é desejável. O referido N.S. 10/884.177 e os referidos pedidos com Registro de Procurador DOL150 são aqui incorporados através de referência em sua totalidade.
A economia de processamento proporcionada pelos aspectos da invenção também ajuda a tornar possível realizar medição de intensidade e 25 a correção de metadados (por exemplo, mudando um parâmetro DIALNORM para o valor correto) em tempo real em um grande número de sinais de áudio comprimidos de dados de baixa taxa de bits. Freqüentemente, muitos sinais de áudio codificados de baixa taxa de bits são multiplexados e transportados em fluxos de transporte de MPEG. A medição de intensidade de 30 acordo com aspectos da presente invenção se torna medição de intensidade em tempo real em um grande número de sinais de áudio comprimidos muito mais possível, quando comparado com as exigências de decodificação com
pleta dos sinais de áudio comprimidos para PCM a fim de realizar a medição de intensidade.
A figura 1 mostra uma disposição da técnica anterior para medição de intensidade de áudio codificado. Os dados de áudio codificados ou informação 101, tal como o áudio que foi codificado com baixa taxa de bits, são decodificados por um decodificador ou função de decodificação (Decode - Decodificar) 102 em, por exemplo, um sinal de áudio de PCM 103. Esse sinal é, então, aplicado a um medidor de intensidade ou método ou algoritmo de medição (Measure Loudness - Medir Intensidade) 104, que gera ^0 um valor de intensidade medido 105.
A figura 2 mostra um diagrama em blocos, estrutural ou funcional, da técnica anterior de um exemplo de um Decodificador 102. A estrutura ou funções que ele mostra são representativos de decodificadores Dolby Digital, Dolby Digital Plus e Dolby E. Quadros de dados de áudio codificados 15 101 são aplicados a um descompactador ou função de descompactação de dados (Frame Sync, Error Detection & Frame Deformatting - Sinc de Quadro, Detecção de Erro & Deformatação de Quadro) 202 que descompacta os dados aplicados em dados de expoente 203, dados de mantissa 204 e outra informação mista de alocação de bits 207. Os dados de expoente 203 20 são convertidos em um espectro de potência log 206 por um dispositivo ou função (Log Power Spectrum - Espectro de Potência Log) 205 e este espectro de potência log é usado por um alocador de bits ou função de alocação de bits (Bit Allocation Alocação de Bits) 208 para calcular sinal 209,____ que é o comprimento, em bits, de cada mantissa quantificada. As mantissas são, então, dequantificadas e combinadas com os expoentes por um dispositivo ou função (De-Quantize Mantissas - Dequantificar Mantissas) 210 e convertidas de volta para o domínio de tempo por um dispositivo ou função de banco de filtros inverso (Inverse Filterbank - Banco de Filtros Inverso) 212. Banco de filtros inverso corrente 212 também se sobrepõe e soma uma porção do resultado do Banco de Filtros Inverso corrente com o resultado do Banco de Filtros Inverso anterior (em tempo) para criar o sinal de áudio decodificado 103. Em implementações práticas de decodificar, recursos de computação significativos são requeridos pelos dispositivos ou funções de Alocação de Bits, Dequantificação de Mantissas e Banco de Filtros Inverso. Mais detalhes do processo de decodificação podem ser encontrados em umas das referências citadas acima.
As figuras 3a e 3_b mostram disposições da técnica anterior para medir, objetivamente, a intensidade de um sinal de áudio. Essas representam variações de Medir Intensidade 104 (figura 1). Embora as figuras 3a e
3b mostrem exemplos, respectivamente, de duas categorias gerais de técni-
cas de medição objetiva de intensidade, a escolha de uma técnica de medição objetiva particular não é crítica para a invenção e outras técnicas de medição objetiva de intensidade podem ser empregadas.
A figura 3a mostra um exemplo da disposição de medição de potência ponderada comumente usada na medição de intensidade. Um sinal de áudio 103 é passado através de uma função de filtro ou filtragem de pon15 deração (Weighting Filie?' - Filtro de Ponderação) 302, que é destinado a enfatizar frequências menos perceptivelmente sensitivas. A potência 305 do sinal filtrado 303 é calculada por um dispositivo ou função (Potência) 304 e ponderada durante um período de tempo por um dispositivo ou função (Mé dia) 306 para criar um valor de intensidade 105. Existe um número de dife20 rentes características de filtro de ponderação padrão e alguns exemplos comuns são mostrados na figura 4. Na prática, versões modificadas da disposição da figura 3a são usadas, freqüentemente, as modificações, por exemplo, impedindoperíodosjde tempo de silêncio de serem incluídos na média.
Técnicas baseadas em psicoacústica, freqüentemente, também são usadas para medir a intensidade. A figura 3b mostra uma disposição típica da técnica anterior dessa disposição baseada em psicoacústica. Um sinal de áudio 103 é filtrado por uma função de filtro ou filtragem de transmissão (Transmission Filte?' - Filtro de Transmissão) 312 que representa a resposta de magnitude de variação de freqüência do ouvido externo e mé30 dio. O sinal filtrado 313, então, é separado por um banco de filtros ou função de banco de filtros auditivos (Auditory Filterbank'' - Banco de Filtros Auditivos) 314 em bandas de freqüências que são equivalentes ás bandas auditi11
Gpeç d«
A) °o ./ vas críticas, ou mais estreitas do que as mesmas. Isso pode ser realizadoras através da realização de uma Transformação Rápida de Fourier (FFT) como implementado, por exemplo, por uma transformação discreta de frequências (DFT) e, então, agrupando as bandas espaçadas linearmente em bandas que se aproximam das bandas críticas do ouvido (com em uma escala de
ERB ou Bark). Alternativamente, isso pode ser realizado por um único filtro de passagem de banda para cada banda de ERB ou Bark. Cada banda é, então, convertida por um dispositivo ou função Excitação 316 em um sinal
de excitação 317, representando a quantidade de estímulos ou excitação experimentados pelo ouvido humano dentro da banda. A intensidade percebida ou a intensidade percebida para cada banda é, então, calculada da ex citação por um dispositivo ou função (Specific Loudness - Intensidade Específica) 318 e a intensidade específica através de todas as bandas é somada por um somador ou função de soma (Sum - Soma) 320 para criar uma medição de intensidade 105 única. O processo de soma pode levar em consideração vários efeitos perceptuais, por exemplo, mascaramento de freqüência. Em implementações práticas desses métodos perceptuais, recursos computacionais significativos são requeridos para o filtro de transmissão e banco de filtro auditivo.
A figura 5 mostra um diagrama em blocos de um aspecto da presente invenção. Um sinal de áudio digital codificado 101 é decodificado parcialmente por um dispositivo ou função decodificação parcial 502 e a intensidade é medida dajnformação parcialmente decodificada_J)03 .por um dispositivo ou função medir intensidade 504. Dependendo de como a decodi25 ficação parcial é realizada, a medição de intensidade 505 resultante pode ser muito similar, mas não exatamente a mesma, à medição de intensidade 105, calculada do sinal de áudio completamente decodificado 103 (figura 1). No contexto de implementações de Dolby Digital, Dolby Digital Plus e Dolby E de aspectos da invenção, a decodificação parcial pode incluir a omissão dos dispositivos ou funções de Alocação de Bits, Dequantificação de Mantissas e Banco de Filtros Inverso de um decodificar, tal como o exemplo da figura 2.
U f
-· fis. _—- a %
%s-^'
As figuras 6a e 6b mostram dois exemplos de implementações da disposição geral da figura 5. Embora ambos possam empregar a mesma função ou dispositivo de decodificação parcial 502, cada um pode ter uma função ou dispositivo medir volume 504 diferente - que, no exemplo da figura 5 6a, é similar ao exemplo da figura 3a e que. no exemplo da figura 6a, é similar ao exemplo da figura 6b. Em ambos os exemplos, a Decodificação Parcial 502 extrai apenas os expoentes 203 do fluxo de áudio codificado e con verte os expoentes em um espectro de potência 206. Essa extração pode
ser realizada por um dispositivo ou função (Frame Sync, Error Detection &
Frame De-Formatting) 202 como no exemplo da figura 2 e essa conversão pode ser realizada por um dispositivo ou função (Low Power Spectrum)
205 como no exemplo da figura 2. Não há exigência de de-quantificar as mantissas, realizar alocação de bits e realizar um banco de filtros inversos, como seria requerido para uma decodificação completa, conforme mostrado 15 no exemplo de decodificação da figura 2.
O exemplo da figura 6a inclui uma Medição de Intensidade 504, que pode ser uma versão modificada do medidor de intensidade ou função de medição de intensidade da figura 3a. Neste exemplo, uma filtragem de ponderação modificada é aplicada no domínio de freqüências pelo aumento 20 ou diminuição dos valores de potência em cada banda por um filtro de ponderação ou função de filtragem ponderada (Modified Weighting Filter”) 601. Em contraste, o exemplo da figura 3a aplica filtragem de ponderação no domínio de tempo. Emboraopereno domínio de freqüências, o Filtro de Ponderação Modificada afeta o áudio da mesma maneira que o Filtro de Ponde25 ração de domínio de tempo da figura 3a. O filtro 601 é modificado com relação ao filtro 302 da figura 3a no sentido de que opera em valores de amplitude log, em (ugar de valores lineares e opera em uma escala de freqüência não linear em lugar de linear. O espectro de potência ponderada de freqüência 602 é, então, convertido em potência linear e somado através de fre30 qüência e a média determinada através do tempo por um dispositivo ou função - Converter, Somar, Tirar a Média 603 aplicando, por exemplo, a Equação 5, abaixo. A saída é um valor de intensidade objetivo 505.
O exemplo da figura 6b inclui uma Medição de Intensidade 504, que pode ser uma versão modificada do medidor de intensidade ou função de medição de intensidade da figura 3b. Neste exemplo, um filtro de transmissão ou função de filtragem modificada (Filtro de Transmissão Modificado) 611 é aplicado diretamente no domínio de frequências pelo aumento ou diminuição dos valores de potência log em cada banda. Em contraste, o exemplo da figura 3b aplica filtragem de ponderação no domínio de tempo. Embora opere no domínio de frequências, o Filtro de Transmissão Modificado afeta o áudio da mesma maneira que o Filtro de Transmissão de domínio de tempo da figura 3b. Um banco de filtros ou função de banco de filtros auditivos modificados (Banco de Filtros Auditivos Modificados) 613 aceita como entrada o espectro de potência log espaçado de banda de freqüência linear e divide ou combina essas bandas linearmente espaçadas em uma saída de banco de filtros espaçados de banda critica (por exemplo, bandas ERB ou Bark) 315. Banco de Filtros Auditivos Modificados 613 também converte o sinal de potência em um sinal linear para o dispositivo ou função de (excitação) 316 seguinte. O Banco de Filtros Auditivos Modificados 613 é modificado com relação ao Banco de Filtros Auditivos 314 da figura 3b pelo fato de que opera em valores de amplitude log em lugar de valores lineares e converte esses valores de amplitude log em valores lineaares. Alternativamente, o agrupamento de bandas em bandas ERB ou Bark pode ser realizado no Banco de Filtros Auditivos Modificados 613 em lugar do Filtro de Transmissão Modificado 611. Q exemplo da figura 6b também inclui uma Intensidade Específica 318 para cada banda e uma Soma 320, como no e xemplo a figura 3b.
Para as disposições mostradas nas figuras 6a e 6b, economia computacionai significativa é obtida porque a decodificação não requer alocação de bits, dequantificação de mantissas e um banco de filtros inversos. Contudo, para as disposições da figura 6a e da figura 6b, a medição de in30 tensidade objetiva resultante pode não ser exatamente a mesma que a medição calculada de áudio completamente decodificado. Isso é porque alguma da informação de áudio é descartada e, assim, a informação de áudio usada
θ Rub:__-Ar^. η?Λ«Α para a medição é incompleta. Quando aspectos da presente invenção são 1 aplicados ao Dolby Digital, Dolby Digital Plus ou Dolby E, a informação de mantissa é descartada e apenas os valores de expoentes grosseiramente quantificados são mantidos. Para Dolby Digital e Dolby Digital Plus os valores são quantificados em incrementos de 6 dB e para Dolby -E eles são quantificados em incrementos de 3 dB. As etapas de quantificação menores em Dolby E resultam em valores de expoentes quantificados mais finos e, consequentemente, uma estimativa mais precisa do espetro de potência.
Os codificadores perceptuais, freqüentemente, são destinados a alterar o comprimento dos segmentos de tempo de sobreposição, também chamado o tamanho do bloco, em conjunto com certas características do sinal de áudio. Por exemplo, Dolby Digital usa dois tamanhos de blocos - um bloco mais longo de 512 amostras, predominantemente, para sinais de áudio estacionários e um bloco mais curto de 256 amostras para sinais de áudio mais transiente. O resultado é que o número de bandas de freqüência e o número correspondente de valores de espectro de potência log 206 varia bloco a bloco. Quando o tamanho do bloco é 512 amostras, há 256 bandas e, quando o tamanho de bloco é 256 amostras, há 128 bandas.
Há muitas maneiras pelas quais os métodos propostos nas figuras 6a e 6b podem manipular blocos de tamanhos variáveis e cada maneira leva a uma medição de intensidade resultante similar. Por exemplo, o Espectro de Potência Log 205 pode ser modificado para sair sempre um número constante de bandas em uma taxa de blocos constante por meio da combi-__ nação ou da média de múltiplos blocos menores em blocos maiores e dispersando a potência do número menor de bandas através do número maior de bandas. Alternativamente, a Medição de Intensidade pode aceitar tamanhos de blocos variáveis e ajustar, conseqüentemente, seus processos de filtragem, excitação, intensidade específica, determinação de média e soma, por exemplo, pelo ajuste das constantes de tempo.
Exemplo de Medição de Potência Ponderada
Como um exemplo de aspectos da presente invenção, uma versão altamente econômica de um método de medição de intensidade de po15 cal da a
-v-* téncia ponderada pode usar fluxos de bits de Dolby Digital e a medição de<, intensidade de potência ponderada LeqA. Neste exemplo altamente econômico, apenas os expoentes quantificados contidos em um fluxo de bits Dolby
Digital são usados como uma estimativa do espectro de sinal de áudio para realizar a medição de intensidade. Isso evita as exigências computacionais adicionais de realização de alocação de bits para recrear a informação de mantissa, o que, caso contrário, proporcionaria apenas uma estimativa ligeiramente mais precisa do espectro do sinal.
Conforme representado nos exemplos das figuras 5 e 6a, o fluxo de bits é parcialmente decodificado para recriar e extrair o espectro de potência log, calculado dos dados de expoente quantificados contidos no fluxo de bits. O Dolby Digital realiza codificação de áudio de baixa taxa de bits através de formação de janelas 512 consecutivas, 50% de amostras de áudio de PCM sobrepostas e realizando uma transformação de MDCT, resul15 tando em 256 coeficientes de MDCT que são usados para criar o fluxo de áudio codificado de baixa taxa de bits. A decodificação parcial realizada nas figuras 5 e 6a descompacta os dados de expoentes E(k) e converte os dados descompactados em 256 valores de espectro de potência log quantificados, (P(k), que forma uma representação espectral bruta do sinal de áudio.
Os valores de espectro de potência log, P(k), estão em unidades de dB. A conversão é como segue:
P(k) = -E(k) · 20 4ogl0(2) 0 < k < N (1)
- oncte N= 256, o número de coeficientes de transformação para cada blõco em um fluxo de bits Dolby Digital. Para usar o espectro de potência log na computação da medição de intensidade de potência ponderada, o espectro 25 de potência log é ponderado usando uma curva de intensidade apropriada, tal como uma das curvas de ponderação A-, B- ou C-, mostradas na figura 4. Nesse caso, a medida de potência de LeqA está sendo computada e, portanto, a curva de ponderação A- é apropriada. Os valores de espectro de potência log P(k) são ponderados pela adição dos mesmos aos valores de 30 frequências de ponderação de A-, Aw(k), também em unidades de dB como
P„f (k) = P(k) + Aiy (fc) 0 < k < N (2)
Os valores de freqüéncias discretas de ponderação de A-, Aw(k), são criados pela computação dos valores de ganho de ponderação de Apara as freqüéncias distintas, /distinta- onde
F 0</c<N (3)
Onde
F~ F* 2·Ν 0</c<N (4)
e onde a freqüência de amostragem Fs é, tipicamente, igual a 48 kHz para
Dolby Digital. Cada conjunto de valores de espectro de potência log ponderada, Pw(k) é, então, convertido de dB para potência linear e somado para criar estimativa de potência ponderada de A- Ppow das 512 amostras de áu dio de PCM como =ΣιοΛίΛ,',Ο) Á-«0 (5)
Conforme mencionado previamente, cada fluxo de bits de Dolby
Digital contém transformações consecutivas criadas por formação de janelas de 512 amostras de PCM com 50% de sobreposição e realização da transformação de MDCT. Portanto, uma aproximação da potência ponderada de A- total, Ptot, da baixa taxa de bits de áudio codificados em um fluxo de bits
Dolby Digital pode ser computada por meio da média dos valores de potência através de todas as transformações no fluxo de bits Dolby Digital como segue:
onde M iguala o número total de transformações contidas no fluxo de bits Dolby Digital. A potência média é, então, convertida em unidades de dB co20 mo segue:
(7) onde C é um deslocamento constante devido às mudanças de nível realizadas no processo de transformação durante codificação do fluxo de bits Dolby Digital.
Exemplo de Medição Psicoacústica
Como outro exemplo de aspectos da presente invenção, uma versão altamente econômica de um método de medição de intensidade de potência ponderada pode usar fluxos de bits Dolby Digital e uma medição de intensidade psicoacústica. Nesse exemplo altamente econômico, como no 5 anterior, apenas os expoente_s quantificados contidos em um fluxo de bits
Dolby Digital são usados como uma estimativa do espectro do sinal de áudio para realizar a medição de intensidade. Como no outro exemplo, isso evita as exigências computacionais adicionais de realização de alocação de bits
para recriar a informação de mantissa, que, de outro modo, apenas proporcionaria uma estimativa ligeiramente mais precisa do espectro do sinal.
O Pedido de Patente Internacional N° PCT/US2004/016964, depositado em 27 de maio de 2004, Seefeldt e outros, publicado como WO 2004/111994 A2, 23 de dezembro de 2004, pedido que designa os Estados Unidos, descreve, entre outras coisas, uma medida objetiva de intensidade 15 percebida com base em um modelo psicoacústico. O referido pedido é aqui incorporado através de referência em sua totalidade. Os valores de espectro de potência log, P(k), derivados da decodificação parcial de um fluxo de bits Dolby Digital, podem servir como entradas para uma técnica, tal como no referido pedido internacional, bem como outras medidas psicoacústicas simi20 lares, em lugar do áudio de PCM original. Essa disposição é mostrada no > exemplo da figura 6b. Tomando emprestada a terminologia e a notação do referido pedido de PCT, um sinal de excitação E(b) aproximando-se da distribuição de energia ao longo da membrana basilar do ouvido interno na banda crítica b pode ser aproximada dos valores de espectro de potência log como segue:
£(Ζ>) = Σ|Τ(Α)|>ά(Λ)|!1Ο««''0 k
(8) onde T(k) representa a resposta de freqüência do filtro de transmissão e Hb(k) representa a resposta de freqüência da membrana basilar em uma localização correspondente à banda crítica b, ambas as respostas sendo amostradas na freqüência correspondente ao bin de transformação k. Em se30 guida, as excitações correspondentes a todas as transformações no fluxo de bits Dolby Digital têm suas médias determinadas para produzir uma excita-
(9) ção total:
Usando contornos de intensidade iguais, a excitação total em cada banda é transformada em um nível de excitação que gera a mesma intensidade em 1 kHz. intensidade específica, uma medição de intensidade perceptual distribuída através da freqüência, é, então, computado da excitação transformada, E1knz (b), através de uma linearidade não compressiva:
ι.»#) Y
J (10) onde TOfkHz é o limite em silêncio em 1kHz e as constantes Gea são escolhidas para corresponder aos dados gerados dos experimentos psicoacústicos descrevendo o crescimento da intensidade. Finalmente, a intensidade 10 total, L, representada em unidades de sone, é computada pela soma da intensidade específica através de bandas:
L^N(S) (11) b
Para fins de ajuste do sinal de áudio, pode-se desejar computar um ganho correspondente, Gcorrespondência, que, quando multiplicado com o sinal de áudio torna a intensidade do áudio ajustado igual a uma intensidade
de referência, LREF) como medida pela técnica psicoacústica descrita. Como a medição psicoacústica envolve uma não linearidade na computação de intensidade específica, uma solução de forma fechada para G correspondência não existe. Na verdade, uma técnica interativa descrita no referido pedido de
PCT pode ser empregada em que o quadrado do ganho correspondente é 20 ajustado e multiplicado com a excitação total, Ê(b), até que a intensidade total correspondente, L, esteja dentro de uma diferença de limite com relação à intensidade de referência, LREf· A intensidade do áudio pode, então, ser expressa em dB com relação à referência como:
Γ
LdB = 20log10 (12)
G correspondência —
Outros Codecs de Áudio Perceptíveis
Aspectos da presente invenção não estão limitados aos sistemas de codificação Dolby Digital, Dolby Digital Plus e Dolby E. Sinais de áudio codificados, usando certos outros sistemas de codificação, em que uma 5 aproximação do espectro de potência do áudio é proporcionada, por exemplo, fatores de escala, envelopes espectrais e coeficientes preditivos lineares, que podem ser recuperados de um fluxo de bits codificado, sem decodificar completamente o fluxo de bits para produzir áudio, também podem se beneficiar de aspectos da presente invenção.
Erro no Cálculo de Potência de Expoentes Dolby Digital
Os expoentes Dolby Digital E(k) representam uma quantificação bruta do logaritmo dos coeficientes de espectro de MDCT. Há um número de fontes de erro, quando usando esses valores como um espectro de potência bruto.
Primeiro, no Dolby Digital, o próprio processo de quantificação resulta em erro médio de, aproximadamente, 2,7 dB, quando comparando os valores do espectro de potência gerado dos expoentes (veja equação 1, acima) e os valores de potência, calculados diretamente dos coeficientes de MDCT. Esse erro médio, que foi determinado, experimentalmente, pode ser 20 incorporado no deslocamento constante C na Equação 7, acima.
Em segundo lugar, sob certas condições de sinal, tais como transientes, valores de expoentes são agrupados através de freqüência (referido como modos D25 e D45, no documento A/52A, citado acima). Esse agrupamento através de freqüência faz com que o erro médio de expoente 25 seja menos predizível e, assim, mais difícil de levar em conta pela incorporação na constante C da Equação 7. Na prática, o erro devido a esse agrupamento pode ser ignorado por duas razões: (1) o agrupamento é usado raramente e (2) a natureza dos sinais para os quais o agrupamento é usado resulta em um erro médio medido, que é similar ao caso de média não deter30 minada.
Implementação
A invenção pode ser implementada em hardware ou software, ou
-cr 0 &4,· %
Ο./Λ uma combinação de ambos (por exemplo, arranjos lógicos programáveis). A ~ menos que de outro modo especificado, os algoritmos ou processos incluídos como parte da invenção não estão, inerentemente, relacionados com qualquer computador particular ou outro aparelho. Em particular, várias máquinas para fins gerais podem ser usadas como programas escritos de acordo com os ensinamentos aqui, ou pode ser mais conveniente construir aparelho mais especializado (por exemplo, circuitos integrados) para realizar as etapas do método requeridas. Desse modo, a invenção pode ser implementada em um ou mais programas de computador, executando em um ou mais sistemas de computador programáveis, cada um compreendendo pelo menos um processador, pelo menos um sistema de armazenamento de dados (incluindo memória não volátil e/ ou elementos de armazenamento), pelo menos um dispositivo ou porta de entrada e pelo menos um dispositivo ou porta de saída. O código de programa é aplicado aos dados de entrada para realizar as funções aqui descritas e gerar informação de saída. A informação de saída é aplicada a um ou mais dispositivos de saída, de modo conhecido.
Cada um desses programas pode ser implementado em qualquer linguagem de computador desejada (incluindo máquina, montagem, ou procedimento de nível elevado, lógica ou linguagens de programação orientadas em objeto) para se comunicar com um sistema de computador. Em qualquer caso, a linguagem pode ser uma linguagem compilada ou interpretada.
Será apreciado que algumas etapas ou funções mostradas nas figuras exemplificativas realizam múltiplas subetapas e também podem ser mostradas como múltiplas etapas ou funções, em lugar de uma etapa ou função. Também será apreciado que vários dispositivos, funções, etapas e processos mostrados e descritos aqui em vários exemplos podem ser mostrados combinados ou separados de outras maneiras que não conforme mostrado nas várias figuras. Por exemplo, quando implementadas por se30 qüências de instrução de software de computador, várias funções e etapas das figuras exemplificativas podem ser implementadas por seqüências de instrução de software multiencadeadas, executando em hardware de pro
cessamento de sinal digital adequado, em cujo caso os vários dispositivos e funções nos exemplos mostrados nas figuras pode corresponder às porções das instruções de software.
Cada programa desse computador, de preferência, é armazena5 do ou baixado para um meio ou dispositivo de armazenamento (por exemplo, memória de estado sólido ou média, ou meios magnéticos ou óticos) legíveis por um computador programável para fins gerais ou especiais para configuração e operação do computador quando os meios ou dispositivo de
armazenamento é lido pelo sistema de computador para realizar os procedimentos aqui descritos. O sistema da invenção também pode ser considerado para ser implementado como um meio de armazenamento legível em computador, configurado com um programa de computador, onde o meio de armazenamento assim configurado faz com que um sistema de computador opere em uma maneira específica e predeterminada para realizar as funções aqui descritas.
Um número de modalidades da invenção foi descrito. Não obstante, será compreendido que várias modificações podem ser feitas, sem afastamento do espírito e do escopo da invenção. Por exemplo, algumas das etapas aqui descritas podem ser independentes de ordem e, assim, pode ser realizado em uma ordem diferente daquela descrita,

Claims (1)

  1. REIVINDICAÇÕES
    1. Método para medir a intensidade de áudio codificado em um
    fluxo de dados, caracterizado por compreender as seguintes etapas: aproximar o espectro de potência do áudio sem decodificar 5 completamente o áudio; e aproximar a intensidade do áudio a partir da aproximação do espectro de potência. 2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que os referidos dados incluem representações brutas do áudio e representações mais finas associadas do áudio, e em que a referida aproximação do espectro de potência do áudio é derivada das representações brutas do áudio, 3. Método, de acordo com a reivindicação 2, caracterizado pelo fato de que o áudio é sub-banda codificada, usando sub-bandas de freqüên- 15 cia, cada uma das sub-bandas de frequência tendo um fator de escala e dados de amostra associados com os mesmos, e em que as representações brutas do áudio compreendem fatores de escala e as representações mais finas associadas do áudio compreendem dados de amostra associados com cada fator de escala. 20 r 4. Método, de acordo com a reivindicação 3, caracterizado pelo fato de que o fator de escala e os dados de amostra de cada sub-banda representam coeficientes espectrais na sub-banda pela notação exponencial em que o fator de escala compreende um expoente e os dados de amostra____ associados compreendem mantissas. 25 5. Método, de acordo com qualquer uma das reivindicações de 1 a 4, caracterizado pelo fato de que o áudio é AC-3 codificado. 6. Método, de acordo com a reivindicação 2, caracterizado pelo fato de que o áudio codificado é codificado preditivo linear onde as representações brutas do áudio compreendem coeficientes preditivos lineares, e 30 as representações mais finas do áudio compreendem informação de excitação associada com os coeficientes preditivos lineares. 7. Método, de acordo com a reivindicação 2, caracterizado pelo
    Ο
    9-. ./ 'Ο \V‘ ^<7^ .. vC?
    fato de que as representações brutas do áudio compreendem um envelope ’ espectral, e as representações mais finas do áudio compreendem componentes espectrais associados com o envelope espectral.
    8. Método, de acordo com qualquer uma das reivindicações de 1 a 7, caracterizado pelo fato de que aproximar o áudio inclui aplicar uma medição de intensidade de potência ponderada.
    9. Método, de acordo com a reivindicação 8, caracterizado pelo fato de que a medição de intensidade de potência ponderada emprega um filtro que tira ênfase de freqüências menos perceptíveis e determina a média da potência do áudio filtrado ao longo do tempo.
    10. Método, de acordo com qualquer uma das reivindicações de
    1 a 7, caracterizado pelo fato de que aproximar a intensidade do áudio em resposta à aproximação do espectro de potência do áudio inclui aplicar uma medição de intensidade psicoacústica.
    11. Método, de acordo com a reivindicação 10, caracterizado pelo fato de que a medição de intensidade psicoacústica emprega um modelo do ouvido humano para determinar intensidade específica em cada uma de uma pluralidade de bandas de freqüência similares às bandas críticas do
    20 ouvido humano.
    12. Método, de acordo com a reivindicação 10 como dependente da reivindicação 3 ou 4 caracterizado pelo fato de que as sub-bandas são similares às bandas críticas do ouvido humano e_______ ___________ .
    a medição de intensidade psicoacústica emprega um modelo do
    25 ouvido humano para determinar intensidade específica em cada uma das sub-bandas.
BRPI0610441A 2005-04-13 2006-03-23 medição econômica de intensidade de áudio codificado BRPI0610441B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US67138105P 2005-04-13 2005-04-13
US60/671,381 2005-04-13
PCT/US2006/010823 WO2006113047A1 (en) 2005-04-13 2006-03-23 Economical loudness measurement of coded audio

Publications (2)

Publication Number Publication Date
BRPI0610441A2 BRPI0610441A2 (pt) 2010-06-22
BRPI0610441B1 true BRPI0610441B1 (pt) 2019-01-02

Family

ID=36636608

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0610441A BRPI0610441B1 (pt) 2005-04-13 2006-03-23 medição econômica de intensidade de áudio codificado

Country Status (16)

Country Link
US (1) US8239050B2 (pt)
EP (1) EP1878307B1 (pt)
JP (1) JP5219800B2 (pt)
KR (1) KR101265669B1 (pt)
CN (1) CN100589657C (pt)
AT (1) ATE527834T1 (pt)
AU (1) AU2006237476B2 (pt)
BR (1) BRPI0610441B1 (pt)
CA (1) CA2604796C (pt)
ES (1) ES2373741T3 (pt)
HK (1) HK1113452A1 (pt)
IL (1) IL186046A (pt)
MX (1) MX2007012735A (pt)
MY (1) MY147462A (pt)
TW (1) TWI397903B (pt)
WO (1) WO2006113047A1 (pt)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
AU2005219956B2 (en) 2004-03-01 2009-05-28 Dolby Laboratories Licensing Corporation Multichannel audio coding
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
EP1805891B1 (en) 2004-10-26 2012-05-16 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
MX2007015118A (es) 2005-06-03 2008-02-14 Dolby Lab Licensing Corp Aparato y metodo para codificacion de senales de audio con instrucciones de decodificacion.
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
JP5129806B2 (ja) 2006-04-27 2013-01-30 ドルビー ラボラトリーズ ライセンシング コーポレイション 特定ラウドネスに基づく聴覚イベント検出を使用する音声ゲイン制御
EP2082480B1 (en) 2006-10-20 2019-07-24 Dolby Laboratories Licensing Corporation Audio dynamics processing using a reset
JP4862136B2 (ja) * 2006-12-08 2012-01-25 株式会社Jvcケンウッド 音声信号処理装置
US8275153B2 (en) * 2007-04-16 2012-09-25 Evertz Microsystems Ltd. System and method for generating an audio gain control signal
ES2377719T3 (es) 2007-07-13 2012-03-30 Dolby Laboratories Licensing Corporation Procesamiento de audio utilizando un análisis de escenas auditivas y oblicuidad espectral.
EP2232700B1 (en) 2007-12-21 2014-08-13 Dts Llc System for adjusting perceived loudness of audio signals
JP5270006B2 (ja) * 2008-12-24 2013-08-21 ドルビー ラボラトリーズ ライセンシング コーポレイション 周波数領域におけるオーディオ信号ラウドネス決定と修正
US9055374B2 (en) * 2009-06-24 2015-06-09 Arizona Board Of Regents For And On Behalf Of Arizona State University Method and system for determining an auditory pattern of an audio segment
US8538042B2 (en) * 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
TWI409802B (zh) * 2010-04-14 2013-09-21 Univ Da Yeh 音頻特徵處理方法及其裝置
US8731216B1 (en) * 2010-10-15 2014-05-20 AARIS Enterprises, Inc. Audio normalization for digital video broadcasts
TW202405797A (zh) * 2010-12-03 2024-02-01 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
US9620131B2 (en) 2011-04-08 2017-04-11 Evertz Microsystems Ltd. Systems and methods for adjusting audio levels in a plurality of audio signals
JP6185457B2 (ja) * 2011-04-28 2017-08-23 ドルビー・インターナショナル・アーベー 効率的なコンテンツ分類及びラウドネス推定
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
US9378748B2 (en) 2012-11-07 2016-06-28 Dolby Laboratories Licensing Corp. Reduced complexity converter SNR calculation
DE13750900T1 (de) * 2013-01-08 2016-02-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verbesserung der Sprachverständlichkeit bei Hintergrundrauschen durch SII-abhängige Amplifikation und Kompression
CN203134365U (zh) * 2013-01-21 2013-08-14 杜比实验室特许公司 用于利用响度处理状态元数据处理音频的音频解码器
PL2901449T3 (pl) 2013-01-21 2018-05-30 Dolby Laboratories Licensing Corp Koder i dekoder audio z metadanymi głośności i granicy programu
JP2016520854A (ja) * 2013-03-21 2016-07-14 インテレクチュアル ディスカバリー カンパニー リミテッド オーディオ信号大きさの制御方法及び装置
CN104681034A (zh) * 2013-11-27 2015-06-03 杜比实验室特许公司 音频信号处理
US9503803B2 (en) 2014-03-26 2016-11-22 Bose Corporation Collaboratively processing audio between headset and source to mask distracting noise
ES2916254T3 (es) 2014-10-10 2022-06-29 Dolby Laboratories Licensing Corp Sonoridad de programa basada en la presentación, independiente de la transmisión
US10070219B2 (en) * 2014-12-24 2018-09-04 Hytera Communications Corporation Limited Sound feedback detection method and device
KR101712334B1 (ko) 2016-10-06 2017-03-03 한정훈 화음 음정 정확도 평가 방법 및 장치
US10375131B2 (en) 2017-05-19 2019-08-06 Cisco Technology, Inc. Selectively transforming audio streams based on audio energy estimate
US11594241B2 (en) * 2017-09-26 2023-02-28 Sony Europe B.V. Method and electronic device for formant attenuation/amplification
US11330370B2 (en) * 2018-02-15 2022-05-10 Dolby Laboratories Licensing Corporation Loudness control methods and devices
CN111045633A (zh) * 2018-10-12 2020-04-21 北京微播视界科技有限公司 用于检测音频信号的响度的方法和装置

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4953112A (en) * 1988-05-10 1990-08-28 Minnesota Mining And Manufacturing Company Method and apparatus for determining acoustic parameters of an auditory prosthesis using software model
US5632005A (en) 1991-01-08 1997-05-20 Ray Milton Dolby Encoder/decoder for multidimensional sound fields
WO1992012607A1 (en) 1991-01-08 1992-07-23 Dolby Laboratories Licensing Corporation Encoder/decoder for multidimensional sound fields
GB2272615A (en) * 1992-11-17 1994-05-18 Rudolf Bisping Controlling signal-to-noise ratio in noisy recordings
JPH06324093A (ja) 1993-05-14 1994-11-25 Sony Corp オーディオ信号のスペクトル表示装置
US5623577A (en) * 1993-07-16 1997-04-22 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions
US5727119A (en) 1995-03-27 1998-03-10 Dolby Laboratories Licensing Corporation Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase
JP3519859B2 (ja) * 1996-03-26 2004-04-19 三菱電機株式会社 符号器及び復号器
US6430533B1 (en) * 1996-05-03 2002-08-06 Lsi Logic Corporation Audio decoder core MPEG-1/MPEG-2/AC-3 functional algorithm partitioning and implementation
US6185309B1 (en) * 1997-07-11 2001-02-06 The Regents Of The University Of California Method and apparatus for blind separation of mixed and convolved sources
WO1999012292A1 (en) * 1997-08-29 1999-03-11 Sgs-Thomson Microelectronics Asia Pacific (Pte) Ltd. Fast synthesis sub-band filtering method for digital signal decoding
CN1214690C (zh) * 1997-09-05 2005-08-10 雷克西康公司 5-2-5矩阵编码器和解码器系统
JP2000075897A (ja) * 1998-08-28 2000-03-14 Nippon Telegr & Teleph Corp <Ntt> 符号化された音声データの削減方法、及び装置、及びそのプログラムを格納した記録媒体
JP2001141748A (ja) 1999-11-17 2001-05-25 Sony Corp 信号レベル表示装置
US6778966B2 (en) * 1999-11-29 2004-08-17 Syfx Segmented mapping converter system and method
FR2802329B1 (fr) * 1999-12-08 2003-03-28 France Telecom Procede de traitement d'au moins un flux binaire audio code organise sous la forme de trames
AUPQ952700A0 (en) * 2000-08-21 2000-09-14 University Of Melbourne, The Sound-processing strategy for cochlear implants
JP3811605B2 (ja) * 2000-09-12 2006-08-23 三菱電機株式会社 電話装置
JP2002268687A (ja) * 2001-03-07 2002-09-20 Matsushita Electric Ind Co Ltd 情報量変換装置及び情報量変換方法
GB2385420A (en) * 2002-02-13 2003-08-20 Broadcast Project Res Ltd Measuring the perceived loudness of an audio signal
DE10236694A1 (de) * 2002-08-09 2004-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
CN2582311Y (zh) * 2002-11-29 2003-10-22 张毅 音调响度测试仪
DE602004023917D1 (de) 2003-02-06 2009-12-17 Dolby Lab Licensing Corp Kontinuierliche audiodatensicherung
DE602004008455T2 (de) 2003-05-28 2008-05-21 Dolby Laboratories Licensing Corp., San Francisco Verfahren, vorrichtung und computerprogramm zur berechung und einstellung der wahrgenommenen lautstärke eines audiosignals
US7912226B1 (en) * 2003-09-12 2011-03-22 The Directv Group, Inc. Automatic measurement of audio presence and level by direct processing of an MPEG data stream

Also Published As

Publication number Publication date
CN101161033A (zh) 2008-04-09
JP5219800B2 (ja) 2013-06-26
CN100589657C (zh) 2010-02-10
AU2006237476A1 (en) 2006-10-26
ES2373741T3 (es) 2012-02-08
US20090067644A1 (en) 2009-03-12
HK1113452A1 (en) 2008-10-03
MY147462A (en) 2012-12-14
US8239050B2 (en) 2012-08-07
AU2006237476B2 (en) 2009-12-17
EP1878307A1 (en) 2008-01-16
MX2007012735A (es) 2008-01-11
CA2604796C (en) 2014-06-03
KR20070119683A (ko) 2007-12-20
ATE527834T1 (de) 2011-10-15
TW200641797A (en) 2006-12-01
TWI397903B (zh) 2013-06-01
CA2604796A1 (en) 2006-10-26
BRPI0610441A2 (pt) 2010-06-22
WO2006113047A1 (en) 2006-10-26
EP1878307B1 (en) 2011-10-05
KR101265669B1 (ko) 2013-05-23
IL186046A (en) 2011-11-30
JP2008536192A (ja) 2008-09-04
IL186046A0 (en) 2008-02-09

Similar Documents

Publication Publication Date Title
BRPI0610441B1 (pt) medição econômica de intensidade de áudio codificado
EP2002426B1 (en) Audio signal loudness measurement and modification in the mdct domain
US6934677B2 (en) Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
CN111009249B (zh) 编码器/解码器、编码/解码方法和非瞬时性存储介质
JP4673882B2 (ja) 推定値を決定するための方法および装置
US20110075855A1 (en) method and apparatus for processing audio signals
CN106847303B (zh) 支持谐波音频信号的带宽扩展的方法、设备和记录介质
KR20060088542A (ko) 오디오 인코딩에서 mdct 데이터에 기초한 윈도우유형의 결정 방법
US8217811B2 (en) Bitcount determination for iterative signal coding
JP2002182695A (ja) 高能率符号化方法及び装置
Dhas et al. Designing a Hybrid Codec with the help of Integer-MDCT and to estimate the audio quality by means of SPL and CR
Niamut et al. RD Optimal Temporal Noise Shaping for Transform Audio Coding

Legal Events

Date Code Title Description
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 02/01/2019, OBSERVADAS AS CONDICOES LEGAIS.