BR112012026984B1 - aparelho e método para modificar um sinal de áudio de entrada - Google Patents

aparelho e método para modificar um sinal de áudio de entrada Download PDF

Info

Publication number
BR112012026984B1
BR112012026984B1 BR112012026984-4A BR112012026984A BR112012026984B1 BR 112012026984 B1 BR112012026984 B1 BR 112012026984B1 BR 112012026984 A BR112012026984 A BR 112012026984A BR 112012026984 B1 BR112012026984 B1 BR 112012026984B1
Authority
BR
Brazil
Prior art keywords
value
parameter
excitation
sub
excitation parameter
Prior art date
Application number
BR112012026984-4A
Other languages
English (en)
Other versions
BR112012026984A2 (pt
Inventor
Christian Uhle
Jürgen Herre
Oliver Hellmuth
Stefan Finauer
Original Assignee
Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. filed Critical Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V.
Publication of BR112012026984A2 publication Critical patent/BR112012026984A2/pt
Publication of BR112012026984B1 publication Critical patent/BR112012026984B1/pt

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/32Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/005Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/02Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
    • H03G9/025Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers frequency-dependent volume compression or expansion, e.g. multiple-band systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

PARELHO E MÉTODO PARA MODIFICAR UM SINAL DE ÁUDIO DE ENTRADA Um aparelho para modificar um sinal de áudio de entrada compreende um determinado de excitação, um dispositivo de armazenamento e um modificador de sinal. O determinador de excitação determina um valor de um parâmetro de excitação de uma subfaixa de uma pluralidade de subfaixas do sinal de áudio de entrada com bse em um conteúdo de energia da subfaixa. Ainda, o dispositivo de armazenamento armazena uma tabela de consulta que contém uma pluralidade de fatores de ponderação espectral. Um fator de ponderação espectral da pluralidade de fatores de ponderação espectral é associado um valor predefinido do parâmetro de excitação e uma subfaixa da pluralidade de subfaixas. O dispositivo de armazenamento provê um fator de ponderação espectral correspondente ao valor determinado do parâmetro de excitação e correspondente à subfaixa, para a qual o valor de parâmetro de excitação é determinado.

Description

DESCRIÇÃO
As realizações, de acordo com a invenção, referem-se ao processamento de sinal de áudio e, particularmente, a um aparelho e método para modificar um sinal de áudio de entrada.
Houve muitas tentativas de desenvolver um método objetivo satisfatório de medição de ruido. Fletcher e Munson determinaram, em 1933, que a audição humana é menos sensivel em frequências baixas e altas do que em frequências médias (ou voz) . Eles também descobriram que a alteração relativa na sensibilidade reduziu conforme o nivel do som aumentou. Um medidor de ruido anterior consistiu em um microfone, amplificador, medidor e uma combinação de filtros designados para imitar aproximadamente a resposta de frequência de audição em niveis sonoros baixos, médios e altos.
Embora esses dispositivos provessem uma medição do ruido de um único tom isolado, de nivel constante, as medições de sons mais complexos não corresponderam às impressões subjetivas de ruido muito bem. Medidores de nivel sonoro desse tipo foram padronizados, mas são somente utilizados para tarefas especificas, como monitoramento e controle de ruido industrial.
No inicio dos anos 50, Zwicker e Stevens, entre outros, estenderem o trabalho de Fletcher e Munson no desenvolvimento de um modelo mais realístico do processo de percepção de ruido. Stevens publicou um método para "Calculation of the Loudness of Complex Noise" no Journal of the Acoustical
Society of America em 1956, e Zwicker publicou seu artigo "Psychological e Methodical Basis of Loudness" em Acoustica em ■ 1958. Em 1959, Zwicker publicou um procedimento gráfico para cálculo de ruído, assim como diversos arquivos semelhantes 5 resumidamente depois. Os métodos de Stevens e Zwicker foram padronizados como ISO 532, partes A e B (respectivamente) . Ambos os métodos envolvem etapas semelhantes.
Primeiro, a distribuição variante no tempo de energia ao longo da membrana basilar do ouvido interno, mencionada 10 como excitação, é simulada ao passar o áudio através de filtros auditivos de faixa de passagem com frequências centrais espaçadas uniformemente em uma escala de taxa de faixa crítica. Cada filtro auditivo é designado para simular a resposta de frequência em uma localização particular ao longo da membrana basilar do ouvido 15 interno, com a frequência central do filtro correspondendo a essa localização. Uma amplitude de faixa crítica é definida como a amplitude de faixa desse um filtro. Medida em unidades de Hertz, a amplitude de faixa crítica desses filtros auditivos aumenta com o aumento da frequência central. Portanto, é útil definir uma escala 20 de frequência curva, de modo que a amplitude de faixa crítica para todos os filtros auditivos medidos nessa escala curva seja constante. Essa escala curva é mencionada como a escala de taxa de faixa crítica e é muito útil no entendimento e simulação de uma ampla variedade de fenômenos psicoacústicos. Vide, por exemplo, 25 Psychoacoustics-Facts e Models de E. Zwicker e H. Fasti, Springer- Verlag, Berlin, 1990. Os métodos de Stevens e Zwicker utilizam uma escala de taxa de faixa crítica mencionada como escala de Bark, na qual a amplitude de faixa crítica é constante, abaixo de 500 Hz, e aumenta acima de 500 Hz. Mais recentemente, Moore e Glasberg definiram uma escala de taxa de faixa critica, que eles nomearam de escala de Amplitude de Faixa Retangular Equivalente (ERB) (B. C. J. Moore, B. Glasberg, T. Baer, "A Model for the Prediction of Thresholds, Loudness, and Partial Loudness", Journal of the Audio Engineering Society, Vol. 45, No. 4, April 1997, pp. 224-240) . Por meio de experimentos psicoacústicos utilizando mascaradores de ruido por tom, Moore e Glasberg demonstraram que a amplitude de faixa critica continua a reduzir abaixo de 500 Hz, ao contrário da escala de Bark, na qual a amplitude de faixa critica permanece constante.
O termo "faixa critica" retorna ao trabalho de Harvey Fletcher, em 1938, sobre o mascaramento da sensação sonora por sinais acompanhantes ("J. B. Allen, "A short history of telephone psychophysics", Audio Eng. Soc. Convention, 1997"). Faixas criticas podem ser expressas utilizando a escala de Bark proposta por Zwicker em 1961: cada faixa critica tem a amplitude de um Bark (uma unidade nomeada após Heinrich Barkhausen) . Ao longo dos bancos de filtros que imitam a percepção auditiva humana existem, por exemplo, a escala de Amplitude de Faixa Retangular (ERB) ("B. C. J. Moore, B. R. Glasberg and T. Baer, "A model for the prediction of thresholds, loudness, and partial loudness", J. Audio Eng. Soc., 1997").
O termo "ruido especifico" descreve a sensação de ruido causada por um sinal em uma determinada região da membrana basilar a uma determinada amplitude de faixa de frequência medida em faixas criticas. Ela é medida em unidades de Sone/Bark. O termo "faixa critica" se refere às faixas de frequência de um banco de filtros auditivos que compreende banco de filtros de faixa de passagem não uniformes designados para imitar a resolução de frequência da audição humana. O ruido geral de um som se iguala à soma/integral do ruido especifico ao longo de todas as faixas criticas.
Um método para processamento de um sinal de áudio foi descrito em "A. J. Seefeldt, "Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal", Patente Norte-Americana 2009/0097676, 2009. Esse método visa o controle do ruido especifico do sinal de áudio, com aplicações ao controle de volume, controle de variação dinâmica, equalização dinâmica e compensação de ruido de base. Nesse documento, um sinal de áudio de entrada (normalmente no domínio de frequência) é modificado, de modo que seu ruido especifico corresponda a um ruido especifico alvo.
Para ilustrar a vantagem do processamento, conforme apresentado em "A. J. Seefeldt, "Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal". A Patente Norte-Americana 2009/0097676, 2009, considera o controle de volume de um sinal de áudio. A modificação do nivel de um sinal de áudio na reprodução sonora normalmente visa à alteração de seu ruido percebido. Dito diferentemente, o controle do ruido é tradicionalmente implementado como o controle no nivel sonoro. Entretanto, nossa experiência diária e o conhecimento psicoacústico indicam que isso não é ideal.
A sensibilidade da audição humana varia tanto em frequência como em nivel, de modo que uma redução do nivel da intensidade sonora atenue a sensação de frequências baixa e alta (por exemplo, cerca de 100 Hz e 10000 Hz, respectivamente) mais que a sensação de frequências médias (por exemplo, entre 2000 e 4000 Hz) . Ao reduzir o nivel da reprodução de um nivel "ruidoso confortável" (por exemplo, 75-80 dBA) a um nivel menor, por exemplo, em 18 dB, o balanço espectral percebido do sinal de áudio muda. Isso é ilustrado nos Contornos de Ruido Iguais bem conhecidos, geralmente mencionados como Curvas de Fletcher-Munson (após os pesquisadores que mediram primeiro os Contornos de Ruido Iguais em 1933) . O Contorno de Ruido Igual apresenta o nivel de pressão sonora (SPL) sobre o espectro de frequência, para o qual um ouvinte percebe um ruido constante quando apresentado com tons fixos puros.
Os contornos de Ruido Iguais são retratados, por exemplo, em "B. C. J. Moore, B. R. Glasberg and T. Baer, "A model for the prediction of thresholds, loudness, and partial loudness", J. Audio Eng. Soc., 1997), p. 232, Figure 13". Uma medição revisada foi padronizada como ISO 226:2003 em 2003.
Consequentemente, o controle de ruido convencional não altera somente o ruido, mas também o timbre. O impacto desse efeito depende do SPL (é menos pronunciado ao alterar o SPL, por exemplo, de 86 dBA para 68 dBA, comparado a uma alteração de 76 dBA para 58 dBA), mas isso não é desejado em todas as classes.
Isso é compensado pelo processamento, conforme descrito em "A. J. Seefeldt, "Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal". Patente Norte-Americana 2009/0097676, 2009".
A Figura 7 apresenta um fluxograma de um método 700 descrito em "A. J. Seefeldt, "Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal". Patente Norte-Americana 2009/0097676, 2009".
P sinal de saida é processado ao calcular 710 o sinal de excitação, calcular 720 o ruido especifico, calcular 730 o ruido especifico alvo, calcular 740 o sinal de excitação alvo, calcular 750 as ponderações espectrais e aplicar 760 as ponderações espectrais ao sinal de entrada e sintetizar novamente o sinal de saida.
As ponderações espectrais H são ponderações das faixas de frequência que dependem do ruido especifico do sinal de entrada e do ruido especifico alvo. Seu cálculo, conforme descrito em "A. J. Seefeldt, "Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal". Patente Norte-Americana 200,9/0097 67 6, 2009)", compreende o cálculo do ruido especifico e o processo inverso do cálculo do ruido especifico, que é aplicado ao ruido especifico alvo.
Ambas as etapas de processamento introduzem uma alta carga computacional. Os métodos para o cálculo do ruido especifico foram apresentados em "E. Zwicker, H. Fasti, U. Widmann, K. Kurakata, S. Kuwano and S. Namba, "Program for calculating loudness according to DIN 45631 (ISO 532 B)", J. Acoust. Soc. Jpn. (E) , vol. 12, 1991" e ”B. C. J. Moore, B. R. Glasberg and T. Baer, "A model for the prediction of thresholds, loudness, and partial loudness", J. Audio Eng. Soc., 1997".
É o objetivo da presente invenção prover um conceito aprimorado para modificar sinais de áudio para permitir uma implementação eficiente com baixa complexidade computacional.
Esse objetivo é solucionado por um aparelho, de acordo com a reivindicação 1, ou um método, de acordo com a reivindicação 20. Uma realização da invenção provê um aparelho para modificar um sinal de áudio de entrada compreendendo um determinador de excitação, um dispositivo de armazenamento e um modificador de sinal. 0 determinador de excitação é configurado para determinar um valor de um parâmetro de excitação de uma subfaixa de uma pluralidade de subfaixas do sinal de áudio de entrada com base em um conteúdo de energia do sinal de subfaixa. 0 dispositivo de armazenamento é configurado para armazenar uma tabela de consulta contendo uma pluralidade de fatores de ponderação espectral, em que um fator de ponderação espectral da pluralidade de fatores de ponderação espectral é associado a um valor predefinido do parâmetro de excitação e uma subfaixa da pluralidade de subfaixas. Ainda, o dispositivo de armazenamento é configurado para prover um fator de ponderação espectral correspondente ao valor determinado do parâmetro de excitação e correspondente à subfaixa para a qual o valor do parâmetro de excitação é determinado. 0 modificador de sinal é configurado para modificar um conteúdo da subfaixa do sinal de áudio de entrada, para o qual o parâmetro de excitação é determinado, com base no fator de ponderação espectral provido para prover uma subfaixa modificada.
As realizações, de acordo com a presente invenção, têm base na ideia central que as subfaixas de um sinal de áudio podem ser modificadas facilmente ao utilizar uma tabela de consulta contendo fatores de ponderação espectral, que podem ser escolhidos dependendo da respectiva subfaixa e parâmetro de excitação da subfaixa. Para isso, a tabela de consulta contém fatores de ponderação espectral para uma pluralidade de valores predefinidos do parâmetro de excitação para pelo menos uma subfaixa predefinida da pluralidade de subfaixas. Ao utilizar a tabela de consulta, a complexidade computacional pode ser significativamente reduzida, uma vez que um cálculo explicito dos fatores de ponderação espectral (que inclui o cálculo do ruido, sua modificação e o processamento inverso da computação de ruido) não é necessário. Portanto, uma implementação eficiente é permitida.
Em algumas realizações, de acordo com a invenção, o determinador de excitação determina um valor de um parâmetro de excitação nem para todas as subfaixas da pluralidade de subfaixas. Ainda, a tabela de consulta contém somente fatores de ponderação espectral associados às subfaixas, para as quais um valor de um parâmetro de excitação é determinado. Dessa forma, o espaço de armazenamento necessário da tabela de consulta e o esforço computacional para o determinador de excitação pode ser reduzido.
Algumas realizações, de acordo com a invenção, referem-se a uma tabela de consulta compreendendo exatamente três dimensões associadas a valores predefinidos do parâmetro de excitação, a subfaixas da pluralidade de subfaixas e a valores predefinidos de um parâmetro de modificação externo.
Algumas realizações adicionais, de acordo com a invenção, referem-se a uma tabela de consulta compreendendo exatamente quatro dimensões associadas a valores predefinidos do parâmetro de excitação, a subfaixas da pluralidade de subfaixas, a valores predefinidos do parâmetro de modificação externo e a valores predefinidos de um parâmetro de ruido de base.
As realizações, de acordo com a invenção, serão detalhadas subsequentemente com referência aos desenhos anexos, nos quais: A Figura 1 é um diagrama de blocos de um aparelho para modificar um sinal de áudio de entrada; A Figura 2 é uma ilustração esquemática de contornos de ruido iguais; A Figura 3 é uma ilustração esquemática de contornos de ruido iguais normalizados por filtros de transmissão; A Figura 4 é um diagrama de blocos de um aparelho para modificar um sinal de áudio de entrada;
A Figura 5 é um fluxograma de um método para modificar um sinal de áudio de entrada; A Figura 6 é um fluxograma de um método para modificar um sinal de áudio de entrada; e A Figura 7 é um fluxograma de um método conhecido para modificar um sinal de áudio de entrada. A seguir, os mesmos números de referência são parcialmente utilizados para objetos e unidades funcionais tendo as mesmas propriedades funcionais ou semelhantes e sua descrição em relação a uma figura também deve ser aplicar a outras figuras, a fim de reduzir a redundância na descrição das realizações. A Figura 1 apresenta um diagrama de blocos de um aparelho 100 para modificar um sinal de subfaixa de áudio de entrada 102, de acordo com uma realização da invenção. 0 aparelho 100 compreende um determinador de excitação 110, um dispositivo de armazenamento 120 e um modificador de sinal 130. O determinador de excitação 110 é conectado ao dispositivo de armazenamento 120 e o dispositivo de armazenamento 120 é conectado ao modificador de sinal 130. O determinador de excitação 110 determina um valor 112 de um parâmetro de excitação de uma subfaixa 102 de uma pluralidade de subfaixas do sinal de áudio de entrada 102, com base em um conteúdo de energia da subfaixa 102. O dispositivo de armazenamento 120 armazena uma tabela de consulta contendo uma pluralidade de fatores de ponderação espectral, em que um fator de ponderação espectral 124 da pluralidade de fatores de ponderação espectral é associado a um valor predefinido do parâmetro de excitação e a subfaixa da pluralidade de subfaixas. Ainda, o dispositivo de armazenamento 120 provê um fator de ponderação espectral 124 correspondente ao valor determinado 112 do parâmetro de excitação e correspondente à subfaixa 102, para a qual o valor 112 do parâmetro de excitação é determinado. O modificador de sinal 130 modifica um conteúdo da subfaixa 102 do sinal de áudio de entrada, para o qual o valor 112 do parâmetro de excitação é determinado, com base no fator de ponderação espectral 124 provido para obter e prover uma subfaixa modificada 132.
Ao utilizar uma tabela de consulta para prover fatores de ponderação espectral 124 para modificar o sinal de áudio de entrada, a complexidade computacional pode ser significativamente reduzida comparada aos conceitos conhecidos.
O determinador de excitação 110 determina um valor 112 de um parâmetro de excitação com base em um conteúdo de energia da subfaixa 102. Isso pode ser feito, por exemplo, ao medir o conteúdo de energia de uma subfaixa 102 para determinar o valor 112 do parâmetro de excitação para a subfaixa 102. Dessa forma, um parâmetro de excitação pode representar uma medida para uma energia por subfaixa ou uma energia de curto prazo em uma subfaixa especifica, uma vez que o conteúdo de energia pode varia no tempo e/ou entre diferentes subfaixas. De maneira alternativa, o valor do parâmetro de excitação pode ser determinado com base em uma função (exclusiva, injetiva, bijetiva) da energia de curto prazo de uma subfaixa (por exemplo, uma função exponencial, uma função logarítmica ou uma função linear). Por exemplo, uma função de quantificação pode ser utilizada. Nesse exemplo, o determinador de excitação 110 pode medir um conteúdo de energia da subfaixa e pode quantificar o conteúdo de energia da subfaixa medido para obter o valor do parâmetro de excitação, de modo que o valor do parâmetro de excitação seja igual a um valor predefinido do parâmetro de excitação. Em outras palavras, um valor de energia medido pode ser atribuído a um valor predefinido do parâmetro de excitação (por exemplo, o valor predefinido mais próximo do parâmetro de excitação). De maneira alternativa, o valor do parâmetro de excitação indica diretamente o conteúdo de energia medido e o dispositivo de armazenamento 120 pode atribuir o valor determinado do parâmetro de excitação a um valor predefinido do parâmetro de excitação.
As subfaixas do sinal de áudio de entrada podem representar diferentes faixas de frequência do sinal de áudio de entrada. Para levar em consideração uma distribuição perceptual das faixas de frequência, as subfaixas podem ser distribuídas, por exemplo, de acordo com a escala de ERB ou a escala de Bark ou outro espaçamento de frequência que imita a resolução de frequência do ouvido humano. Em outras palavras, as subfaixas da pluralidade de subfaixas do sinal de áudio de entrada podem ser divididas de acordo com a escala de ERB ou a escala de Bark.
O dispositivo de armazenamento 120 compreende uma entrada para o parâmetro de excitação (sinal de excitação) e pára um indice de subfaixa que indica a subfaixa 102, para a qual o valor 112 do parâmetro de excitação é determinado. De maneira alternativa, o dispositivo de armazenamento compreende uma ou mais entradas adicionais para parâmetros adicionais.
O dispositivo de armazenamento 120 pode ser um meio de armazenamento digital, por exemplo, uma memória somente de leitura (ROM) , um disco rígido, um CD, um DVD ou qualquer outro tipo de memória não volátil ou uma memória de acesso aleatório (RAM).
A tabela de consulta representa pelo menos uma matriz bidimensional contendo a pluralidade de fatores de ponderação espectral. Um fator de ponderação espectral 124 contido pela tabela de consulta é associado de maneira não ambígua a um valor predefinido do parâmetro de excitação e uma subfaixa da pluralidade de subfaixas. Em outras palavras, cada fator de ponderação espectral contido pela tabela de consulta pode ser associado a um valor predefinido do parâmetro de excitação e uma subfaixa da pluralidade de subfaixas. O dispositivo de armazenamento 120 pode prover um fator de ponderação espectral 124 associado a um valor predefinido do parâmetro de excitação mais próximo ao valor determinado 112 do parâmetro de excitação. De maneira alternativa, por exemplo, o dispositivo de armazenamento 120 pode interpolar linear ou logaritmicamente os dois fatores de ponderação espectral associados aos dois valores predefinidos do parâmetro de excitação mais próximos ao valor determinado 112 do parâmetro de excitação.
Os valores predefinidos do parâmetro de excitação podem ser linear ou logaritmicamente distribuídos.
O modificador de sinal 130 pode, por exemplo, amplificar ou atenuar o conteúdo da subfaixa 102, para a qual o valor 112 do parâmetro de excitação é determinado, pelo fator de ponderação espectral provido 124.
Ao utilizar o conceito descrito, por exemplo, uma atenuação variante da sensação da audição humana de frequências baixa, média e alta causada por um aumento ou redução do nivel de intensidade sonora de um sinal de áudio pode ser facilmente compensada. Por exemplo, ao reduzir o nivel da reprodução de um nivel para outro nivel, o balanço espectral percebido do sinal de áudio muda. Isso é ilustrado na Figura 2 e Figura 3, apresentam contornos de ruido iguais. Especialmente, na região de frequência baixa, os contornos de diferentes ruidos iguais não são paralelos entre si. Uma amplificação ou atenuação das faixas de frequência baixas, diferentes das faixas de frequência médias e/ou altas, pode ser igual a uma curvatura dos contornos de ruido iguais, de modo que possam ser paralelas ou mais paralelas que antes. Dessa forma, a alteração do balanço espectral percebido podem ser compensada ou quase compensada ao utilizar o conceito descrito.
A diferença entre os contornos de ruido iguais da Figura 2 e os contornos de ruido iguais da Figura 3 é uma normalização por um filtro de transmissão. Esse filtro de transmissão pode simular um efeito de filtração da transmissão de áudio através do ouvido externo e interno. Esse filtro de transmissão pode ser opcionalmente implementado em um aparelho apresentado na Figura 1 para filtrar o sinal de áudio de entrada antes de provê-lo ao determinador de excitação 110.
Para uma modificação mais continua do sinal de áudio de entrada, o determinador de excitação 110 pode determinar um valor 112 de um parâmetro de excitação para mais de uma subfaixa da pluralidade de subfaixas. Então, o dispositivo de armazenamento 120 pode prover um fator de ponderação espectral 124 para cada subfaixa 102, para a qual um valor 112 de um parâmetro de excitação é determinado, e o modificador de sinal 130 pode modificar um conteúdo de cada subfaixa 102, para a qual um valor 112 de um parâmetro de excitação é determinado, com base no respectivo fator de ponderação espectral provido correspondente 124 .
A pluralidade de subfaixas do sinal de áudio de entrada pode ser provida por uma unidade de memória ou pode ser gerada por um banco de filtros de análise.
Um parâmetro de excitação pode ser determinado para uma subfaixa, para mais de uma subfaixa ou para todas as subfaixas da pluralidade de subfaixas. Para isso, o aparelho 100 pode compreender somente um determinador de excitação 110 que determina um, mais de um ou todos os valores de parâmetro de excitação ou pode compreender um determinador de excitação 110 para cada subfaixa 102, para a qual um valor 112 de um parâmetro de excitação é determinado. Ainda, o aparelho 100 pode compreende um ou mais modificador isolado 130 para uma ou mais subfaixas, para as quais um parâmetro de excitação é determinado. Entretanto, é suficiente utilizar uma única tabela de consulta (e dispositivo de armazenamento) para todas as subfaixas 102, para a qual um valor 112 de um parâmetro de excitação é determinado.
O determinador de excitação 110, o dispositivo de armazenamento 120 e o modificador de sinal podem ser unidades de hardware independentes, parte de um computador, microcontrolador ou processador de sinal digital, assim como um programa de computador ou um produto de software configurado para rodar em um computador, microcontrolador ou processador de sinal digital.
A Figura 4 apresenta um diagrama de blocos de um aparelho 400 para modificar um sinal de áudio de entrada de acordo com uma realização da invenção. O aparelho 400 é semelhante ao aparelho apresentado na Figura 1, mas compreende adicionalmente um banco de filtros de análise 410 e um banco de filtros de sintese 420. O banco de filtros de análise 410 separa o sinal de áudio de entrada na pluralidade de subfaixas. Então, o determinador de excitação 110 determina um valor do parâmetro de excitação (calcula um aspecto) para uma ou mais subfaixas da pluralidade de subfaixas. Após isso, o dispositivo de armazenamento 120 provê o um ou mais fatores de ponderação espectral correspondentes a um ou mais modificadores de sinal 130. Por fim,- o banco de filtros de sintese 420 combina a pluralidade de subfaixas que contém pelo menos uma subfaixa modificada para obter e prover um sinal de áudio modificado (ou sinal de áudio de saida).
O exemplo apresentado na Figura 4 pode ser uma aplicação do método proposto para um caso genérico. O processamento, conforme apresentado para o n-ésimo sinal de subfaixa (n-ésima subfaixa), pode ser aplicado a todos os outros sinais de subfaixa (ou somente a todas as subfaixas, para a qual um valor do parâmetro de excitação é determinado) da mesma forma.
Opcionalmente, um fator de ponderação espectral contido pela tabela de consulta é ainda associado a um valor predefinido de um parâmetro de modificação externo, conforme indicado pela linha tracejada na Figura 4 (mas também aplicável ao aparelho apresentado na Figura 1) . 0 parâmetro de modificação externo (ou simplesmente o parâmetro de modificação) pode representar, por exemplo, um valor de entrada de uma interface de usuário (por exemplo, ajustes de volume e/ou de ambiente). Consequentemente, nesse caso, o dispositivo de armazenamento 120 pode prover um fator de ponderação espectral correspondente ao valor do parâmetro de modificação externo. Por exemplo, se um usuário aumentar ou diminuir o ajuste de volume, o valor do parâmetro de modificação externo muda e o dispositivo de armazenamento 120 pode prover outro fator de ponderação espectral correspondente. Resumindo, o dispositivo de armazenamento 120 pode prover um fator de ponderação espectral correspondente ao valor determinado do parâmetro de excitação de uma subfaixa, correspondente à subfaixa, para a qual o valor de parâmetro de excitação é determinado, e correspondente a um valor do parâmetro de modificação externo.
Nesse exemplo, a tabela de consulta pode compreender exatamente três dimensões associadas aos valores predefinidos do parâmetro de excitação, associadas às subfaixas da pluralidade de subfaixas e associadas aos valores predefinidos do parâmetro de modificação externo. Isso significa que cada fator de ponderação espectral contido pela tabela de consulta é associado a um valor especifico predefinido do parâmetro de excitação, para uma subfaixa da pluralidade de subfaixas e para um valor especifico predefinido do parâmetro de modificação externo. Em outras palavras, a tabela de consulta contém, para cada combinação de um valor predefinido do parâmetro de excitação, uma subfaixa e um valor predefinido do parâmetro de modificação externo, um fator de ponderação espectral. Os valores predefinidos do parâmetro de modificação externo podem ser distribuídos, por exemplo, linear ou logaritmicamente, por meio de uma variação possivel do parâmetro de modificação externo.
Ainda, em algumas realizações, um fator de ponderação espectral contido pela tabela de consulta também é associado a um valor predefinido de um parâmetro de ruido de base. O parâmetro de ruido de base pode representa o nivel de ruido de base do sinal de áudio de entrada. Dessa forma, por exemplo, uma compensação do efeito de mascaramento parcial de um sinal de áudio na presença de ruido de base pode ser realizada. Nesse caso, o dispositivo de armazenamento pode prover um fator de ponderação espectral correspondente a um valor do parâmetro de ruido de base. Isso pode ser feito adicionalmente ou de maneira alternativa à consideração mencionada acima do parâmetro de modificação externo. Se ambos forem considerados, o dispositivo de armazenamento pode prover o fator de ponderação espectral correspondente ao valor determinado do parâmetro de excitação da subfaixa, correspondente à subfaixa, para a qual o parâmetro de excitação é determinado, correspondente a um valor do parâmetro de modificação externo e correspondente a um valor do parâmetro de ruido de base. Nesse caso, a tabela de consulta pode compreender exatamente quatro dimensões associadas aos valores predefinidos do parâmetro de excitação, associadas às subfaixas da pluralidade de subfaixas, associadas aos valores predefinidos do parâmetro de modificação externo e associadas aos valores predefinidos do parâmetro de ruido de base. Os valores predefinidos do parâmetro de ruido de base podem ser distribuídos, por exemplo, linear ou logaritmicamente em uma possivel variação do parâmetro de ruido de base.
Um valor do parâmetro de ruido de base pode ser determinado por um ruido de base detector. Isso pode ser feito para todo o sinal de áudio de entrada antes da separação em subfaixas ou em nivel de subfaixa para uma subfaixa, para mais de uma subfaixa ou para todas as subfaixas individualmente. De maneira alternativa, se a pluralidade de subfaixas do sinal de áudio de entrada for armazenada e provida por uma unidade de memória, o valor do parâmetro de ruido de base também pode ser provido pela unidade de memória.
Em qualquer caso, o dispositivo de armazenamento não compreende uma entrada para um parâmetro de ruido especifico ou um parâmetro de ruido especifico alvo, apesar de esses fatores de ponderação espectral contidos pela tabela de consulta poderem ser calculados com base em um parâmetro de ruido especifico ou um parâmetro de ruido especifico alvo. O cálculo dos fatores de ponderação espectral pode ser feito externamente e eles podem ser armazenados pelo dispositivo de armazenamento após isso. Portanto, a complexidade computacional de um aparelho realizado, de acordo com o conceito descrito, pode ser significativamente reduzida em comparação aos dispositivos conhecidos, uma vez que um cálculo explicito do fator de ponderação espectral não é necessário.
Os fatores de ponderação espectral podem ser calculados para serem armazenados pelo dispositivo de armazenamento, por exemplo, da seguinte forma.
O processamento do áudio pode ser realizado no dominio digital. Da mesma forma, o sinal de áudio de entrada pode ser denotado pela sequência de tempo discreta x[n] que foi amostrada da fonte de áudio em alguma frequência de amostragem fc. Pode ser assumido que a sequência x[n] foi adequadamente escalada, de modo que a energia de rms de x[n] em decibéis dada por
Figure img0001
seja igual ao nivel de pressão sonora em dB na qual o áudio está sendo ouvido por um ouvinte humano. Além disso, o sinal de áudio pode ser assumido para ser monofônico para simplicidade de exposição.
O sinal de áudio de entrada é aplicado a um banco de filtros de análise ou função de banco de filtros ("Banco de filtros de análise"). Cada filtro no Banco de filtros de análise é designado para simular a resposta de frequência em uma localização particular ao longo da membrana basilar no ouvido interno. O Banco de Filtros pode incluir um conjunto de filtros lineares, cuja amplitude de faixa e espaçamento são constante na escala de frequência de Amplitude de Faixa Retangular Equivalente (ERB), conforme definida por Moore, Glasberg e Baer ("B. C. J. Moore, B. Glasberg, T. Baer, "A Model for the Prediction of Thresholds, Loudness, and Partial Loudness," supra") .
Embora a escala de frequência de ERB corresponda mais proximamente à percepção humana e apresente desempenho aprimorado na produção de medições de ruido objetivas que correspondem a resultados de ruido subjetivos, a escala de frequência de Bark pode ser empregada com desempenho reduzido.
Para uma frequência central f em hertz, a amplitude de uma faixa de ERB em hertz pode ser aproximada como:
Figure img0002
A partir dessa relação, uma escala de frequência curva é definida de modo que, em qualquer ponto ao longo da escala curva, a ERB correspondente em unidades da escala curva seja igual a um. A função para abranger da frequência linear em hertz para essa escala de frequência de ERB é obtida ao integrar a reciprocidade da Equação 1:
Figure img0003
Também é útil expressar a transformação da escala de ERB de volta para a escala de frequência linear ao solucionar a Equação 2a para f:
Figure img0004
onde e está em unidades da escala de ERB.
O Banco de filtros de análise pode incluir B filtros auditivos, mencionados como subfaixas, em frequências centrais fc[ 1 ] ... fc[B] espaçadas uniformemente ao longo da escala de ERB. Mais especificamente,
Figure img0005
onde Δ é o espaçamento de ERB desejado do filtros de análise, e onde fmin e fmax são as frequências minima e máxima desejadas, respectivamente. Pode-se escolher Δ =1, e levando em consideração a variação de frequência na qual o ouvido humano é sensivel, pode-se ajustar fmin= 50 Hz e fmax= 20.000 Hz. Com esses parâmetros, por exemplo, a aplicação das Equações 3a a c, são produzidos B=40 filtros auditivos.
A magnitude resposta de frequência de cada filtro auditivo pode ser caracterizada por uma função exponencial arredondada, conforme sugerido por Moore e Glasberg. Especificamente, a resposta de magnitude de um filtro com frequência central f[b] pode ser computada como:
Figure img0006
As operações de filtração do Banco de filtros de análise podem ser adequadamente aproximadas utilizando uma Transformada Discreta de Fourier de comprimento finito, comumente mencionada como a Transformada Discreta de Fourier de Tempo Curto (STDFT), porque se acredita que uma implementação que executa os filtros na taxa de amostragem do sinal de áudio, mencionada como implementação de taxa completa, proveja mais resolução temporal que do é necessário para medições precisas de ruido.
A STDFT do sinal de áudio de entrada x[n] pode ser definida como:
Figure img0007
onde k é o indice de frequência, t é o indice de bloco de tempo, N é o tamanho de DFT, T é o tamanho do salto e w [n] é uma janela de comprimento N normalizada de modo w-1
Figure img0008
Observe que a variável t na Equação 5a é um indice discreto que representa o bloco de tempo da STDFT, conforme oposto a uma medida de tempo em segundos. Cada incremento em t representa um salto de T amostras ao longo do sinal x[n]. As referências subsequentes ao indice t assumem essa definição. Enquanto diferentes ajustes de parâmetro e formas de janelas podem ser utilizados dependendo dos detalhes de implementação, para fs=44100 Hz, escolhendo N=2048, T=1024, e tendo w[n] para ser uma janela de Hann, provê-se um balanço adequado de tempo e resolução de frequência. A STDFT descrita acima pode ser implementada de maneira mais eficiente utilizando a Transformada de Fourier Rápida (FFT).
Ao invés da STDFT, a Transformada Discreta de Cosseno Modificada (MDCT) pode ser utilizada para implementar o banco de filtros de análise. A MDCT é uma transformada comumente utilizada em codificadores de áudio perceptual, a MDCT do sinal de áudio de entrada x[n] pode ser dada por:
Figure img0009
De modo geral, o tamanho do salto T é escolhido para ser exatamente metade do comprimento da transformada N, de modo que a reconstrução perfeita do sinal x[n] seja possivel.
As saidas do Banco de filtros de análise são aplicadas a um filtro de transmissão ou função de filtro de transmissão ("Filtro de transmissão") que filtra cada faixa do banco de filtros de acordo com a transmissão de áudio através do ouvido externo e interno.
A fim de computar o ruido do sinal de áudio de entrada, uma medida de uma energia de curto prazo dos sinais de áudio em cada filtro do Banco de filtros de análise após a aplicação do Filtro de transmissão a ser necessária. Essa medida de variação de tempo e frequência é mencionada como excitação. A saida de energia em curto prazo de cada filtro no Banco de filtros de análise a pode ser aproximada em uma Função de Excitação E[b,t] por meio da multiplicação das respostas de filtro no dominio de frequência com o espectro de energia do sinal de entrada:
Figure img0010
onde b é o número de subfaixa, t é o número de bloco e Hb[k] e P[k] são as respostas de frequência do filtro auditivo e filtro de transmissão, respectivamente, amostradas em uma frequência correspondente ao indice de caixa de STDFT ou MDCT k. Deve ser observado que formas para a resposta de magnitude dos filtros auditivos diferentes das especificadas nas Equações 4a a c podem ser utilizadas na Equação 7 para atingir resultados semelhantes.
Em suma, a saida da Função de Excitação é uma representação de domínio de frequência da energia E nas respectivas faixas de ERB b por período de tempo t.
Para determinadas aplicações, pode ser desejável suavizar a excitação E[b,t] antes de sua transformação para ruído específico. Por exemplo, a suavização pode ser realizada recursivamente em uma função de Suavização, de acordo com a equação:
Figure img0011
onde as constantes de tempo em cada faixa b são selecionadas de acordo com a aplicação desejada. Na maioria dos casos, as constantes de tempo podem ser escolhidas de maneira vantajosa para serem proporcionais ao tempo de integração da percepção de ruído humano dentro da faixa b. Watson e Gengel realizaram experimentos que demonstram que esse tempo de integração está dentro da variação de 150-175 ms em baixas frequências (125-200 Hz) e 40-60 ms em altas frequências ("Charles S. Watson and Roy W. Gengel, "Signal Duration e Signal Frequency in Relation to Auditory Sensitivity" Journal of the Acoustical Society of America, Vol. 46, No. 4 (Part 2), 1969, pp. 989-997").
Em uma função de conversão ("Ruído específico"), cada faixa de frequência da excitação pode ser convertida em um valor de componente do ruído específico, que é medido em Som por ERB.
Inicialmente, na computação de ruído específico, o nivel de excitação em cada faixa de E[b,t\ pode ser transformado em um nivel de excitação equivalente em 1 kHz, conforme especificado, por exemplo, pelos contornos de ruido iguais normalizados por um filtro de transmissão:
Figure img0012
onde TlkHz(E,f) é uma função que gera o nivel em 1 kHz, que é igualmente ruidoso para o nivel E na frequência f. A transformação para níveis equivalentes em 1 kHz simplifica a seguinte cálculo de ruído específico.
Depois, o ruído específico em cada faixa pode ser computado como:
Figure img0013
onde NNB[b,t] e NWB[b,t] são valores de ruído específico com base em um modelo de sinal de faixa estreita e de faixa ampla, respectivamente. O valor a[b,t] é um fator de interpolação situado entre 0 e 1, que é computado do sinal de áudio.
Os valores de ruído específico de faixa estreita e de faixa ampla NWB[b,t] e NWB[b,t] podem ser estimados da excitação transformada utilizando as funções exponenciais:
Figure img0014
onde TQlkHz é o nivel de excitação no limite em silêncio para um tom de 1 kHz. Dos contornos de ruido iguais TQlkHz se iguala a 4,2 dB. Observa-se que ambas esses funções de ruido especifico são iguais a zero quando a excitação é igual ao limite em silêncio. Para excitações maiores que o limite em silêncio, ambas as funções crescem monotonicamente, com uma lei de energia de acordo com a lei de Stevens de sensação de intensidade. O expoente para a função de faixa estreita é escolhida para ser maior que a função de faixa ampla, fazendo com que a função de faixa estreita aumente mais rapidamente que a função de faixa ampla. A seleção especifica de expoentes β e ganhos G para os casos de faixa estreita e de faixa ampla é escolhida para corresponder aos dados experimentais sobre o crescimento de ruido para tons e ruidos.
O ruido especifico pode ser igual a algum valor pequeno ao invés de zero, quando a excitação estiver no limite da audição. O ruido especifico deve então reduzir monotonicamente a zero, conforme a excitação diminui a zero. A justificativa é que o limite de audição é um limite probabilistico (o ponto no qual o tom é detectado 50% do tempo) , e que um número de tons, cada um no limite, apresentado juntamente pode formar um som que é mais audível que qualquer um dos tons individuais. Se o ruido especifico é definido para ser zero quando a excitação estiver no limite ou abaixo dele, então uma solução exclusiva para resolver o ganho não existe para excitações no limite ou abaixo dele. Se, por outro lado, o ruido especifico for definido para ser monotonicamente crescente sobre todos os valores de excitação maiores ou iguais a zero, então, existe uma solução exclusiva. O escalonamento deu 10 ruido maior que a unidade sempre resultará em um ganho maior que a unidade e vice-versa. As funções de ruido especifico nas Equações 11a e 11b podem ser alteradas para ter a propriedade desejada, de acordo com:
Figure img0015
onde a constante À, é maior que um, o expoente q é menor que um, e as constantes K e C são escolhidas de modo que a função do ruido específico e sua primeira derivada sejam contínuas no ponto:
Figure img0016
Do ruido especifico, o ruido geral ou "total" L [t] é dado pela soma do ruido especifico ao longo de todas as faixas b:
Figure img0017
Em uma função de modificação de ruido especifico ("Modificação de Ruido especifico") , o ruido especifico alvo, mencionado como pode ser calculado do ruido especifico de diversas formas. Conforme é descrito em mais detalhes abaixo, um ruido especifico alvo pode ser calculado utilizando um fator de escala a, por exemplo, no caso de um controle de volume. Vide a Equação 16 abaixo e sua descrição associada. No caso de controle de ganho automático (AGO) e controle de variação dinâmico (DRC), um ruido especifico alvo pode ser calculado utilizando uma proporção do ruido de saida desejado para o ruido de entrada. Vide as Equações 17 e 18 abaixo e suas descrições associadas. No caso de equalização dinâmica, um ruido especifico alvo pode ser calculado utilizando uma relação estabelecida na Equação 23 e sua descrição associada. Nesse exemplo, para cada faixa b e cada intervalo de tempo t, uma função que soluciona o ganho obtém como sua entrada a excitação suavizada e o ruido especifico alvo e gera fatores de ponderação espectral, também denominados ganhos G[b,t], utilizados subsequentemente para modificar o áudio. Deixando a função iVÍ*} representar a transformação não linear da excitação para o ruido especifico, de modo que
Figure img0018
O solucionador de Ganho encontra G[b,t], de modo que
Figure img0019
A função que soluciona o ganho determina ganhos variantes em frequência e no tempo (fatores de ponderação espectral), que, quando aplicados à excitação original, resultam em um ruido especifico que, de forma ideal, é igual ao ruido especifico alvo desejado. Na prática, a função que soluciona o ganho determina ganhos variantes em frequência e no tempo que, quando aplicados à versão de dominio de tempo do sinal de áudio, resulta na modificação do sinal de áudio, a fim de reduzir a diferença entre seu ruido especifico e o ruido especifico alvo. De maneira ideal, a modificação é de modo que o sinal de áudio modificado tenha um ruido especifico que é uma aproximação se uma dose do ruído específico alvo. A solução à Equação 14a pode ser implementada em uma variedade de formas. Por exemplo, se uma expressão matemática de forma fechada para o inverso do ruído específico, representada por existe, então, os ganhos podem ser computados diretamente ao reorganizar a equação 14a:
Figure img0020
De maneira alternativa, se uma solução de forma fechada para Φ’1i*} não existir, uma abordagem iterativa pode ser empregada, na qual, para cada iteração, a equação 14a é avalizada utilizando uma estimativa atual dos ganhos. O ruído específico resultante é comparado com o alvo desejado e os ganhos são atualizados com base no erro. Se os ganhos forem atualizados adequadamente, eles convergirão à solução desejada. Conforme mencionado antes, o ruido especifico alvo pode ser representado por um escalonamento do ruido especifico:
Figure img0021
Substituindo a equação 13 pela 14c e, então, a 14c pela 14b, produz uma expressão alternativa dos ganhos:
Figure img0022
Os fatores de ponderação espectral ou ganhos calculados são armazenados na tabela de consulta do dispositivo de armazenamento.
Em algumas realizações, de acordo com a invenção, o determinador de excitação não determina um valor de um parâmetro de excitação para todas as subfaixas da pluralidade de subfaixas. Nesse caso, é suficiente que a tabela de consulta contenha somente fatores de ponderação espectral associados às subfaixas, para as quais um valor de um parâmetro de excitação é determinado. Dessa forma, o espaço de armazenamento do dispositivo de armazenamento necessário para armazenar a tabela de consulta pode ser significativamente reduzido.
Uma vez que a curvatura dos contornos de ruido iguais, que devem ser compensada, é mais forte para as frequências menores (vide Figura 2 e 3) , pode ser suficiente compensar uma variação de ruido somente para as subfaixas de frequência baixa. Portanto, pode ser útil calcular parâmetros de excitação e armazenar fatores de ponderação espectral para subfaixas de frequência baixa. Ao contrário, para subfaixas de frequência alta, nenhum valor de um parâmetro de excitação pode ser determinado e nenhum fator de ponderação espectral associado às subfaixas de frequência alta pode ser armazenado. Em outras palavras, uma subfaixa, para a qual um valor de um parâmetro de excitação é determinado, pode compreender frequências menores que uma subfaixa, para a qual nenhum valor de um parâmetro de excitação é determinado.
Ainda, pode não ser necessário modificar as subfaixas de frequência alta. Em outras palavras, um conteúdo de uma subfaixa pode não ser modificado pelo modificador de sinal, se o determinador de excitação não determinar um valor de um parâmetro de excitação para essa subfaixa. Isso pode ser somente o caso, se nenhum outro parâmetro, como, por exemplo, um parâmetro de modificação externo ou parâmetro de ruido de base, for considerado.
De maneira alternativa, um fator de ponderação espectral provido pelo dispositivo de armazenamento pode ser utilizado pelo modificador de sinal para mais de uma subfaixa. Em outras palavras, o modificador de sinal pode modificar um conteúdo de uma subfaixa, para a qual nenhum valor de um parâmetro de excitação é determinado, com base em um fator de ponderação espectral provido para uma subfaixa, para a qual um valor de um parâmetro de excitação é determinado. Considerando o comportamento dos contornos de ruido iguais apresentados na Figura 2 e 3, pode ser suficiente modificar faixas de alta frequência, de acordo com o mesmo fator de ponderação espectral. Esse fator de ponderação espectral pode ser o fator de ponderação espectral provido para a subfaixa compreendendo as mais altas frequências de todas as subfaixas, para a qual um valor de um parâmetro de excitação é determinado. De modo mais geral, o modificador de sinal pode modificar um conteúdo de uma subfaixa, para a qual nenhum valor de um parâmetro de excitação é determinado, com base no fator de ponderação espectral provido para uma subfaixa contendo frequências maiores que todas as outras subfaixas, para a qual um valor de um parâmetro de excitação é determinado. Por exemplo, pode ser suficiente que o determinador de excitação determina o valor de um parâmetro de excitação somente para 5 a 15 (ou 2 a 20, 7 a 12 ou somente 5, 6, 7, 8, 9, 10, 11, 12) subfaixas da pluralidade de subfaixas ou somente para menos que um quarto, um terço, a metade ou dois terços das subfaixas da pluralidade de subfaixas. Essas subfaixas podem compreender frequências menores que todas as outras subfaixas da pluralidade de subfaixas. Ainda, o modificador de sinal pode modificar conteúdos dessas subfaixas, de acordo com fatores de ponderação espectral providos pelo dispositivo de armazenamento para essas subfaixas.
Por exemplo, a escala de Bark compreende 25 faixas de frequência e pode ser suficiente para modificar as 7 faixas das mais baixas frequências, uma vez que as faixas de frequência mais lentas apresentam o desvio mais forte do comportamento inativo. De maneira alternativa, as faixas mais baixas da escala de ERB podem ser modificadas. As subfaixas restantes da pluralidade de subfaixas podem permanecer não modificadas, podem ser modificadas de acordo com um parâmetro de modificação externo e/ou um parâmetro de ruido de base ou podem ser modificadas de acordo com o fator de ponderação espectral provido para uma subfaixa, para a qual um valor de um parâmetro de excitação é determinado, contendo frequências maiores que todas as outras subfaixas, para as quais um valor de um parâmetro de excitação é determinado.
A Figura 5 apresenta um fluxograma de um método 500 para modificar um sinal de áudio de entrada de acordo com uma realização da invenção. O método 500 compreende a determinação 510 de um valor de um parâmetro de excitação de uma subfaixa de uma pluralidade de subfaixas do sinal de áudio de entrada com base em um conteúdo de energia da subfaixa. Ainda, o método 500 compreende a provisão 520 de um fator de ponderação espectral correspondente ao valor determinado do parâmetro de excitação e correspondente à subfaixa, para a qual o valor de parâmetro de excitação é determinado. O fator de ponderação espectral é armazenado em uma tabela de consulta contendo uma pluralidade de fatores de ponderação espectral. Um fator de ponderação espectral da pluralidade de fatores de ponderação espectral é associado a um valor predefinido do parâmetro de excitação e uma subfaixa da pluralidade de subfaixas. Por fim, o método 500 compreende a modificação da subfaixa, para a qual o valor de parâmetro de excitação é determinado, com base no fator de ponderação espectral provido para obter e prover uma subfaixa modificada.
Em outras palavras, o método 500 compreende um cálculo 510 de um sinal de excitação, recuperação 520 de ponderações espectrais (fatores de ponderação espectral) da tabela de consulta e modificação 530 do sinal de áudio de saida. Opcionalmente, o método 500 compreende uma nova sintese do sinal de áudio de saida (combinando as subfaixas para obter um sinal de áudio modificado) .
Isso pode, por exemplo, ser um método para modificação de sinal eficiente e genérico.
Ainda opcionalmente, um parâmetro de modificação externo também pode ser levado em consideração (indicado pela linha tracejada), conforme descrito acima.
Uma consideração adicional de um nivel de subfaixa de ruido de base (um parâmetro de ruido de base) é mencionada pelo método 600 apresentado na Figura 6.
Algumas realizações, de acordo com a invenção, referem-se a uma realização eficiente de processamento perceptual de sinais de áudio. O conceito descrito se refere a uma arquitetura flexivel e altamente eficiente para modificação e processamento de sinal de áudio seletivos de frequência, que podem facilmente incorporar as características de efeitos psicoacústicos em seu processamento, sem sofrer de carga computacional de modelamento auditivo explicito. Como um exemplo, a realização de um processador de múltiplas faixas para controle de ruido perceptual é considerada, que tem base na arquitetura apresentada.
Essa pode ser uma realização eficiente do controle de ruido psicoacústico.
O processamento descrito acima é comparável a uma filtração do sinal de entrada com um filtro característico que é controlado pelo nivel de entrada dentro de cada faixa de frequência auditiva. Ele pode ser implementado de maneira mais eficiente.
Basicamente, o método proposto evita o cálculo do ruido especifico e o cálculo inverso correspondente e evita, com isso, as etapas de processamento intenso computacional à custa de exigências de memória discretamente aumentadas.
A implementação eficiente pode ser implementada utilizando uma tabela de consulta simples (LÜT), possivelmente com interpolação.
A LUT é computada ao medir o processo de valores de entrada e valores de saida implementado conforme descrito acima. A LUT tem, por exemplo, três dimensões. Ela produz uma subfaixa modificada ou um sinal de áudio modificado, dada a excitação de entrada, o parâmetro de modificação e o indice de faixa de frequência.
Por exemplo, ele pode ser eficientemente implementado ao reconhecer que sua funcionalidade é dependente do indice de faixa de frequência somente para as mais baixas faixas de frequência, por exemplo, ao utilizar um banco de filtros auditivos com uma resolução correspondente á escala de Bark, o banco de filtros pode ter 25 filtros de faixa de passagem. O armazenamento da função de transferência na LUT para as 7 faixas mais baixas somente pode ser suficiente, uma vez que para indices de faixa maiores, a mesma relação de entrada-saida se mantém para os 7 indices de faixa.
Esse processamento eficiente produz m controle de volume que é correto em um sentido psicoacústico. Outras aplicações, a saber, controle de variação dinâmico e/ou equalização dinâmica, são derivadas com o processamento eficiente, conforme descrito acima, como pela indexação adequada da LUT.
Por fim, a compensação de ruido de base (isto é, a compensação do efeito de mascaramento parcial de um sinal de
áudio na presença de ruído de base) pode ser alcançada ao adicionar uma quarta dimensão à LUT, representando o nível do ruído de base. O diagrama de blocos do processamento proposto para compensação de ruído é ilustrado na Figura 6.
Embora o processamento até agora descrito vise a emulação de um algoritmo de escalonamento de ruído psicoacústico, a arquitetura descrita na Figura 1 ou Figura 4 pode produzir um espectro muito mais rico de modificações sonoras do que seria disponível com um algoritmo de escalonamento de ruído psicoacústico devido a sua LUT. Ela pode ser feita dependente de ainda mais fatores (por exemplo, um ajuste de preferência de usuário, outros fatores variantes no tempo etc.). Pode ser livremente "ajustada", de acordo com a preferência do ouvinte subjetivo além das características que são providas por uma função dada como uma expressão de forma fechada.
Em suma, a invenção se refere a uma arquitetura flexível e altamente eficiente para modificação e processamento de sinal de áudio seletivos por frequência, que pode incorporar facilmente as características de efeitos psicoacústicos em seu processamento, sem sofrer da carga computacional da modelação auditiva explícita.
Em um nível de resumo, o processamento eficiente proposto compreende as seguintes etapas. Com base no sinal de entrada, um ou mais valores de aspecto (incluindo o valor do parâmetro de excitação) podem ser calculados para diversas faixas de frequência (por exemplo, faixas críticas). Com base nesses valores de aspecto (e, possivelmente, outras informações), uma consulta de tabela é realizada para cada uma dessas faixas de
frequência para determinar um ou diversos parâmetros de saida de tabela (fatores de ponderação espectral) para cada faixa de frequência. Esses parâmetros de saida de tabela são, então, utilizados para determinar a modificação (por exemplo, escalonamento multiplicativo) do sinal de entrada nas faixas de frequência correspondentes.
O processamento de sinais de áudio em faixas de frequência normalmente implica a utilização de bancos de filtro, isto é, o sinal de entrada é dividido em diversas faixas de frequência (subfaixas) por um banco de filtros de análise, e o final sinal de saida é obtido ao alimentar os sinais de subfaixa modificados no banco de filtros de sintese. O banco de filtros de análise e de sintese se combinam para reconstruir o sinal de tempo de entrada perfeitamente ou quase perfeitamente.
Um número tipico de faixas de frequência é entre 4 e 40. A consulta da tabela com base nos valores de aspecto geralmente envolve a quantificação dos valores de aspecto em um conjunto limitado de valores que podem ser utilizados como um indice de consulta para a tabela. Além disso, o tamanho da tabela de consulta pode ser reduzido ao escolher um tamanho de etapa de quantificação bastante grosseiro e, subsequentemente, interpolar entre os valores de parâmetro de saida de tabela adjacentes (dois ou mais). A fim de considerar diversos aspectos de entrada para a computação dos valores de saida de parâmetro, uma tabela de consulta com diversas dimensões pode ser utilizada, por exemplo, LUT de fator de modificação contendo idx (indice) de excitação, idx de tonalidade, idx de frequência. Em um caso muito simples (e eficiente), os valores de parâmetro de saida representam diretamente fatores de multiplicação a serem aplicados à subfaixa de entrada, a fim de determinar os sinais de subfaixa de saida. Isso é apresentado, por exemplo, na Figura 4.
Embora algumas aspectos do conceito descrito tenham sido descritos no contexto de um aparelho, é claro que esses aspectos também representam uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa de método ou um aspecto de uma etapa de método. De maneira análoga, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item ou aspecto correspondente de um aparelho correspondente.
Dependendo de determinadas exigências de implementação, as realizações da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando um meio de armazenamento digital, por exemplo, um disquete, um DVD, um Blu-Ray, um CD, uma ROM, uma PROM, uma EPROM, uma EEPROM ou uma memória FLASH, tendo sinais de controle legiveis eletronicamente armazenados nele, que cooperam (ou são capazes de cooperar) com um sistema de computador programável, de modo que o respectivo método seja realizado. Portanto, o meio de armazenamento digital pode ser legivel por computador.
Algumas realizações, de acordo com a invenção, compreendem um carregador de dados tendo sinais de controle legiveis eletronicamente, que são capazes de cooperar com um sistema de computador programável, de modo que um dos métodos aqui descritos seja realizado.
De modo geral, as realizações da presente invenção podem ser implementadas como um produto de programa de computador com um código de programa, o código de programa sendo operado para realizar um dos métodos quando o produto de programa de computador é executado em um computador. 0 código de programa pode, por exemplo, ser armazenado em um carregador legivel por máquina.
Outras realizações compreendem o programa de computador para realizar um dos métodos aqui descritos, armazenado em um carregador legivel por máquina.
Em outras palavras, uma realização do método inventivo é, portanto, um programa de computador tendo um código de programa para realizar um dos métodos aqui descritos, quando o programa de computador é executado em um computador.
Uma realização adicional dos métodos inventivos é, portanto, um carregador de dados (ou um meio de armazenamento digital, ou um meio legivel por computador) compreendendo, gravado neles, o programa de computador para realizar um dos métodos aqui descritos.
Uma realização adicional do método inventivo é, portanto, um fluxo de dados ou uma sequência de sinais que representam o programa de computador para realizar um dos métodos aqui descritos. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido por meio de uma conexão de comunicação de dados, por exemplo, por meio da Internet.
Uma realização adicional compreende um meio de processamento, por exemplo, um computador ou um dispositivo de lógica programável configurado ou adaptado para realizar um dos métodos aqui descritos.
Uma realização adicional compreende um computador tendo instalado em si o programa de computador para realizar um dos métodos aqui descritos.
Em algumas realizações, um dispositivo de lógica programável (por exemplo, uma matriz de porta de campo programável) pode ser utilizado para realizar algumas ou todas as funcionalidades dos métodos aqui descritos. Em algumas realizações, uma matriz de porta de campo programável pode cooperar com um microprocessador a fim de realizar um dos métodos aqui descritos. De modo geral, os métodos são preferencialmente realizados por qualquer aparelho de hardware.
As realizações descritas acima são meramente ilustrativas para os princípios da presente invenção. É entendido que modificações e variações das disposições e os detalhes aqui descritos serão aparentes aos técnicos no assunto. Portanto, pretende ser limitada somente pelo escopo das reivindicações da patente iminentes e não pelos detalhes específicos apresentados a titulo de descrição e explicação das realizações aqui.

Claims (20)

1. APARELHO (100) PARA MODIFICAR UM SINAL DE ÁUDIO DE ENTRADA, caracterizado por compreender: um determinador de excitação (110) configurado para determinar um valor (112) de um parâmetro de excitação de uma subfaixa (102) de uma pluralidade de subfaixas do sinal de áudio de entrada com base em um conteúdo de energia da subfaixa (102), em que o valor do parâmetro de excitação indica uma potência do sinal de áudio na sub-banda ou uma energia em curto espaço de tempo do sinal de áudio na sub-banda ou um valor quantizado da energia em curto espaço de tempo do sinal de áudio na sub-banda; um dispositivo de armazenamento (120) que armazena uma tabela de consulta contendo uma pluralidade de fatores de ponderação espectral, em que um fator de ponderação espectral da pluralidade de fatores de ponderação espectral é associado a um valor predefinido do parâmetro de excitação e uma subfaixa da pluralidade de subfaixas, em que o dispositivo de armazenamento é configurado para prover um fator de ponderação espectral (124) correspondente ao valor determinado (112) do parâmetro de excitação e correspondente à subfaixa (102), para a qual o valor (112) do parâmetro de excitação é determinado; e um modificador de sinal (130) configurado para modificar um conteúdo da subfaixa (102) do sinal de áudio de entrada, para o qual o valor (112) do parâmetro de excitação é determinado, com base no fator de ponderação espectral provido (124) para prover uma subfaixa modificada (132) pela escala multiplicativa da sub-banda do sinal de áudio pelo fator de ponderação espectral fornecido pela tabela de pesquisa.
2. APARELHO, de acordo com a reivindicação 1, caracterizado por o determinador de excitação (110) ser configurado para determinar um valor (112) de um parâmetro de excitação para mais de uma subfaixa (102) da pluralidade de subfaixas, em que o dispositivo de armazenamento (120) é configurado para prover um fator de ponderação espectral (124) para cada subfaixa (102), para a qual o valor (112) do parâmetro de excitação é determinado, e em que o modificador de sinal (130) é configurado para modificar um conteúdo de cada subfaixa (102), para a qual um valor (112) do parâmetro de excitação é determinado, no respectivo fator de ponderação espectral provido (124) correspondente.
3. APARELHO, de acordo com a reivindicação 1 ou 2, caracterizado por ainda compreender: um banco de filtros de análise (410) configurado para separar o sinal de áudio de entrada na pluralidade de subfaixas; e um banco de filtros de síntese (420) configurado para combinar a pluralidade de subfaixas que contêm pelo menos uma subfaixa modificada (132) para prover um sinal de áudio modificado.
4. APARELHO, de acordo com a reivindicação 1, caracterizado por cada fator de ponderação espectral contido pela tabela de consulta é associado a um valor predefinido do parâmetro de excitação e uma subfaixa da pluralidade de subfaixas.
5. APARELHO, de acordo com a reivindicação 1, caracterizado por as subfaixas da pluralidade de subfaixas do sinal de áudio de entrada serem divididas de acordo com a escala de ERB, a escala de Bark ou outro espaçamento de frequência que imita a resolução de frequência do ouvido humano.
6. APARELHO, de acordo com a reivindicação 1, caracterizado por o determinador de excitação (110) ser configurado para determinar um valor (112) de um parâmetro de excitação nem para todas as subfaixas da pluralidade de subfaixas, e em que a tabela de consulta contém somente fatores de ponderação espectral associados às subfaixas, para as quais um valor de um parâmetro de excitação é determinado.
7. APARELHO, de acordo com a reivindicação 6, em que uma subfaixa (102), para a qual um valor (112) de um parâmetro de excitação é determinado, é caracterizada por compreender frequências menores que uma subfaixa, para a qual nenhum valor de um parâmetro de excitação é determinado.
8. APARELHO, de acordo com a reivindicação 6, caracterizado por um conteúdo de uma subfaixa do sinal de áudio de entrada não ser modificado pelo modificador de sinal (130), se o determinador de excitação (110) não determinar um valor (112) de um parâmetro de excitação para essa subfaixa.
9. APARELHO, de acordo com a reivindicação 1, caracterizado por o determinador de excitação (110) ser configurado para determinar um valor (112) de um parâmetro de excitação somente para menos que um terço das subfaixas da pluralidade de subfaixas, e em que o modificador de sinal (130) é configurado para modificar um conteúdo das subfaixas, para as quais um valor de um parâmetro de excitação é determinado, com base no respectivo fator de ponderação espectral provido correspondente, em que essas subfaixas compreendeem frequências menores que todas as outras subfaixas da pluralidade de subfaixas, para as quais um valor de um parâmetro de excitação é determinado.
10. APARELHO, de acordo com a reivindicação 1, caracterizado por o modificador de sinal (130) ser configurado para modificar um conteúdo de uma subfaixa, para a qual nenhum valor de um parâmetro de excitação é determinado, com base em um fator de ponderação espectral (124) provido para uma subfaixa (102), para a qual um valor (112) de um parâmetro de excitação é determinado.
11. APARELHO, de acordo com a reivindicação 10, caracterizado por o modificador de sinal (130) modificar um conteúdo da subfaixa, para a qual nenhum valor de um parâmetro de excitação é determinado, com base em um fator de ponderação espectral (124) provido para uma subfaixa (102), para a qual um valor (112) de um parâmetro de excitação é determinado, contendo frequências maiores que todas as outras subfaixas (102), para as quais um valor (112) de um parâmetro de excitação é determinado.
12. APARELHO, de acordo com a reivindicação 1, caracterizado por um fator de ponderação espectral contido pela tabela de consulta ser ainda associado a um valor predefinido de um parâmetro de modificação externo, em que o dispositivo de armazenamento (120) é configurado para prover um fator de ponderação espectral (124) correspondente ao valor determinado (112) do parâmetro de excitação de uma subfaixa (102), correspondente à subfaixa (102), para a qual o valor (112) do parâmetro de excitação é determinado, e correspondente a um valor do parâmetro de modificação externo.
13. APARELHO, de acordo com a reivindicação 12, em que a tabela de consulta é caracterizada por compreender exatamente três dimensões associadas aos valores predefinidos do parâmetro de excitação, às subfaixas da pluralidade de subfaixas e aos valores predefinidos do parâmetro de modificação externo.
14. APARELHO, de acordo com a reivindicação 12, caracterizado por o modificador de sinal (130) ser configurado para modificar um conteúdo de uma subfaixa, para a qual nenhum valor de um parâmetro de excitação é determinado, com base em um valor do parâmetro de modificação externo.
15. APARELHO, de acordo com a reivindicação 1, caracterizado por um fator de ponderação espectral contido pela tabela de consulta ser ainda associado a um valor predefinido de um parâmetro de ruído de base, em que o dispositivo de armazenamento (120) é configurado para prover um fator de ponderação espectral (124) correspondente ao valor determinado (112) do parâmetro de excitação da subfaixa (102), correspondente à subfaixa (102), para a qual o valor (112) do parâmetro de excitação é determinado, e correspondente a um valor do parâmetro de ruído de base.
16. APARELHO, de acordo com a reivindicação 15, em que a tabela de consulta é caracterizada por compreender exatamente quatro dimensões associadas aos valores predefinidos do parâmetro de excitação, às subfaixas da pluralidade de subfaixas, aos valores predefinidos do parâmetro de modificação externo e aos valores predefinidos do parâmetro de ruído de base.
17. APARELHO, de acordo com a reivindicação 1, em que o dispositivo de armazenamento (120) é caracterizado por não compreender entrada para um parâmetro de ruído específico ou um parâmetro de ruído específico alvo.
18. APARELHO, de acordo com a reivindicação 1, caracterizado por a tabela de consulta armazenada pelo dispositivo de armazenamento (120) ser a única tabela de consulta do aparelho para modificar o sinal de áudio de entrada.
19. APARELHO, de acordo com a reivindicação 1, caracterizado por o determinador de excitação (110) é configurado para medir um conteúdo de energia da subfaixa (102) e configurado para quantificar o conteúdo de energia medido da subfaixa para obter o valor do parâmetro de excitação, de modo que o valor do parâmetro de excitação seja igual a um valor predefinido do parâmetro de excitação.
20. MÉTODO (500, 600) PARA MODIFICAR UM SINAL DE ÁUDIO DE ENTRADA, caracterizado por compreender: determinação (510) de um valor de um parâmetro de excitação de uma subfaixa de uma pluralidade de subfaixas do sinal de áudio de entrada, com base em um conteúdo de energia da subfaixa, em que o valor do parâmetro de excitação indica uma potência do sinal de áudio na sub-banda ou uma energia em curto espaço de tempo do sinal de áudio na sub-banda ou um valor quantizado da energia em curto espaço de tempo do sinal de áudio na sub-banda; provisão (520) de um fator de ponderação espectral correspondente ao valor determinado do parâmetro de excitação e correspondente à subfaixa, para a qual o valor de parâmetro de excitação é determinado, em que o fator de ponderação espectral é armazenado em uma tabela de consulta contendo uma pluralidade de fatores de ponderação espectral, em que um fator de ponderação espectral da pluralidade de fatores de ponderação espectral é associado a um valor predefinido do parâmetro de excitação e uma subfaixa da pluralidade de subfaixas; modificação (530) da subfaixa, para a qual o valor de parâmetro de excitação é determinado, com base no fator de ponderação espectral provido para prover uma subfaixa modificada, por escala multiplicativa da sub-banda do sinal de áudio pelo fator de ponderação espectral fornecido pela tabela de pesquisa.
BR112012026984-4A 2010-04-22 2011-04-20 aparelho e método para modificar um sinal de áudio de entrada BR112012026984B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP10160679.6A EP2381574B1 (en) 2010-04-22 2010-04-22 Apparatus and method for modifying an input audio signal
EP10160679.6 2010-04-22
PCT/EP2011/056355 WO2011131732A1 (en) 2010-04-22 2011-04-20 Apparatus and method for modifying an input audio signal

Publications (2)

Publication Number Publication Date
BR112012026984A2 BR112012026984A2 (pt) 2017-10-03
BR112012026984B1 true BR112012026984B1 (pt) 2021-06-08

Family

ID=42570834

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112012026984-4A BR112012026984B1 (pt) 2010-04-22 2011-04-20 aparelho e método para modificar um sinal de áudio de entrada

Country Status (14)

Country Link
US (1) US8812308B2 (pt)
EP (1) EP2381574B1 (pt)
JP (1) JP5632532B2 (pt)
KR (1) KR101469339B1 (pt)
CN (1) CN102986136B (pt)
AU (1) AU2011244268B2 (pt)
BR (1) BR112012026984B1 (pt)
CA (1) CA2796948C (pt)
ES (1) ES2526761T3 (pt)
HK (1) HK1161443A1 (pt)
MX (1) MX2012012113A (pt)
PL (1) PL2381574T3 (pt)
RU (1) RU2573246C2 (pt)
WO (1) WO2011131732A1 (pt)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2005299410B2 (en) 2004-10-26 2011-04-07 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
TWI529703B (zh) 2010-02-11 2016-04-11 杜比實驗室特許公司 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
CN103325380B (zh) 2012-03-23 2017-09-12 杜比实验室特许公司 用于信号增强的增益后处理
US10844689B1 (en) 2019-12-19 2020-11-24 Saudi Arabian Oil Company Downhole ultrasonic actuator system for mitigating lost circulation
US9401152B2 (en) 2012-05-18 2016-07-26 Dolby Laboratories Licensing Corporation System for maintaining reversible dynamic range control information associated with parametric audio coders
CN103730131B (zh) * 2012-10-12 2016-12-07 华为技术有限公司 语音质量评估的方法和装置
KR102071860B1 (ko) 2013-01-21 2020-01-31 돌비 레버러토리즈 라이쎈싱 코오포레이션 상이한 재생 디바이스들에 걸친 라우드니스 및 동적 범위의 최적화
KR102158002B1 (ko) 2013-01-21 2020-09-21 돌비 레버러토리즈 라이쎈싱 코오포레이션 프로그램 라우드니스 및 경계 메타데이터를 가진 오디오 인코더 및 디코더
WO2014130585A1 (en) * 2013-02-19 2014-08-28 Max Sound Corporation Waveform resynthesis
CN116665683A (zh) 2013-02-21 2023-08-29 杜比国际公司 用于参数化多声道编码的方法
CN104080024B (zh) 2013-03-26 2019-02-19 杜比实验室特许公司 音量校平器控制器和控制方法以及音频分类器
CN105190618B (zh) 2013-04-05 2019-01-25 杜比实验室特许公司 用于自动文件检测的对来自基于文件的媒体的特有信息的获取、恢复和匹配
US9762198B2 (en) 2013-04-29 2017-09-12 Dolby Laboratories Licensing Corporation Frequency band compression with dynamic thresholds
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
US9521501B2 (en) 2013-09-12 2016-12-13 Dolby Laboratories Licensing Corporation Loudness adjustment for downmixed audio content
WO2015038475A1 (en) 2013-09-12 2015-03-19 Dolby Laboratories Licensing Corporation Dynamic range control for a wide variety of playback environments
CN105142067B (zh) 2014-05-26 2020-01-07 杜比实验室特许公司 音频信号响度控制
CN113257273A (zh) * 2014-10-01 2021-08-13 杜比国际公司 高效drc配置文件传输
EP4372746A2 (en) 2014-10-10 2024-05-22 Dolby Laboratories Licensing Corporation Transmission-agnostic presentation-based program loudness
EP3089364B1 (en) 2015-05-01 2019-01-16 Nxp B.V. A gain function controller
EP3171614B1 (en) 2015-11-23 2020-11-04 Goodix Technology (HK) Company Limited A controller for an audio system
AU2017268383B2 (en) * 2016-05-20 2020-03-26 Cambridge Sound Management, Inc. Self-powered loudspeaker for sound masking
JP6844383B2 (ja) * 2017-03-31 2021-03-17 株式会社アドヴィックス 車両の制動装置
US10762910B2 (en) * 2018-06-01 2020-09-01 Qualcomm Incorporated Hierarchical fine quantization for audio coding
US11205414B2 (en) * 2019-02-15 2021-12-21 Brainfm, Inc. Noninvasive neural stimulation through audio
CN110010154B (zh) * 2019-03-26 2021-04-09 北京雷石天地电子技术有限公司 一种音量均衡方法及装置
EP3840222A1 (en) * 2019-12-18 2021-06-23 Mimi Hearing Technologies GmbH Method to process an audio signal with a dynamic compressive system
EP3840404B8 (en) * 2019-12-19 2023-11-01 Steelseries France A method for audio rendering by an apparatus
US11957467B2 (en) 2021-07-02 2024-04-16 Brainfm, Inc. Neural stimulation through audio with dynamic modulation characteristics
US11392345B1 (en) 2021-12-20 2022-07-19 Brainfm, Inc. Extending audio tracks while avoiding audio discontinuities
US11966661B2 (en) 2021-10-19 2024-04-23 Brainfm, Inc. Audio content serving and creation based on modulation characteristics

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4641361A (en) * 1985-04-10 1987-02-03 Harris Corporation Multi-band automatic gain control apparatus
US5255323A (en) 1990-04-02 1993-10-19 Pioneer Electronic Corporation Digital signal processing device and audio apparatus using the same
JPH0738553B2 (ja) * 1990-04-13 1995-04-26 パイオニア株式会社 音響装置のラウドネスコントロール回路
JP3119677B2 (ja) * 1991-06-10 2000-12-25 ローム株式会社 信号処理回路
JPH05206772A (ja) * 1992-01-30 1993-08-13 Alpine Electron Inc ラウドネス装置
JPH06177688A (ja) * 1992-10-05 1994-06-24 Mitsubishi Electric Corp オーディオ信号処理装置
JPH07122953A (ja) * 1993-10-22 1995-05-12 Matsushita Electric Ind Co Ltd 信号レベル圧縮装置
JP3322479B2 (ja) * 1994-05-13 2002-09-09 アルパイン株式会社 オーディオ装置
US6041297A (en) * 1997-03-10 2000-03-21 At&T Corp Vocoder for coding speech by using a correlation between spectral magnitudes and candidate excitations
JPH11166835A (ja) * 1997-12-03 1999-06-22 Alpine Electron Inc ナビゲーション音声補正装置
JP3505085B2 (ja) * 1998-04-14 2004-03-08 アルパイン株式会社 オーディオ装置
US6351529B1 (en) * 1998-04-27 2002-02-26 3Com Corporation Method and system for automatic gain control with adaptive table lookup
US6029126A (en) * 1998-06-30 2000-02-22 Microsoft Corporation Scalable audio coder and decoder
JP4522509B2 (ja) * 1999-07-07 2010-08-11 アルパイン株式会社 オーディオ装置
EP1210765B1 (en) * 1999-07-28 2007-03-07 Clear Audio Ltd. Filter banked gain control of audio in a noisy environment
US7072477B1 (en) * 2002-07-09 2006-07-04 Apple Computer, Inc. Method and apparatus for automatically normalizing a perceived volume level in a digitally encoded file
US8199933B2 (en) 2004-10-26 2012-06-12 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
CN101421781A (zh) * 2006-04-04 2009-04-29 杜比实验室特许公司 音频信号的感知响度和/或感知频谱平衡的计算和调整
DE102006047197B3 (de) * 2006-07-31 2008-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines reellen Subband-Signals zur Reduktion von Aliasing-Effekten
JP4706666B2 (ja) * 2007-05-28 2011-06-22 日本ビクター株式会社 音量制御装置及びコンピュータプログラム
WO2009086174A1 (en) * 2007-12-21 2009-07-09 Srs Labs, Inc. System for adjusting perceived loudness of audio signals

Also Published As

Publication number Publication date
JP5632532B2 (ja) 2014-11-26
EP2381574A1 (en) 2011-10-26
HK1161443A1 (en) 2012-08-24
BR112012026984A2 (pt) 2017-10-03
MX2012012113A (es) 2013-02-26
WO2011131732A1 (en) 2011-10-27
CN102986136A (zh) 2013-03-20
US8812308B2 (en) 2014-08-19
RU2012149697A (ru) 2014-05-27
EP2381574B1 (en) 2014-12-03
KR101469339B1 (ko) 2014-12-04
PL2381574T3 (pl) 2015-05-29
AU2011244268B2 (en) 2014-07-24
CN102986136B (zh) 2016-02-10
JP2013537726A (ja) 2013-10-03
CA2796948A1 (en) 2011-10-27
RU2573246C2 (ru) 2016-01-20
CA2796948C (en) 2016-10-18
KR20130008609A (ko) 2013-01-22
US20130046546A1 (en) 2013-02-21
ES2526761T3 (es) 2015-01-15

Similar Documents

Publication Publication Date Title
BR112012026984B1 (pt) aparelho e método para modificar um sinal de áudio de entrada
US10396738B2 (en) Methods and apparatus for adjusting a level of an audio signal
AU2011244268A1 (en) Apparatus and method for modifying an input audio signal
EP1629463B1 (en) Method, apparatus and computer program for calculating and adjusting the perceived loudness of an audio signal
EP2002429B1 (en) Controlling a perceived loudness characteristic of an audio signal
EP1835487B1 (en) Method, apparatus and computer program for calculating and adjusting the perceived loudness of an audio signal

Legal Events

Date Code Title Description
B15I Others concerning applications: loss of priority
B12F Other appeals [chapter 12.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 20/04/2011, OBSERVADAS AS CONDICOES LEGAIS. PATENTE CONCEDIDA CONFORME ADI 5.529/DF