BR112013021855B1 - aparelho e método para determinar uma medição para um nível percebido de reverberação, processador de áudio e método para processar um sinal - Google Patents

aparelho e método para determinar uma medição para um nível percebido de reverberação, processador de áudio e método para processar um sinal Download PDF

Info

Publication number
BR112013021855B1
BR112013021855B1 BR112013021855-0A BR112013021855A BR112013021855B1 BR 112013021855 B1 BR112013021855 B1 BR 112013021855B1 BR 112013021855 A BR112013021855 A BR 112013021855A BR 112013021855 B1 BR112013021855 B1 BR 112013021855B1
Authority
BR
Brazil
Prior art keywords
signal
component
reverberation
loudness
filtered
Prior art date
Application number
BR112013021855-0A
Other languages
English (en)
Other versions
BR112013021855A2 (pt
Inventor
Christian Uhle
Jouni PAULUS
Juergen Herre
Peter PROKEIN
Oliver Hellmuth
Original Assignee
Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V filed Critical Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V
Publication of BR112013021855A2 publication Critical patent/BR112013021855A2/pt
Publication of BR112013021855B1 publication Critical patent/BR112013021855B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • G10K15/12Arrangements for producing a reverberation or echo sound using electronic time-delay networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Abstract

Aparelho e Método para Determinar uma Medição para um Nível Percebido de Reverberação, Processador de Audio e Método para Processar um Sinal Um aparelho para determinar uma medição para um nível percebido de reverberação em um sinal de mistura consistindo em um componente do sinal direto (100) e um componente do sinal de reverberação (102), compreende um processador do modelo de sonoridade (104) compreendendo um estágio de filtro perceptual para filtrar o componente do sinal seco (100) o componente do sinal de reverberação (102) ou o sinal de mistura, caracterizado pelo estágio de filtro perceptual ser configurado para modelar um mecanismo de percepção auditiva de uma entidade para obter um sinal direto filtrado, um sinal de reverberação filtrado ou um sinal de mistura filtrado. O aparelho compreende, ainda, um estimador de sonoridade para estimar uma primeira medição de sonoridade utilizando o sinal direto filtrado e para estimar uma segunda medição de sonoridade utilizando o sinal de reverberação filtrado ou o sinal de mistura filtrado, onde o sinal de mistura filtrado é derivado de uma superposição do componente do sinal direto e do componente do sinal de reverberação. O aparelho compreende, ainda, um combinador (110) para combinar a primeira e a segunda medições de sonoridade (106, 108) para obter (...).

Description

Campo de aplicação
O presente pedido está relacionado ao processamento do sinal de áudio e, particularmente, ao processamento de áudio útil nos reverberadores artificiais.
A determinação de uma medição para um nível percebido de reverberação é, por exemplo, desejada para aplicações onde um processador de reverberação artificial é operado de forma automatizada e precisa adaptar seus parâmetros ao sinal de entrada, de modo que o nível percebido da reverberação corresponda a um valor alvo. É observado que o termo reverberância, enquanto se refere ao mesmo tema, não parece ter uma definição geralmente aceita, o que torna difícil sua utilização como uma medição quantitativa em um teste de audição e cenário de previsão.
Os processadores de reverberação artificial são geralmente implementados como sistemas invariantes de tempo lineares e operados em uma passagem do sinal de envio-retorno, conforme descrito na Figura 6, com pré-atraso d , resposta de impulso de reverberação (RIR I reverberation impulse response) e um fator de escala g para controlar o índice direto para reverberação (DRR I direct-to-reverberation ratio). Quando implementado como processadores de reverberação paramétrica, eles caracterizam uma variedade de parâmetros, por exemplo, para controlar a forma e a densidade da RIR e a coerência de intercanal (ICC I inter-channel coherence) das RIR's para processadores multicanais em uma ou mais bandas de frequência.
A Figura 6 mostra uma entrada do sinal direto x[k] em uma entrada 600, e este sinal é encaminhado a um adicionador 602 para adicionar este sinal a um componente do sinal de reverberação r[k] emitido de um ponderador 604, que recebe, na 5 sua primeira entrada, um sinal emitido por um filtro de reverberação 606 e que recebe, na sua segunda entrada, um fator de ganho g. O filtro de reverberação 606 pode ter um estágio de atraso opcional 608 conectado a montante do filtro de reverberação 606, mas devido ao fato de que o filtro de reverberação 606 10 incluir certo atraso por si, o atraso no bloco 608 pode ser incluido no filtro de reverberação 606, de modo que a ramificação superior na Figura 6 possa apenas compreender um único filtro que incorpora o atraso e a reverberação ou apenas incorporar a reverberação sem qualquer atraso adicional. Um componente do sinal 15 de reverberação é emitido pelo filtro 606 e este componente do sinal de reverberação pode ser modificado pelo multiplicador 606 em resposta ao fator de ganho g para obter o componente do sinal de reverberação manipulado r[k] que é então combinado com o componente do sinal direto entrada em 600 para finalmente obter o 20 sinal de mistura m[k] na saida do adicionador 602. É observado que o termo "filtro de reverberação" se refere às implementações comuns de reverberações artificiais (tanto como convolução que é equivalente a filtragem FIR, quanto como implementações utilizando estruturas recursivas, como Redes de Atraso de Feedback ou redes 25 de filtros passa tudo e filtros de pente de feedback ou outros filtros recursivos), mas designa um processamento geral que produz um sinal reverberante. Tais processamentos pode envolver processos não lineares ou processos variantes de tempo como modulações de baixa frequência das amplitudes do sinal ou extensões de atraso. Nestes casos o termo "filtro de reverberação" não se aplicaria em um sentido técnico estrito de um sistema Invariante do Tempo Linear (LTI I Linear Time Invariant) . De fato, o "filtro de reverberação" refere-se a um processamento que emite um sinal reverberante, possivelmente incluindo um mecanismo para ler um sinal reverberante computado ou registrado da memória.
Estes parâmetros têm um impacto no sinal de áudio resultante em termos de nivel percebido, distância, tamanho do ambiente, coloração e qualidade do som. Além disso, as características percebidas da reverberação dependem das características temporais e espectrais do sinal de entrada [1] . Focando em uma sensação muito importante, a saber, a sonoridade, pode ser observado que a sonoridade da reverberação percebida é monotonicamente relacionada a não estacionaridade do sinal de entrada. Intuitivamente falando, um sinal de áudio com grandes variações em seu invólucro excita a reverberação em altos niveis e permite se tornar audivel em niveis inferiores. Em um cenário tipico onde o DRR em longo prazo expresso em decibéis é positivo, o sinal direto pode mascarar o sinal de reverberação quase completamente em momentos do tempo onde seu invólucro de energia aumenta. Por outro lado, sempre que o sinal terminar, a cauda de reverberação previamente excitada se torna aparente nos espaços que excedem uma duração minima determinada pela inclinação da pós- mascaramento (no máximo 200 ms) e o tempo de integração do sistema auditivo (no máximo 200 ms para niveis moderados).
Para ilustrar isso, a Figura 4a mostra os sinal de reverberação artificialmente gerado, e a Figura 4b mostra as funções da sonoridade prevista e da sonoridade parcial computadas com um modelo computacional de sonoridade. Uma RIR com um curto pré-atraso de 50 ms é utilizado aqui, omitindo as reflexões prévias e sintetizando a parte atrasada da reverberação com exponencialmente o ruído branco decadente [2], O sinal de entrada foi gerado de um sinal de banda larga harmônico e uma função de envelope de modo que um evento com um curto declínio e um segundo evento com um declínio longo sejam percebidos. Enquanto o longo evento produz mais energia total de reverberação, não é surpresa que seja o som curto que é percebido como sendo mais reverberante. Onde a inclinação decadente do evento mais longo mascara a reverberação, o som curto já desaparece antes da reverberação ser construída e assim um espaço está aberto onde a reverberação é percebida. Por favor, observe que a definição de mascaramento utilizada aqui inclui tanto o mascaramento completa quanto a parcial [3].
Embora tais observações tenham sido feitas muitas vezes [4, 5, 6], é ainda digno enfatizá-las, pois ilustra qualitativamente por que os modelos de sonoridade parcial podem ser aplicados no contexto deste trabalho. De fato, foi apontado que a percepção de reverberação surge dos processos de segregação de fluxo no sistema auditivo [4, 5, 6] e é influenciado pelo mascaramento parcial da reverberação devido ao som direto.
As considerações acima motivam o uso dos modelos de sonoridade. As investigações relacionadas foram realizadas por Lee et al. e focam na previsão da taxa de declínio subjetiva de RIR's ao ouvi-las diretamente [7] e no efeito do nível de reprodução na reverberância [8] . Um previsor para a reverberância utilizando periodos de declinio previamente baseados na sonoridade é proposto em [9] . Em contraste a este trabalho, os métodos de previsão propostos aqui processam o sinal direto e o sinal de 5 reverberação com um modelo computacional de sonoridade parcial (e com versões simplificadas dele na busca pelas implementações de baixa complexidade) e assim consideram a influência do sinal de entrada (direto) na sensação. Recentemente, Tsilfidis e Mourjopoulus [10] investigaram o uso de um modelo de sonoridade 10 para a supressão da reverberação atrasada nas gravações de canal único. Uma estimativa do sinal direto é computada do sinal de entrada reverberante utilizando um método de subtração espectral, e um indice de mascaramento de reverberação é derivado por meios de um modelo de mascaramento auditiva computacional, que controla 15 o processamento da reverberação.
É uma característica de sintetizadores multicanal e outros dispositivos adicionar a reverberação para tornar o som melhor a partir de um ponto de vista perceptual. Por outro lado, a reverberação gerada é um sinal artificial que quando adicionado ao 20 sinal em um baixo nivel é mal audivel e quando adicionado em um nivel alto leva ao final sinal misturado com som artificial e desagradável. O que torna as coisas ainda piores é que, conforme discutido no contexto da Figura 4a e 4b que o nivel percebido de reverberação é fortemente dependente do sinal e, então, um 25 determinado filtro de reverberação pode trabalhar muito bem para um tipo de sinais, mas pode ter nenhum efeito audivel ou, ainda pior, pode gerar sérios artefatos legíveis para um diferente tipo de sinal.
Um problema adicional relacionado à reverberação é que o sinal reverberado destina-se a orelha de uma entidade ou individuo, como um ser humano e ao objetivo final de gerar um sinal de mistura tendo um componente do sinal direto e um componente do sinal de reverberação é que a entidade percebe este sinal misturado ou "sinal reverberado" como soando bem ou como soando natural. Entretanto, o mecanismo de percepção auditiva ou o mecanismo como o som é realmente percebido por um individuo é fortemente não linear, não só com relação às bandas nas quais a audição humana trabalha, mas também com relação ao processamento de sinais dentro das bandas. Além disso, sabe-se que a percepção humana do som não é muito direcionada pelo nivel de pressão do som que pode ser calculado, por exemplo, pela quadratura de amostras digitais, mas a percepção é mais controlada por um sentimento de sonoridade. Além disso, para sinais misturados, que incluem um componente direto e um componente do sinal de reverberação, a sensação do componente sonoridade da reverberação depende não só do tipo de componente do sinal direto, mas também do nivel de ou sonoridade do componente do sinal direto.
Assim, há uma necessidade em determinar uma medição para um nivel percebido de reverberação em um sinal que consiste em um componente do sinal direto e um componente do sinal de reverberação para cooperar com os problemas acima relacionados com o mecanismo de percepção auditiva de uma entidade.
Um objetivo da presente invenção é, então, fornecer um aparelho ou método para determinar uma medição para um nivel percebido de reverberação ou fornecer um processador de características melhoradas.
Este objetivo é atingido por um aparelho para determinar uma medição para um nível percebido de reverberação de acordo com a reivindicação 1, um método para determinar uma medição para um nível percebido de reverberação de acordo com a reivindicação 10, um processador de áudio, de acordo com a reivindicação 11, um método para processar um sinal de áudio de acordo com a reivindicação 14 ou um programa de computador, de acordo com a reivindicação 15.
A presente invenção baseia-se na constatação que a medição para um nível percebido de reverberação em um sinal é determinada por um processador do modelo de sonoridade compreendendo um estágio de filtro perceptual para filtrar um componente do sinal direto, um componente do sinal de reverberação ou um componente do sinal de mistura utilizando um filtro perceptual para modelar um mecanismo de percepção auditiva de uma entidade. Com base nos sinais perceptualmente filtrados, um estimador de sonoridade estima uma primeira medição de sonoridade utilizando o sinal direto filtrado e uma segunda medição de sonoridade utilizando o sinal de reverberação filtrado ou o sinal de mistura filtrado. Então, um combinador combina a primeira medição e a segunda medição para obter uma medição para o nível percebido de reverberação. Particularmente, uma forma de combinar duas medições de sonoridade diferentes preferivelmente calculando a diferença fornece um valor quantitativo ou uma medição de o quão forte uma sensação da reverberação é comparada com a sensação do sinal direto ou o sinal de mistura.
Para calcular as medições de sonoridade, as medições de sonoridade absolutas podem ser usadas e, particularmente, as medições de sonoridade absolutas do sinal direto, do sinal misturado ou do sinal de reverberação. De modo alternativo, a sonoridade parcial também pode ser calculada onde a primeira medição de sonoridade é determinada utilizando o sinal direto como o estimulo e o sinal de reverberação como ruido no modelo de sonoridade e a segunda medição de sonoridade é calculada utilizando o sinal de reverberação como o estimulo e o sinal direto como o ruido. Particularmente, combinando estas duas medições no combinador, uma medição útil para um nivel percebido de reverberação é obtido. Foi observado pelos inventores que tal medição útil não pode ser determinada sozinha gerando uma única medição de sonoridade, por exemplo, utilizando o sinal direto sozinho ou o sinal de mistura sozinho ou o sinal de reverberação sozinho. Ainda, devido às interdependências na audição humana, combinar as medições que são derivadas de forma diferente destes três sinais, o nivel percebido de reverberação em um sinal pode ser determinado ou modelado com um algo grau de precisão.
Preferivelmente, o processador do modelo de sonoridade fornece uma conversão de tempo/frequência e reconhece a função de transferência auditiva junto com o padrão de excitação que ocorre realmente em um humano que ouve um modelo pelos modelos de audição.
Em uma aplicação preferida, a medição para o nivel percebido de reverberação é encaminhada a um previsor que realmente fornece o nivel percebido de reverberação em uma escala útil como a escala Sone. Este previsor é preferivelmente treinado ouvindo os dados de teste e os parâmetros do previsor para um previsor linear preferido compreender um termo constante e um fator de escala. O termo constante preferivelmente depende da característica do filtro de reverberação realmente utilizado e, em uma aplicação do parâmetro da característica do filtro de reverberação T60, que pode ser dado para filtros de reverberação diretos bem conhecidos utilizados nos reverberadores artificiais. Mesmo quando, entretanto, esta característica não for conhecida, por exemplo, quando o componente do sinal de reverberação não estiver separadamente disponível, mas foi separado do sinal de mistura antes de processar no aparelho inventivo, uma estimativa para o termo constante pode ser derivada.
Subsequentemente, as aplicações preferidas da presente invenção são descritas com relação aos desenhos anexos, nos quais:
A Figura 1 é um diagrama em blocos para um aparelho ou método para determinar uma medição para um nivel percebido de reverberação;
A Figura 2a é uma ilustração de uma aplicação preferida do processador do modelo de sonoridade;
A Figura 2b ilustra outra implementação preferida do processador do modelo de sonoridade;
A Figura 3 ilustra outra implementação preferida do processador do modelo de sonoridade;
A Figura 4a, ilustra exemplo de envelopes do sinal de tempo e uma sonoridade correspondente e sonoridade parcial, sendo: Envelopes de sinal de tempo de um sinal de áudio (linha sólida), do sinal de reverberação (linha tracejada) e da mistura de ambos os sinais (linha pontilhada).
A Figura 4b ilustra exemplo de envelopes do sinal de tempo e uma sonoridade correspondente e sonoridade parcial, do sinal sendo: Sonoridade total (linha pontilhada), sonoridade parcial do sinal direto (linha sólida) e do sinal de reverberação (linha tracejada);
A Figura 5a, b ilustram informações nos dados experimentais para treinamento do previsor;
A Figura 6 ilustra um diagrama em blocos de um processador de reverberação artificial;
A Figura 7 ilustra três tabelas para indicar as métricas de avaliação para as aplicações da invenção;
A Figura 8 ilustra um processador do sinal de áudio implementado para utilizar a medição para um nivel percebido de reverberação para a finalidade da reverberação artificial;
A Figura 9 ilustra uma implementação preferida do previsor que depende dos niveis percebidos de reverberação calculados por média; e
A Figura 10 ilustra as equações da publicação de Moore Glasberg, Baer de 1997 utilizada em uma aplicação preferida para calcular a sonoridade especifica.
O nivel percebido de reverberação depende do sinal de entrada de áudio e da resposta de impulso. Aplicações da invenção têm o objetivo de quantificar esta observação e prever o nivel percebido de reverberação atrasada com base nas passagens do sinal separado dos sinais direto e reverberante, pois aparecem nos efeitos de áudio digital. Uma abordagem ao problema é desenvolvida e subsequentemente estendida considerando o impacto do tempo de reverberação no resultado da previsão. Isso leva a um modelo de regressão linear com duas variáveis de entrada que pode prever o nivel percebido com alta precisão, conforme mostrado nos dados experimentais derivados dos testes de audição. Variações deste modelo com diferentes graus de sofisticação e complexidade 5 computacional são comparados com relação a sua precisão.
Aplicações incluem o controle dos efeitos de áudio digital para mistura automática dos sinais de áudio.
Aplicações da presente invenção não são apenas úteis para prever o nivel percebido de reverberação na fala e 10 música quando o sinal direto e a resposta de impulso de reverberação (RIR) estão separadamente disponíveis. Em outras aplicações, nas quais um sinal reverberado ocorre, a presente invenção pode ser aplicada também. Neste momento, entretanto, um separador direto/ambiente ou direto/reverberação seria incluido 15 para separar o componente do sinal direto e o componente do sinal reverberado do sinal de mistura. Tal processador de áudio seria então útil para mudar a razão direta/reverberação neste sinal para gerar um sinal reverberado de som melhor ou sinal de mistura de som melhor.
A Figura 1 ilustra um aparelho para determiner uma medição para um nivel percebido de reverberação em um sinal de mistura compreendendo um componente do sinal componente do sinal seco ou direto 100 e um componente do sinal de reverberação 102. O componente do sinal seco 100 e o componente do sinal de 25 reverberação 102 são inseridos em um processador do modelo de sonoridade 104. 0 processador do modelo de sonoridade é configurado para receber o componente do sinal direto 100 e o componente do sinal de reverberação 102 e está, além disso, compreendendo um estágio de filtro perceptual 104a e um calculador de sonoridade subsequentemente conectada 104b conforme ilustrado na Figura 2a. 0 processador do modelo de sonoridade gera, na sua saida, uma primeira medição de sonoridade 106 e uma segunda 5 medição de sonoridade 108. Ambas as medições de sonoridade são inseridas em um combinador 110 para combinar a primeira medição de sonoridade 106 e a segunda medição de sonoridade 108 para finalmente obter uma medição 112 para o nivel percebido de reverberação. Dependendo da implementação, a medição para o nivel 10 percebido 112 pode ser inserido em um previsor 114 para prever o nivel percebido de reverberação com base em um valor médio de pelo menos duas medições para a sonoridade percebida para diferentes estruturas do sinal como será discutido no contexto da Figura 9. Entretanto, o previsor 114 na Figura 1 é opcional e realmente 15 transforma a medição para o nivel percebido em uma determinada faixa de valor ou faixa de unidade como a faixa de unidade Sone que é útil para dar valores quantitativos relacionados à sonoridade. Entretanto, outros usos para a medição para o nivel percebido 112 que não é processado pelo previsor 114 podem ser 20 utilizados também, por exemplo, no processador de áudio da Figura 8, que não tem necessariamente que depender de um valor emitido pelo previsor 114, mas que também pode diretamente processar a medição para o nivel percebido 112, tanto em uma forma direta quanto preferivelmente em um tipo de forma suave onde o tempo de 25 suavização é preferido para não ter correções de nivel que mudam muito do sinal reverberado ou, conforme discutido posteriormente, do fator de ganho g ilustrado na Figura 6 ou ilustrado na Figura 8 .
Particularmente, o estágio de filtro perceptual é configurado para filtrar o componente do sinal direto, o componente do sinal de reverberação ou o componente do sinal de mistura, em que o estágio de filtro perceptual é configurado para modelar um mecanismo de percepção auditiva de uma entidade como um ser humano para obter um sinal direto filtrado, um sinal de reverberação filtrado ou um sinal de mistura filtrado. Dependendo da implementação, o estágio de filtro perceptual pode compreender dois filtros que operam em paralelo ou podem compreender um armazenamento e um único filtro desde que um e o mesmo filtro possa realmente ser utilizado para filtrar cada um dos três sinais, ou seja, o sinal de reverberação, o sinal de mistura e o sinal direto. Neste contexto, entretanto, deve ser observado que embora a Figura 2a ilustra n filtros que modelam o mecanismo de percepção auditiva, realmente dois filtros serão suficientes ou um único filtro que filtra dois sinais fora do grupo compreendendo o componente do sinal de reverberação, o componente do sinal de mistura e o componente do sinal direto.
O calculador de sonoridade 104b ou estimador de sonoridade é configurado para estimar a primeira medição relacionada à sonoridade utilizando o sinal direto filtrado e para estimar a segunda medição de sonoridade utilizando o sinal de reverberação filtrado ou o sinal de mistura filtrado, onde o sinal de mistura é derivado de uma superposição do componente do sinal direto e do componente do sinal de reverberação.
A Figura 2c ilustra quatro modos preferidos para calcular a medição para o nivel percebido de reverberação. A aplicação 1 depende da sonoridade parcial onde ambos, o componente do sinal direto x e o componente do sinal de reverberação r, são utilizados no processador do modelo de sonoridade, mas onde, para determinar a primeira medição EST1, o sinal de reverberação é utilizado como o estimulo e o sinal direto é utilizado como o ruido. Para determinar a segunda medição de sonoridade EST2, a situação é mudada, e o componente do sinal direto é utilizado como um estimulo e o componente do sinal de reverberação é utilizado como o ruido. Então, a medição para o nivel percebido da correção gerada pelo combinador é uma diferença entre a primeira medição de sonoridade EST1 e a segunda medição de sonoridade EST2.
Entretanto, outras aplicações computacionalmente eficientes adicionalmente existem sendo indicadas nas linhas 2, 3, e 4 na Figura 2c. Estas medições computacionalmente mais eficientes dependem do cálculo da sonoridade total de três sinais compreendendo o sinal de mistura m, o sinal direto x e o sinal de reverberação n. Dependendo do cálculo exigido realizado pelo combinador indicado na última coluna da Figura 2c, a primeira medição de sonoridade EST1 é a sonoridade total do sinal de mistura ou do sinal de reverberação e a segunda medição de sonoridade EST2 é a sonoridade total do componente do sinal direto x ou do componente do sinal de mistura m, onde as combinações reais são conforme ilustrado na Figura 2c.
Em outra aplicação, o processador do modelo de sonoridade 104 está operando no dominio de frequência conforme discutido em mais detalhes na Figura 3. Nesta situação, o processador do modelo de sonoridade e, particularmente, o calculador de sonoridade 104b fornece uma primeira medição e uma segunda medição para cada banda. Estas primeiras medições sobre todas as n bandas são subsequentemente adicionadas ou combinadas juntas em um adicionador 104c para a primeira ramificação e 104d para a segunda ramificação para finalmente obter uma primeira medição para o sinal de banda larga e uma segunda medição para o sinal de banda larga.
A Figura 3 ilustra a aplicação preferida do processador do modelo de sonoridade que já foi discutido em alguns aspectos com relação às Figuras 1, 2a, 2b, 2c. Particularmente, o estágio de filtro perceptual 104a compreende um conversor de tempo/frequência 300 para cada ramificação, onde, na Figura 3 a aplicação, x[k] indica o estimulo e n[k] indica o ruido. O sinal convertido de tempo/frequência é encaminhado a um bloco de função de transferência auditiva 302 (Por favor observe que a função de transferência auditiva pode de modo alternativo ser computada antes do conversor de tempo/frequência com resultados semelhantes, mas a carga computacional mais alta) e a saida deste bloco 302 é inserida a um bloco de padrão de excitação de cálculo 304 seguido por um bloco de integração temporal 306. Então, no bloco 308, a sonoridade especifica nesta aplicação é calculada, onde o bloco 308 corresponde ao bloco do calculador de sonoridade 104b na Figura 2a. Subsequentemente, uma integração sobre a frequência no bloco 310 é realizada, onde o bloco 310 corresponde ao adicionador já descrito como 104c e 104d na Figura 2b. Deve ser observado que o bloco 310 gera a primeira medição para um primeiro conjunto de estimulo e ruido e a segunda medição para um segundo conjunto de estimulo e ruido. Particularmente, quando a Figura 2b é considerada, o estimulo para calcular a primeira medição é o sinal de reverberação e o ruido é o sinal direto enquanto, para calcular a segunda medição, a situação é mudada e o estimulo é o componente do sinal direto e o ruido é o componente do sinal de reverberação. Assim, para gerar duas medições de sonoridade diferentes, o procedimento ilustrado na Figura 3 foi realizado duas vezes. Entretanto, mudanças no cálculo ocorrem apenas no bloco 308 que opera diferentemente conforme discutido ainda no contexto da Figura 10, de modo que as etapas ilustradas pelos blocos 300 a 306 devem apenas ser realizadas uma vez, e o resultado do bloco de integração temporal 306 pode ser armazenado para calcular a primeira sonoridade estimada e a segunda sonoridade estimada para aplicação 1 na Figura 2c. Deve ser observado que, para outras aplicações 2, 3, 4 na Figura 3c, o bloco 308 é substituído por um bloco individual "calcular sonoridade total" para cada ramificação, onde, nesta aplicação é indiferente, se um sinal for considerado como um estimulo ou um ruido.
Subsequentemente, o modelo de sonoridade ilustrado na Figura 3 é discutido em mais detalhes.
A implementação do modelo de sonoridade na Figura 3 segue as descrições em [11, 12] com modificações conforme detalhado posteriormente. O treinamento e a validação da previsão usa dados de testes de audição descritos em [13] e brevemente resumidos posteriormente. A aplicação do modelo de sonoridade para prever o nivel percebido da reverberação atrasada é descrita posteriormente também. Os resultados experimentais seguem.
Esta seção descreve a implementação de um modelo de sonoridade parcial, os dados do teste de audição foi utilizado como verdadeiro para a previsão computacional do nivel percebido de reverberação, e um método de provisão proposto que se baseia no modelo de sonoridade parcial.
O modelo de sonoridade calcula computacionalmente a sonoridade parcial Nxn [&] de um sinal x[Zr] quando apresentado simultaneamente com um sinal de mascaramento n[k]
Figure img0001
Embora modelos anteriores tenham lidado com a percepção de sonoridade no ruido de fundo estável, algum trabalho existe na percepção da sonoridade nos fundos de ruido aleatório comodulado [14], sons ambientes complexos [12], e sinais de música [15] . A Figura 4b ilustra a sonoridade total e a sonoridade parcial de seus componentes do sinal de exemplo mostrado na Figura 4a, calculado com o modelo de sonoridade utilizado aqui.
O modelo utilizado neste trabalho é semelhante aos modelos em [11, 12] que teve como base a pesquisa anterior por Fletcher, Munson, Stevens, e Zwicker, com algumas modificações, conforme descrito a seguir. Um diagrama em blocos do modelo de sonoridade é mostrado na Figura 3. Os sinais de entrada são processados no dominio de frequência utilizando uma transformada de Fourier de curta duração (STFT I Short-time Fourier transform) . Em [12], 6 DFT's de diferentes extensões são utilizados para obter uma boa correspondência para a resolução de frequência e a resolução temporal d o sistema auditivo humano em todas as frequências. Neste trabalho, apenas uma extensão de DFT é utilizada para a eficiência computacional, com uma extensão da estrutura de 21 ms em uma taxa de amostragem de 48 kHz, 50% de sobreposição e uma função da janela Hann. A transferência através da audição externa e média é simulada com um filtro fixo. A função de excitação é computada para 40 bandas de filtro auditivo espaçados na escala da largura de banda retangular equivalente (ERB I equivalent rectangular bandwidth) utilizando um padrão de excitação dependente do nivel. Além da integração temporal devido ao janelamento da STFT, uma integração recursiva é implementada com uma constante de tempo de 25 ms, que é apenas ativa em periodos onde o sinal de excitação declina.
A sonoridade parcial especifica, ou seja, a sonoridade parcial evocada em cada banda de filtro auditivo, é computada a partir dos niveis de excitação do sinal de interesse (o estimulo) e o ruido de interferência de acordo com as Equações (17)-(20) em [11], ilustrado na Figura 10. Estas equações abrangem os quatro casos onde o sinal está acima do limite de audição no ruido ou não, e onde a excitação do sinal de mistura é menor do que 100 dB ou não. Se nenhum sinal de interferência é inserido ao modelo, ou seja /?[£] = 0 , o resultado é igual à sonoridade total 7Vf[Z:] do estimulo x[&].
Particularmente, a Figura 10 ilustra as equações 17, 18, 19, 20 da publicação "A Model for the Prediction of Thresholds, Loudness and Partial Loudness", B.C.J. Moore, B.R. Glasberg, T. Baer, J. Audio Eng. Soc., Vol. 45, No. 4, April 1997. Esta referência descreve o caso de um sinal apresentado junto com um som de fundo. Embora o fundo possa ser qualquer tipo de som, é referido como o "ruido" nesta referência para distingui-lo do sinal cuja sonoridade deve ser julgada. A presença do ruido reduz a sonoridade do sinal, um efeito chamado mascaramento parcial. A sonoridade do sinal cresce muito rapidamente quando seu nivel é elevado de um valor limite em um valor 20-30dB acima do limite. No papel é assumido que a sonoridade parcial de um sinal apresentado no ruido possa ser calculado resumindo a sonoridade do sinal especifico parcial pela frequência (em uma escala de ERB) . As Equações são derivadas para calcular a sonoridade especifica parcial considerando quatro casos limitativos. ESIN denota a excitação evocada pelo sinal e ERUÍDO denota a excitação evocada pelo ruido. É assumido que ESIN>ET11RQ e ESIN mais ERUtDO<1010. A sonoridade especifica total N'TOT é definida como segue:
Figure img0002
Assume-se que o ouvinte pode dividir uma sonoridade especifica em uma dada frequência central entre a sonoridade especifica do sinal e a do ruido, mas de uma forma que prefira a sonoridade especifica total.
Figure img0003
Esta suposição é consistente, visto que na maioria das experiências que medem o mascaramento parcial, o ouvinte ouve o primeira ruido sozinho e então o ruido mais o sinal. A sonoridade especifica para o ruido sozinho, assumindo que está acima do limite, é
Figure img0004
Assim, se a sonoridade especifica do sinal foi derivada simplesmente sujeitando a sonoridade especifica do ruido da sonoridade especifica total, o resultado seria
Figure img0005
Na prática, a forma que a sonoridade especifica está posicionada entre o sinal e o ruido parece variar dependendo da excitação relativa do sinal e do ruido.
Quatro situações são consideradas indicando como a sonoridade especifica é atribuída em diferentes niveis do sinal.
Deixe ETHRN denotar a excitação máxima evocada por um sinal sinusoidal quando estiver no seu limite mascarado no ruido de fundo- Quando USIN estiver bem abaixo de £THRN, toda a sonoridade especifica é atribuida ao ruido, e a sonoridade do sinal especifico parcial se aproxima a zero. Segundo, quando FRUÍDO estiver bem abaixo de KTHRQ, a sonoridade especifica parcial se aproxima ao valor teria um sinal quieto. Terceiro, quando o sinal está em seu limite mascarado, com a excitação ETHRN, é assumido que a sonoridade especifica parcial é igual ao valor que ocorreria para um sinal no limite absoluto. Finalmente, quando um sinal está centralizado no ruido de banda estreita está bem acima do seu limite mascarado, a sonoridade do sinal aproxima seu valor não mascarado. Então, a sonoridade do sinal especifico parcial também se aproxima do seu valor não mascarado.
Considere as implicações destas várias condições de limite. No limite mascarado, a sonoridade especifica é igual apara um sinal no limite em silêncio. Esta sonoridade especifica é menor do que seria previsto a partir da equação acima, presumidamente por causa da sonoridade especifica do sinal ser atribuído ao ruido. Para obter a sonoridade especifica correta para o sinal, é assumido que a sonoridade especifica atribuida ao ruido seja aumentada pelo fator B, onde
Aplicar este fator ao segundo termo na equação acima para N' SIN resulta em
Assume-se que quando o sinal estiver no limite mascarado, sua excitação máxima ETHRN é igual a KERUÍDO+.ETHRQZ onde K é a razão sinal-ruido na saida do filtro auditivo necessário para limitar em niveis mais altos do mascarador. Estimativas recentes de K, obtidas para mascarar as experiências utilizando o ruido ondulado, sugerem que K aumente de forma marcada em frequências muito baixas, se tornando maior do que a unidade. Na referência, o valor de K é estimado como uma função de frequência. O valor reduz de niveis altos em baixas frequências para baixos niveis constantes em frequências mais altas. Infelizmente, não há estimativas para K para frequências centrais abaixo de 100 Hz, assim os valores de 50 a 100 Hz que substituem ETHRN na equação acima resulta em:
Quando ESIN=ETHRN, esta equação especifica a sonoridade especifica máxima para um sinal no limite absoluto em silêncio.
Quando o sinal estiver bem acima do seu limite mascarado, ou seja, quando ESIN»£THRNZ a sonoridade especifica do sinal se aproxima do valor que teria quando nenhum ruido de fundo está presente. Isso significa que a sonoridade especifica atribuida ao ruido se torna um pequeno desaparecimento. Para acomodar isso a equação acima é modificada pela introdução de um termo extra que depende do indice ETHRN / ESIN- Este termo reduz conforme E ESIN é elevado acima do valor correspondente ao limite mascarado. Assim, a equação acima se torna a equação 17 na Figura 10.
Esta é a equação final para N'SIN O caso quando ESIN>ETHRN e ESIN+ERUÍDO^IO10 • O expoente 0,3 no escolhido empiricamente para dar um bom encaixe aos dados na I sonoridade de um tom no ruido como uma função da razão do sinal- ruido.
Subsequentemente, a situação é considerada onde 5 ESIN<ETHRN- NO caso limite onde ESIN está logo abaixo de ETHRN, a sonoridade especifica aproximaria o valor dado na Equação 17 na Figura 10. Quando ESIK é reduzido a um bem abaixo de ETHRN, a sonoridade especifica se tornaria rapidamente muito pequena. Isso é obtido pela Equação 18 na Figura 10. O primeiro termo em 10 parênteses determina a taxa na qual uma sonoridade especifica reduz conforme ESIN é reduzida abaixo de ETHRN. ISSO descreve a relação entre a sonoridade especifica e a excitação para um sinal em silencio quando £SIN<-ETHRQ/ exceto que ETHRN foi substituído na Equação 18. O primeiro termo em colchetes garante que a sonoridade 15 especifica se aproxima ao valor definido pela Equação 17 da Figura 10 conforme ESIN se aproxima de ETHRN-
As equações para sonoridade parcial descritas até agora se aplicam quando ESIN+ERUÍDO<1010. Aplicando o mesmo raciocínio conforme utilizado para a derivação da equação (17) da Figura 10, 20 qualquer equação pode ser derivada para o caso ERUÍDO^-ETHRN e ESIN+ERUíDO>1010 conforme descrito na equação 19 na Figura 10. C2-C/ (1,04xl06) °'5. Semelhantemente, aplicando o mesmo raciocínio conforme utilizado para a derivação de equação (18) da Figura 10, uma equação pode ser derivada para o caso onde ESIN<ETHRN e 25 -ESIN+£RUÍDO>1010 conforme descrito na equação 20 na Figura 10.
Os pontos a seguir devem ser observados. Este modelo da técnica anterior é aplicado para a presente invenção onde, em uma primeira execução, SIN corresponde, por exemplo, ao sinal direto como o "estimulo" e o ruido corresponde, por exemplo, ao sinal de reverberação ou ao sinal de mistura como o "ruido". Na segunda execução conforme discutido no contexto da primeira aplicação na Figura 2c, SIN corresponderia então ao sinal de reverberação como o "estimulo" e "ruido" corresponderia ao sinal direto. Então, as duas medições de sonoridade são obtidas que são então combinadas pelo combinador preferivelmente formando uma diferença.
Para avaliar a adequabilidade do modelo de sonoridade descrito para a tarefa de prever o nivel percebido da reverberação atrasada, um corpus verdadeiro gerado das respostas do ouvinte é preferido. Para esta finalidade, os dados de uma investigação que caracteriza o teste de audição [13] são utilizados neste trabalho que é brevemente resumido a seguir. Cada teste de audição consistiu em várias telas gráficas de interface do usuário que apresentaram misturas de diferentes sinais diretos com diferentes condições da reverberação artificial. Os ouvintes foram questionados para classificar esta quantidade percebida de reverberação em uma escala de 0 to 100 pontos. Além disso, dois sinais âncoras foram apresentados em 10 pontos e em 90 pontos. Os ouvintes foram questionados para classificar a quantidade percebida de reverberação em uma escala de 0 a 100 pontos. Além disso, dois sinais âncoras foram apresentados em 10 pontos e em 90 pontos. Os sinais âncoras foram criados do mesmo sinal direto com diferentes condições de reverberação.
Os sinais diretos utilizados para criar os itens de teste foram gravações monofônicas de fala, instrumentos individuais e música de diferentes gêneros com uma extensão de aproximadamente 4 segundos cada. A maioria dos itens originados das gravações anecóicas, mas também gravações comerciais com uma pequena quantidade de reverberação original foi usada.
As RIR's representam a reverberação atrasada e foram geradas utilizando o ruido branco exponencialmente decadente com taxas de declinio dependentes da frequência. As taxas de declinio são escolhidas de modo que o tempo de reverberação reduza de frequências baixas para altas, começando em um tempo de reverberação T60 . Reflexões previas foram negadas neste trabalho. O sinal de reverberação r[&] e o sinal direto foram escalados e adicionados de modo que a razão de sua medição de sonoridade média de acordo com ITU-R BS.1770 [16] corresponda a uma DRR desejada e de modo que todas as misturas do sinal do teste tenham sonoridade igual a longo termo. Todos os participantes nos testes estavam trabalhando no campo de áudio e tiveram experiência com testes de audição subjetivos.
Os dados verdadeiros utilizados para treinamento e verificação / teste do método de previsão foram considerados de dois testes de audição e são denotados por A e B , respectivamente. O conjunto de dados A consistiu em indices de 14 ouvintes para 54 sinais. Os ouvintes repetiram o teste uma vez e o Índice médio foi obtido de todos os 28 índices para cada item. Os 54 sinais foram gerados combinando 6 sinais diretos diferentes e 9 condições de reverberação estereofônica, com e{1,1.6,2.4} s e DRR e {3,7.5,12} dB, e no pré-atraso.
Os dados em B foram obtidos dos índices de 14 ouvintes para 60 sinais. Os sinais foram gerados utilizando 15 sinais diretos e 36 condições de reverberação. As condições de reverberação testaram quatro parâmetros, a saber 7^0, DRR, pré- atraso, e ICC. Para cada sinal direto 4 RIR's foram escolhidas de modo que duas não tiveram nenhum pré-atraso e duas tiveram um curto pré-atraso de 50 ms, e duas foram monofônicas e duas foram estereofônicas.
Subsequentemente, outras funções de uma aplicação preferida do combinador 110 na Figura 1 são discutidas.
A característica básica de entrada para o método de previsão é computada a partir da diferença da sonoridade parcial Nr x[A] do sinal de reverberação r[A] (com o sinal direto x[A] sendo o interferente) e a sonoridade de x[A] (onde r[k]é o interferente), de acordo com a Equação 2.
Figure img0009
A lógica por trás da Equação (2) é que a diferença zWrv[A] é uma medição de quão forte a sensação da reverberação é comparada à sensação do sinal direto. Considerando a Considerando a diferença também observamos o resultado da previsão aproximadamente invariante com relação ao nivel de reprodução. 0 nivel de reprodução tem um impacto na sensação investigada [17, 8], mas em uma extensão mais sutil do que a refletida pelo aumento da sonoridade parcial Nrx com aumento do nivel de reprodução. Tipicamente, as gravações musicais soam mais reverberantes em niveis de moderado a alto (começando a aproximadamente 75-80 dB SPL) do que a aproximadamente 12 a 20 dB niveis inferiores. Este efeito é especialmente óbvio nos casos onde a DRR é positiva, que é válida "para quase todas as músicas gravadas" [18], mas não em todos os casos para a música para concerto onde "ouvintes estão geralmente bem além da distância crítica" [6] .
A redução do nível percebido da reverberação com nível de reprodução decrescente é mais bem explicada pelo fato de que a range de reverberação dinâmica é menor do que dos sons diretos (ou, uma representação de tempo/frequência de reverberação é mais densa onde uma representação de tempo/frequência de sons diretos é mais insuficiente [19]). Neste cenário, o sinal de reverberação é mais provável cair abaixo do limite de audição do que os sons diretos.
Embora equação (2) descreve, como a operação de combinação, uma diferença entre as duas medições de sonoridade Nr,x[k] e Nx,r[k], outras combinações podem ser realizadas como multiplicações, divisões ou ainda adições. Em qualquer caso, é suficiente que as duas alternativas indicadas pelas duas medições de sonoridade sejam combinadas para ter as influências de ambas as alternativas no resultado. Entretanto, as experiências mostraram que a diferença resulta nos melhores valores do modelo, ou seja, nos resultados do modelo que encaixam com os testes de audição em uma boa extensão, de modo que a diferença seja a forma preferida de combinação.
Subsequentemente, detalhes do previsor 114 ilustrado na Figura 1 são descritos, onde estes detalhes se referem a uma aplicação preferida.
Os métodos de previsão descritos a seguir são lineares e usam um encaixe quadrático mínimo para a computação dos coeficientes do modelo. A simples estrutura do previsor é vantajosa em situações onde o tamanho dos conjuntos de dados para treinamento e teste do previsor é limitado, o que poderia levar ao sobreajuste do modelo ao utilizar os métodos de regressão com mais graus de liberdade, por exemplo, redes neurais. O previsor da linha de base Rh é derivado pela regressão linear de acordo com a Equação (3) com os coeficientes aí, com K sendo a extensão do sinal nas estruturas,
Figure img0010
O modelo tem apenas uma variável independente, ou seja, a média de . Para rastrear as mudanças e poder implementar um processamento em tempo real, a computação da média pode ser aproximada utilizando um integrador de fuga. Os parâmetros do modelo derivados ao utilizar o conjunto de dados A para o treinamento são a0 = 48.2 e ^=14.0, onde a0 é igual ao indice médio de todos os ouvintes e itens.
A Figura 5a descreve as sensações previstas para o conjunto de dados A . Pode ser visto que as previsões são moderadamente correlacionadas com os índices médios do ouvinte com um coeficiente de correlação de 0,71. Por favor observe que a escolha dos coeficientes de regressão não afeta esta correlação. Conforme mostrado no gráfico inferior, Para cada mistura gerada pelos mesmos sinais diretos, os pontos exibem uma forma da característica centralizada próxima a diagonal. Esta forma indica que embora o modelo de linha de base Rh possa prever R em determinado grau, não reflete a influência d e T60 nos índices. A inspeção visual dos pontos de dados sugere uma dependência linear em 760 . Se o valor de for conhecido, como é o caso ao controlar um efeito de áudio, pode ser facilmente incorporado no modelo de regressão linear para derivar uma previsão melhorada
Figure img0011
Os parâmetros do modelo derivados do conjunto de dados A são α0=48.2, «,=12.9, a2 -10.2 . Os resultados são mostrados na Figura 5b separadamente para cada um dos conjuntos de dados. A avaliação dos resultados é descrita em mais detalhes na próxima seção.
De modo alternativo, uma média sobre mais ou menos blocos pode ser realizada desde que uma média sobre pelo menos dois blocos ocorra, embora, devido à teoria da equação linear, os melhores resultados podem ser obtidos, quando uma média sobre toda a música aumenta a uma determinada estrutura é realizada. Entretanto, para aplicações de tempo real, é preferido reduzir o número de estruturas na qual tem sua média dependendo da aplicação real.
A Figura 9 adicionalmente ilustra que o termo constante é definido por a0 e a2"T60- 0 segundo termo a2*T60 foi selecionado para estar na posição para aplicar esta equação não apenas em um único reverberador, ou seja, em uma situação na qual o filtro 600 da Figura 6 não é mudado. Esta equação que, certamente, é um termo constante, mas que depende dos filtros de reverberação realmente utilizados 606 da Figura 6 fornece, então, a flexibilidade para utilizar exatamente a mesma equação para outros filtros de reverberação tendo outros valores de T60. Como é conhecido na técnica, T60 é um parâmetro que descreve um determinado filtro de reverberação e, particularmente significa que a energia da reverberação foi reduzida a 60dB de um valor energia da reverberação máxima inicial. Tipicamente, as curvas de reverberação são decrescentes com o tempo e, então, T60 indica uma periodo de tempo, no qual uma energia da reverberação gerada por uma excitação do sinal reduziu a 60dB. Resultados semelhantes em termos de precisão de previsão são obtidos substituindo T60 por 5 parâmetros que representam informações semelhantes (da extensão da RIR) , por exemplo T30 .
A seguir, os modelos são avaliados utilizando o coeficiente de correlação r , o erro absoluto médio {MAE I mean absolute error) e o erro quadrático médio de previsão (RMSE I root 10 mean squared error) entre as indices médias do ouvinte e a sensação prevista. As experiências são realizadas como validação cruzada de duas dobras, ou seja, o previsor é treinado com o conjunto de dados A e testado com o conjunto de dados B, e a experiência é repetida com B para treinamento e A para teste. As 15 métricas de avaliação obtidas de ambas as operações têm sua média calculada, separadamente para treinamento e teste.
Os resultados são mostrados na Tabela 1 quanto aos modelos de previsão Rh e Rc . O previsor Rc reproduz os resultados precisos com um RMSE de 10,6 pontos. A média do desvio 20 padrão dos indices do ouvinte individual por item são dados como uma medição para a dispersão da média (dos indices de todos os ouvintes por item) como <TX=13.4 para o conjunto de dados A e CT/j =13.6 para o conjunto de dados B. A comparação ao RMSE indica que Re é pelo menos tão preciso quando o ouvindo médio no teste de 25 audição.
As precisões das previsões para os conjuntos de dados diferente levemente, por exemplo, para Re ambos MAE e RMSE são aproximadamente um ponto abaixo do valor médio (conforme listado na Tabela) ao testar com o conjunto de dados A e um ponto acima da média ao testar com o conjunto de dados B . 0 fato de que as métricas de avaliação para treinamento e teste são comparáveis indica que o sobreajuste do previsor foi evitado.
Para facilitar uma implementação econômica de tais modelos de previsão, as experiências a seguir investigam como o uso das funções de sonoridade com menos complexidade computacional influencia a precisão do resultado da previsão. As experiências focam na substituição da computação da sonoridade parcial pelas estimativas da sonoridade total e nas implementações simplificadas do padrão de excitação.
Ao invés de utilizar a diferença da sonoridade parcial ZXJV,. t [A] , três diferenças das estimativas da sonoridade total são avaliadas, com a sonoridade do sinal direto AU&], a sonoridade da reverberação AÇ[&], e a sonoridade do sinal de mistura Nm [ír], conforme mostrado nas Equações (5)-(7), respectivamente.
Figure img0012
A equação (5) é baseada na suposição que o nivel percebido do sinal de reverberação pode ser expresso como a diferença (aumento) em toda a sonoridade que é causada pela adição da reverberação ao sinal seco.
Seguindo uma lógica semelhante como para a diferença da sonoridade parcial na Equação (2), as funções da sonoridade utilizando as diferenças da sonoridade total do sinal de reverberação e o sinal de mistura ou o sinal direto, respectivamente, são definidos nas Equações (6) e (7) . A medição para prever a sensação é derivada da sonoridade do sinal de reverberação quando listada para separadamente, com termos de subtração para modelar o mascaramento parcial e para normalização com relação ao nivel de reprodução derivado do sinal de mistura ou do sinal direto, respectivamente.
Figure img0013
A Tabela 2 mostra os resultados obtidos com as funções baseadas na sonoridade total e revela que de fato duas delas, ΔA^m..,[*] e ΔN„[t], produzem previsões com quase a mesma precisão que Re . Mas conforme mostrado na Tabela 2, mesmo ΔNr_n[k] fornece uso para os resultados.
Finalmente, em uma experiência adicional, a influência da implementação da função de dispersão é investigada. Isso é de significância particular para muitos cenários de aplicação, pois o uso dos padrões de excitação dependentes do nivel demanda implementações de alta complexidade computacional. As experiências com um processamento semelhante como para e, mas utilizando um modelo de sonoridade sem dispersão e um modelo de sonoridade com função de dispersão invariante de nivel levou aos resultados mostrados na Tabela 2. A influência da dispersão parece ser insignificante.
Assim, as equações (5), (6) e (7) que indicam as aplicações 2, 3, 4 da Figura 2c ilustram que mesmo sem sonoridades parciais, mas com sonoridades totais, para diferentes combinações de componentes do sinal ou sinais, bons valores ou medições para o nivel percebido de reverberação em um sinal de mistura são obtidos também.
Subsequentemente uma aplicação preferida da determinação inventiva das medições para um nivel percebido de reverberação é discutida no contexto da Figura 8. A Figura 8 ilustra um processador de áudio para gerar um sinal reverberado de um componente do sinal direto inserido em uma entrada 800. O componente do sinal seco ou direto é inserido em um reverberador 801, que pode ser semelhante ao reverberador 606 na Figura 6. O componente do sinal seco de entrada 800 é adicionalmente inserido em um aparelho 8 02 para determinar a medição para uma sonoridade percebida que pode ser implementada conforme discutido no contexto da Figura 1, da Figura 2a e 2c, 3, 9 e 10. A saida do aparelho 802 é a medição R para um nivel percebido de reverberação em um sinal de mistura que é inserido em um controlador 803. O controlador 803 recebe, em outra entrada, um valor alvo para a medição do nivel percebido de reverberação e calcula, a partir deste valor alvo e o valor real R novamente um valor na saida 804.
Este valor de ganho é inserido em um manipulador 805 que é configurado para manipular, nesta aplicação, o componente do sinal de reverberação 806 emitido pelo reverberador 801. Conforme ilustrado na Figura 8, o aparelho 802 adicionalmente recebe o componente do sinal de reverberação 806 conforme discutido no contexto da Figura 1 e as outras Figuras que descrevem o aparelho para determinar uma medição de uma sonoridade percebida. A saida do manipulador 805 é inserida em um adicionador 807, onde a saida do manipulador compreende na aplicação da Figura 8 o componente de reverberação manipulado e a saida do adicionador 807 indica um sinal de mistura 808 com uma reverberação percebida conforme determinado pelo valor alvo. O controlador 803 pode ser configurado para implementar qualquer uma das regras de controle conforme definido na técnica para controle de feedback onde o valor alvo é um valor definido e o valor R gerado pelo aparelho é um valor real e o ganho 804 é selecionado de modo que o valor real R aproxime ao valor alvo inserido no controlador 803. Embora a Figura 8 seja ilustrada em que o sinal de reverberação é manipulado pelo ganho no manipulador 805 que particularmente compreende um multiplicador ou ponderador, outras implementações podem ser realizadas também. Outra implementação, por exemplo, é que não o sinal de reverberação 806, mas o componente do sinal seco é manipulado pelo manipulador conforme indicado pela linha opcional 809. Neste caso, o componente do sinal de reverberação não manipulado conforme emitido pelo reverberador 801 seria inserido no adicionador 807 conforme ilustrado pela linha opcional 810. Naturalmente, mesmo uma manipulação do componente do sinal seco e do componente do sinal de reverberação poderia ser realizada para introduzir ou definir uma determinada medição da sonoridade percebida da reverberação no sinal de mistura 808 emitido pelo adicionador 807. Outra implementação, por exemplo, é que o tempo de reverberação T6o é manipulado.
A presente invenção fornece uma previsão simples e robusta do nivel percebido de reverberação e, especificamente, a reverberação atrasada na fala e música utilizando os modelos de sonoridade de complexidade computacional variante. Os módulos de previsão foram treinados e avaliados utilizando os dados subjetivos de três testes de audição. Como um ponto inicial, o uso de um modelo de sonoridade parcial levou a um modelo de previsão com alta precisão quando o Tgo da RIR 606 da Figura 6 for conhecida. Este resultado é interessante a partir do ponto de vista perceptual, quando é considerado que o modelo da sonoridade parcial não foi originalmente desenvolvido com estimulo de som direto e reverberante conforme discutido no contexto da Figura 10. Modificações subsequentes da computação das funções de entrada para o método de previsão leva a uma série de modelos simplificados que foram mostrados para atingir o desempenho comparável para os conjuntos de dados em mãos. Estas modificações incluiram o uso de modelos de funções de dispersão de sonoridade total simplificada. As aplicações da presente invenção também são aplicáveis para RIR's mais diversos incluindo reflexões prévias e pré-atrasos maiores. A presente invenção também é útil para determinar e controlar a contribuição da sonoridade percebida de outros tipos de efeitos aditivos ou de áudio reverberante.
Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é evidente que estes aspectos representam também uma descrição do método correspondente, onde um bloco ou um dispositivo corresponde a uma etapa do método ou de uma característica de uma etapa do método. De forma análoga, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco correspondente ou item ou característica de um aparelho correspondente.
Dependendo dos requisitos de certas implementações, as aplicações da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando um meio digital de armazenamento, por exemplo, um Disquete, um DVD, um CD, uma memória ROM, PROM, EPROM, EEPROM ou uma memória FLASH, possuindo sinais de controle eletronicamente legiveis nela armazenados, que cooperam (ou são capazes de cooperar) com um sistema de computador programável, de modo que o respectivo método seja realizado.
Algumas aplicações de acordo com a invenção compreendem um suporte de dados tangivel ou não transitório com sinais de controle legiveis eletronicamente, os quais são capazes de cooperar com um sistema de computador programável, de tal forma que um dos métodos aqui descritos seja realizado.
De forma geral, as aplicações da presente invenção podem ser implementadas como um produto de programa de computador com um código de programa, o código de programa sendo operativo para a realização de um dos métodos quando o produto de programa de computador operar em um computador. O código de programa pode, por exemplo, ser armazenado em um suporte mecanicamente legivel.
Outras aplicações incluem o programa de computador para executar um dos métodos aqui descritos, armazenado em um suporte mecanicamente legivel.
Em outras palavras, uma aplicação do método da invenção é, portanto, um programa de computador com um código de programa para realizar um dos métodos aqui descritos, quando o programa de computador for executado em um computador.
Uma aplicação adicional do método da invenção é, portanto, um suporte de dados (ou um meio de armazenamento digital ou um meio legivel por computador) compreendendo, gravado nele, o programa de computador para a realização de um dos métodos aqui descritos.
Uma aplicação adicional do método da invenção é, portanto, um fluxo de dados ou uma sequência de sinais que representam o programa de computador para a realização de um dos métodos aqui descritos. O fluxo de dados ou a sequência de sinais podem, por exemplo, ser configurados para serem transferidos através de uma conexão para comunicação de dados, por exemplo, através da Internet.
Uma aplicação adicional compreende um meio de processamento, por exemplo, um computador ou um dispositivo lógico programável, configurado para ou adaptado para executar um dos métodos aqui descritos.
Uma aplicação adicional compreende um computador, tendo instalado nele o programa de computador para a execução de um dos métodos aqui descritos.
Em algumas aplicações, um dispositivo lógico programável (por exemplo, um arranjo de portas programáveis em campo) pode ser utilizado para executar uma parte ou todas as funcionalidades dos métodos aqui descritos. Em algumas aplicações, um arranjo de portas programáveis em campo pode cooperar com um microprocessador de modo a executar um dos métodos aqui descritos. De forma geral, os métodos são de preferência realizados por qualquer aparelho de hardware.
As aplicações acima descritas são meramente ilustrativas para os princípios da presente invenção. Entende-se que modificações e variações dos arranjos e detalhes aqui descritos serão evidentes para outros especialistas na técnica. É intenção, portanto, ser limitada apenas pelo escopo das reivindicações de patente pendente e não pelos detalhes específicos apresentados a titulo de descrição e explicação das aplicações da presente invenção. Lista de Referências [1] A. Czyzewski, "A method for artificial reverberation quality testing," J. Audio Eng. Soc., vol. 38, pp. 129-141, 1990. [2] J.A. Moorer, "About this reverberation business," Computer Music Journal, vol. 3, 1979. [3] B. Scharf, "Fundamentals of auditory masking," Audiology, vol. 10, pp. 30-40, 1971. [4] W.G. Gardner and D. Griesinger, "Reverberation level matching experiments," in Proc. of the Sabine Centennial Symposium, Acoust. Soc. of Am. , 1994. [5] D. Griesinger, "How loud is my reverberation," in Proc. Of the AES 98th Conv., 1995. [6] D. Griesinger, "Further investigation into the loudness of running reverberation," in Proc, of the Institute of Acoustics (UK) Conference, 1995. [7] D. Lee and D. Cabrera, "Effect of listening level and background noise on the subjective decay rate of room impulse responses: Using time varying-loudness to model reverberance," Applied Acoustics, vol. 71, pp. 801-811, 2010. [8] D. Lee, D. Cabrera, and W.L. Martens, "Equal reverberance matching of music," Proc, of Acoustics, 2009. [9] D. Lee, D. Cabrera, and W.L. Martens, "Equal reverberance matching of running musical stimuli having various reverberation times and SPLs," in Proc, of the 20th International Congress on Acoustics, 2010. [10] A. Tsilfidis and J. Mourjopoulus, "Blind perceptual reverberation modeling," J. Acoust. Soc. Am, vol. 129, pp. 1439-1451, 2011. [11] B.C.J. Moore, B.R. Glasberg, and T. Baer, "A model for the prediction of threshold, loudness, and partial loudness," J. Audio Eng. Soc., vol. 45, pp. 224-240, 1997. [12] B.R. Glasberg and B.C.J. Moore, "Development and evaluation of a model for predicting the audibility of time varying sounds in the presence of the background sounds," J. Audio Eng. Soc., vol. 53, pp. 906-918, 2005. [13] J. Paulus, C. Uhle, and J. Herre, "Perceived level of late reverberation in speech and music," in Proc, of the AES 130th Conv., 2011. [14] J.L. Verhey and S.J. Heise, "Einfluss der Zeitstruktur des Hintergrundes auf die Tonhaltigkeit und Lautheit des tonalen Vordergrundes (in German)," in Proc, of DAGA, 2010. [15] C. Bradter and K. Hobohm, "Loudness calculation for individual acoustical objects within complex temporally variable sounds," in Proc, of the AES 124th Conv., 2008 . [16] International Telecommunication Union, Radiocommunication Assembly, "Algorithms to measure audio programme loudness and true-peak audio level," Recommendation ITU- R BS. 1770, 2006, Geneva, Switzerland. [17] S. Hase, A. Takatsu, S. Sato, H. Sakai, and Y. Ando, "Reverberance of an existing hall in relation to both subsequent reverberation time and SPL," J. Sound Vib., vol. 232, pp. 149-155, 2000. [18] D. Griesinger, "The importance of the direct to reverberant ratio in the perception of distance, localization, clarity, and envelopment," in Proc, of the AES 126th Conv., 2009. [19] C. Uhle, A. Walther, O. Hellmuth, and J. Herre, "Ambience separation from mono recordings using Non- 5 negative Matrix Factorization," in Proc, of the AES 30th Conf., 2007.

Claims (14)

1. Aparelho para determinar uma medição para um nível percebido de reverberação em um sinal de mistura que consiste em um componente do sinal direto (100) e um componente do sinal de reverberação (102), caracterizado por compreender: um processador do modelo de sonoridade (104) compreendendo uma estágio de filtro perceptual para filtrar o componente do sinal seco (100), o componente do sinal de reverberação (102) ou o sinal de mistura, sendo que o estágio de filtro perceptual é configurado para modelar um mecanismo de percepção auditiva de uma entidade para obter um sinal direto filtrado, um sinal de reverberação filtrado ou um sinal de mistura filtrado; um estimador de sonoridade para estimar uma primeira medição de sonoridade utilizando o sinal direto filtrado e para estimar uma segunda medição de sonoridade utilizando o sinal de reverberação filtrado ou o sinal de mistura filtrado, onde o sinal de mistura filtrado é derivado de uma superposição do componente do sinal direto e do componente do sinal de reverberação; e um combinador (110) para combinar a primeira e a segunda medições de sonoridade (106, 108) para obter uma medição (112) para o nível percebido de reverberação.
2. Aparelho de acordo com a reivindicação 1, caracterizado por o estimador de sonoridade (104b) ser configurado para estimar a primeira medição de sonoridade de modo que o sinal direto filtrado seja considerado como um estímulo e o sinal de reverberação filtrado seja considerado um ruído, ou para estimar a segunda medição de sonoridade (108) de modo que o sinal de reverberação filtrado seja considerado como um estímulo e o sinal direto filtrado seja considerado como um ruído.
3. Aparelho de acordo com a reivindicação 1 ou 2, caracterizado por o estimador de sonoridade (104b) ser configurado para calcular a primeira medição de sonoridade como uma sonoridade do sinal direto filtrado ou para calcular a segunda medição de sonoridade como uma sonoridade do sinal de reverberação filtrado ou do sinal de mistura.
4. Aparelho de acordo com qualquer uma das reivindicações anteriores, caracterizado por o combinador (110) ser configurado para calcular uma diferença utilizando a primeira medição de sonoridade (106) e a segunda medição de sonoridade (108).
5. Aparelho de acordo com a reivindicação 1, caracterizado por compreender: um previsor (114) para prever o nível percebido de reverberação com base em um valor médio (904) de, pelo menos, duas medições para a sonoridade percebida para diferentes estruturas do sinal (k).
6. Aparelho de acordo com a reivindicação 5, caracterizado por o previsor (114) ser configurado para usar, em uma previsão (900), um termo constante (901, 903), um termo linear dependendo do valor médio (904) e um fator de escala (902).
7. Aparelho de acordo com a reivindicação 5 ou 6, caracterizado por o termo constante (903) depender do parâmetro de reverberação que descreve o filtro de reverberação (606) utilizado para gerar o sinal de reverberação em um artificial reverberador.
8. Aparelho de acordo com qualquer uma das reivindicações anteriores, caracterizado por estágio do filtro compreender um estágio de conversão de tempo/frequência (300), em que o estimador de sonoridade (104b) é configurado para somar (104c, 104d) os resultados obtidos para uma pluralidade de bandas para derivar a primeira e a segunda medições de sonoridade (106, 108) para um sinal de mistura de banda larga compreendendo o componente do sinal direto e o componente do sinal de reverberação.
9. Aparelho de acordo com qualquer uma das reivindicações anteriores, caracterizado por estágio do filtro (104a) compreender: um filtro de transferência auricular (302), um calculador do padrão de excitação (304) e um integrador temporal (306) para derivar o sinal direto filtrado ou o sinal de reverberação filtrado ou o sinal de mistura filtrado.
10. Método para determinar uma medição para um nível percebido de reverberação em um sinal de mistura que consiste em um componente do sinal direto (100) e um componente do sinal de reverberação (102), caracterizado por compreender: filtrar (104) o componente do sinal seco (100), o componente do sinal de reverberação (102) ou o sinal de mistura, em que a filtragem é realizada utilizando um estágio de filtro perceptual sendo confirmado para modelar um mecanismo de percepção auditiva de uma entidade para obter um sinal direto filtrado, um sinal de reverberação filtrado ou um sinal de mistura filtrado; estimar uma primeira medição de sonoridade utilizando o sinal direto filtrado; estimar uma segunda medição de sonoridade utilizando o sinal de reverberação filtrado ou o sinal de mistura filtrado, onde o sinal de mistura filtrado é derivado de uma superposição do componente do sinal direto e do componente do sinal de reverberação; e combinar (110) a primeira e a segunda medições de sonoridade (106, 108) para obter uma medição (112) para o nível percebido de reverberação.
11. Processador de áudio para gerar um sinal reverberado (808) de um componente do sinal direto (800), caracterizado por compreender: um reverberador (801) para reverberar o componente do sinal direto (800) para obter um componente do sinal reverberado (806); um aparelho para determinar uma medição para um nível percebido de reverberação no sinal reverberado compreendendo o componente do sinal direto e o componente do sinal reverberado, de acordo com qualquer uma das reivindicações 1 a 9; um controlador (803) para receber o nível percebido (R) gerado pelo aparelho (802) para determinar uma medição de um nível percebido de reverberação, e para gerar um sinal de controle (804) de acordo com o nível percebido e um valor alvo; um manipulador (805) para manipular o componente do sinal seco (800) ou o componente do sinal de reverberação (806) de acordo com o valor de controle (804); e um combinador (807) para combinar o componente do sinal seco manipulado e o componente do sinal de reverberação manipulado, ou para combinar o componente do sinal seco e o componente do sinal de reverberação manipulado, ou para combinar o componente do sinal seco manipulado e o componente do sinal de reverberação para obter o sinal de mistura (808).
12. Aparelho de acordo com a reivindicação 11, caracterizado por manipulador (805) compreender um ponderador para ponderar o componente do sinal de reverberação por um valor de ganho, o valor de ganho sendo determinado pelo sinal de controle, ou em que o reverberador (801) compreende um filtro variável, o filtro sendo variável em resposta ao sinal de controle (804).
13. Aparelho de acordo com a reivindicação 12, caracterizado por reverberador (801) ter um filtro fixo, em que o manipulador (805) possui o ponderador para gerar o componente do sinal de reverberação manipulado, e em que o adicionador (807) é configurado para adicionar o componente do sinal direto e o componente do sinal de reverberação manipulado para obter o sinal misturado (808).
14. Método para processar um sinal de áudio para gerar um sinal reverberado (808) de um componente do sinal direto (800), caracterizado por compreender: reverberar (801) o componente do sinal direto (800) para obter um componente do sinal reverberado (806); um método para determinar uma medição para um nível percebido de reverberação no sinal reverberado compreendendo o componente do sinal direto e o componente do sinal reverberado, de acordo com a reivindicação 10; receber o nível percebido (R) gerado pelo método (802) para determinar uma medição de um nível percebido de reverberação, gerar (803) um sinal de controle (804) de acordo com o nível percebido e um valor alvo; manipular (805) o componente do sinal seco (800) ou o componente do sinal de reverberação (806) de acordo com o valor de controle (804); e combinar (807) o componente do sinal seco manipulado e o componente do sinal de reverberação manipulado, ou combinar o componente do sinal seco e o componente do sinal de reverberação manipulado, ou combinar o componente do sinal seco manipulado e o componente do sinal de reverberação para obter o sinal de mistura (808).
BR112013021855-0A 2011-03-02 2012-02-24 aparelho e método para determinar uma medição para um nível percebido de reverberação, processador de áudio e método para processar um sinal BR112013021855B1 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161448444P 2011-03-02 2011-03-02
US61/448,444 2011-03-02
EP11171488A EP2541542A1 (en) 2011-06-27 2011-06-27 Apparatus and method for determining a measure for a perceived level of reverberation, audio processor and method for processing a signal
EP11171488.7 2011-06-27
PCT/EP2012/053193 WO2012116934A1 (en) 2011-03-02 2012-02-24 Apparatus and method for determining a measure for a perceived level of reverberation, audio processor and method for processing a signal

Publications (2)

Publication Number Publication Date
BR112013021855A2 BR112013021855A2 (pt) 2018-09-11
BR112013021855B1 true BR112013021855B1 (pt) 2021-03-09

Family

ID=46757373

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112013021855-0A BR112013021855B1 (pt) 2011-03-02 2012-02-24 aparelho e método para determinar uma medição para um nível percebido de reverberação, processador de áudio e método para processar um sinal

Country Status (14)

Country Link
US (1) US9672806B2 (pt)
EP (2) EP2541542A1 (pt)
JP (1) JP5666023B2 (pt)
KR (1) KR101500254B1 (pt)
CN (1) CN103430574B (pt)
AR (1) AR085408A1 (pt)
AU (1) AU2012222491B2 (pt)
BR (1) BR112013021855B1 (pt)
CA (1) CA2827326C (pt)
ES (1) ES2892773T3 (pt)
MX (1) MX2013009657A (pt)
RU (1) RU2550528C2 (pt)
TW (1) TWI544812B (pt)
WO (1) WO2012116934A1 (pt)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9055374B2 (en) * 2009-06-24 2015-06-09 Arizona Board Of Regents For And On Behalf Of Arizona State University Method and system for determining an auditory pattern of an audio segment
WO2014171791A1 (ko) 2013-04-19 2014-10-23 한국전자통신연구원 다채널 오디오 신호 처리 장치 및 방법
US10075795B2 (en) 2013-04-19 2018-09-11 Electronics And Telecommunications Research Institute Apparatus and method for processing multi-channel audio signal
EP2830043A3 (en) 2013-07-22 2015-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for Processing an Audio Signal in accordance with a Room Impulse Response, Signal Processing Unit, Audio Encoder, Audio Decoder, and Binaural Renderer
EP2840811A1 (en) 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder
US9319819B2 (en) 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
ES2932422T3 (es) 2013-09-17 2023-01-19 Wilus Inst Standards & Tech Inc Método y aparato para procesar señales multimedia
EP3062534B1 (en) 2013-10-22 2021-03-03 Electronics and Telecommunications Research Institute Method for generating filter for audio signal and parameterizing device therefor
WO2015099424A1 (ko) 2013-12-23 2015-07-02 주식회사 윌러스표준기술연구소 오디오 신호의 필터 생성 방법 및 이를 위한 파라메터화 장치
CN107770717B (zh) * 2014-01-03 2019-12-13 杜比实验室特许公司 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
EP4294055A1 (en) 2014-03-19 2023-12-20 Wilus Institute of Standards and Technology Inc. Audio signal processing method and apparatus
CN106165454B (zh) 2014-04-02 2018-04-24 韦勒斯标准与技术协会公司 音频信号处理方法和设备
US9407738B2 (en) * 2014-04-14 2016-08-02 Bose Corporation Providing isolation from distractions
EP2980789A1 (en) 2014-07-30 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhancing an audio signal, sound enhancing system
PL3311379T3 (pl) 2015-06-17 2023-03-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kontrola głośności dla interaktywności użytkownika w systemach kodowania audio
US9590580B1 (en) 2015-09-13 2017-03-07 Guoguang Electric Company Limited Loudness-based audio-signal compensation
GB201615538D0 (en) * 2016-09-13 2016-10-26 Nokia Technologies Oy A method , apparatus and computer program for processing audio signals
EP3389183A1 (en) 2017-04-13 2018-10-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for processing an input audio signal and corresponding method
GB2561595A (en) * 2017-04-20 2018-10-24 Nokia Technologies Oy Ambience generation for spatial audio mixing featuring use of original and extended signal
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
EP3460795A1 (en) * 2017-09-21 2019-03-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal processor and method for providing a processed audio signal reducing noise and reverberation
CN117475983A (zh) * 2017-10-20 2024-01-30 索尼公司 信号处理装置、方法和存储介质
JP7294135B2 (ja) 2017-10-20 2023-06-20 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム
JP2021129145A (ja) 2020-02-10 2021-09-02 ヤマハ株式会社 音量調整装置および音量調整方法
US11670322B2 (en) * 2020-07-29 2023-06-06 Distributed Creation Inc. Method and system for learning and using latent-space representations of audio signals for audio content-based retrieval
US20220322022A1 (en) * 2021-04-01 2022-10-06 United States Of America As Represented By The Administrator Of Nasa Statistical Audibility Prediction(SAP) of an Arbitrary Sound in the Presence of Another Sound
GB2614713A (en) * 2022-01-12 2023-07-19 Nokia Technologies Oy Adjustment of reverberator based on input diffuse-to-direct ratio
EP4247011A1 (en) * 2022-03-16 2023-09-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for an automated control of a reverberation level using a perceptional model

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
US7644003B2 (en) 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US7949141B2 (en) * 2003-11-12 2011-05-24 Dolby Laboratories Licensing Corporation Processing audio signals with head related transfer function filters and a reverberator
US7495166B2 (en) 2004-08-25 2009-02-24 Pioneer Corporation Sound processing apparatus, sound processing method, sound processing program and recording medium which records sound processing program
KR100619082B1 (ko) * 2005-07-20 2006-09-05 삼성전자주식회사 와이드 모노 사운드 재생 방법 및 시스템
EP1761110A1 (en) * 2005-09-02 2007-03-07 Ecole Polytechnique Fédérale de Lausanne Method to generate multi-channel audio signals from stereo signals
JP4175376B2 (ja) * 2006-03-30 2008-11-05 ヤマハ株式会社 オーディオ信号処理装置、オーディオ信号処理方法、及びオーディオ信号処理プログラム
JP4668118B2 (ja) * 2006-04-28 2011-04-13 ヤマハ株式会社 音場制御装置
US8036767B2 (en) * 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
WO2009039897A1 (en) 2007-09-26 2009-04-02 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V. Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program
EP2154911A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
US8965000B2 (en) * 2008-12-19 2015-02-24 Dolby International Ab Method and apparatus for applying reverb to a multi-channel audio signal using spatial cue parameters

Also Published As

Publication number Publication date
ES2892773T3 (es) 2022-02-04
CN103430574A (zh) 2013-12-04
KR20130133016A (ko) 2013-12-05
EP2681932B1 (en) 2021-07-28
CA2827326A1 (en) 2012-09-07
BR112013021855A2 (pt) 2018-09-11
US9672806B2 (en) 2017-06-06
MX2013009657A (es) 2013-10-28
AU2012222491B2 (en) 2015-01-22
RU2013144058A (ru) 2015-04-10
RU2550528C2 (ru) 2015-05-10
EP2681932A1 (en) 2014-01-08
CN103430574B (zh) 2016-05-25
JP5666023B2 (ja) 2015-02-04
AR085408A1 (es) 2013-10-02
TWI544812B (zh) 2016-08-01
EP2541542A1 (en) 2013-01-02
WO2012116934A1 (en) 2012-09-07
CA2827326C (en) 2016-05-17
TW201251480A (en) 2012-12-16
JP2014510474A (ja) 2014-04-24
AU2012222491A1 (en) 2013-09-26
KR101500254B1 (ko) 2015-03-06
US20140072126A1 (en) 2014-03-13

Similar Documents

Publication Publication Date Title
BR112013021855B1 (pt) aparelho e método para determinar uma medição para um nível percebido de reverberação, processador de áudio e método para processar um sinal
Postma et al. Perceptive and objective evaluation of calibrated room acoustic simulation auralizations
US10242692B2 (en) Audio coherence enhancement by controlling time variant weighting factors for decorrelated signals
BR112012022571B1 (pt) Método para filtrar um sinal multican al de áudio, sistema para aperfeiçoar a fala determinada por um sinal de entrada de áudio de multican al e meio legível em computador
BRPI0911456A2 (pt) mÉtodo e aparelho para manter audibilidade de fala em Áudio de méltiplos canais com impactos mÍnimo em experiÊncia envolvente
BR122020013603B1 (pt) Método e sistema para gerar um sinal binaural em resposta a um conjunto de canais de um sinal de entrada de áudio multicanal
Robinson et al. Echo thresholds for reflections from acoustically diffusive architectural surfaces
BR112015025919B1 (pt) Aparelho e método para criar um sinal de áudio modificado e sistema
Guski Influences of external error sources on measurements of room acoustic parameters
Uhle et al. Predicting the perceived level of late reverberation using computational models of loudness
Eneman et al. Evaluation of signal enhancement algorithms for hearing instruments
Lee et al. Comparison of psychoacoustic-based reverberance parameters
Vecchi et al. Predicting the perceived reverberation in different room acoustic environments using a binaural auditory model
Lee et al. Development of a clarity parameter using a time-varying loudness model
Poblete et al. The Use of Locally Normalized Cepstral Coefficients (LNCC) to Improve Speaker Recognition Accuracy in Highly Reverberant Rooms.
Impulse et al. Implementation Of A Hybrid Reverb Algorithm
Aichinger et al. Investigation of psychoacoustic principles for automatic mixdown algorithms
van Dorp Schuitman AUDITORY MODELLING
Extra et al. Artificial reverberation: Comparing algorithms by using monaural analysis tools
BR112017000645B1 (pt) Aparelho e método para reforço de um sistema de reforço de som e sinal de áudio
van Dorp Schuitman et al. Obtaining objective, content-specific room acoustical parameters using auditory modeling
Goldberg FINDING THE AUDIBILITY OF THE TEMPORAL DECAY RATE OF A LOW FREQUENCY ROOM MODE

Legal Events

Date Code Title Description
B15I Others concerning applications: loss of priority

Free format text: PERDA DA PRIORIDADE US 61/448,444 DE 02/03/2011 REIVINDICADA NO PCT/US2012/053193 POR NAO ENVIO DE DOCUMENTO COMPROBATORIO DE CESSAO DA MESMA CONFORME AS DISPOSICOES PREVISTAS NA LEI 9.279 DE 14/05/1996 (LPI) ART. 16 6O, ITEM 27 DO ATO NORMATIVO 128/1997, ART. 28 DA RESOLUCAO INPI-PR 77/2013 E ART 3O DA IN 179 DE 21/02/2017 UMA VEZ QUE DEPOSITANTE CONSTANTE DA PETICAO DE REQUERIMENTO DO PEDIDO PCT E DISTINTO DAQUELE QUE DEPOSITOU A PRIORIDADE REIVINDICADA.

B12F Other appeals [chapter 12.6 patent gazette]
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 24/02/2012, OBSERVADAS AS CONDICOES LEGAIS.