BR112017000645B1 - Aparelho e método para reforço de um sistema de reforço de som e sinal de áudio - Google Patents

Aparelho e método para reforço de um sistema de reforço de som e sinal de áudio Download PDF

Info

Publication number
BR112017000645B1
BR112017000645B1 BR112017000645-6A BR112017000645A BR112017000645B1 BR 112017000645 B1 BR112017000645 B1 BR 112017000645B1 BR 112017000645 A BR112017000645 A BR 112017000645A BR 112017000645 B1 BR112017000645 B1 BR 112017000645B1
Authority
BR
Brazil
Prior art keywords
signal
audio signal
value
decorrelation
weighting factors
Prior art date
Application number
BR112017000645-6A
Other languages
English (en)
Other versions
BR112017000645A2 (pt
Inventor
Uhle Christian
Gampp Patrick
Hellmuth Oliver
Varga Stefan
Scharrer Sebastian
Original Assignee
Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP14179181.4A external-priority patent/EP2980789A1/en
Application filed by Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. filed Critical Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V.
Publication of BR112017000645A2 publication Critical patent/BR112017000645A2/pt
Publication of BR112017000645B1 publication Critical patent/BR112017000645B1/pt

Links

Abstract

Um aparelho para reforço de um sinal de áudio compreende um processador de sinal para processamento do sinal de áudio, a fim de reduzir ou eliminar as partes transientes ou tonais do sinal processado, e um decorrelacionador para geração de um primeiro sinal decorrelacionado e um segundo sinal decorrelacionado do sinal processado. O aparelho compreende, ainda, um combinador para ponderadamente combinar o primeiro e o segundo sinal decorrelacionado e o sinal de áudio ou um sinal derivado do sinal de áudio por reforço de coerência, utilizando os fatores de ponderação variantes no tempo, e para obter um sinal de áudio de dois canais. O aparelho compreende, ainda, um controlador para controle dos fatores de ponderação variantes no tempo por meio da análise do sinal de áudio, de modo que diferentes partes do sinal de áudio sejam multiplicadas por diferentes fatores de ponderação e o sinal de áudio de dois canais tenha um grau de decorrelação variante no tempo.

Description

DESCRIÇÃO
[0001] O presente pedido refere-se ao processamento de sinal de áudio e, particularmente, ao processamento de áudio de um sinal mono ou dual-mono.
[0002] Uma cena sonora pode ser modelada como uma mistura de sons diretos e do ambiente. Os sons diretos (ou direcionais) são emitidos pelas fontes sonoras, p.ex., um instrumento musical, um vocalista ou um alto-falante, e chegam na passagem mais curta possivel no receptor, p.ex., o ouvido do ouvinte ou um microfone. Ao capturar um som direto utilizando um conjunto de microfones espaçados, os sinais recebidos são coerentes. Em contrapartida, os sons ambientes (ou difusos) são emitidos por muitas fontes sonoras espaçadas ou barreiras que refletem som que contribuem para, p.ex., reverberação do ambiente, aplauso ou um ruido de murmúrio. Ao capturar um campo de som ambiente utilizando um conjunto de microfones espaçados, os sinais recebidos são, pelo menos parcialmente, incoerentes.
[0003] A reprodução sonora monofônica pode ser considerada apropriada em alguns cenários de reprodução (p.ex., discotecas) ou para alguns tipos de sinais (p.ex., gravações de fala), mas a maioria das gravações musicais, som de filme e som de TV são sinais estereofónicos. Sinais estereofónicos podem criar a sensação de sons ambientes (ou difusos) e das direções e larguras de fontes sonoras. Isso é obtido por meios de informação estereofónica que é codificada por elementos espaciais. Os elementos espaciais mais importantes são as diferenças de nivel intercanais (ICLD | inter-channel level differences), diferenças de tempo intercanais (ICTD | inter-channel time differences) e coerência intercanais (ICC | inter-channel coherence). Consequentemente, os sinais estereofónicos e os sistemas de reprodução sonora correspondentes têm mais do que um canal. ICLD e ICTD contribuem para a sensação de uma direção. ICC estimula a sensação de largura de um som e, no caso de sons ambientes, que um som é percebido como chegando de todas as direções.
[0004] Embora a reprodução de som multicanal exista em vários formatos, a maioria das gravações de áudio e sistemas de reprodução de som ainda tem dois canais. O som estereofónico de dois canais é o padrão para os sistemas de entretenimento, e os ouvintes estão adaptados a ele. Entretanto, os sinais estereofónicos não são restritos a ter apenas dois sinais de canal, mas podem ter mais do que um sinal de canal. De modo similar, sinais monofônicos não são restritos a ter apenas um sinal de canal, mas podem ter múltiplos, mas sinais de canais idênticos. Por exemplo, um sinal de áudio, compreendendo dois sinais de canal idênticos, pode ser chamada de um sinal dualmono.
[0005] Há várias razões pelas quais os sinais monofônicos em vez dos sinais estereofónicos estão disponiveis ao ouvinte. Primeiro, gravações antigas são monofônicas, pois técnicas estereofónicas não foram utilizadas naquele momento. Segundo, as restrições da largura de banda de uma transmissão ou meio de armazenamento pode levar a uma perda de informação estereofónica. Um exemplo proeminente é transmissão por rádio utilizando a modulação por frequência (FM | frequency modulation). Aqui, as fontes de interferência, distorções de passagem múltipla ou outras deficiências da transmissão podem levar a informação estereofónica com ruido, que é para a transmissão de sinais de dois canais tipicamente codificados como o sinal de diferença entre ambos os canais. É comum praticar o descarte parcial ou completamente da informação estereofónica quando as condições de recepção são deficientes.
[0006] A perda de informação estereofónica pode levar a uma redução da qualidade sonora. No geral, um sinal de áudio compreendendo um número mais alto de canais pode compreender uma qualidade sonora mais elevada quando comparado com um sinal de áudio compreendendo um número inferior de canais. Os ouvintes podem preferir ouvir aos sinais de áudio que compreendem uma alta qualidade sonora. Por razões de eficiência como taxas de dados transmitidos sobre ou armazenados em midia, a qualidade sonora é geralmente reduzida.
[0007] Portanto, existe uma necessidade de aumentar (reforçar) a qualidade sonora dos sinais de áudio.
[0008] Um objeto da presente invenção é, portanto, fornecer um aparelho ou um método para reforço de sinais de áudio e/ou para aumentar a sensação dos sinais de áudio reproduzidos.
[0009] Esse objeto é alcançado por um aparelho para reforço de um sinal de áudio de acordo com a reivindicação 1, um método para reforço de um sinal de áudio de acordo com a reivindicação 14 e um sistema de reforço de som de acordo com a reivindicação 13 ou um programa de computador de acordo com a reivindicação 15.
[0010] A presente invenção se baseia na constatação de que um sinal de áudio recebido pode ser reforçado pela geração artificial de elementos espaciais por divisão dos sinais de áudio recebidos em, pelo menos, duas divisões e pela decorrelação de, pelo menos, uma das divisões do sinal recebido. Uma combinação ponderada das divisões possibilita o recebimento de um sinal de áudio percebido como estereofónico e é, portanto, reforçado. O controle das ponderações aplicadas permite um grau variante de decorrelação e, portanto, um grau variante de reforço, de modo que um nível de reforço possa ser baixo quando a decorrelação puder levar a efeitos irritantes que reduzem a qualidade sonora. Assim, um sinal de áudio variante pode ser reforçado, compreendendo as partes ou intervalos de tempo onde a baixa ou nenhuma correlação é aplicada, tal como para sinais de fala, e compreendendo partes ou intervalos de tempo onde mais ou um alto grau de decorrelação é aplicado para sinais de música.
[0011] Uma aplicação da presente invenção fornece um aparelho para reforço de um sinal de áudio. O aparelho compreende um processador de sinal para processamento do sinal de áudio, a fim de reduzir ou eliminar partes transientes ou tonais do sinal processado. O aparelho compreende, ainda, um decorrelacionador para geração de um primeiro sinal decorrelacionado e um segundo sinal decorrelacionado do sinal processado. O aparelho compreende, ainda, um combinador e um controlador. 0 combinador é configurado para combinar ponderadamente o primeiro sinal decorrelacionado, o segundo sinal decorrelacionado e o sinal de áudio ou um sinal derivado do sinal de áudio por reforço de coerência, utilizando os fatores de ponderação variantes no tempo e para obter um sinal de áudio de dois canais. 0 controlador é configurado para controlar os fatores de ponderação variantes no tempo por meio da análise do sinal de áudio, de modo que diferentes partes do sinal de áudio sejam multiplicadas por diferentes fatores de ponderação e o sinal de áudio de dois canais tenha um grau de decorrelação variante no tempo.
[0012] O sinal de áudio, tendo pouca ou nenhuma informação estereofónica (ou multicanal), p.ex., um sinal tendo um canal ou um sinal tendo múltiplos sinais de canal, mas quase idênticos, pode ser percebido como um multicanal, p.ex., um sinal estereofónico, após o reforço ser aplicada. Um sinal de áudio mono ou dual-mono recebido pode ser processado diferentemente em passagens diferentes, em que em uma passagem transiente e/ou partes tonais do sinal de áudio são reduzidas ou eliminadas. Um sinal processado em tal forma sendo decorrelacionado e o sinal decorrelacionado sendo ponderadamente combinado com a segunda passagem compreendendo o sinal de áudio ou um sinal derivado deste possibilita a obtenção de dois canais do sinal que podem compreender um fator de alta decorrelação com relação entre si de modo que os dois canais sejam percebidos como um sinal estereofónico.
[0013] Por meio do controle dos fatores de ponderação utilizados para ponderadamente combinar o sinal decorrelacionado e o sinal de áudio (ou o sinal derivado receptivo), um grau de decorrelação variante no tempo pode ser obtido de modo que em situações, nas quais o reforço do sinal de áudio levaria possivelmente a efeitos indesejáveis, pode ser reduzido ou ignorado. Por exemplo, um sinal de um altofalante do rádio ou outros sinais da fonte sonora proeminentes são indesejados serem reforçados como percebendo um altofalante de múltiplas localizações de fontes pode levar a efeitos irritantes de um ouvinte.
[0014] De acordo com uma aplicação adicional, um aparelho para reforço de um sinal de áudio compreende um processador de sinal para processamento do sinal de áudio, a fim de reduzir ou eliminar partes transientes ou tonais do sinal processado. O aparelho compreende, ainda, um decorrelacionador, um combinador e um controlador. O decorrelacionador é configurado para gerar um primeiro sinal decorrelacionado e um segundo sinal decorrelacionado do sinal processado. 0 combinador é configurado para ponderadamente combinar o primeiro sinal decorrelacionado e o sinal de áudio ou um sinal derivado do sinal de áudio por reforço de coerência utilizando fatores de ponderação variantes no tempo e para obter um sinal de áudio de dois canais. O controlador é configurado para controlar os fatores de ponderação variantes no tempo pela análise do sinal de áudio de modo que diferentes partes do sinal de áudio sejam multiplicadas por diferentes fatores de ponderação e o sinal de áudio de dois canais tenha um grau de decorrelação variante no tempo. Isso possibilita a percepção de um sinal mono ou um sinal similar a um sinal mono (como dual-mono ou multimono) como sendo um sinal de áudio de canal estéreo.
[0015] Para processamento do sinal de áudio, o controlador e/ou o processador de sinal pode ser configurado para processar uma representação do sinal de áudio no dominio de frequência. A representação pode compreender uma pluralidade ou uma multiplicidade de bandas de frequência (subbandas), cada uma compreendendo uma parte, ou seja, uma parte do sinal de áudio do espectro do sinal de áudio respectivamente. Para cada uma das bandas de frequência, o controlador pode ser configurado para prever um nivel de decorrelação percebido no sinal de áudio de dois canais. O controlador pode ser, ainda, configurado para aumentar os fatores de ponderação para as partes (bandas de frequência) do sinal de áudio que possibilitam um grau mais alto de decorrelação e para reduzir os fatores de ponderação para as partes do sinal de áudio possibilitando um grau de decorrelação inferior. Por exemplo, uma parte compreendendo um sinal da fonte sonora não proeminente como aplauso ou ruido de murmúrio pode ser combinada por um fator de ponderação que possibilita uma decorrelação mais alta do que uma parte que compreende um sinal da fonte sonora proeminente, em que o termo sinal da fonte sonora proeminente é utilizado para as partes do sinal que são percebidas como fontes diretas, p.ex., fala, um instrumento musical, um vocalista ou um alto-falante.
[0016] O processador pode ser configurado para determinar para cada de algumas ou toda a banda de frequência, se a banda de frequência compreende componentes transientes ou tonais e determinar as ponderações espectrais que possibilitam uma redução das partes transientes ou partes tonais. As ponderações espectrais e os fatores de escala podem compreender, cada um, uma multiplicidade de possiveis valores de modo que os efeitos irritantes devido às decisões binárias possam ser reduzidos e/ou evitados.
[0017] O controlador pode ser, ainda, configurado para escalar os fatores de ponderação de modo que um nivel de decorrelação percebido no sinal de áudio de dois canais permaneça dentro de uma faixa de aproximadamente um valor alvo. A faixa pode estender-se, p.ex., a ± 20%, ± 10% ou ± 5% do valor alvo. O valor alvo pode ser, por exemplo, um valor previamente determinado para a medida da parte tonal e/ou transiente de modo que, por exemplo, o sinal de áudio compreendendo as partes transientes ou tonais variantes que variam o valor alvo sejam obtidas. Isso possibilita realizar uma decorrelação baixa ou, ainda, nenhuma decorrelação quando o sinal de áudio é decorrelacionado ou nenhuma decorrelação é destinada como para sinais da fonte sonora proeminentes como a fala e para uma alta decorrelação se o sinal não estiver decorrelacionado e/ou a decorrelação estiver destinada. Os fatores de ponderação e/ou das ponderações espectrais podem ser determinados e/ou ajustados para múltiplos valores ou ainda quase continuamente.
[0018] O decorrelacionador pode ser configurado para gerar o primeiro sinal decorrelacionado com base em uma reverberação ou um atraso do sinal de áudio. O controlador pode ser configurado para gerar o sinal decorrelacionado de teste também com base em uma reverberação ou a atraso do sinal de áudio. Uma reverberação pode ser realizada pelo atraso do sinal de áudio e pela combinação do sinal de áudio e da versão atrasada respectiva similar a uma estrutura de filtro de resposta de impulso infinita, em que a reverberação pode ser implementada como um filtro de resposta de impulso infinita. Um periodo de atraso e/ou vários atrasos e combinações podem variar. Um periodo de atraso ou reverberação do sinal de áudio para o sinal decorrelacionado de teste pode ser mais curto do que um periodo de atraso, por exemplo, resultando em menos coeficientes de filtro do filtro de atraso, para retardar ou reverberar o sinal de áudio para o primeiro sinal decorrelacionado. Para prever a intensidade percebida de decorrelação, um grau de decorrelação inferior e, assim, uns periodos de atraso mais curto podem ser suficientes de modo que pela redução do periodo de atraso e/ou dos coeficientes de filtro um esforço computacional e/ou uma potência computacional pode ser reduzido.
[0019] A seguir, as aplicações preferidas da presente invenção serão descritas com relação aos desenhos anexos, nos quais:
[0020] A figura 1 mostra um diagrama de blocos esquemático de um aparelho para reforço de um sinal de áudio;
[0021] A figura 2 mostra um diagrama de blocos esquemático de um aparelho adicional para reforço do sinal de áudio;
[0022] A figura 3 mostra uma tabela exemplar que indica uma computação dos fatores de escala (fatores de ponderação) com base no nível de intensidade percebida prevista de decorrelação;
[0023] A figura 4a mostra um fluxograma esquemático de uma parte de um método que pode ser executado para determinar parcialmente os fatores de ponderação;
[0024] A figura 4b mostra um fluxograma esquemático de etapas adicionais do método da figura 4a que descreve um caso em que a medida para o nível de decorrelação percebido é comparada aos valores limites;
[0025] A figura 5 mostra um diagrama de blocos esquemático de um decorrelacionador que pode ser configurado para operar como o decorrelacionador na figura 1;
[0026] A figura 6a mostra um diagrama esquemático, compreendendo um espectro de um sinal de áudio compreendendo, pelo menos, uma parte do sinal transiente (curta duração);
[0027] A figura 6b mostra um espectro esquemático de um sinal de áudio, compreendendo um componente tonal;
[0028] A figura 7a mostra uma tabela esquemática que ilustra um possível processamento transiente realizado por um estágio de processamento transiente;
[0029] A figura 7b mostra uma tabela exemplar que ilustra um possível processamento tonal, conforme possa ser executado por um estágio de processamento tonal.
[0030] A figura 8 mostra um diagrama de blocos esquemático de um sistema de reforço de som, compreendendo um aparelho para reforço do sinal de áudio;
[0031] A figura 9a mostra um diagrama de blocos esquemático de um processamento do sinal de entrada, de acordo com um processamento de primeiro plano/plano de fundo.
[0032] A figura 9b ilustra a separação do sinal de entrada em um sinal de primeiro plano e de plano de fundo;
[0033] A figura 10 mostra um diagrama de blocos esquemático e também um aparelho configurado para aplicar ponderações espectrais a um sinal de entrada;
[0034] A figura 11 mostra um fluxograma esquemático de um método para reforço de um sinal de áudio;
[0035] A figura 12 ilustra um aparelho para determinação de uma medida para um nível de reverberação/decorrelação percebido em um sinal de mistura compreendendo um componente de sinal direto ou componente de sinal seco e um componente de sinal de reverberação;
[0036] As figuras de 13a a c mostram implementações de um processador de modelo de intensidade; e
[0037] A figura 14 ilustra na implementação do processador de modelo de intensidade que já foi discutido em alguns aspectos com relação às figuras 12, 13a, 13b, 13c.
[0038] Elementos iguais ou equivalentes com funcionalidade igual ou equivalente são denotados na descrição a seguir por numerais de referência iguais ou equivalentes, mesmo se ocorrer em diferentes figuras.
[0039] Na descrição a seguir, uma pluralidade de detalhes é estabelecida para fornecer uma explicação mais profunda das aplicações da presente invenção. Entretanto, será evidente aos especialistas na técnica que as aplicações da presente invenção podem ser praticadas sem esses detalhes específicos. Em outros casos, estruturas e dispositivos bem conhecidos são mostrados na forma de diagrama de blocos em vez de em detalhes, a fim de evitar omitir as aplicações da presente invenção. Além disso, características das diferentes aplicações descritas a seguir podem ser combinadas entre si, a menos que especificamente observado em contrário.
[0040] A seguir, referência é feita ao processamento de um sinal de áudio. Um aparelho ou um componente respectivo pode ser configurado para receber, fornecer e/ou processar um sinal de áudio. 0 respectivo sinal de áudio pode ser recebido, fornecido ou processado no dominio de tempo e/ou no dominio de frequência. Uma representação do sinal de áudio no dominio de tempo pode ser transformada em uma representação do sinal de áudio de frequência, por exemplo, por transformadas de Fourier ou similares. A representação de frequência pode ser obtida, por exemplo, utilizando uma Transformada de Fourier de Curta Duração (STFT | Short-Time Fourier transform), uma transformada de cosseno discreta e/ou uma transformada Rápida de Fourier (FFT | Fast Fourier transform). Alternativa ou adicionalmente, a representação de frequência pode ser obtida por banco de filtro que pode compreender Filtros de Espelho em Quadratura (QMF | Quadrature Mirror Filters). Uma representação de dominio de frequência do sinal de áudio pode compreender uma pluralidade de estruturas, cada uma compreendendo uma pluralidade de subfaixas como é conhecido das transformadas de Fourier. Cada subfaixa compreende uma parte do sinal de áudio. Como a representação de tempo e a representação de frequência do sinal de áudio podem ser convertidas entre si, a seguinte descrição não deve ser limitada ao sinal de áudio sendo a representação do dominio de tempo ou a representação de dominio de frequência.
[0041] A figura 1 mostra um diagrama de blocos esquemático de um aparelho 10 para reforço de um sinal de áudio 102. O sinal de áudio 102 é, por exemplo, um sinal mono ou um sinal do tipo mono, como um sinal dual-mono, representado no dominio de frequência ou no dominio de tempo. O aparelho 10 compreende um processador de sinal 110, um decorrelacionador 120, um controlador 130 e um combinador 140 0 processador de sinal 110 é configurado para recebimento do sinal de áudio 102 e para processamento do sinal de áudio 102 para obter um sinal processado 112 a fim de reduzir ou eliminar partes transientes ou tonais do sinal processado 112 quando comparadas ao sinal de áudio 102.
[0042] O decorrelacionador 120 é configurado para o recebimento do sinal processado 112 e para a geração de um primeiro sinal decorrelacionado 122 e um segundo sinal decorrelacionado 124 do sinal processado 112. 0 decorrelacionador 120 pode ser configurado para geração do primeiro sinal decorrelacionado 122 e do segundo sinal decorrelacionado 124 pelo menos parcialmente por reverberação do sinal processado 112. O primeiro sinal decorrelacionado 122 e o segundo sinal decorrelacionado 124 podem compreender diferentes atrasos no tempo para a reverberação de modo que o primeiro sinal decorrelacionado 122 compreenda um atraso no tempo mais curto ou mais longo (periodo de reverberação) do que o segundo sinal decorrelacionado 124. O primeiro ou o segundo sinal decorrelacionado 122 ou 124 também pode ser processado sem um atraso ou filtro de reverberação.
[0043] O decorrelacionador 120 é configurado para fornecer o primeiro sinal decorrelacionado 122 e o segundo sinal decorrelacionado 124 ao combinador 140. O controlador 130 é configurado para receber o sinal de áudio 102 e para controlar os fatores de ponderação variantes no tempo a e b pela análise do sinal de áudio 102 de modo que diferentes partes do sinal de áudio 102 sejam multiplicadas por diferentes fatores de ponderação a ou b. Portanto, o controlador 130 compreende uma unidade de controle 132 configurada para determinar os fatores de ponderação a e b. O controlador 130 pode ser configurado para operar no dominio de frequência. A unidade de controle 132 pode ser configurada para transformar o sinal de áudio 102 em dominio de frequência utilizando uma Transformada de Fourier de Curta Duração (STFT), uma transformada Rápida de Fourier (FFT) e/ou uma transformada de Fourier (FT | Fourier transform) regular. Uma representação de dominio de frequência do sinal de áudio 102 pode compreender uma pluralidade de subfaixas como é conhecido a partir das transformações de Fourier. Cada subfaixa compreende uma parte do sinal de áudio. De modo alternativo, o sinal de áudio 102 pode ser uma representação de um sinal no dominio de frequência. A unidade de controle 132 pode ser configurada para controlar e/ou para determinar um par de fatores de ponderação a e b para cada subfaixa da representação do sinal de áudio digital.
[0044] O combinador é configurado para ponderadamente combinar o primeiro sinal decorrelacionado 122, o segundo sinal decorrelacionado 124 e um sinal 136 derivado do sinal de áudio 102, utilizando os fatores de ponderação a e b. O sinal 136 derivado do sinal de áudio 102 pode ser fornecido pelo controlador 130. Portanto, o controlador 130 pode compreender uma unidade de derivação opcional 134. A unidade de derivação 134 pode ser configurada, por exemplo, para adaptar, modificar ou reforçar as partes do sinal de áudio 102. Particularmente, a unidade de derivação 110 pode ser configurada para amplificar as partes do sinal de áudio 102 que são atenuadas, reduzidas ou eliminadas pelo processador de sinal 110.
[0045] O processador de sinal 110 pode ser configurado para também operar no dominio de frequência e para processar o sinal de áudio 102 de modo que o processador de sinal 110 reduz ou elimine as partes transientes ou tonais para cada subfaixa de um espectro do sinal de áudio 102. Isso pode levar a menos ou ainda nenhum processamento para subfaixas compreendendo partes pouco ou não transientes ou pouco ou não tonais (ou seja, com ruído). De modo alternativo, o combinador 140 pode receber o sinal de áudio 102 em vez do sinal derivado, ou seja, o controlador 130 pode ser implementado sem a unidade de derivação 134. Então, o sinal 136 pode ser igual ao sinal de áudio 102.
[0046] Então, o combinador 140 é configurado para receber um sinal de ponderação 138 compreendendo os fatores de ponderação a e b. O combinador 140 é configurado, ainda, para obter um sinal de áudio de saída 142 compreendendo um primeiro canal yi e um segundo canal yc, ou seja, o sinal de áudio 142 é um sinal de áudio de dois canais.
[0047] O processador de sinal 110, o decorrelacionador 120, o controlador 130 e o combinador 140 podem ser configurados para processar o sinal de áudio 102, o sinal 136 derivado respectivo e/ou sinais processados 112, 122 e/ou 124 por estrutura e por subfaixa de modo que o processador de sinal 110, o decorrelacionador 120, o controlador 130 e o combinador 140 possam ser configurados para executar as operações descritas cima para cada banda de frequência por processamento de uma ou mais banda(s) de frequência (parte(s) do sinal) por vez.
[0048] A figura 2 mostra um diagrama de blocos esquemático de um aparelho 200 para reforço do sinal de áudio 102. O aparelho 200 compreende um processador de sinal 210, um decorrelacionador 120, um controlador 230 e um combinador 24. O decorrelacionador 120 é configurado para gerar o primeiro sinal decorrelacionado 122 indicado como rl e o segundo sinal decorrelacionado 124, indicado como r2.
[0049] 0 processador de sinal 210 compreende um estágio de processamento transiente 211, um estágio de processamento tonal 213 e um estágio de combinação 215. O processador de sinal 210 é configurado para processar uma representação do sinal de áudio 102 no dominio de frequência. A representação de dominio de frequência do sinal de áudio 102 compreende uma multiplicidade de subfaixas (bandas de frequência), em que o estágio de processamento transiente 211 e o estágio de processamento tonal 213 são configurados para processar cada uma das bandas de frequência. De modo alternativo, o espectro obtido pela conversão de frequência do sinal de áudio 102 pode ser reduzido, ou seja, cortado para exclui certas faixas de frequência ou bandas de frequência do processamento adicional, como bandas de frequência abaixo de 20 Hz, 50 Hz ou 100 Hz e/ou acima 16 kHz, 18 kHz ou 22 kHz. Isso pode possibilitar um esforço computacional reduzido e, assim, um processamento mais rápido e/ou mais preciso.
[0050] O estágio de processamento transiente 211 é configurado para determinar, para cada uma das bandas de frequência processadas, se a banda de frequência compreende partes transientes. O estágio de processamento tonal 213 é configurado para determinar, para cada uma das bandas de frequência, se o sinal de áudio 102 compreende partes tonais na banda de frequência. O estágio de processamento transiente 211 é configurado para determinar, pelo menos para as bandas de frequência compreendendo partes transientes, fatores de ponderação espectral 217, em que os fatores de ponderação espectral 217 estão associados com a respectiva banda de frequência. Conforme será descrito nas figuras 6a e 6b, as caracteristicas transientes e tonais podem ser identificadas por processamento espectral. Um nivel de transiência e/ou tonalidade pode ser medido pelo estágio de processamento transiente 211 e/ou pelo estágio de processamento tonal 213 e convertido em uma ponderação espectral. O estágio de processamento tonal 213 é configurado para determinar fatores de ponderação espectral 219 pelo menos para bandas de frequência compreendendo as partes tonais. Os fatores de ponderação espectral 217 e 219 podem compreender uma multiplicidade de possiveis valores, a magnitude dos fatores de ponderação espectral 217 e/ou 219 indicando uma quantidade de partes transientes e/ou partes tonais na banda de frequência.
[0051] Os fatores de ponderação espectral 217 e 219 podem compreender um valor absoluto ou relativo. Por exemplo, o valor absoluto pode compreender um valor de energia de som transiente e/ou tonal na banda de frequência. De modo alternativo, os fatores de ponderação espectral 217 e/ou 219 podem compreender o valor relativo como um valor entre 0 e 1, o valor 0 indicando que a banda de frequência compreende nenhuma ou quase nenhuma parte transiente ou tonal e o valor 1 indicando a banda de frequência compreende uma alta quantidade ou partes completamente transientes e/ou tonais. Os fatores de ponderação espectral podem compreender um de uma multiplicidade de valores, tal como uma série de 3, 5, 10 ou mais valores (etapas), p.ex., (0, 0,3 e 1), (1, 2, ..., 1) ou similar. Um tamanho da escala, uma série de etapas entre um valor minimo e um valor máximo pode ser, pelo menos, zero, mas preferivelmente pelo menos um e mais preferivelmente pelo menos cinco. Preferivelmente, a multiplicidade de valores das ponderações espectrais 217 e 219 compreende, pelo menos, três valores compreendendo um valor minimo, um valor máximo e um valor que está entre o valor minimo e o valor máximo. Um número mais alto entre o valor minimo e o valor máximo pode possibilitar uma ponderação mais continua de cada uma das bandas de frequência. O valor minimo e o valor máximo podem ser escalados em uma escala entre 0 e 1 ou outros valores. O valor máximo pode indicar um nivel de transiência e/ou tonalidade mais alto ou mais baixo.
[0052] O estágio de combinação 215 é configurado para combinar as ponderações espectrais para cada uma das bandas de frequência, como será descrito posteriormente. O processador de sinal 210 é configurado para aplicar as ponderações espectrais combinadas em cada uma das bandas de frequência. Por exemplo, as ponderações espectrais 217 e/ou 219 ou um valor derivado respectivo pode ser multiplicado com valores espectrais do sinal de áudio 102 na banda de frequência processada.
[0053] O controlador 230 é configurado para receber os fatores de ponderação espectral 217 e 219 ou a informação referente a eles a partir do processador de sinal 210. A informação derivada pode ser, por exemplo, uma série de indices de uma tabela, a série de indices sendo associada aos fatores de ponderação espectral. O controlador é configurado para reforçar o sinal de áudio 102 para partes de sinal coerentes, ou seja, para partes não ou somente parcialmente reduzidas ou eliminadas pelo estágio de processamento transiente 211 e/ou pelo estágio de processamento tonal 213. Em termos simples, a unidade de derivação 234 pode amplificar as partes não reduzidas ou eliminadas pelo processador de sinal 210.
[0054] A unidade de derivação 234 é configurada para fornecer um sinal 236 derivado do sinal de áudio 102, indicado como z. O combinador 240 é configurado para receber o sinal z (236). O decorrelacionador 120 é configurado para receber um sinal processado 212 indicado como s a partir do processador de sinal 210.
[0055] O combinador 240 é configurado para combinar os sinais decorrelacionados rl e r2 com os fatores de ponderação (fatores de escala) a e b, para obter um primeiro sinal de canal yi e a segundo sinal de canal yc. Os canais do sinal yi e yz podem ser combinados ao sinal de saida 242 ou serem emitidos separadamente.
[0056] Em outras palavras, o sinal de saida 242 é uma combinação de um sinal (tipicamente) correlacionado z (236) e um sinal decorrelacionado s (rl ou r2, respectivamente). 0 sinal decorrelacionado como é obtido em duas etapas, primeiro suprimindo (reduzindo ou eliminando) os componentes do sinal transiente e tonal e segundo a decorrelação. A supressão dos componentes do sinal transiente e dos componentes do sinal tonal é feita por meios de ponderação espectral. O sinal é processado por estrutura no dominio de frequência. As ponderações espectrais são computadas para cada posição de frequência (banda de frequência) e período. Assim, o sinal de áudio é processado por banda completa, ou seja, todas as partes que devem ser consideradas são processadas.
[0057] O sinal de entrada do processamento pode ser um sinal de canal único x (102), o sinal de saída pode ser um sinal de dois canais y = [yi, YI] , onde os índices denotam o primeiro e o segundo canal, por exemplo, o canal esquerdo e o canal direito de um sinal estéreo. 0 sinal de saída y pode ser computado pela combinação linear de um sinal de dois canais r = [rl, r2], com um sinal de canal único z com fatores de escala a e b de acordo com em que "x" refere-se ao operador de multiplicação nas equações (1) e (2).
[0058] As equações (1) e (2) devem ser interpretadas qualitativamente, indicando uma divisão dos sinais z. ri e r2 podem ser controlados (variados) por variação dos fatores de ponderação. Pela formação, por exemplo, as operações inversas como divisão dos resultados de valor reciproco igual ou equivalente podem ser obtidas pela realização de diferentes operações. Alternativa ou adicionalmente, uma tabela de visualização compreende os fatores de escala a e b e/ou os valores para yi e/ou y2 podem ser utilizados para obter o sinal de dois canais y.
[0059] Os fatores de escala a e/ou b podem ser computados para serem uniformemente decrescentes com a intensidade percebida da correlação. O valor de escala previsto para a intensidade percebida pode ser utilizado para controle dos fatores de escala.
[0060] 0 sinal decorrelacionado r, compreendendo rl e r2, pode ser computado em duas etapas. Primeiro, atenuação de componentes do sinal transiente e tonal que produz o sinal s. Segundo, a decorrelação do sinal s pode ser realizada.
[0061] A atenuação dos componentes do sinal transiente e dos componentes do sinal tonal é feita, por exemplo, por meios de uma ponderação espectral. 0 sinal é processado por estrutura no dominio de frequência. As ponderações espectrais são computadas para cada frequência bin e periodo. A atenuação tem dois objetivos: 1. Os componentes do sinal transiente ou tonal tipicamente pertencem aos assim chamados sinais de primeiro plano e, como tal, sua posição dentro da imagem estéreo está geralmente no centro. 2. A decorrelação dos sinais tendo fortes componentes do sinal transiente leva a perturbações perceptiveis. A decorrelação dos sinais tendo fortes componentes do sinal tonal também leva a perturbações perceptiveis quando os componentes tonais (ou seja, sinusoidais) são modulados por frequência pelo menos quando a modulação por frequência for lenta o suficiente para ser percebida como uma mudança da frequência e não como mudança de timbre devido ao enriquecimento das implicações do espectro do sinal (possivelmente não harmónico).
[0062] O sinal correlacionado z pode ser obtido pela aplicação de um processamento que reforça os componentes do sinal transiente e tonal, por exemplo, qualitativamente o inverso da supressão para a computação do sinal s. De modo alternativo, o sinal de entrada, por exemplo, não processado, pode ser utilizado como é. Observe que pode haver o caso onde z também é um sinal de dois canais. De fato, muitos meios de armazenamento (p.ex., o Disco Compacto) utilizam dois canais mesmo se o sinal for mono. Um sinal tendo dois canais idênticos é chamado de "dual-mono". Também pode haver o caso em que o sinal de entrada z é um sinal estéreo e o objetivo do processamento pode ser aumentar o efeito estereofónico.
[0063] A intensidade percebida da decorrelação pode ser prevista similar a uma intensidade percebida prevista de reverberação tardia utilizando os modelos computacionais de intensidade, como é descrito em EP 2 541 542 AI.
[0064] A figura 3 mostra uma tabela exemplar, indicando uma computação dos fatores de escala (fatores de ponderação) a e b com base no nivel de intensidade percebida prevista da decorrelação.
[0065] Por exemplo, a intensidade percebida da decorrelação pode ser prevista de modo que um valor respectivo compreenda um valor de escala que pode variar entre um valor de 0, indicando um baixo nivel de decorrelação percebido, nenhum respectivamente e um valor de 10, indicando um alto nivel de decorrelação. Os niveis podem ser determinados, p.ex., com base em testes de ouvintes ou simulação previsível. De modo alternativo, o valor do nivel de decorrelação pode compreender uma faixa entre um valor minimo e um valor máximo. O valor do nivel de decorrelação percebido pode ser configurado para aceitar mais do que o valor minimo e o valor máximo. Preferivelmente, o nível percebido da correlação pode aceitar pelo menos três valores diferentes e mais preferivelmente pelo menos sete valores diferentes.
[0066] Fatores de ponderação a e b a serem aplicados com base em um nível determinado de decorrelação percebida podem ser armazenados em uma memória e acessíveis ao controlador 130 ou 23 com níveis crescentes de decorrelação percebida, o fator de escala a a ser multiplicado com o sinal de áudio ou o sinal derivado respectivo pelo combinador também pode aumentar. Um nível elevado de decorrelação percebida pode ser interpretado como "o sinal já está (parcialmente) decorrelacionado" de modo que com níveis crescentes de decorrelação o sinal de áudio ou o sinal derivado respectivo compreenda uma divisão mais alta no sinal de saída 142 ou 242. Com níveis elevados de decorrelação, o fator de ponderação b é configurado para ser reduzido, ou seja, os sinais rl e r2 gerados pelo decorrelacionador com base em um sinal de saída do processador de sinal podem compreender uma divisão inferior quando combinada no combinador 140 ou 240.
[0067] Embora o fator de ponderação a seja representado como compreendendo um valor de escala de, pelo menos, 1 (valor mínimo) e no máximo 9 (valor máximo) e embora o fator de ponderação b seja representado como compreendendo um valor de escala em uma faixa compreendendo um valor mínimo de 2 e um valor máximo de 8, ambos os fatores de ponderação a e b podem compreender um valor dentro de uma faixa compreendendo um valor mínimo e um valor máximo e, preferivelmente, pelo menos, um valor entre o valor mínimo e o valor máximo. De modo alternativo, aos valores dos fatores de ponderação a e b representados na figura 3, e com um nível elevado de decorrelação percebida, o fator de ponderação a pode aumentar linearmente. Alternativa ou adicionalmente, o fator de ponderação b pode ser reduzido linearmente com um nível elevado de decorrelação percebida. Além disso, para um nível de decorrelação percebido, uma soma dos fatores de ponderação a e b determinados para uma estrutura pode ser constante ou quase constante. Por exemplo, o fator de ponderação a pode aumentar de 0 a 10 e o fator de ponderação b pode reduzir de um valor de 10 para um valor de 0 com um nível crescente de decorrelação percebida. Se ambos os fatores de ponderação reduzirem ou aumentarem linearmente, por exemplo, com tamanho da etapa 1, a soma dos fatores de ponderação a e b pode compreender um valor de 10 para cada nível de decorrelação percebido. Os fatores de ponderação a e b a serem aplicados podem ser determinados por simulação ou experimento.
[0068] A figura 4a mostra um fluxograma esquemático de uma parte de um método 400 que pode ser executado, por exemplo, pelo controlador 130 e/ou 230. O controlador é configurado para determinar uma medida para o nível percebido de uma decorrelação em uma etapa 410 resultando, por exemplo, em um valor de escala, tal como representado na figura 3. Em uma etapa 420, o controlador é configurado para comparar a medida determinada com um valor limite. Se a medida for mais alta do que o valor limite, o controlador é configurado para modificar ou adaptar os fatores de ponderação a e/ou b em uma etapa 43. Na etapa 430, o controlador é configurado para reduzir o fator de ponderação b, aumentar o fator de ponderação a ou reduzir o fator de ponderação b e aumentar o fator de ponderação a com relação a um valor de referência para a e b. 0 limite pode variar, por exemplo, dentro das bandas de frequência do sinal de áudio. Por exemplo, o limite pode compreender um baixo valor para bandas de frequência compreendendo um sinal da fonte sonora proeminente indicando que um baixo nível de decorrelação é preferido ou destinado. Alternativa ou adicionalmente, o limite pode compreender um valor alto para bandas de frequência compreendendo um sinal da fonte sonora não proeminente indicando que um alto nivel de decorrelação é preferido.
[0069] Pode ser um objetivo aumentar a correlação das bandas de frequência compreendendo sinais da fonte sonora não proeminentes e limitar a decorrelação para as bandas de frequência compreendendo sinais de fonte de som proeminentes. Um limite pode ser, por exemplo, 20%, 50% ou 70% de uma faixa de valores que os fatores de ponderação a e/ou b podem aceitar. Por exemplo, e com referência à figura 3, o valor limite pode ser menor do que 7, menor do que 5 ou menor do que 3 para uma estrutura de frequência compreendendo um sinal da fonte sonora proeminente. Se o nivel de decorrelação percebido for muito alto, então pela execução da etapa 430, o nivel de decorrelação percebido pode ser reduzido. Os fatores de ponderação a e b podem ser variados unicamente ou ambos por vez. A tabela representada na figura 3 pode ser, por exemplo, um valor compreendendo valores iniciais para os fatores de ponderação a e/ou b, os valores iniciais a serem adaptados pelo controlador.
[0070] A figura 4b mostra um fluxograma esquemático de etapas adicionais do método 400, representando um caso em que a medida para o nivel de decorrelação percebido (determinado na etapa 410) é comparada com os valores limites, em que a medida é menor do que o valor limite (etapa 440). 0 controlador é configurado para aumentar b, para reduzir a ou para aumentar b e para reduzir a com relação a uma referência para a e b para aumentar o nível de decorrelação percebido e de modo que a medida compreenda um valor que é, pelo menos, o valor limite.
[0071] Alternativa ou adicionalmente, o controlador pode ser configurado para escalar os fatores de ponderação a e b de modo que um nível de decorrelação percebido no sinal de áudio de dois canais permaneça dentro de uma faixa a cerca de um valor alvo. O valor alvo pode ser, por exemplo, o valor limite, em que o valor limite pode variar com base no tipo de sinal sendo compreendido pela banda de frequência par a qual os fatores de ponderação e/ou as ponderações espectrais são determinados. A faixa acerca do valor alvo pode estender-se a ± 20%, ± 10%, ou ± 5% do valor alvo. Isso pode possibilitar parar a adaptação dos fatores de ponderação quando a decorrelação percebida é aproximadamente o valor alvo (limite).
[0072] A figura 5 mostra um diagrama de blocos esquemático de um decorrelacionador 520 que pode ser configurado para operar como o decorrelacionador 120. O decorrelacionador 520 compreende um primeiro filtro de decorrelação 522 e um segundo filtro de decorrelação 524. 0 primeiro filtro de decorrelação 526 e o segundo filtro de decorrelação 528 são configurados para ambos receberem o sinal processado s (512), por exemplo, do processador de sinal. O decorrelacionador 520 é configurado para combinar o sinal processado 512 e um sinal de saída 523 do primeiro filtro de decorrelação 526 para obter o primeiro sinal decorrelacionado 522 (rl) e para combinar um sinal de saída 525 do segundo filtro de correlação 528 para obter o segundo sinal decorrelacionado 524 (r2). Para a combinação de sinais, o decorrelacionador 520 pode ser configurado para convolução de sinais com respostas de impulso e/ou para multiplicar os valores espectrais com valores reais e/ou imaginários. Alternativa ou adicionalmente, outras operações podem ser executadas, tal como divisões, somas, diferenças ou similares.
[0073] Os filtros de decorrelação 526 e 528 podem ser configurados para reverberação ou atraso do sinal processado 512. Os filtros de decorrelação 526 e 528 podem compreender um filtro de reposta de impulso finita (FIR | finite impulse response) e/ou uma reposta de impulso infinita (HR | infinite impulse response). Por exemplo, os filtros de decorrelação 526 e 528 podem ser configurados para convolução do sinal processado 512 com uma resposta de impulso obtida de um sinal de ruido que atrasa ou exponencialmente atrasa ao longo do tempo e/ou frequência. Isso possibilita a geração de um sinal decorrelacionado 523 e/ou 525 que compreende uma reverberação com relação ao sinal 512. Um período de reverberação do sinal de reverberação pode compreender, por exemplo, um valor entre 50 e 1000 ms, entre 80 e 500 ms e/ou entre 120 e 200 ms. O periodo de reverberação pode ser entendido como a duração que leva para a potência da reverberação atrasar em um pequeno valor após ter sido excitada por um impulso, por exemplo, atrasar a 60 dB abaixo da potência inicial. Preferivelmente, os filtros de decorrelação 526 e 528 compreendem filtros IIR. Isso possibilita a redução de uma quantidade de cálculo quando pelo menos alguns dos coeficientes de filtro são definidos a zero de modo que os cálculos para esse coeficiente de filtro (zero-) possa ser ignorado. Opcionalmente, um filtro de decorrelação pode compreender mais do que um filtro, onde os filtros são conectados em série e/ou paralelamente.
[0074] Em outras palavras, a reverberação compreende um efeito de decorrelação. O decorrelacionador pode ser configurado para não apenas decorrelacionar, mas também para somente mudar levemente a sonoridade. Tecnicamente, a reverberação pode ser referida como um sistema de invariante de tempo linear (LTI | linear time invariant) que pode ser caracterizado considerando sua resposta de impulso. Uma extensão da resposta de impulso é geralmente declarada como RT60 para reverberação. Esse é o tempo depois do qual a resposta de impulso é reduzida por 60 dB. A reverberação pode ter uma extensão de até um segundo ou ainda até alguns segundos. O decorrelacionador pode ser implementado compreendendo uma estrutura similar como reverberação, mas compreendendo diferentes definições para os parâmetros que influenciam a extensão da resposta de impulso.
[0075] A figura 6a mostra um diagrama esquemático, compreendendo um espectro de um sinal de áudio 602a compreendendo, pelo menos, uma parte do sinal transiente (curta duração). Uma parte do sinal transiente leva a um espectro de banda larga. O espectro é representado como magnitudes S(f) sobre frequências f, em que o espectro é subdividido em uma multiplicidade de bandas de frequência bl-3. A parte do sinal transiente pode ser determinada em uma ou mais das bandas de frequência em bl-3.
[0076] A figura 6b mostra um espectro esquemático de um sinal de áudio 602b, compreendendo um componente tonal. Um exemplo de um espectro é representado em sete bandas de frequência fbl-7. A banda de frequência fb4 está disposta no centro das bandas de frequência fbl-7 e compreende uma magnitude máxima S(f) quando comparada a outras bandas de frequência fbl-3 e fb5-7. As bandas de frequência com distância crescente com relação à frequência central (banda de frequência fb5) compreendem repetições harmónicas do sinal tonal com magnitudes decrescentes. O processador de sinal pode ser configurado para determinar o componente tonal, por exemplo, por meio da avaliação da magnitude S(f). Uma magnitude crescente S(f) de um componente tonal pode ser incorporada pelo processador de sinal por fatores de ponderação espectral reduzidos. Assim, quanto mais alta uma divisão de um componente transiente e/ou tonal dentro de uma banda de frequência, menor será a contribuição da banda de frequência que pode ter nenhum sinal processado do processador de sinal. Por exemplo, a ponderação espectral para a banda de frequência fb4 pode compreender um valor de zero ou próximo a zero ou outro valor indicando que a banda de frequência fb4 é considerada com uma baixa divisão.
[0077] A figura 7a mostra uma tabela esquemática que ilustra um possivel processamento transiente 211 realizado por um processador de sinal como o processador de sinal 110 e/ou 210. O processador de sinal é configurado para determinar uma quantidade, por exemplo, uma divisão, de componentes transientes em cada uma das bandas de frequência da representação do sinal de áudio no dominio de frequência a ser considerado. Uma avaliação pode compreender uma determinação de uma quantidade dos componentes transientes com um valor inicial compreendendo, pelo menos, um valor minimo (por exemplo, 1) e no máximo um valor máximo (por exemplo, 15), em que um valor mais alto pode indicar uma quantidade mais alta de componentes transientes dentro de uma banda de frequência. Quanto mais alta a quantidade de componentes transientes na banda de frequência, menor poderá ser a respectiva ponderação espectral, por exemplo, a ponderação espectral 217. Por exemplo, a ponderação espectral pode compreender um valor de, pelo menos, um valor minimo como 0 e de no máximo um valor máximo como 1. A ponderação espectral pode compreender uma pluralidade de valores entre o valor minimo e o valor máximo, em que a ponderação espectral pode indicar um fator de consideração e/ou um fator de consideração da banda de frequência para processamento posterior. Por exemplo, uma ponderação espectral de 0 pode indicar que a banda de frequência deve ser atenuada completamente. De modo alternativo, ainda outras faixas de escala podem ser implementadas, ou seja, a tabela representada na figura 7a pode ser em escala e/ou transformada em tabelas com outros tamanhos de etapa com relação a uma avaliação da banda de frequência sendo uma banda de frequência transiente e/ou de um tamanho de etapa da ponderação espectral. A ponderação espectral pode, ainda, variar continuamente.
[0078] A figura 7b mostra uma tabela exemplar que ilustra um possivel processamento tonal, conforme possa ser executado, por exemplo, pelo estágio de processamento tonal 213. Quanto mais alta uma quantidade de componentes tonais dentro da banda de frequência, menor poderá ser a respectiva ponderação espectral 219. Por exemplo, a quantidade de componentes tonais na banda de frequência pode ser em escala entre um valor minimo de 1 e um valor máximo de 8, em que o valor minimo indica que nenhum ou quase nenhum componente tonal é compreendido pela banda de frequência. 0 valor máximo pode indicar que a banda de frequência compreende uma grande quantidade de componentes tonais. A respectiva ponderação espectral, como a ponderação espectral 219 pode, também, compreender um valor minimo e um valor máximo. 0 valor minimo, por exemplo, 1, pode indicar que a banda de frequência é atenuada quase completamente ou completamente. 0 valor máximo pode indicar que a banda de frequência é quase não atenuada ou completamente não atenuada. A ponderação espectral 219 pode aceitar um de uma multiplicidade de valores que indica o valor minimo, o valor máximo e preferivelmente pelo menos um valor entre o valor minimo e o valor máximo. De modo alternativo, a ponderação espectral pode reduzir para uma divisão reduzida de bandas de frequência tonais de modo que a ponderação espectral seja um fator de consideração.
[0079] O processador de sinal pode ser configurado para combinar a ponderação espectral para processamento transiente e/ou a ponderação espectral para processamento tonal com os valores espectrais da banda de frequência como é descrito para o processador de sinal 210. Por exemplo, para uma banda de frequência proposta, um valor médio de ponderação espectral 217 e/ou 219 pode ser determinado pelo estágio de combinação 215. As ponderações espectrais da banda de frequência podem ser combinadas, por exemplo, multiplicadas, com os valores espectrais do sinal de áudio 102. De modo alternativo, o estágio de combinação pode ser configurado para comparar ambas as ponderações espectrais 217 e 219 e/ou para selecionar a ponderação espectral mais alta ou mais baixa de ambas e para combinar a ponderação espectral selecionada com os valores espectrais. De modo alternativo, as ponderações espectrais podem ser combinadas de forma diferente, por exemplo, como uma soma, como uma diferença, como um quociente ou como um fator.
[0080] Uma caracteristica de um sinal de áudio pode variar ao longo do tempo. Por exemplo, um sinal de transmissão de rádio pode primeiro compreender um sinal de fala (sinal da fonte sonora proeminente) e depois disso um sinal de música (sinal da fonte sonora não proeminente) ou vice-versa. Ainda, as variações dentro de um sinal de fala e/ou um sinal de música podem ocorrer. Isso pode levar a mudanças rápidas de ponderações espectrais e/ou fatores de ponderação. 0 processador de sinal e/ou o controlador pode ser configurado para adicionalmente adaptar as ponderações espectrais e/ou os fatores de ponderação para reduzir ou limitar as variações entre as duas estruturas, por exemplo, limitando um tamanho de etapa máxima entre as duas estruturas de sinal. Uma ou mais estruturas do sinal de áudio podem ser somadas em um periodo de tempo, em que o processador de sinal e/ou o controlador pode ser configurado para comparar as ponderações espectrais e/ou os fatores de ponderação de um periodo de tempo prévio, por exemplo, uma ou mais estrutura(s) prévia(s) e para determinar se uma diferença de ponderações espectrais e/ou fatores de ponderação determinados por um periodo de tempo real excede um valor limite. 0 valor limite pode representar, por exemplo, um valor que leva aos efeitos irritantes para um ouvinte. 0 processador de sinal e/ou o controlador pode ser configurado para limitar as variações de modo que tais efeitos irritantes sejam reduzidos ou prevenidos. De modo alternativo, em vez da diferença, outras expressões matemáticas como uma razão também podem ser determinadas para comparação das ponderações espectrais e/ou dos fatores de ponderação do periodo de tempo real e prévio.
[0081] Em outras palavras, cada banda de frequência recebe um recurso, compreendendo uma quantidade de caracteristicas tonais e/ou transientes.
[0082] A figura 8 mostra um diagrama de blocos esquemático de um sistema de reforço de som 800, compreendendo um aparelho 801 para reforço do sinal de áudio 102. O sistema de reforço de som 800 compreende uma entrada de sinal 106 configurada para receber o sinal de áudio e para fornecer o sinal de áudio ao aparelho 801. O sistema de reforço de som 800 compreende dois alto-falantes 808a e 808b. O alto-falante 808a é configurado para receber o sinal yi. O alto-falante 808b é configurado para receber o sinal y2 de modo que por meios de alto-falantes 808a e 808b os sinais yi e y2 possam ser transferidos às ondas sonoras ou sinais sonoros. A entrada de sinal 106 pode ser uma entrada de sinal com ou sem fio, como uma antena de rádio. O aparelho 801 pode ser, por exemplo, o aparelho 100 e/ou 200.
[0083] O sinal correlacionado z é obtido pela aplicação de um processamento que reforça os componentes tonais e transientes (qualitativamente inversos da supressão para computação do sinal s). A combinação realizada pelo combinador pode ser linear expressa por y (yi/y2) = fator de escala 1-z+fator de escala 2-fator de escala (rl/r2). Os fatores de escala podem ser obtidos pela previsão da intensidade percebida de decorrelação.
[0084] De modo alternativo, os sinais yi e/ou y2 podem ser, ainda, processados antes de serem recebidos por um altofalante 808a e/ou 808b. Por exemplo, os sinais yi e/ou y2 podem ser amplificados, equalizados ou similares de modo que um sinal ou sinais derivados por processamento do sinal yi e/ou y2 sejam fornecidos aos alto-falantes 808a e/ou 808b.
[0085] A reverberação artificial adicionada ao sinal de áudio pode ser implementada de modo que o nivel de reverberação seja audivel, mas não muito alto (intensivo). Níveis que são audíveis ou irritantes podem ser determinados em testes e/ou simulações. Um nível que é muito alto não soa bem por causa das sensações de clareza, sons percussivos são distorcidos no tempo, etc. Um nível alvo pode depender do sinal de entrada. Se o sinal de entrada compreender uma baixa quantidade de transientes e compreender uma baixa quantidade de tons com modulações por frequência, então a reverberação é audível com um grau inferior e o nível pode ser aumentado. Algo similar aplica-se para a decorrelação, pois o decorrelacionador pode compreender um princípio ativo similar. Assim, uma intensidade ideal do decorrelacionador pode depender do sinal de entrada. A computação pode ser igual, com parâmetros modificados. A decorrelação executada no processador de sinal e no controlador pode ser realizada com dois decorrelacionadores que podem ser estruturalmente iguais, mas são operados com diferentes conjuntos de parâmetros. Os processadores de decorrelação não são limitados em sinais estéreos de dois canais, mas também podem ser aplicados em canais com mais do que dois sinais. A decorrelação pode ser quantificada com uma métrica de correlação que pode compreender até todos os valores para decorrelação de todos os pares de sinal.
[0086] Uma constatação do método inventado é gerar elementos espaciais e introduzir os elementos espaciais ao sinal, de modo que o sinal processado crie a sensação de um sinal estereofónico. O processamento pode ser referido como sendo projetado de acordo com os seguintes critérios: 1. As fontes sonoras diretas que têm alta intensidade (ou nível de intensidade) estão localizadas no centro. Essas são fontes sonoras diretas proeminentes, por exemplo, um cantor ou instrumento alto em uma gravação musical. 2. Sons ambientes são percebidos como sendo difusos. 3. A difusão é adicionada às fontes sonoras diretas tendo baixa intensidade (ou seja, baixos níveis de intensidade), possivelmente a uma menor extensão do que os sons ambientes. 4. O processamento deveria soar natural e não deveria introduzir perturbações.
[0087] Os critérios de desenho são consistentes com a prática comum na produção de gravações de áudio e com caracteristicas do sinal de sinais estereofónicos: 1. Fontes diretas proeminentes são tipicamente deslocadas ao centro, ou seja, elas são misturadas com ICLD e ICTD desprezíveis. Esses sinais exibem uma alta coerência. 2. Sons ambientes exibem uma baixa coerência. 3. Ao gravar múltiplas fontes diretas em um ambiente reverberante, por exemplo, cantores de opera com orquestra acompanhante, a quantidade de difusão de cada som direto está relacionada a sua distância até os microfones, pois a razão entre o sinal direto e a reverberação reduz quando a distância até o microfone é aumentada. Portanto, os sons que são capturados com baixa intensidade são tipicamente menos coerentes (ou vice-versa, mais difusos) do que as fontes diretas proeminentes.
[0088] O processamento gera informação espacial por meios da decorrelação. Em outras palavras, o ICC dos sinais de entrada é reduzido. Apenas em casos extremos a decorrelação leva a sinais completamente não correlacionados. Tipicamente, uma decorrelação parcial é obtida e desejada. O processamento não manipula as linhas direcionais (ou seja, ICLD e ICTD). A razão para essa restrição é que nenhuma informação sobre a posição original ou destinada de fontes sonoras diretas está disponível.
[0089] De acordo com os critérios de desenho acima, a decorrelação é aplicada seletivamente aos componentes do sinal em um sinal de mistura, de modo que: 1. Nenhuma ou pouca decorrelação seja aplicada aos componentes de sinal, conforme discutido no critério de desenho 1. 2. A decorrelação é aplicada aos componentes de sinal, conforme discutido no critério de desenho 2. Esta decorrelação contribui amplamente para a largura percebida do sinal de mistura que é obtido na saida do processamento.
[0090] A decorrelação é aplicada aos componentes de sinal, conforme discutido no critério de desenho 3, mas a uma extensão menor do que para componentes de sinal conforme discutido no critério de desenho 2.
[0091] Este processamento é ilustrado por meio de um modelo de sinal que representa o sinal de entrada x como uma mistura aditiva de um sinal de primeiro plano xa e um sinal de plano de fundo Xb, ou seja, x = xa + Xb. O sinal de primeiro plano compreende todos os componentes de sinal, conforme discutido no critério de desenho 1. O sinal de plano de fundo compreende todos os componentes de sinal, conforme discutido no critério de desenho 2. Todos os componentes de sinal, conforme discutido no critério de desenho 3, não são exclusivamente atribuídos a um dos componentes de sinal separados, mas são parcialmente contidos no sinal de primeiro plano e no sinal de plano de fundo.
[0092] O sinal de saida y é computado como y = ya + yb, onde yt é computado pela decorrelação Xb, e ya = xa ou, alternativamente, ya é computado pela decorrelação xa - Em outras palavras, o sinal de plano de fundo é processado por meios da decorrelação e o sinal de primeiro plano não é processado por meios da decorrelação ou é processado por meios da decorrelação, mas a uma extensão menor do que o sinal de plano de fundo. A figura 9b ilustra esse processamento.
[0093] Esta abordagem não atende apenas aos critérios de desenho acima. Uma vantagem adicional é que o sinal de primeiro plano pode estar propenso a coloração indesejada na aplicação da decorrelação, enquanto que o plano de fundo pode estar decorrelacionado sem a introdução de tais perturbações audiveis. Portanto, o processamento descrito produz melhor qualidade sonora quando comparada com um processamento que aplica a decorrelação igualmente a todos os componentes de sinal na mistura.
[0094] Até o momento, o sinal de entrada é decomposto em dois sinais denotados como "sinal de primeiro plano" e "sinal de plano de fundo" que são separadamente processados e combinados com o sinal de saida. Deve ser observado que métodos equivalentes são viáveis seguindo a mesma lógica.
[0095] A decomposição do sinal não é necessariamente um processamento que emite sinais de áudio, ou seja, sinais que parecem o formato da forma de onda ao longo do tempo. Em vez disso, a decomposição do sinal pode resultar em qualquer outra representação do sinal que pode ser utilizada como a entrada ao processamento de decorrelação e subsequentemente transformada em um sinal de forma de onda. Um exemplo para tal representação do sinal é um espectrograma que é computado por meios da transformada de Fourier de Curta Duração. No geral, as transformadas inversas e as transformadas lineares levam à representação apropriada dos sinais.
[0096] De modo alternativo, os elementos espaciais são seletivamente gerados sem a decomposição do sinal anterior por meio da geração de informação estereofónica com base no sinal de entrada x. A informação estereofónica derivada é ponderada com valores variantes no tempo e seletivos de frequência e combinada com o sinal de entrada. Os fatores de ponderação variantes no tempo e seletivos de frequência são computados de modo que sejam grandes nas regiões de frequência de tempo que são dominadas pelo sinal de plano de fundo e sejam pequenos nas regiões de frequência de tempo que são dominadas pelo sinal de primeiro plano. Isso pode ser formalizado pela quantificação da razão variante no tempo e seletiva de frequência do sinal de plano de fundo e do sinal de primeiro plano. Os fatores de ponderação podem ser computados da razão plano de fundo-para-primeiro plano, por exemplo, por meios das funções uniformemente crescentes.
[0097] De modo alternativo, a decomposição do sinal anterior pode resultar em mais do que dois sinais separados.
[0098] As figuras 9a e 9b ilustram a separação do sinal de entrada em um sinal de primeiro plano e de plano de fundo, p.ex., por supressão (redução ou eliminação) das partes transientes tonais em um dos sinais.
[0099] Um processamento simplificado é derivado ao utilizar a suposição que o sinal de entrada é uma mistura aditiva do sinal de primeiro plano e do sinal de plano de fundo. A figura 9b ilustra isso. Aqui, a separação 1 denota a separação do sinal de primeiro plano ou do sinal de plano de fundo. Se o sinal de primeiro plano for separado, a saida 1 denota o sinal de primeiro plano e a saida 2 é o sinal de plano de fundo. Se o sinal de plano de fundo for separado, a saida 1 denota o sinal de plano de fundo e a saida 2 é o sinal de primeiro plano.
[0100] O desenho e a implementação do método de separação de sinal se baseia na constatação que os sinais de primeiro plano e os sinais de plano de fundo têm caracteristicas distintas. Entretanto, os desvios de uma separação ideal, ou seja, vazamento de componentes de sinal das fontes sonoras diretas proeminentes ao sinal de plano de fundo ou vazamento dos componentes de sinal ambiente ao sinal de primeiro plano, são aceitáveis e não prejudicam necessariamente a qualidade sonora do final resultado.
[0101] Para caracteristicas temporais, no geral, pode ser observado que os envelopes temporais dos sinais de subfaixa dos sinais de primeiro plano caracterizam modulações mais fortes de amplitude do que os envelopes temporais dos sinais de subfaixa dos sinais de plano de fundo. Em contrapartida, os sinais de plano de fundo são tipicamente menos transientes (ou percussivos, ou seja, mais sustentados) do que os sinais de primeiro plano.
[0102] Para caracteristicas espectrais, em geral, pode ser observado que os sinais de primeiro plano podem ser mais tonais. Em contrapartida, sinais de plano de fundo são tipicamente mais barulhentos do que os sinais de primeiro plano.
[0103] Para as caracteristicas de fase, em geral, pode ser observado que a informação da fase dos sinais de plano de fundo é mais barulhenta do que dos sinais de primeiro plano. A informação de fase para muitos exemplos de sinais de primeiro plano é congruente por múltiplas bandas de frequência.
[0104] Sinais que caracterizam as caracteristicas que são similares aos sinais da fonte sonora proeminentes são sinais de primeiro plano mais prováveis do que sinais de plano de fundo. Sinais da fonte sonora proeminentes são caracterizados pelas transições entre os componentes de sinal tonais e com ruido, onde os componentes do sinal tonal são trens de pulso filtrados por variante no tempo cuja frequência fundamental é fortemente modulada. O processamento espectral pode ser com base nessas caracteristicas, a decomposição pode ser implementada por meios de subtração espectral ou ponderação espectral.
[0105] A subtração espectral é realizada, por exemplo, no dominio de frequência, onde os espectros de estruturas curtas das partes do sinal de entrada sucessivas (possivelmente sobrepostas) são processados. O principio básico é subtrair uma estimativa do espectro de magnitude de um sinal de interferência dos espectros de magnitude dos sinais de entrada que é suposto ser uma mistura aditiva de um sinal desejado e um sinal de interferência. Para a separação do sinal de primeiro plano, o sinal desejado é o primeiro plano e o sinal de interferência é o sinal de plano de fundo. Para a separação do sinal de plano de fundo, o sinal desejado é o plano de fundo e o sinal de interferência é o sinal de primeiro plano.
[0106] A ponderação espectral (ou atenuação espectral de curta duração) segue o mesmo princípio e atenua o sinal de interferência pela escala da representação do sinal de entrada. 0 sinal de entrada x(t) é transformado utilizando uma Transformada de Fourier de Curta Duração (STFT), um banco de filtro ou qualquer outro meio para derivação de uma representação do sinal com múltiplas bandas de frequência X(n,k), com índice da banda de frequência n e índice de tempo k. As representações de domínio de frequência dos sinais de entrada são processadas de modo que os sinais de subfaixa sejam escalados com as ponderações variantes no tempo G(n,k),
[0107] O resultado da operação de ponderação Y(n,k) é a representação de domínio de frequência do sinal de saída. 0 sinal de tempo de saída y(t) é computado utilizando o processamento inverso da transformada do domínio de frequência, p.ex., a STFT Inversa. A figure 10 ilustra a ponderação espectral.
[0108] A decorrelação refere-se a um processamento de um ou mais sinal(is) idêntico(s) de entrada, de modo que múltiplos sinais de saída sejam obtidos sendo mutualmente (parcial ou completamente) não correlacionados, mas o som seja similar ao sinal de entrada. A correlação entre os dois sinais pode ser medida por meios do coeficiente de correlação ou coeficiente de correlação normalizado. O coeficiente de correlação normalizado NCC em bandas de frequência para dois sinais Xi(n,k) e X2(n,k) é definido como onde e são as densidades espectrais de autopotência (PSD | power spectral densities) do primeiro e do segundo sinal de entrada, respectivamente, e é a PSD cruzada, dada por onde é a operação de expectativa e X* denota o conjugado complexo de X.
[0109] A decorrelação pode ser implementada utilizando os filtros de decorrelação ou manipulando a fase dos sinais de entrada no domínio de frequência. Um exemplo para os filtros de decorrelação é o filtro passa-tudo, que pela definição não muda o espectro de magnitude dos sinais de entrada, mas apenas sua fase Isso leva a sinais de saída sonoros, de forma neutra, no sentido que os sinais de saída soam similar aos sinais de entrada. Outro exemplo é a reverberação, que também pode ser modelada como um ajustador ou um sistema invariante no tempo linear. No geral, a decorrelação pode ser obtida adicionando múltiplas cópias atrasadas (e possivelmente filtradas) do sinal de entrada ao sinal de entrada. Em termos matemáticos, a reverberação artificial pode ser implementada como convolução do sinal de entrada com a resposta de impulso do sistema de reverberação (ou decorrelação). Quando o período de atraso é pequeno, p.ex., menor do que 50 ms, as cópias atrasadas do sinal não são percebidas como sinais separados (ecos). O valor exato do período de atraso que leva à sensação de ecos é o limite do eco e depende das características de sinal espectral e temporal. É, por exemplo, menor para impulso como sons do que para o som cujo envelope aumenta lentamente. Para o problema em mãos, deseja-se utilizar os periodos de atraso que são menores do que o limite de eco.
[0110] No caso geral, a decorrelação processa um sinal de entrada tendo N canais e emite um sinal tendo M canais de modo que os sinais de canal da saida sejam mutualmente não correlacionados (parcial ou completamente).
[0111] Em muitos cenários de aplicação para o método descrito, não é apropriado processar constantemente o sinal de entrada, mas ativá-lo e controlar seu impacto com base em uma análise do sinal de entrada. Um exemplo é a transmissão de FM, onde o método descrito é aplicado apenas quando deficiências da transmissão levam a uma perda completa ou parcial de informação estereofónica. Outro exemplo é ouvir a uma coleção de gravações musicais, onde um subconjunto das gravações é monofônico e outro conjunto são gravações estéreo. Ambos os cenários são caracterizados por uma quantidade de informação estereofónica variante no tempo dos sinais de áudio. Isso requer um controle da ativação e do impacto do reforço estereofónica, ou seja, um controle do algoritmo.
[0112] O controle é implementado por meios de uma análise dos sinais de áudio que estima os elementos espaciais (ICLD, ICTD e ICC, ou um subconjunto respectivo) dos sinais de áudio. A estimativa pode ser realizada em uma forma seletiva de frequência. A saida da estimativa é mapeada em um valor de escala que controla a ativação ou o impacto do processamento. A análise do sinal processa o sinal de entrada ou, alternativamente, o sinal de plano de fundo separado.
[0113] Uma forma direta de controlar o impacto do processamento é reduzir seu impacto por meio da adição de (possivelmente em escala) cópia do sinal de entrada ao sinal de saida (possivelmente em escala) do reforço estereofónica. Leves transições do controle são obtidas pela filtragem passa baixa do sinal de controle ao longo do tempo.
[0114] A figura 9a mostra um diagrama de blocos esquemático de um processamento 900 do sinal de entrada 102, de acordo com um processamento de primeiro plano/plano de fundo. O sinal de entrada 102 é separado, de modo que um sinal de primeiro plano 914 possa ser processado. Em uma etapa 916, a decorrelação é realizada ao sinal de primeiro plano 914. A etapa 916 é opcional. De modo alternativo, o sinal de primeiro plano 914 pode permanecer não processado, ou seja, não decorrelacionado. Em uma etapa 922 de uma passagem de processamento 920, um sinal de plano de fundo 924 é extraido, ou seja, filtrado. Em uma etapa 926, o sinal de plano de fundo 924 é decorrelacionado. Em uma etapa 904, um sinal decorrelacionado de primeiro plano 918 (alternativamente o sinal de primeiro plano 914) e um sinal decorrelacionado de plano de fundo 928 são misturados de modo que um sinal de saida 906 seja obtido. Em outras palavras, a figura 9a mostra um diagrama de blocos do reforço estereofónica. Um sinal de primeiro plano e um sinal de plano de fundo são computados. O sinal de plano de fundo é processado pela decorrelação. Opcionalmente, o sinal de primeiro plano pode ser processado pela decorrelação, mas a uma extensão menor do que o sinal de plano de fundo. Os sinais processados são combinados com o sinal de saida.
[0115] A figura 9b ilustra um diagrama de blocos esquemático de um processamento 900', compreendendo uma etapa de separação 912' do sinal de entrada 102. A etapa de separação 912' pode ser realizada como é descrito acima. Um sinal de primeiro plano (sinal de saida 1) 914' é obtido pela etapa de separação 912'. Um sinal de plano de fundo 928' é obtido pela combinação do sinal de primeiro plano 914', os fatores de ponderação a e/ou b e o sinal de entrada 102 em uma etapa de combinação 926'. Um sinal de plano de fundo (sinal de saida 2) 928' é obtido pela etapa de combinação 926'.
[0116] A figura 10 mostra um diagrama de blocos esquemático e também um aparelho 1000 configurado para aplicar as ponderações espectrais a um sinal de entrada 1002 que pode ser, por exemplo, o sinal de entrada 1002. O sinal de entrada 1002 no dominio de tempo é dividido em subfaixas X(1,k)...X(n,k) no dominio de frequência. Um banco de filtro 1004 é configurado para dividir o sinal de entrada 1002 em N subfaixas. O aparelho 1000 compreende N casos de computação configurados para determinar a ponderação espectral transiente e/ou a ponderação espectral tonal G(1,k)...G(n,k) para cada uma das N subfaixas no momento (estrutura) k. As ponderações espectrais G(1,k)...G(n,k) são combinadas com o sinal de subfaixa X(1,k)...X(n,k), de modo que os sinais de subfaixa ponderados Y(1,k)...Y(n,k) sejam obtidos. 0 aparelho 1000 compreende uma unidade de processamento inverso 1008 configurada para combinar os sinais de subfaixa ponderados para obter um sinal de saida filtrado 1012 indicado como Y(t) no dominio de tempo. O aparelho 1000 pode ser uma parte do processador de sinal 110 ou 210. Em outras palavras, a figura 10 ilustra a decomposição de um sinal de entrada em um sinal de primeiro plano e um sinal de plano de fundo.
[0117] A figura 11 mostra um fluxograma esquemático de um método 1100 para reforço de um sinal de áudio. O método 1100 compreende uma primeira etapa 1110 na qual o sinal de áudio é processado a fim de reduzir ou eliminar as partes transientes ou tonais do sinal processado. 0 método 1100 compreende uma segunda etapa 1120 na qual um primeiro sinal decorrelacionado e um segundo sinal decorrelacionado são gerados do sinal processado. Em uma etapa 1130 do método 1100, o primeiro sinal decorrelacionado, o segundo sinal decorrelacionado e o sinal de áudio ou um sinal derivado do sinal de áudio por reforço de coerência são ponderadamente combinados utilizando fatores de ponderação variantes no tempo para obter um sinal de áudio de dois canais. Em uma etapa 1140 do método 1100, os fatores de ponderação variantes no tempo são controlados pela análise do sinal de áudio de modo que diferentes partes do sinal de áudio sejam multiplicadas por diferentes fatores de ponderação e o sinal de áudio de dois canais tenha um grau variante no tempo de uma decorrelação.
[0118] A seguir, detalhes serão estabelecidos para ilustrar a possibilidade de determinar o nivel de decorrelação percebido com base em uma intensidade medida. Conforme será mostrado, uma intensidade medida pode possibilitar a previsão de um nivel percebido de reverberação. Como foi estabelecido acima, a reverberação também se refere à decorrelação, de modo que o nível percebido de reverberação também possa ser referido como um nível de decorrelação percebido, em que para uma decorrelação, a reverberação possa ser mais curta do que um segundo, por exemplo, mais curta do que 500 ms, mais curta do que 250 ms ou mais curta do que 200 ms.
[0119] A figura 12 ilustra um aparelho para determinação de uma medida para um nível percebido de reverberação em um sinal de mistura, compreendendo um componente de sinal direto ou componente de sinal seco 1201 e um componente de sinal de reverberação 102. O componente de sinal seco 1201 e o componente de sinal de reverberação 1202 são inseridos em um processador de modelo de intensidade 1204. O processador de modelo de intensidade é configurado para recebimento do componente de sinal direto 1201 e do componente de sinal de reverberação 1202 e compreende, ainda, um estágio de filtro perceptual 1204a e uma calculadora de intensidade sonora subsequentemente conectada 1204b, conforme ilustrado na figura 13a. 0 processador de modelo de intensidade gera, em sua saída, uma primeira medida de intensidade 1206 e uma segunda medida de intensidade 1208 Ambas as medidas de intensidade são inseridas em um combinador 1210 para combinação da primeira medida de intensidade 1206 e da segunda medida de intensidade 1208 para finalmente obter uma medida 1212 para o nível percebido de reverberação. Dependendo da implementação, a medida para o nível percebido 1212 pode ser inserida em um previsor 1214 para prever o nível percebido de reverberação com base em um valor médio de, pelo menos, duas medidas para a intensidade percebida para diferentes estruturas de sinal. Entretanto, o previsor 1214 na figura 12 é opcional e, de fato, transforma a medida para o nivel percebido em uma certa faixa de valor ou faixa de unidade, tal como a faixa de unidade sone que é útil para fornecer valores quantitativos relacionados à intensidade. Entretanto, outras utilizações para a medida para o nivel percebido 1212 que não é processado pelo previsor 1214 também podem ser utilizadas, por exemplo, no controlador, que não necessariamente tem que depender de um valor emitido pelo previsor 1214, mas que também pode processar diretamente a medida para o nivel percebido 1212, em uma forma direta ou preferivelmente em um tipo de forma nivelada onde o nivelamento ao longo do tempo é preferido a fim de não ter correções de nivel com fortes mudanças do sinal reverberado ou de um fator de ganho g.
[0120] Particularmente, o estágio de filtro perceptual é configurado para filtrar o componente de sinal direto, o componente de sinal de reverberação ou o componente de sinal de mistura, em que o estágio de filtro perceptual é configurado para modelar um mecanismo de percepção auditiva de uma entidade como um ser humano para obter um sinal direto filtrado, um sinal de reverberação filtrado ou um sinal de mistura filtrado. Dependendo da implementação, o estágio de filtro perceptual pode compreender dois filtros que operam paralelamente ou pode compreender um armazenamento e um único filtro, pois um e o mesmo filtro pode, de fato, ser utilizado para filtrar cada um dos três sinais, ou seja, o sinal de reverberação, o sinal de mistura e o sinal direto. Neste contexto, entretanto, deve ser observado que, embora a figura 13a ilustre n filtros que modelam o mecanismo de percepção auditiva, de fato, dois filtros serão suficientes ou um único filtro que filtra dois sinais do grupo que compreende o componente de sinal de reverberação, o componente do sinal de mistura e o componente de sinal direto.
[0121] A calculadora de intensidade sonora 1204b ou o estimador de intensidade sonora é configurada(o) para estimar a primeira medida relacionada à intensidade sonora utilizando o sinal direto filtrado e para estimar a segunda medida de intensidade sonora utilizando o sinal de reverberação filtrado ou o sinal de mistura filtrado, onde o sinal de mistura é derivado de uma superposição do componente de sinal direto e do componente de sinal de reverberação.
[0122] A figura 13c ilustra quatro modos preferidos para calcular a medida para o nivel percebido de reverberação. Uma implementação depende da intensidade parcial onde ambos, o componente de sinal direto x e o componente de sinal de reverberação r, são utilizados no processador de modelo de intensidade, mas onde, a fim de determinar a primeira medida EST1, o sinal de reverberação é utilizado como o estimulo e o sinal direto é utilizado como o ruido. Para determinação da segunda medida de intensidade EST2, a situação é mudada e o componente de sinal direto é utilizado como um estimulo e o componente de sinal de reverberação é utilizado como o ruido. Então, a medida para o nivel percebido de correção gerado pelo combinador é uma diferença entre a primeira medida de intensidade EST1 e a segunda medida de intensidade EST2.
[0123] Entretanto, outras aplicações eficientes de forma computacional adicionalmente existem, sendo indicadas nas linhas 2, 3, e 4 na figura 13c. Essas medidas mais eficientes de forma computacional dependem do cálculo da intensidade total de três sinais compreendendo o sinal de mistura m, o sinal direto x e o sinal de reverberação n. Dependendo do cálculo exigido realizado pelo combinador indicado na última coluna da figura 13c, a primeira medida de intensidade EST1 é a intensidade total do sinal de mistura ou do sinal de reverberação e a segunda medida de intensidade EST2 é a intensidade total do componente de sinal direto x ou do componente do sinal de mistura m, onde as combinações reais são conforme ilustrado na figura 13c.
[0124] A figura 14 ilustra a implementação do processador de modelo de intensidade que já foi discutida em alguns aspectos com relação às figuras 12, 13a, 13b, 13c. Particularmente, o estágio de filtro perceptual 1204a compreende um conversor de frequência de tempo 1401 para cada ramificação, onde, na aplicação da figura 3, x[A] indica o estimulo e n[Jc] indica o ruido. O sinal convertido de tempo/frequência é encaminhado em um bloco de função de transferência auricular 1402 (observe que a função de transferência auricular pode ser, alternativamente, combinada antes do conversor de frequência de tempo com resultados similares, mas com carga computacional mais alta) e a saida deste bloco 1402 é inserida em um bloco padrão de excitação de computação 1404 seguido por um bloco de integração temporal 1406. Então, no bloco 1408, a intensidade especifica nessa aplicação é calculada, onde o bloco 1408 corresponde ao bloco da calculadora de intensidade sonora 1204b na figura 13a. Subsequentemente, uma integração sobre a frequência no bloco 1410 é realizada, onde o bloco 1410 corresponde ao somador já descrito como 1204c e 1204d na figura 13b. Deve ser observado que o bloco 1410 gera a primeira medida para um primeiro conjunto de estimulo e ruido e a segunda medida para um segundo conjunto de estimulo e ruido. Particularmente, quando a figura 13b é considerada, o estimulo para calcular a primeira medida é o sinal de reverberação e o ruido é o sinal direto enquanto, para o cálculo da segunda medida, a situação é mudada e o estimulo é o componente de sinal direto e o ruido é o componente de sinal de reverberação. Assim, para geração de duas medidas de intensidade diferentes, o procedimento ilustrado na figura 14 foi realizado duas vezes. Entretanto, as mudanças no cálculo ocorrem apenas no bloco 1408 que opera de forma diferente, de modo que as etapas ilustradas por blocos 1401 a 1406 apenas devem ser realizadas uma vez, e o resultado do bloco de integração temporal 1406 pode ser armazenado a fim de computar a primeira intensidade estimada e a segunda intensidade estimada para a implementação representada na figura 13c. Deve ser observado que, para a implantação, o bloco 1408 pode substituído por um bloco individual "computar intensidade total" para cada ramificação, onde nesta implementação é indiferente, se um sinal é considerado ser um estimulo ou um ruido.
[0125] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é evidente que esses aspectos também representam uma descrição do método correspondente, no qual um bloco ou dispositivo corresponde a uma etapa do método ou uma caracteristica de uma etapa do método. De forma análoga, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco correspondente ou de um item ou uma caracteristica de um aparelho correspondente.
[0126] Dependendo de certas exigências de implementação, as aplicações da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando-se um meio de armazenamento digital, por exemplo, um disquete, um DVD, um CD, uma memória ROM, uma PROM, uma EPROM, uma EEPROM ou uma memória FLASH, tendo sinais de controle eletronicamente legíveis armazenados nele (ou são capazes de cooperar) com um sistema de computador programável, de modo que o respectivo método seja realizado.
[0127] Algumas aplicações, de acordo com a invenção, compreendem um transportador de dados tendo sinais de controle eletronicamente legíveis, que são capazes de cooperar com um sistema de computador programável, de modo que um dos métodos descritos neste documento seja realizado.
[0128] De forma geral, as aplicações da presente invenção podem ser implementadas como um produto do programa de computador com um código do programa, o código do programa sendo operativo para realizar um dos métodos quando o produto do programa de computador é executado em um computador. O código do programa pode, por exemplo, ser armazenado em um transportador legível por máquina.
[0129] Outras aplicações compreendem o programa de computador para realizar um dos métodos descritos neste documento, armazenados em um transportador legível por máquina.
[0130] Em outras palavras, uma aplicação do método inventivo é, portanto, um programa de computador tendo um código do programa para realizar um dos métodos descritos neste documento, quando o programa de computador for executado em um computador.
[0131] Outra aplicação dos métodos inventivos é, portanto, um transportador de dados (ou um meio de armazenamento digital, ou um meio legível por computador) compreendendo, gravado nele, o programa de computador para realizar um dos métodos descritos neste documento.
[0132] Outra aplicação do método inventivo é, portanto, um fluxo de dados ou uma sequência de sinais que representa o programa de computador para realizar um dos métodos descritos neste documento. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurada para ser transferida por meio de uma conexão de comunicação de dados, por exemplo, pela Internet.
[0133] Outra aplicação compreende um meio de processamento, por exemplo, um computador ou um dispositivo lógico programável, configurado ou adaptado para realizar um dos métodos descritos neste documento.
[0134] Outra aplicação compreende um computador, tendo instalado nele o programa de computador para realizar um dos métodos descritos neste documento.
[0135] As aplicações descritas acima são meramente ilustrativas para os princípios da presente invenção. Entendese que as modificações e as variações das disposições, e os detalhes descritos no presente documento, serão evidentes a outros especialistas na técnica. É intenção da invenção, portanto, ser limitada apenas pelo escopo das reivindicações da patente anexas e não pelos detalhes específicos apresentados em forma de descrição e explicação das aplicações no presente documento.

Claims (14)

1. Aparelho (100; 200) para reforço de um sinal de áudio (102), caracterizado por compreender: um processador de sinal (110; 210) para processar o sinal de áudio (102), a fim de reduzir ou eliminar as partes transientes ou tonais do sinal processado (112; 212); um decorrelacionador (120; 520) para geração de um primeiro sinal decorrelacionado e um segundo sinal decorrelacionado (124; r2) do sinal processado (112; 212); um combinador (140; 240) para ponderadamente combinar o primeiro sinal decorrelacionado (122; 522, rl), o segundo sinal decorrelacionado (124; r2) e o sinal de áudio ou um sinal derivado do sinal de áudio (102) por reforço de coerência, utilizando fatores de ponderação variantes no tempo (a, b) e para obter um sinal de áudio de dois canais (142; 242); e um controlador (130; 230) para controle dos fatores de ponderação variantes no tempo (a, b) pela análise do sinal de áudio (122), de modo que diferentes partes (fblfb7) do sinal de áudio sejam multiplicadas por diferentes fatores de ponderação (a, b) e o sinal de áudio de dois canais (142; 242) tenha um grau de decorrelação variante no tempo.
2. Aparelho de acordo com a reivindicação 1, caracterizado pelo controlador (130; 230) ser configurado para aumentar os fatores de ponderação (a, b) para partes (fbl-fb7) do sinal de áudio (102) que possibilitem um grau mais alto de decorrelação e para reduzir os fatores de ponderação (a, b) para as partes (fbl-fb7) do sinal de áudio (102) que possibilitem um grau de decorrelação inferior.
3. Aparelho de acordo com a reivindicação 1 ou 2, caracterizado pelo controlador (130; 230) ser configurado para escalar os fatores de ponderação (a, b), de modo que um nivel percebido de decorrelação no sinal de áudio de dois canais (142; 242) permaneça dentro de uma faixa ao redor de um valor alvo, a faixa estendendo-se para ±20% do valor alvo.
4. Aparelho de acordo com a reivindicação 3, caracterizado pelo controlador (130; 230) ser configurado para determinar o valor alvo por reverberação do sinal de áudio (102) para obter um sinal de áudio reverberado e por comparação do sinal de áudio reverberado (102) com o sinal de áudio para obter um resultado da comparação, em que o controlador é configurado para determinar o nivel de decorrelação (232) percebido com base no resultado da comparação.
5. Aparelho de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo controlador (130; 230) ser configurado para determinar uma parte do sinal da fonte de som proeminente no sinal de áudio (102) e para reduzir os fatores de ponderação (a, b) para a parte do sinal da fonte de som proeminente em comparação com uma parte do sinal de áudio (102) não compreendendo um sinal da fonte sonora proeminente; e em que o controlador (130; 230) é configurado para determinar uma parte do sinal da fonte de som não proeminente no sinal de áudio (102) e para aumentar os fatores de ponderação (a, b) para a parte do sinal da fonte de som não proeminente em comparação com uma parte do sinal de áudio (102) não compreendendo um sinal da fonte sonora não proeminente.
6. Aparelho de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo controlador (130; 230) ser configurado para: gerar um sinal decorrelacionado de teste de uma parte do sinal de áudio (102); derivar uma medição para um nivel de decorrelação percebido da parte do sinal de áudio e do sinal decorrelacionado de teste; e derivar os fatores de ponderação (a, b) da medição para o nivel de decorrelação percebido.
7. Aparelho de acordo com a reivindicação 6, caracterizado pelo decorrelacionador (120, 520) ser configurado para gerar o primeiro sinal decorrelacionado (122; rl) com base em uma reverberação do sinal de áudio (102) com um primeiro periodo de reverberação, em que o controlador (130; 230) é configurado para gerar o sinal decorrelacionado de teste com base em uma reverberação do sinal de áudio (102) com um segundo periodo de reverberação e em que o segundo periodo de reverberação é mais curto do que o primeiro periodo de reverberação.
8. Aparelho de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo controlador (130; 230) ser configurado para controlar os fatores de ponderação (a, b), de modo que os fatores de ponderação (a, b) compreendam, cada um, um valor de uma primeira multiplicidade de possiveis valores da primeira multiplicidade compreendendo, pelo menos, três valores que compreendem um valor minimo, um valor máximo e um valor entre o valor minimo e o valor máximo; e em que o processador de sinal (110; 210) é configurado para determinar as ponderações espectrais (217, 219) para uma segunda multiplicidade de bandas de frequência, cada uma representando uma parte do sinal de áudio (102) no dominio de frequência, em que as ponderações espectrais (217, 219) compreendem, cada uma, um valor de uma terceira multiplicidade de possiveis valores, a terceira multiplicidade compreendendo, pelo menos, três valores que compreendem um valor minimo, um valor máximo e um valor entre o valor minimo e o valor máximo.
9. Aparelho de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo processador de sinal (110; 210) ser configurado para: processar o sinal de áudio (102), de modo que o sinal de áudio (102) seja transferido ao dominio de frequência e de modo que uma segunda multiplicidade de bandas de frequência (fbl-fb7) represente a segunda multiplicidade de partes do sinal de áudio (102) no dominio de frequência; determinar, para cada banda de frequência (fbl-fb7), uma primeira ponderação espectral (217) que represente um valor de processamento para o processamento transiente (211) do sinal de áudio (102); determinar, para cada banda de frequência (fbl-fb7), uma segunda ponderação espectral (219) que represente um valor de processamento para o processamento tonal (213) do sinal de áudio (102); e aplicar, para cada banda de frequência (fblfb7), pelo menos, uma dentre a primeira ponderação espectral (217) e a segunda ponderação espectral (219) aos valores espectrais do sinal de áudio (102) na banda de frequência (fbl-fb7); em que as ponderações espectrais primárias (217) e as ponderações espectrais secundárias (219) compreendem, cada uma, um valor de uma terceira multiplicidade de possiveis valores, a terceira multiplicidade compreendendo, pelo menos, três valores que compreendem um valor minimo, um valor máximo e um valor entre o valor minimo e o valor máximo.
10. Aparelho de acordo com a reivindicação 9, caracterizado, para cada uma da segunda multiplicidade de bandas de frequência (fbl-fb7), pelo processador de sinal (110; 210) ser configurado para comparar a primeira ponderação espectral (217) e a segunda ponderação espectral (219) determinadas para a banda de frequência (fbl-fb7) para determinar se um dos dois valores compreende um valor menor e para aplicar a ponderação espectral (217, 219), compreendendo o valor menor, aos valores espectrais do sinal de áudio (102) na banda de frequência (fbl-fb7).
11. Aparelho de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo decorrelacionador (520) compreender um primeiro filtro de decorrelação (526) configurado para filtrar o sinal de áudio processado (512,s) para obter o primeiro sinal decorrelacionado (522, rl) e um segundo filtro de decorrelação (528) configurado para filtrar o sinal de áudio processado (512,s) para obter um segundo sinal decorrelacionado (524, r2), em que o combinador (140; 240) é configurado para ponderadamente combinar o primeiro sinal decorrelacionado 522, rl), o segundo sinal decorrelacionado (524, r2) e o sinal de áudio (102) ou o sinal (136; 236) derivado do sinal de áudio (102) para obter o sinal de áudio de dois canais (142; 242).
12. Aparelho de acordo com qualquer uma das reivindicações anteriores, caracterizado por, para uma segunda pluralidade de bandas de frequência (fbl-fb7), cada uma das bandas de frequência (fbl-fb7) compreendendo uma parte do sinal de áudio (102) representada no dominio de frequência e com um primeiro periodo de tempo, o controlador (130; 230) ser configurado para controlar os fatores de ponderação (a, b), de modo que cada um dos fatores de ponderação (a, b) compreenda um valor de uma primeira multiplicidade de possíveis valores, a primeira multiplicidade compreendendo, pelo menos, três valores que compreendem um valor minimo, um valor máximo e um valor entre o valor minimo e o valor máximo, e para adaptar os fatores de ponderação (a, b) determinados para um periodo de tempo real se um indice ou uma diferença com base em um valor dos fatores de ponderação (a, b) determinado para o período de tempo real e um valor dos fatores de ponderação (a, b) determinado para um período de tempo prévio for maior do que ou igual a um valor limite, de modo que um valor do índice ou da diferença seja reduzido; e o processador de sinal (110; 210) ser configurado para determinar as ponderações espectrais (217, 219), cada uma compreendendo um valor de uma terceira multiplicidade de possiveis valores, a terceira multiplicidade compreendendo, pelo menos, três valores compreendendo um valor minimo, um valor máximo e um valor entre o valor minimo e o valor máximo.
13. Sistema de reforço de som (800), caracterizado por compreender um aparelho (801) para reforço de um sinal de áudio, de acordo com uma das reivindicações anteriores; uma entrada de sinal (106) configurada para receber o sinal de áudio (102); pelo menos, dois alto-falantes (808a, 808b) configurados para receber o sinal de áudio de dois canais (yi/y2) ou um sinal derivado do sinal de áudio de dois canais (yi/y2) e para gerar sinais acústicos do sinal de áudio de dois canais (yi/y2) ou do sinal derivado do sinal de áudio de dois canais (yi/y2).
14. Método (1100) para reforço de um sinal de áudio (102), caracterizado por compreender: processar (1110) o sinal de áudio (102), a fim de reduzir ou eliminar as partes transientes ou tonais do sinal processado (112; 212); gerar (1120) um primeiro sinal decorrelacionado (122,rl) e um segundo sinal decorrelacionado (124, r2) do sinal processado (112, 212); combinar de forma ponderada (1130) o primeiro sinal decorrelacionado (122, rl), o segundo sinal decorrelacionado (124, r2) e o sinal de áudio (102) ou um sinal (136; 236) derivado do sinal de áudio (102) por reforço de coerência, utilizando os fatores de ponderação variantes no tempo (a, b) e para obter um sinal de áudio de dois canais (142; 242); e controlar (1140) os fatores de ponderação variantes no tempo (a, b) por meio da análise do sinal de áudio (102), de modo que as diferentes partes do sinal de áudio sejam multiplicadas por diferentes fatores de ponderação (a, b) e o sinal de áudio de dois canais (142; 242) tenha um grau de decorrelação variante no tempo.
BR112017000645-6A 2014-07-30 2015-07-27 Aparelho e método para reforço de um sistema de reforço de som e sinal de áudio BR112017000645B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP14179181.4A EP2980789A1 (en) 2014-07-30 2014-07-30 Apparatus and method for enhancing an audio signal, sound enhancing system
EP14179181.4 2014-07-30
PCT/EP2015/067158 WO2016016189A1 (en) 2014-07-30 2015-07-27 Apparatus and method for enhancing an audio signal, sound enhancing system

Publications (2)

Publication Number Publication Date
BR112017000645A2 BR112017000645A2 (pt) 2017-11-14
BR112017000645B1 true BR112017000645B1 (pt) 2023-07-11

Family

ID=

Similar Documents

Publication Publication Date Title
AU2015295518B2 (en) Apparatus and method for enhancing an audio signal, sound enhancing system
JP6818841B2 (ja) 少なくとも一つのフィードバック遅延ネットワークを使ったマルチチャネル・オーディオに応答したバイノーラル・オーディオの生成
JP7183467B2 (ja) 少なくとも一つのフィードバック遅延ネットワークを使ったマルチチャネル・オーディオに応答したバイノーラル・オーディオの生成
ES2892773T3 (es) Procesador de audio para generar una señal reverberada a partir de una señal directa y método para el mismo
JP5957446B2 (ja) 音響処理システム及び方法
RU2569346C2 (ru) Устройство и способ генерирования выходного сигнала с применением блока разложения сигнала
BR112013014173B1 (pt) Aparelho e método para decompor um sinal de entrada utilizando uma curva de referência pré-calculada
RU2663345C2 (ru) Устройство и способ масштабирования центрального сигнала и улучшения стереофонии на основе отношения сигнал-понижающее микширование
BR112013029136B1 (pt) Aparelho, método para gerar um sinal de saída estéreo para fornecer canais de saída adicionais
US11176958B2 (en) Loudness enhancement based on multiband range compression
BR112017000645B1 (pt) Aparelho e método para reforço de um sistema de reforço de som e sinal de áudio
Bai et al. Comparative study of audio spatializers for dual-loudspeaker mobile phones
CN114401481B (zh) 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
BR112020015360A2 (pt) Processador de sinal de áudio, sistema e métodos de distribuição de um sinal do ambiente para uma pluralidade de canais de sinal do ambiente