BR112018008504B1 - Aparelho para gerar um sinal de áudio filtrado e seu método, sistema e método para fornecer informações de modificação de direção - Google Patents

Aparelho para gerar um sinal de áudio filtrado e seu método, sistema e método para fornecer informações de modificação de direção Download PDF

Info

Publication number
BR112018008504B1
BR112018008504B1 BR112018008504-9A BR112018008504A BR112018008504B1 BR 112018008504 B1 BR112018008504 B1 BR 112018008504B1 BR 112018008504 A BR112018008504 A BR 112018008504A BR 112018008504 B1 BR112018008504 B1 BR 112018008504B1
Authority
BR
Brazil
Prior art keywords
filter
information
curve
header
input
Prior art date
Application number
BR112018008504-9A
Other languages
English (en)
Other versions
BR112018008504A2 (pt
Inventor
Aleksandr KARAPETYAN
Jan PLOGSTIES
Felix FLEISCHMANN
Original Assignee
Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V filed Critical Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V
Publication of BR112018008504A2 publication Critical patent/BR112018008504A2/pt
Publication of BR112018008504B1 publication Critical patent/BR112018008504B1/pt

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

APARELHO PARA GERAR UM SINAL DE ÁUDIO FILTRADO E SEU MÉTODO, SISTEMA E MÉTODO PARA FORNECER INFORMAÇÕES DE MODIFICAÇÃO DE DIREÇÃO. Trata-se de um aparelho (100) para gerar um sinal de áudio filtrado a partir de um sinal de entrada de áudio. O aparelho (100) compreende um determinador de informações de filtro (110) que é configurado para determinar informações de filtro dependendo de informações de altura de entrada em que as informações de altura de entrada dependem de uma altura de uma fonte de som virtual. Ademais, o aparelho (100) compreende uma unidade de filtro (120) que é configurada para filtrar o sinal de entrada de áudio para obter o sinal de áudio filtrado dependendo das informações de filtro. O determinador de informações de filtro (110) é configurado para determinar as informações de filtro com o uso de seleção, dependendo das informações de altura de entrada, de uma curva de filtro selecionada dentre uma pluralidade de curvas de filtro, ou o determinador de informações de filtro (110) é configurado para determinar as informações de filtro com o uso de determinação de uma curva de filtro modificada modificando-se uma curva de filtro de referência dependendo das informações de elevação.

Description

DESCRIÇÃO
[001] A presente invenção refere-se a processamento de sinal de áudio e, em particular, a um aparelho e um método para gerar um sinal de áudio filtrado que realiza renderização de elevação.
[002] No processamento de áudio, o deslocamento de amplitude é um conceito comumente aplicado. Por exemplo, considerando som estéreo, é uma técnica comum localizar virtualmente uma fonte de som virtual entre dois alto-falantes. Para localizar uma fonte de som virtual muito à esquerda de um ponto estratégico, um som correspondente é reproduzido novamente com uma amplitude alta pelo alto- falante esquerdo e é reproduzido novamente com uma amplitude baixa pelo alto- falante direito. O conceito é igualmente aplicável para áudio binaural.
[003] Além disso, conceitos semelhantes existem para deslocar fontes de som virtual entre alto-falantes em um plano horizontal e em alto-falantes elevados. As abordagens aplicadas aqui podem, entretanto, não ser semelhantes às aplicadas para áudio binaural.
[004] Portanto, será altamente apreciado se conceitos para elevar ou abaixar fontes de som virtual para áudio binaural forem fornecidos.
[005] De modo semelhante, será altamente apreciado se conceitos para elevar ou abaixar fontes de som virtual para alto-falantes forem fornecidos, se todos os alto-falantes estiverem localizados no mesmo plano e se nenhum dos alto-falantes estiver fisicamente elevado ou abaixado em relação aos outros alto-falantes.
[006] O objetivo da presente invenção é fornecer conceitos aperfeiçoados para o processamento de sinal de áudio. O objetivo da presente invenção é resolvido por um aparelho de acordo com a reivindicação 1, por um aparelho de acordo com a reivindicação 19, por um método de acordo com a reivindicação 23, por um método de acordo com a reivindicação 24 e por um programa de computador de acordo com a reivindicação 25.
[007] Um aparelho para gerar um sinal de áudio filtrado a partir de um sinal de entrada de áudio é fornecido. O aparelho compreende um determinador de informações de filtro que é configurado para determinar informações de filtro dependendo de informações de altura de entrada, em que as informações de altura de entrada dependem de uma altura de uma fonte de som virtual. Além disso, o aparelho compreende uma unidade de filtro que é configurada para filtrar o sinal de entrada de áudio para obter o sinal de áudio filtrado dependendo das informações de filtro. O determinador de informações de filtro é configurado para determinar as informações de filtro com o uso de seleção, dependendo das informações de altura de entrada, de uma curva de filtro selecionada de uma pluralidade de curvas de filtro ou o determinador de informações de filtro é configurado para determinar as informações de filtro com o uso de determinação de uma curva de filtro modificada modificando-se uma curva de filtro de referência dependendo das informações de elevação.
[008] Além disso, um aparelho para fornecer informações de modificação de direção é fornecido. O aparelho compreende uma pluralidade de alto-falantes, em que cada um da pluralidade de alto-falantes é configurado para reproduzir novamente um sinal de áudio reproduzido novamente, em que um primeiro alto- falante da pluralidade de alto-falantes está localizado em uma primeira posição em uma primeira altura e em que um segundo alto-falante da pluralidade de alto-falantes está localizado em uma segunda posição, que é diferente da primeira posição, em uma segunda altura, que é diferente da primeira altura. Além disso, o aparelho compreende dois microfones, em que cada um dos dois microfones é configurado para registrar um sinal de áudio registrado recebendo-se ondas de som de cada alto-falante da pluralidade de alto-falantes emitidas pelo dito alto-falante quando se repete o sinal de áudio. Além disso, o aparelho compreende um determinador de resposta de impulso de espaço binaural que é configurado para determinar uma pluralidade de respostas de impulso de espaço binaural determinando-se uma resposta de impulso de espaço binaural para cada alto-falante da pluralidade de alto-falantes dependendo do sinal de áudio reproduzido novamente que é reproduzido novamente pelo dito alto-falante e dependendo de cada um dos sinais de áudio registrados que são registrados por cada um dos dois microfones quando o dito sinal de áudio reproduzido novamente é reproduzido novamente pelo dito alto- falante. Além disso, o aparelho compreende um gerador de curva de filtro que é configurado para gerar pelo menos uma curva de filtro que depende de duas da pluralidade de respostas de impulso de espaço binaural. As informações de modificação de direção dependem da pelo menos uma curva de filtro.
[009] Além disso, um método para gerar um sinal de áudio filtrado a partir de um sinal de entrada de áudio é fornecido. O método compreende: - Determinar informações de filtro dependendo de informações de altura de entrada, em que as informações de altura de entrada dependem de uma altura de uma fonte de som virtual. E: - Filtrar o sinal de entrada de áudio para obter o sinal de áudio filtrado dependendo das informações de filtro.
[010] A determinação das informações de filtro é conduzida com o uso de seleção, dependendo das informações de altura de entrada, de uma curva de filtro selecionada a partir de uma pluralidade de curvas de filtro. Ou, a determinação das informações de filtro é conduzida com o uso de determinação de uma curva de filtro modificada modificando-se uma curva de filtro de referência dependendo das informações de elevação.
[011] Além disso, um método para fornecer informações de modificação de direção é fornecido. O método compreende: - Para cada alto-falante de uma pluralidade de alto-falantes, reproduzir novamente um sinal de áudio reproduzido novamente pelo dito alto-falante e registrar ondas de som emitidas a partir do dito alto-falante quando se reproduz novamente o dito sinal de áudio reproduzido novamente pelos dois microfones para obter um sinal de áudio registrado para cada um dos dois microfones, em que um primeiro alto-falante da pluralidade de alto-falantes está localizado em uma primeira posição em uma primeira altura e em que um segundo alto-falante da pluralidade de alto-falantes está localizado em uma segunda posição, que é diferente da primeira posição, em uma segunda altura, que é diferente da primeira altura. - Determinar uma pluralidade de respostas de impulso de espaço binaural determinando-se uma resposta de impulso de espaço binaural para cada alto-falante da pluralidade de alto-falantes dependendo do sinal de áudio reproduzido novamente que é reproduzido novamente pelo dito alto-falante e dependendo de cada um dos sinais de áudio registrados que é registrado por cada um dos dois microfones quando o dito sinal de áudio reproduzido novamente é reproduzido novamente pelo dito alto-falante. E - Gerar pelo menos uma curva de filtro dependendo de duas da pluralidade de respostas de impulso de espaço binaural. As informações de modificação de direção dependem da pelo menos uma curva de filtro.
[012] Além disso, programas de computador são fornecidos, em que cada um dos programas de computador é configurado para implantar um dentre os métodos descritos acima quando é executado em um computador ou um processador de sinal.
[013] A seguir, as modalidades da presente invenção são descritas em maiores detalhes com referência às Figuras, em que: A Figura 1a ilustra um aparelho para gerar um sinal de áudio filtrado a partir de um sinal de entrada de áudio de acordo com uma modalidade, A Figura 1b ilustra um aparelho para fornecer informações de modificação de direção de acordo com uma modalidade, A Figura 1c ilustra um sistema de acordo com uma modalidade, A Figura 2 retrata uma ilustração dos três tipos de reflexões, A Figura 3 ilustra uma representação geométrica das reflexões e uma representação geométrica de uma representação temporal das reflexões, A Figura 4 retrata uma ilustração do plano horizontal e mediano para tarefas de localização, A Figura 5 mostra uma audição direcional no plano mediano, A Figura 6 ilustra fontes de som virtual de criação, A Figura 7 retrata curvas limítrofes de mascaramento para um sinal de ruído de banda estreita em níveis de pressão de som diferentes, A Figura 8 retrata curvas de mascaramento temporal para o efeito de mascaramento traseiro e dianteiro, A Figura 9 retrata uma ilustração simplificada do Modelo de Associação, A Figura 10 ilustra diagramas temporais e STFT do canal ipsilateral de uma BRIR (resposta de impulso de espaço binaural), A Figura 11 ilustra uma estimativa dos pontos de transição para cada canal de uma BRIR, A Figura 12 ilustra um banco de filtros Mel com cinco filtros de passa- banda triangulares, um filtro passa-baixa e um filtro passa-alta, A Figura 13 retrata resposta de frequência e resposta de impulso do banco de filtros Mel, A Figura 14 ilustra polinômios de Legendre até a ordem n=5, A Figura 15 mostra harmônicas esféricas até a ordem n=4 e os modos correspondentes, A Figura 16 retrata Quadratura de Lebedev e Quadratura de Gauss- Legendre em uma esfera, A Figura 17 ilustra uma inversão de bn(kr), A Figura 18 retrata duas configurações de medição, em que o cabeçalho de medição binaural, assim como a matriz de microfone esférica, é posicionado no meio dos oito alto-falantes, A Figura 19 ilustra um espaço de teste de escuta, A Figura 20 ilustra um cabeçalho de medição binaural e um sistema de medição de matriz de microfone, A Figura 21 mostra a cadeia de sinal que é usada para medições de BRIR, A Figura 22 retrata uma visão geral do algoritmo de análise de campo sonoro, A Figura 23 ilustra que posições diferentes dos microfones mais próximos em cada conjunto de medições levaram a um desvio, A Figura 24 retrata a interface gráfica de usuário que combina visualmente os resultados da análise de campo sonoro e as medições de BRIR, A Figura 25 retrata uma saída de uma interface gráfica de usuário para correlacionar as medições binaurais e esféricas, A Figura 26 mostra estágios temporais diferentes de uma reflexão, A Figura 27 ilustra distribuições de reflexão horizontal e vertical com uma primeira configuração, A Figura 28 ilustra distribuições de reflexão horizontal e vertical com uma segunda configuração, A Figura 29 mostra um par de BRIRs elevadas, A Figura 30 mostra a distribuição espacial cumulativa de todas as reflexões antecipadas, A Figura 31 ilustra as BRIRs não modificadas que foram testadas contra as BRIRs modificadas em um teste de escuta, enquanto induz se três condições, A Figura 32 ilustra, para cada canal, uma BRIR não elevada que é perceptualmente comparada a si própria, compreendendo adicionalmente reflexões antecipadas de uma BRIR elevada, A Figura 33 ilustra as reflexões antecipadas de uma BRIR não elevada (que é perceptualmente comparada a si própria, compreendendo adicionalmente reflexões antecipadas que são coloridas por reflexões antecipadas de uma BRIR elevada em relação a canal, A Figura 34 ilustra envelopes espectrais das reflexões antecipadas não elevadas, elevadas e modificadas, A Figura 35 retrata envelopes espectrais das partes audíveis das reflexões antecipadas não elevadas, elevadas e modificadas, A Figura 36 ilustra uma pluralidade de curvas de correção, A Figura 37 ilustra quatro reflexões selecionadas que chegam ao ouvinte a partir de ângulos de elevação maiores que são ampliados, A Figura 38 retrata uma ilustração de ambas as reflexões de topo para uma determinada fonte de som, A Figura 39 ilustra um processo de filtração para cada canal com o uso do banco de filtros Mel, A Figura 40 retrata um vetor de potência para uma fonte de som do ângulo azimute α=225°, A Figura 41 retrata curvas de amplificação diferentes causadas por exponentes diferentes, A Figura 42 retrata exponentes diferentes que são aplicados a PR,i,225°(m) e a PR,i(m), A Figura 43 mostra canais ipsilaterais e contralaterais para o procedimento de ponderação, A Figura 44 retrata PR,IpCo e PFrenteTrás, A Figura 45 retrata um sistema de acordo com outra modalidade particular que compreende um aparelho para gerar som direcional de acordo com outra modalidade e que compreende adicionalmente um aparelho para fornecer coeficientes de filtro de modificação de direção de acordo com outra modalidade, A Figura 46 retrata um sistema de acordo com uma modalidade particular adicional que compreende um aparelho para gerar som direcional de acordo com uma modalidade adicional e que compreende adicionalmente um aparelho para fornecer coeficientes de filtro de modificação de direção de acordo com uma modalidade adicional, A Figura 47 retrata um sistema de acordo com uma modalidade particular ainda adicional que compreende um aparelho para gerar som direcional de acordo com uma modalidade ainda adicional e que compreende adicionalmente um aparelho para fornecer coeficientes de filtro de modificação de direção de acordo com uma modalidade ainda adicional, A Figura 48 retrata um sistema de acordo com uma modalidade particular que compreende um aparelho para gerar som direcional de acordo com uma modalidade e que compreende adicionalmente um aparelho para fornecer coeficientes de filtro de modificação de direção de acordo com uma modalidade, A Figura 49 retrata uma ilustração esquemática que mostra um ouvinte, dois alto-falantes em duas elevações diferentes e uma fonte de som virtual, A Figura 50 ilustra curvas de filtro que resultam da aplicação de valores de amplificação diferentes (fatores de alargamento) em uma curva intermediária, A Figura 51 ilustra curvas de filtro de correção para azimute = 0°, A Figura 52 ilustra curvas de filtro de correção para azimute = 30°, A Figura 53 ilustra curvas de filtro de correção para azimute = 45°, A Figura 54 ilustra curvas de filtro de correção para azimute = 60°, e A Figura 55 ilustra curvas de filtro de correção para azimute = 90°.
[014] Antes de a presente invenção ser descrita em mais detalhes, alguns conceitos nos quais a presente invenção é baseada são descritos.
[015] Primeiramente, conceitos de acústica do espaço são considerados.
[016] A Figura 2 retrata uma ilustração dos três tipos de reflexões. A superfície reflexiva (esquerda) quase conserva o comportamento acústico do som incidente e pelo qual as superfícies de absorção e difusão modificam o som mais forte. Normalmente, uma combinação de diversos tipos de superfícies é constatada.
[017] Existem muitos tipos de reflexões do espaço que afetam a acústica do espaço e a impressão de som. A onda de som refletida por uma superfície reflexiva pode soar quase tão alta e limpa quanto o som original. Enquanto uma reflexão de uma superfície de absorção terá menos intensidade e, principalmente, som mais enfraquecido. Em comparação com a superfície reflexiva e de absorção, em que as ondas de som incidentes e reflexivas têm o mesmo ângulo, a onda refletida em uma superfície de difusão propaga de lá para todas as direções. Uma impressão não clara e manchada de som ocorre. Normalmente, todos os tipos de comportamento reflexivo podem ser encontrados e uma mistura de sons claros e não claros forma a impressão de som.
[018] Na realidade, uma onda de som se propaga em todas as direções a partir da fonte de som, em particular, até onde baixas frequências são consideradas.
[019] A Figura 3 ilustra uma representação geométrica das reflexões (esquerda) e uma representação geométrica de uma representação temporal das reflexões (direita), O som direto chega ao ouvinte em um trajeto direto e tem a distância mais curta (consultar Figura 3 (esquerda)). Dependendo da geometria do ambiente, muitas reflexões e partes refletidas de modo difuso chegarão ao ouvinte posteriormente a partir de direções diferentes. Dependendo da ordem de cada reflexão e seu comprimento de trajeto, uma distribuição de reflexão temporal com uma densidade crescente pode ser observada.
[020] Conforme pode ser visto na Figura 3 (direita), o período de tempo com a baixa densidade de reflexão é definido como o período de reflexão antecipado. Por outro lado, a parte com a alta densidade é chamada campo reverberante. Existem investigações diferentes que lidam com o ponto de transição entre as reflexões antecipadas e a reverberação. Em [001] e [002], uma taxa de reflexão na ordem de 2.000 a 4.000 ecos/s é definida como uma medida para transição. Aqui, a reverberação pode, por exemplo, ser interpretada como “reverberação estatística”.
[021] Agora, escuta binaural é descrita.
[022] Primeiramente, Dicas de Localização são consideradas.
[023] O sistema auditivo humano usa ambos os ouvidos para analisar a posição da fonte de som. Existe uma diferenciação entre a localização no plano horizontal e mediano.
[024] A Figura 4 retrata uma ilustração do plano horizontal e mediano para tarefas de localização.
[025] No plano horizontal, distingue-se se o som vem da esquerda ou da direita. Nesse caso, dois parâmetros são exigidos. O primeiro parâmetro é a Diferença de Tempo Interaural (ITD). A distância percorrida pela onda de som a partir da fonte de som para o ouvido esquerdo e direito será diferente, fazendo com que o som alcance o ouvido ipsilateral (o ouvido mais próximo à fonte) antes do ouvido contralateral (o ouvido mais distante da fonte). A diferença de tempo resultante é a ITD. A ITD é mínima, por exemplo, zero se a fonte estiver exatamente na frente ou atrás da cabeça dos ouvintes e a mesma é máxima se a mesma estiver completamente no lado esquerdo ou direito.
[026] O segundo parâmetro é a Diferença de Nível Interaural (ILD). Quando os comprimentos de onda do som são curtos em relação ao tamanho da cabeça, a cabeça atua como uma sombra acústica, ou como um obstáculo, que atenua o nível de pressão de som da onda que alcança o ouvido contralateral.
[027] A análise da localização é dependente de frequência. Abaixo de 800 Hz, quando o comprimento de onda é longo em relação ao tamanho da cabeça, a análise é baseada na ITD enquanto se avalia as diferenças de fase entre ambos os ouvidos. Acima de 1.600 Hz, a análise é baseada na ILD e a avaliação das diferenças de atraso de grupo. Abaixo, por exemplo, de 100 Hz, a localização pode, por exemplo, não ser possível. Na faixa de frequência entre aqueles dois limites existe uma sobreposição dos métodos de análise.
[028] No plano mediano vertical, as direções são avaliadas, assim como se o som está na frente ou atrás do ouvinte. O sistema auditivo obtém as informações a partir do efeito de filtração das pinas. Conforme já investigado por Jens Blauert (consultar [003]), apenas a amplificação de determinadas faixas de frequência é substancial para a localização no plano mediano, enquanto se escuta uma fonte de som natural. Uma vez que não existem ITDs ou ILDs avaliáveis nos ouvidos, o sistema auditivo tem capacidade para coletar as informações a partir do espectro de sinal. Por exemplo, um aumento da faixa entre 7 a 10kHz leva o ouvinte a perceber o som de cima (consultar Figura 5).
[029] A Figura 5 mostra uma audição direcional no plano mediano. A localização no plano mediano é fortemente correlacionada à amplificação de determinadas faixas de frequência do espectro de sinal (consultar [004])
[030] Em termos de processamento de sinal, as dicas de localização mencionadas já são coletivamente conhecidas como funções de transferência relacionadas a cabeçalho (HRTFs) no domínio de frequência ou no domínio de tempo como respostas de impulso relacionadas a cabeçalho (HRIRs). Com referência à acústica do espaço, as HRIRs são comparáveis com os sons diretos que chegam a cada ouvido do ouvinte. Além disso, as HRIRs também compreendem interações complexas das ondas de som com os ombros e o torso. Uma vez que essas reflexões (difusivas) chegam aos ouvidos quase simultaneamente com o som direto, existe uma forte sobreposição. Por esse motivo, as mesmas não são consideradas separadamente.
[031] As reflexões também irão interagir com o ouvido externo, assim como com os ombros e o torso. Dessa forma, dependendo da direção incidente da reflexão, a mesma será filtrada pelas HRTFs correspondentes antes de ser avaliada pelo sistema auditivo. As medições das respostas de impulso de espaço em cada ouvido são definidas como respostas de impulso de espaço binaural (BRIRs) e no domínio de frequência como funções de transferência de espaço binaural (BRTFs).
[032] Agora, as fontes de som virtual são consideradas. Na realidade, quando o ouvinte ouve um som vindo de uma fonte natural em um ambiente natural, o mesmo compara as dadas acústicas com o padrão de estímulo armazenado no cérebro a fim de localizar a fonte. Se a acústica foi semelhante ao padrão armazenado, o ouvinte localizará facilmente a fonte. Fazendo uso de respostas de impulso de espaço binaural, é possível criar um ambiente virtual que soa natural através de fones de ouvido.
[033] A Figura 6 ilustra fontes de som virtual de criação. O som registrado é filtrado, em as BRIRs são medidas em outro ambiente e reproduzidas através de fones de ouvido, enquanto se posiciona o som em um espaço virtual.
[034] Conforme ilustrado na Figura 6, um alto-falante é usado como fonte de som que reproduz um sinal de excitação. Para cada posição desejada, o alto-falante é medido por um cabeçalho de medição binaural que compreende microfones em cada ouvido para criar BRIRs. Cada par de BRIRs pode ser visto como uma fonte virtual, uma vez que o mesmo representa os trajetos acústicos (sons diretos e reflexões) do alto-falante para cada ouvido (interno). Filtrando-se um som com um par de BRIRs, o som aparecerá acusticamente na mesma posição e no mesmo ambiente que o alto-falante medido. É desejável não misturar a acústica do espaço de gravação com a acústica capturada nas BRIRs. Portanto, o som é registrado em um espaço (quase) anecoico.
[035] A forma mais simples de ouvir sinais de áudio renderizados de modo binaural é usar fones de ouvido, devido ao fato de que cada ouvido recebe seu conteúdo separadamente. Ao fazer isso, a função de transferência dos fones de ouvido precisa ser excluída. Isso pode ser feito por meio de equalização de campo difuso, a qual será explicada abaixo.
[036] A seguir, princípios psicoacústicos adicionais são descritos.
[037] Primeiramente, o efeito de precedência é considerado.
[038] O efeito de precedência é um mecanismo de localização importante para audição espacial. O mesmo permite detectar a direção de uma fonte em ambientes reverberantes, enquanto se suprime a percepção de reflexões antecipadas. O princípio declara que, no caso em que um som alcança o ouvinte a partir de uma direção e o mesmo som alcança atrasado em tempo a partir de outra direção, o ouvinte percebe o segundo sinal da primeira direção.
[039] Litovsky et. al. (consultar [005]) resumiu investigações diferentes sobre os efeitos da precedência. O resultado é que existem muitos parâmetros que influenciam a qualidade desse efeito. Primeiramente, a diferença de tempo entre o primeiro e o segundo som é importante. Valores de tempo diferentes (5 a 50ms) foram determinados a partir de configurações experimentais diferentes. Os ouvintes reagem diferentemente não apenas para tipos diferentes de sons, mas também para comprimentos diferentes dos sons. Para intervalos de tempo pequenos, o som é percebido entre as duas fontes. Isso é principalmente aplicável no plano horizontal e é comumente conhecido como fonte fantasma (consultar [007]). Para intervalos de tempo longos, dois eventos auditivos espacialmente separados são produzidos e normalmente percebidos como eco (consultar [008]). Além disso, é importante quão alto o segundo som é. Quanto mais alto o mesmo se torna, mais provável é que o mesmo será audível (consultar [006]). Nesse caso, o mesmo é bastante percebido como uma diferença em timbre, do que um evento auditivo separado.
[040] Devido a configurações diferentes, é difícil depender dos valores que são investigados por todos os experimentos, uma vez que os cenários implantados têm pouco a ver com ambientes acústicos realísticos (consultar [005]). Ainda assim, é claro que existe um efeito, o qual auxilia fortemente a audição espacial.
[041] Outro conceito é mascaramento espectral que descreve o efeito de quando um som faz a percepção de outro som com comportamento espectral não semelhante mais forte, embora ambos os espectros sonoros não tenham que se sobrepor. O princípio pode ser demonstrado com o uso de um ruído de banda estreita com uma frequência central a 1kHz como um som de mascaramento. Dependendo do nível de pressão de som LCB, o mesmo cria curvas de mascaramento em níveis diferentes com o mesmo envelope. Qualquer outro som localizado espectralmente sob uma dessas curvas será suprimido pelo som de mascaramento correspondente. Para som de mascaramento de banda ampla, larguras de banda maiores são mascaradas.
[042] Agora, mascaramento temporal é considerado.
[043] Um evento auditivo no domínio de tempo, conforme ilustrado, pelas linhas tracejadas na Figura 8, influencia a percepção de preceder e seguir sons. Portanto, qualquer som localizado abaixo da curva de mascaramento traseira ou dianteira será suprimido. Em comparação com o mascaramento dianteiro, a curva de mascaramento traseiro tem um declive maior e afeta um período mais curto de tempo. A influência de ambas as curvas é elevada aumentando-se o som de mascaramento. Dependendo do comprimento do som mascarador, o mascaramento dianteiro pode cobrir uma faixa de 200 ms (consultar [005]).
[044] A Figura 7 retrata curvas limítrofes de mascaramento para um sinal de ruído de banda estreita (consultar [005]) em níveis de pressão de som diferentes LCB.
[045] A Figura 8 ilustra curvas de mascaramento temporal para o efeito de mascaramento traseiro e dianteiro. As linhas tracejadas ilustram o começo e o fim do som mascarador (consultar [005]).
[046] O Modelo de Associação é explicado em Theile (consultar [009]), o qual descreve como as influências do ouvido externo são analisadas pelo sistema auditivo humano.
[047] A Figura 9 retrata uma ilustração simplificada do Modelo de Associação (consultar [010]). O som que é capturado pelos ouvidos é comparado, primeiramente, com a referência interna que tenta atribuir uma direção (consultar Figura 9). Se o processo de localização for bem-sucedido, o sistema auditivo tem, então, capacidade para compensar as distorções espectrais causadas pelas pinas. Se nenhum padrão de referência adequado for encontrado, as distorções são percebidas como alterações em timbre.
[048] A seguir, ferramentas processamento de sinal digitais são descritas.
[049] Primeiramente, uma estimativa de Pontos de Transição em BRIRs é apresentada.
[050] Reflexões antecipadas estão entre o som direto e a reverberação. Para investigar sua influência em uma resposta de impulso de espaço binaural, os pontos iniciais e finais das reflexões antecipadas precisam ser definidos no domínio de tempo.
[051] A Figura 10 ilustra diagramas temporais (topo) e de STFT (fundo) do canal ipsilateral de uma BRIR (ângulo azimute: 45°, ângulo de elevação: 55°). A linha tracejada 1010 é a transição entre a HRIR no lado esquerdo e as reflexões antecipadas no lado direito.
[052] O ponto de transição entre o som direto e a primeira reflexão, a reflexão que não é uma parte da HRIR, pode ser determinado a partir da plotagem temporal e o diagrama de STFT, conforme mostrado na Figura 10. Devido à magnitude distinta, a primeira reflexão pode ser determinada visualmente. Dessa forma, o ponto de transição é definido na frente da fase transiente da primeira reflexão. Valores teoricamente calculados para a diferença de tempo de chegada para a primeira reflexão correspondem quase exatamente aos valores visualmente encontrados.
[053] A determinação do ponto de transição entre reflexões antecipadas e reverberação é feita por meio do método de Abel e Huang (consultar [011]). Essa abordagem é recomendada por Lindau, Kosanke e Weinzierl em (consultar [012]), devido ao alcance de resultados significativos em suas investigações.
[054] Em um ambiente reverberante, a densidade de eco tende a aumentar fortemente ao longo do tempo. Após um período suficiente de tempo, os ecos podem ser, então, tratados estatisticamente (consultar [013] e [014]) e a parte reverberante da resposta de impulso seria, de modo indistinguível, de ruído gaussiano, exceto a cor e o nível (consultar [015]).
[055] Presumindo que as amplitudes de pressão de som da reverberação seguem a distribuição gaussiana, isso pode ser usado como uma referência. A mesma é comparada com as estatísticas da resposta de impulso e um ponto de transição é estimado para aquele ponto quando dicas estatísticas na janela de deslizamento são semelhantes àquelas da referência.
[056] Como uma primeira etapa, uma janela de deslizamento é usada para calcular o desvio padrão, o, para cada índice de tempo (1).
Figure img0001
[057] A quantidade das amplitudes que estão fora do desvio padrão para a em (2) por aquela esperada para uma distribuição gaussiana.
Figure img0002
[058] Aqui, h(t) é a resposta de impulso de reverberação, - 1 o comprimento da janela de deslizamento e 1{.} a função indicadora, retornando um quando seu argumento é verdadeiro e zero, de outro modo. A fração esperada de amostras que estão fora do desvio padrão da média para uma distribuição gaussiana é dada por
Figure img0003
Com densidade de tempo e reflexão crescente, n(t) tende aunidade. Naquele índice de tempo, o ponto de transição é definido, uma vez que estatisticamente, uma difusão completa é alcançada.
[059] Esse método é aplicado a cada canal de uma BRIR individualmente. Por esse motivo, dois pontos de transição separados serão estimados (consultar Figura 11). Para assegurar que nenhuma informação importante será deixada de fora, o ponto de transição mais alto (por exemplo, posterior) é escolhido permanentemente nas investigações a seguir.
[060] A Figura 11 ilustra uma estimativa dos pontos de transição (linhas 1101, 1102) para cada canal de uma BRIR.
[061] Agora, o banco de filtros Mel é descrito.
[062] O sistema auditivo humano é aproximadamente limitado à faixa entre 16 Hz e 20 kHz, entretanto, a relação entre inclinação e frequência não é linear. De acordo com Stanley Smith Stevens (consultar [16]), a inclinação pode ser medida em Mel dada pela seguinte equação:
[063] Mel(f) = m
Figure img0004
Figure img0005
[064] Além disso, informações auditivas (por exemplo, inclinação, altura, direção de chegada) são analisadas em bandas de frequência. Dessa forma, para imitar a resolução de frequência não linear e o processamento em relação à banda, um banco de filtros Mel pode ser usado.
[065] A Figura 12 mostra uma disposição possível de filtros de passa-banda triangulares do banco de filtros Mel ao longo do eixo geométrico de frequência. As frequências centrais e também as larguras de banda dos filtros são controladas pela equação 2.2. Normalmente, o banco de filtros Mel consiste em 24 filtros. Em particular, a Figura 12 ilustra um banco de filtros Mel com cinco filtros de passa- banda triangulares 1210, um filtro passa-baixa 1201 e um filtro passa-alta 1202.
[066] Para análise e síntese corretas, as seguintes duas exigências precisam ser cumpridas. Primeiramente, para assegurar as características de todos passes do banco de filtros, filtros de passa-baixa e alta adicionais são projetados. Assim, a adição de todos os filtros Hi no domínio de frequência
Figure img0006
(M: Quantidade de filtros) levará a uma resposta de frequência linear.
[067] A segunda exigência do banco de filtros é expressa por uma responsa de fase linear. Essa propriedade é importante uma vez que modificações de fase adicionais causadas por filtração não linear precisam ser impedidas. Nesse caso, um impulso alterado é esperado como uma resposta de impulso com
Figure img0007
(T latência do banco de filtros). As duas exigências são ilustradas na Figura 13.
[068] Em particular, a Figura 13 retrata resposta de frequência (esquerda) e resposta de impulso (direita) do banco de filtros Mel. O banco de filtros corresponde a um filtro de todos passes de FIR de fase linear. Uma ordem de filtro de 512 amostras leva a uma latência de 256 amostras.
[069] A seguir, as harmônicas esféricas e a Transformada de Fourier Espacial são consideradas.
[070] O som radiado em um espaço reverberante interage com objetos e superfícies no ambiente para criar reflexões. Usando-se uma matriz de microfone esférica, é possível medir essas reflexões em um ponto fixo no espaço e visualizar as direções de onda de entrada.
[071] As reflexões que chegam à matriz de microfone causarão uma distribuição de pressão de som por toda a esfera de microfone. Infelizmente, não é possível ler as direções de onda de entrada a partir do mesmo intuitivamente. Portanto, é necessário decompor a distribuição de pressão de som para seus elementos, as ondas de plano.
[072] Ao fazer isso, o campo sonoro é, primeiro, transformado no domínio de harmônicas esféricas. Figurativamente, uma combinação de formatos espaciais (consultar Figura 15 abaixo) é encontrada, a qual descreve a dada distribuição de pressão de som na esfera. A decomposição de campo de onda, que é comparável com filtração ou formação de feixe espacial, pode ser, então, executada naquele domínio para concentrar os formatos nas direções de onda incidentes.
[073] Primeiramente, polinômios de Legendre são considerados.
[074] A fim de definir as harmônicas esféricas por todo o ângulo de elevação β, um conjunto de funções ortogonais é exigido. Os polinômios de Legendre são ortogonais no intervalo [-1, 1]. Os primeiros seis polinômios são dados em (5):
Figure img0008
[075] As plotagens correspondentes são mostradas na Figura 14, em que a Figura 14 ilustra polinômios de Legendre até a ordem n=5.
[076] O ângulo de elevação é definido entre|0,π|. Portanto, todas as relações ortogonais precisam ser transferidas para a esfera em unidade. Uma vez que (6) é valido, os polinômios de Legendre associados Ln(cosβ) podem ser usados no seguinte.
Figure img0009
[077] Agora, as harmônicas esféricas são consideradas.
[078] Considere uma função de pressão de som P(r,β,α,k) no sistema de coordenada esférica, em que β e α são os ângulos de elevação e azimute, r o raio e k o número de onda (k=w/c). Presumindo que P(r,β,α,k) é um quadrado integrável através de ambos os ângulos, o mesmo pode ser representado no domínio de harmônicas esféricas.
[079] Conforme pode ser visto em (7), as harmônicas esféricas são compostas pelos polinômios de Legendre associados L™, um termo exponencial e+Jma e um termo de normalização. Os polinômios de Legendre são responsáveis pelo formato por todo o ângulo de elevação β e o termo exponencial é responsável pelo formato de azimute.
Figure img0010
[080] A Figura 15 mostra as harmônicas esféricas até a ordem n=4 e os modos correspondentes, de -m a m (consultar [017]). Cada ordem consiste em modos 2m+1. Os símbolos das harmônicas esféricas são positivos 1501 ou negativos 1502.
[081] As harmônicas esféricas são um conjunto completo e ortonormal de funções de Eigen do componente angular do operador Laplace em uma esfera, o qual é usado para descrever uma equação de onda (consultar [018] e [019]).
[082] Agora, a Transformada de Fourier Espacial é descrita.
[083] A equação (8) descreve como os coeficientes de Fourier espacial P™(r,k~) podem ser calculados com o uso da transformada de Fourier espacial.
Figure img0011
[084] Aqui, P(r,β,a,k~) é a pressão de som dependente de frequência e ângulo (complexa) e Y™(β, α)* são as harmônicas esféricas conjugadas complexas. Os coeficientes complexos compreendem informações sobre a orientação e a promediação de cada harmônica esférica para descrever a pressão de som analisada na esfera.
[085] A equação para a síntese da pressão de som por toda a esfera, enquanto os coeficientes de Fourier espacial são dados, é mostrada em (9):
Figure img0012
[086] Uma vez que a transformação é dependente do número de onda k=w/c, a distribuição de pressão de som tem que ser analisada para cada frequência individualmente.
[087] A seguir, a Amostragem esférica é descrita.
[088] O espectro de número de onda de frequência distinta P™ é teoricamente exato apenas para uma quantidade infinita de pontos de amostragem, o que exigiria uma superfície esférica contínua. A partir de um ponto de vista prático, apenas uma resolução de espectro finito é razoável para alcançar um esforço computacional e um tempo de computação realísticos. Sendo restrito a pontos de amostragem distintos, uma rede de amostragem apropriada tem que ser escolhida. Existem diversas estratégias para amostrar a superfície esférica (consultar [021]). Uma rede comumente usada é a quadratura de Lebedev.
[089] A Figura 16 retrata uma Quadratura de Lebedev e uma Quadratura de Gauss-Legendre em uma esfera. A Quadratura de Lebedev tem 350 pontos de amostragem. A Quadratura de Gauss-Legendre tem 18x19 = 342 pontos de amostragem.
[090] Em comparação com outras redes, a mesma tem posições de amostragem igualmente distribuídas e alcança uma ordem de amostragem maior para uma determinada quantidade de pontos de amostragem. Por exemplo, a quadratura de Lebedev precisa apenas de 350 e a quadratura de Gauss-Legendre de 512 pontos de amostragem para alcançar uma ordem de amostragem de N=15.
[091] Agora, a decomposição de onda de plano é descrita.
[092] Devido ao fato de que não é possível ler intuitivamente as direções de onda de entrada a partir da distribuição de pressão de som, uma decomposição de onda de plano é exigida. Isso remove radialmente componentes de onda de entrada e saída e reduz o campo sonoro para um número infinito de pontos de amostragem esféricos para impulsos de Dirac para direções de onda incidentes
[093] Uma vez que as funções de Bessel e Hankel esféricas são as funções de Eigen do componente radial do operador Laplace, as mesmas descrevem a propagação radial das ondas de entrada e saída.
[094] Presumindo que não existe fonte dentro da esfera e que um microfone de padrão polar cardioide é usado, (10) pode ser usado no procedimento de decomposição de onda de plano (consultar [020]). Em (10), jn(kr) é a função de Bessel do primeiro tipo.
Figure img0013
[095] A decomposição ocorre dividindo-se os coeficientes de Fourier espacial por bn(kr) na equação de síntese (9), no domínio de harmônicas esféricas.
Figure img0014
[096] A seguir, restrições de análise são discutidas.
[097] A Figura 17 ilustra uma inversão de bn(kr). Dependendo da ordem, n ganhos altos são causados para valores de kr pequenos.
[098] Conforme mostrado na Figura 17, a divisão por bn(kr) causa ganhos altos para valores de kr pequenos dependendo da ordem n. Nesse caso, medições com valores de SNR pequenos podem levar a distorções. Para superar artefatos visuais, é razoável limitar a ordem da transformada de Fourier espacial a valores de kr pequenos.
[099] A segunda restrição é o critério de aliasing espacial kr << N, em que N é a ordem de amostragem esférica máxima. O mesmo declara que a análise de altas frequências em combinação com altos valores radiais espera uma alta ordem de amostragem espacial. Isso resultará em artefatos visuais. Estando interessado apenas em um raio de análise, o raio da cabeça humana, as investigações serão executadas até uma determinada frequência limitante fAlias.
Figure img0015
[0100] Agora, a equalização de campo difuso é descrita.
[0101] Os ombros, a cabeça e o ouvido externo de seres humanos ou cabeças artificiais distorcem o espectro de ondas de som de colisão.
[0102] Quando se compara funções de transferência de um alto-falante com uma cabeça artificial contra aquelas registradas com um microfone na mesma posição, diferenças no espectro podem ser observadas. Existem picos e quedas na função de transferência de magnitude da cabeça artificial. Algumas dessas dicas são direcionalmente dependentes, mas existem também dicas que são independentes de direção.
[0103] Com a medição no começo do canal de ouvido bloqueado, um aumento de aproximadamente 10 dB entre a faixa de 2kHz e 5kHz no espectro da função de transferência da cabeça de medição pode ser observado (consultar [022]). Quando se reproduz novamente os sinais que foram produzidos por alto-falantes em fones de ouvido, essa função de transferência do alto-falante para o ouvido está ausente. Para compensar esse trajeto ausente, os fones de ouvido mostram normalmente uma equalização integrada que mostra a mesma impulsão na região de presença entre 2 e 5 kHz (consultar [023]), a chamada “equalização de campo difuso”.
[0104] A fim de ouvir apropriadamente registros binaurais em fones de ouvido equalizados em campo difuso, as BRIRs têm que ser processadas a fim e remover aquele pico de presença que já está incluído na função de transferência de fone de ouvido. Essa função já está incluída no dispositivo do “Córtex”:
[0105] As dicas espectralmente não dependentes são removidas a fim de ter capacidade para reproduzir novamente o registro binaural em fones de ouvido não processados.
[0106] Agora, as medições são consideradas.
[0107] Em relação à configuração de medição, a matriz de microfone esférica é usada nas investigações para interpretar as reflexões de uma resposta de impulso de espaço binaural espacialmente. A fim de criar uma correlação correta entre a BRIR e a distribuição de onda de plano, as medições tanto binaural quanto esférica têm que ser executadas na mesma posição. Além disso, o diâmetro da medição esférica precisa corresponder àquele da cabeça de medição binaural. Isso assegura os mesmos valores de tempo de chegada (TOA) para ambos os sistemas, o que impede um desvio indesejado.
[0108] Na Figura 18, duas configurações de medição são retratadas. A cabeça de medição binaural, assim como a matriz de microfone esférica, está posicionada no meio dos oito alto-falantes. Em cada caso, quatro alto-falantes não elevados e quatro alto-falantes elevados são medidos. Os alto-falantes não elevados estão no mesmo nível que os ouvidos da cabeça de medição e a origem da matriz de microfone. Os alto-falantes elevados têm um ângulo de EL = 35° ao nível não elevado. Os oito alto-falantes têm, cada um, um ângulo azimute de AZ = 45° ao plano mediano. A partir e testes anteriores, mostrou-se que modificações a fontes de som diagonalmente dispostas causam as maiores diferenças em localização e timbre.
[0109] Como um ambiente de medição, um espaço de teste de escuta [W x H x D: 9,3 x 4,2 x 7,5 m], o ambiente de medição “Mozart”, em Fraunhofer IIS foi usado. Esse espaço é adaptado para ITU-R BS.1116-3 em relação ao nível de ruído de fundo e também ao tempo de reverberação, o que leva a uma impressão de som mais viva e natural. O espaço é equipado com alto-falantes já instalados através de dois anéis metálicos (consultar Figura 19), os quais são suspensos um acima do outro. Graças à altura ajustável dos anéis, posições de alto-falante precisas podem ser definidas. Cada anel tem um raio de 3 metros e ambos estão posicionados no meio do espaço.
[0110] A Figura 19 ilustra um espaço de teste de escuta “Mozart” em Fraunhofer IIS, Erlangen. Padronizado para ITU-R BS.1116-3 (consultar [024]). Os alto-falantes de madeira muito grandes na Figura 19 não ficaram no espaço durante as medições.
[0111] A matriz de microfone e a cabeça de medição binaural (por exemplo, cabeça artificial ou boneco binaural) são colocadas alternativamente no “ponto estratégico” da configuração de alto-falante. Um medidor de distância à base de laser foi usado para assegurar a distância exata de cada sistema de medição para cada alto-falante do anel inferior. Uma altura de 1,34 m foi escolhida entre o centro do ouvido e o solo.
[0112] Em [026], Minhaar et. al. compararam diversas medições de cabeça humana e binaural artificial analisando-se a qualidade de localização.
[0113] A Figura 20 ilustra uma cabeça de medição binaural: “Manequim de Córtex MK1” (esquerda) (consultar [025]) e um Sistema de Medição de Matriz de Microfone “VariSphear” (direita) (consultar [027]). Para impedir reflexões causadas pelo próprio sistema, componentes não relevantes foram removidos (por exemplo, o sistema de laser amarelo).
[0114] Tornou-se evidente que as medições com cabeças humanas podem levar, algumas vezes, a uma localização melhor. Embora resultados semelhantes tenham sido observados no começo desse trabalho, uma cabeça de medição artificial é usada devido a seu fácil manuseio e ao cumprimento de posições constantes durante as medições.
[0115] A Matriz de Microfone Esférica “VariSphear” (consultar [028]), consultar Figura 20, é um sistema retentor de microfone condutível com um motor de escalonamento vertical e horizontal. A mesma permite mover o microfone para qualquer posição em uma esfera com um raio variável e tem uma resolução angular de 0,01°. O sistema de medição é equipado com seu próprio software de controle, o qual é baseado em Matlab. Aqui, parâmetros de medição diferentes podem ser definidos. Os parâmetros essenciais são dados a seguir:
REDE DE AMOSTRAGEM: QUADRATURA DE LEBEDEV
[0116] Número de pontos de amostragem: 350 (ordem de amostragem N=15, limite de aliasing fAlias=8.190 Hz). Raio da esfera: 0,1 m (correspondendo à anatomia humana). Frequência de amostragem: 48.000 Hz.
SINAL DE EXCITAÇÃO: VARREDURA (AUMENTA DE MODO LOGARÍTMICO)
[0117] VariSphear tem capacidade para medir as respostas de impulso de espaço para todas as posições da rede de amostragem automaticamente e salvar as mesmas em um arquivo de Matlab.
[0118] A seguir, medição por varredura é considerada.
[0119] Quando se mede a acústica do espaço, o espaço é considerado como um sistema amplamente linear e invariante no tempo e pode ser excitado por um estímulo determinado para obter sua função de transferência complexa ou a resposta de impulso. Como um sinal de excitação, a varredura de seno acabou sendo bem adequada para medições acústicas. A vantagem mais importante é a alta razão de sinal para ruído que pode ser aumentada aumentando-se a duração de varredura. Além disso, sua distribuição de energia espectral pode ser conformada conforme desejado e não linearidades na cadeia de sinal podem ser removidas simplesmente colocando-se o sinal em um sistema de janelas (consultar [030]).
[0120] O sinal de excitação usado nesse trabalho é um Sinal de Varredura de Log. O mesmo é um seno com uma amplitude constante e frequência exponencialmente crescente ao longo do tempo. Matematicamente, o mesmo pode ser expresso (consultar [029]) pela equação (13). Aqui, x é a amplitude, t o tempo, T a duração do sinal de varredura, wi a frequência inicial e W2 a frequência final.
Figure img0016
[0121] Nesse trabalho, a abordagem de Weinzierl (consultar [03i]) para medir respostas de impulso de espaço é usada e explicada a seguir.
[0122] As etapas de medição são ilustradas na Figura 2i. A Figura 2i mostra a cadeia de sinal que é usada para medições de BRIR. A varredura é usada para excitar os alto-falantes e também como uma referência para uma deconvolução no domínio espectral. Após ser convertido em um sinal análogo e amplificado, o sinal de varredura é reproduzido através de um alto-falante. Ao mesmo tempo, o sinal de varredura é usado como referência e estendido ao comprimento duplo por preenchimento zero. O sinal que está sendo reproduzido pelo alto-falante é capturado pelos dois microfones de ouvido da cabeça de medição, amplificado, convertido em um sinal digital e preenchido com zeros, assim como a referência.
[0123] Nesse ponto, ambos os sinais são transformados para o domínio de frequência por meio de FFT e a saída de sistema de saída Y(ejw) é dividida pelo espectro de referência X(ejw). A divisão é comparável com uma deconvolução no domínio de tempo e leva à função de transferência complexa H(ejw), a qual é a BRIR. Aplicando-se a FFT inversa à função de transferência, a resposta de impulso de espaço binaural (BRIR) é obtida. A segunda metade da BRIR compreende não linearidades possíveis que ocorrem na cadeia de sinal. As mesmas podem ser descartadas realizando-se janelamento na resposta de impulso.
[0124] A seguir, as medições da cabeça de medição binaural e da matriz de microfone esférica serão fundidas. Então, um fluxo de trabalho para classificar as reflexões de uma BRIR espacialmente será derivado. Deve ser enfatizado que as medições de matriz de microfone esférica são apenas uma ferramenta adicional e não a parte essencial desse trabalho. Devido ao grande gasto, o desenvolvimento de um método para detectar automaticamente e classificar espacialmente as reflexões de uma BRIR não está sendo buscado. Em vez disso, um método baseado em comparação visual está sendo desenvolvido.
[0125] Por esse motivo, uma interface gráfica de usuário (GUI) foi criada para visualizar ambas as representações da acústica do espaço. A GUI compreende instantâneos dependentes de tempo da distribuição de onda de plano e ambas as respostas de impulso da BRIR correspondente. Um marcador de deslizamento mostra a conexão temporal entre ambas as representações da acústica do espaço.
[0126] Agora, a análise de campo sonoro é descrita.
[0127] Na primeira etapa, a análise de campo sonoro baseada no conjunto de resposta de impulso de espaço esférico é executada. Para esse propósito, FH Koln fornece uma caixa de ferramentas “SOFiA” (consultar [032]) que analisa os dados de matriz de microfone. As restrições mencionadas acima devem ser consideradas aqui, portanto, apenas as funções de Matlab principais da caixa de ferramentas podem ser usadas. Entretanto, essas precisam ser integradas em um algoritmo de análise personalizado. Essas funções são focadas em computações matemáticas diferentes e são conforme a seguir.
[0128] Em relação a F/D/T (Transformada de Domínio de Frequência), essa função transforma os dados de matriz de domínio de tempo em dados de domínio de frequência com o uso de Transformada Rápida de Fourier (FFT) para cada resposta de impulso. Devido ao fato de que os dados espectrais são distintos, o espectro é definido em uma escala de frequência distinta. Com base nessa escala e no raio das medições esféricas, uma escala de kr é calculada. A mesma é uma escala linear e será usada por todas as computações a seguir.
[0129] Em relação a S/T/C (Núcleo de Transformada Espacial), o Núcleo de Transformada Espacial usa os coeficientes de Fourier complexos (espectrais) para computar os coeficientes de Fourier espacial. Uma vez que a transformada é executada na escala de kr, a mesma é dependente de frequência. Por esse motivo, os dados de matriz foram anteriormente transformados no domínio espectral.
[0130] Agora, M/F (filtros radiais modais) são considerados.
[0131] Dependendo da configuração de esfera e do tipo de microfone, M/F podem gerar filtros radiais modais para executar a decomposição de onda de plano. O mesmo usa funções de Bessel e Hankel para calcular os coeficientes de filtro radiais. Para a configuração usada nessas medições, os coeficientes de filtro dn(kr) são, por exemplo, a inversão da equação (10).
Figure img0017
[0132] Em relação a P/D/C (Decomposição de Onda de Plano), essa função usa os coeficientes de Fourier espacial para computar a transformada de Fourier espacial inversa. Nessa etapa, os coeficientes de Fourier espacial são multiplicados pelos filtros radiais modais. Isso leva a uma distribuição de campo sonoro esférico decomposto com onda de plano.
[0133] A Figura 22 retrata uma visão geral do algoritmo de análise de campo sonoro. Essas linhas transmitem informações ou parâmetros e linhas espessas transmitem os dados. As funções 2201, 2202, 2203 e 2204 são as funções principais da caixa de ferramentas SOFiA. As quatro funções de caixa de ferramentas SOFiA são integradas em um algoritmo que é explicado a seguir. A estrutura correspondente é mostrada na Figura 22.
[0134] Agora, o conceito de janela de deslizamento é considerado. Estando interessado em uma representação de tempo curto do campo de onda decomposto, uma janela de deslizamento é criada para limitar a resposta de impulso esférica a curtos períodos de tempo para a análise. Por um lado, a janela retangular tem que ser longa o suficiente para obter resultados visuais significativos. Para esforço computacional pequeno, a ordem de transformação de Fourier espectral é limitada a Nfft = 128. Isso leva a uma análise espectral imprecisa especialmente para períodos de tempo muito curtos, dessa forma, a análise espacial também será imprecisa. Por outro lado, a mesma tem que ser o mais curta possível para obter mais instantâneos por unidade de tempo. Com o uso de teste e erro, Lwin = 40 amostras (a 48kHz) foi determinada como um comprimento de janela razoável. Infelizmente, uma resolução temporal de 40 amostras não é precisa o suficiente para detectar reflexões individuais.
[0135] Inspirado pela Transformação de Fourier de Tempo Curto unidimensional, uma sobreposição entre seções de tempo adjacentes está envolvida. Uma janela com o comprimento de Lwin = 40 amostras é analisada a cada 10 amostras. Consequentemente, uma sobreposição de 75% é alcançada. Como um resultado, uma resolução temporal quatro vezes maior é possível agora.
[0136] A Figura 23 ilustra que posições diferentes dos microfones mais próximos em ada conjunto de medições levam a um desvio. Conforme pode ser visto na Figura 23, a sobreposição leva a um comportamento de suavização, entretanto, isso não afeta investigações adicionais.
[0137] Ganhos altos devem ser impedidos. Para impedir amplificações altas, por exemplo, causadas pelos filtros radiais modais, a ordem da transformada de Fourier espacial tem que ser limitada a valores de kr pequenos. Para isso, uma função é implantada, a qual compara os ganhos de filtro dependendo do valor de kr dado. O limiar é definido para Glimiar = 10dB, dessa forma, apenas as curvas de filtro que causam amplificações menores do que o limiar permite são usadas. Para colocar essa limitação em prática, a ordem da transformada de Fourier espacial tem que ser limitada a Nmáx(kr).
[0138] A fim de assegurar o cumprimento do critério de aliasing para impedir aliasing, outra função está envolvida no algoritmo. A mesma computa o valor de kr máximo permitido e encontra o índice correspondente no vetor de kr. Essas informações são, então, usadas para limitar a análise (em S/T/C e P/D/C) até o valor determinado.
[0139] A etapa final da análise de campo sonoro pode, por exemplo, ser a adição de todos os resultados dependentes de kr, uma vez que as computações de S/T/C e P/D/C têm que ser executadas para cada valor de kr individualmente. Para a visualização do campo de onda decomposto, os valores absolutos dos dados de saída de P/D/C são adicionados.
[0140] Os resultados da análise de campo sonoro podem, por exemplo, então, ser usados para correlacionar os mesmos com as respostas de impulso binaural. Ambos são plotados em uma GUI de acordo com a direção da fonte de som responsável (consultar Figura 24).
[0141] Porém, primeiro, algumas precauções podem, por exemplo, ser tomadas.
[0142] Para o ajuste de tempo, ambas as medições são analisadas pela função “Estimar TOA”, em que a duração do som do alto-falante até o microfone mais próximo é estimada. No conjunto binaural, o microfone mais próximo está sempre localizado no lado ipsilateral. Dessa forma, o canal de BRIR correspondente é escolhido para estimar o TOA. Usando-se essa resposta de impulso, o valor máximo é determinado e um valor limítrofe, o qual é 20 por cento do máximo, é criado. Uma vez que o som direto é temporariamente o primeiro evento em uma resposta de impulso e também compreende o valor máximo, o TOA é definido como o primeiro pico que excede o limiar. No conjunto esférico, a resposta de impulso do microfone mais próximo é estimada comparando-se os valores máximos de cada resposta de impulso temporariamente. Então, o mesmo procedimento para a estimativa de TOA é aplicado na resposta de impulso com o máximo mais antecipado.
[0143] O microfone mais próximo do conjunto esférico não está na mesma posição que o microfone do conjunto binaural (consultar Figura 23). Ainda assim, a distância entre os mesmos será sempre a mesma, devido ao fato de que apenas os alto-falantes diagonalmente dispostos são medidos nesse trabalho. Dessa forma, existe uma diferença de cerca de 7,5 cm ou 10 amostras (a 48 kHz), a qual corresponde a um desvio de uma etapa na resolução temporal da análise de campo sonoro. Levando o desvio em consideração, esse método simples para a estimativa de TOA rende resultados notavelmente bons.
[0144] Com o uso da estimativa de TOA e do ponto de transição estimativa, conforme mencionado acima, a análise de campo sonoro é temporariamente limitada àqueles índices de tempo. O conjunto de BRIR também será colocado em janelas para estar dentro desses limites (consultar Figura 24).
[0145] A Figura 24 retrata que a interface gráfica de usuário combina visualmente os resultados da análise de campo sonoro e as medições de BRIR.
[0146] A Figura 25 retrata uma saída de uma interface gráfica de usuário para correlacionar as medições binaurais e esféricas. Para a posição deslizante atual, uma reflexão é detectada, a qual chega à cabeça de trás levemente maior do que o nível dos ouvidos. Na representação de BRIR, essa reflexão é marcada pela janela de deslizamento (linhas 2511, 2512, 2513, 2514).
[0147] Os dois canais da BRIR são plotados na parte inferior da GUI que mostra os valores absolutos. A fim de reconhecer melhor as reflexões, a faixa dos valores é limitada a 0,15. As linhas 2511, 2512, 2513, 2514 representam a janela de deslizamento de 40 amostras que foi utilizada na análise de campo sonoro. Conforme já mencionado, a conexão temporal entre ambas as medições é baseada na estimativa de TOA. A posição da janela de deslizamento é estimada apenas nas plotagens de BRIR.
[0148] Os instantâneos do campo de onda decomposto são mostrados na plotagem esquerda superior. Aqui, a esfera é projetada para um plano bidimensional que compreende as magnitudes (linear ou escala dB) para cada ângulo azimute e de elevação. Um deslizador controla o tempo de observação para os instantâneos e também escolhe a posição correspondente da janela de deslizamento nas plotagens de BRIR.
[0149] Não é possível ver a distribuição temporal do campo de onda decomposto para ambos os ângulos em uma plotagem. Portanto, a mesma precisa ser dividida em uma representação horizontal e vertical. Para a distribuição horizontal, a soma dos dados para todos os ângulos de elevação foi calculada e reduzida a um plano. Para a distribuição vertical, a soma dos dados para todos os ângulos azimute foi calculada. Ambas as plotagens são limitadas a 2.000 amostras, a fim de ver mais detalhes no início. As primeiras 120 amostras da HRIR estão fora da faixa e são cortadas na representação visual.
[0150] A seguir, um fluxo de trabalho para detectar e classificar reflexões em uma BRIR é representado.
[0151] Devido à forte sobreposição de reflexão no domínio de tempo, não é completamente possível cortar reflexões únicas individualmente. Mesmo se as reflexões de primeira ordem não se sobreporem entre si no início, pode haver dispersão que chega aos microfones ao mesmo tempo. Portanto, apenas partes das reflexões que têm picos dominantes na BRIR e na representação de campo de onda decomposto devem ser consideradas nas investigações.
[0152] A Figura 26 mostra estágios temporais diferentes de uma determinada reflexão que foi capturada em ambas as medições. Conforme pode ser visto na segunda fileira, a reflexão domina na janela de análise da análise de campo sonoro. O mesmo comportamento pode ser visto na BRIR. Nesse exemplo, a reflexão causa, em ambos os canais, um pico com o valor mais alto em seu ambiente imediato. A fim de usar a mesma em investigações adicionais, os pontos temporais de início e fim têm que ser determinados.
[0153] Para isso, é necessário recuar alguns momentos no tempo para encontrar o ponto de transição da reflexão atual para as anteriores. Esse processo é detalhado na primeira fileira da Figura 26. A janela de análise está localizada entre duas reflexões. Com base na avaliação visual, o ponto inicial pode ser definido, por exemplo, na amostra 910. Em ambos os canais existe um mínimo local. Nesse caso, o mesmo valor pode ser escolhido para ambas as respostas de impulso, devido ao fato de que a reflexão aparece de trás. Isso significa que quase não existe ITD ou ILD na BRIR. De outro modo, dependendo do ângulo azimute, uma ITD tem que ser adicionada. O mesmo procedimento é executado para o ponto final.
[0154] A Figura 26 ilustra estágios temporais diferentes de uma reflexão representada no campo de onda decomposto e plotagens de BRIR. A coluna esquerda mostra o início. Nesse ponto temporal, outra reflexão desaparece. Na coluna no meio, a reflexão desejada domina na janela de análise. Na coluna direita, a mesma, então, se torna mais fraca e desaparece lentamente dentre outras reflexões e dispersão.
[0155] Agora, a influência de reflexões antecipadas é discutida.
[0156] Embora esse trabalho seja focado na investigação da influência de reflexões antecipadas sobre a percepção de altura, é necessário entender o comportamento e o papel das reflexões no processamento binaural. Especificamente, reflexões são repetições modificadas do som direto. Uma vez que efeitos de mascaramento e precedência podem ocorrer, parece razoável supor que nem todas as reflexões serão audíveis. A pergunta que surge é: todas as reflexões são importantes para conservar a localização e a impressão de som geral? Quais reflexões podem ser necessárias para a percepção de altura? Como testes adicionais podem ser projetados sem destruir a impressão de som e conservando a naturalidade?
[0157] Não é a intenção deste trabalho constatar regras gerais para descrever como reflexões são suprimidas na percepção binaural. A mesma é, na verdade, direcionada a responder as perguntas mencionadas. Portanto, reflexões não relevantes são determinadas com base em avaliação auditiva, enquanto se usa os princípios dos efeitos de mascaramento e precedência.
[0158] Agora, a distribuição espacial de reflexões é considerada com referência ao ambiente de escuta de Mozart apresentado acima.
[0159] A Figura 27 ilustra distribuições de reflexão horizontal e vertical em Mozart com direção de fonte de som: azimute 45°, elevação 55°. Nesse espaço, as reflexões antecipadas podem ser separadas em três seções: 1. [Amostra: 120 a 800] Reflexões que vêm quase da mesma direção que o som direto. 2. [Amostra: 800 a 1.490] Reflexões que vêm de direções opostas. 3. [Amostra: 1.490 a Ponto de Transição] Reflexões que vêm de todas as direções e que têm menos potência.
[0160] A avaliação das distribuições horizontal e vertical das reflexões antecipadas para direções de fonte diferentes, um padrão de distribuição típico pode ser observado. A distribuição espacial pode ser dividida em três áreas. A primeira seção começa logo após o som direto na amostra 120 e termina próxima à amostra 800. A partir da representação horizontal, pode ser observado que as reflexões chegam ao ponto estratégico quase da mesma direção que a fonte de som (consultar Figura 27, esquerda). A plotagem de elevação (consultar Figura 27, direita) mostra que nessa faixa todas as ondas são refletidas pelo solo ou pelo teto.
[0161] Na segunda seção, as reflexões chegam do lado oposto da fonte. Esse período de tempo começa na amostra 800 e termina na 1490. Aqui, as fontes de direções frontais (45°/315°) causam reflexões distintas ao redor dos ângulos azimute de 170°/190°. Isso é devido a uma janela muito grande com uma superfície reflexiva forte na traseira. Enquanto isso, fontes de direções traseiras (135°/225°) causam reflexões distintas nos cantos opostos (315°/45°) devido a nenhuma superfície reflexiva forte na frente. Para a distribuição de altura, nenhuma declaração clara pode ser feita.
[0162] A terceira seção começa na amostra 1490 e termina no ponto de transição estimado. Aqui, com exceção de algumas exceções, as reflexões chegam de quase todas as direções e alturas. Além disso, o nível de pressão de som é fortemente reduzido.
[0163] A seguir, a redução para reflexões relevantes auditivas é considerada.
[0164] Uma tentativa é feita para reduzir as reflexões antecipadas para as essenciais em um par de BRIRs (Ângulo azimute de fonte: 45°, ângulo de elevação 55°). As reflexões suprimidas são determinadas e definidas para zero e, então, comparadas com as BRIRs não modificadas. Uma vez que a localização é fortemente correlacionada às dicas espectrais e, portanto, o timbre do som, a mesma não é distinguida entre a localização e a impressão de som. A remoção de reflexões das BRIRs não deve levar a quaisquer diferenças perceptuais.
[0165] Embora se determine as reflexões suprimidas, alguns recursos especiais receberam atenção. Em comparação com experimentos clássicos, em que apenas dois sons estão envolvidos, muitas reflexões influenciam o comportamento dos efeitos de mascaramento e precedência em uma BRIR. Além disso, não é possível aplicar as regras diretamente a respostas de impulso, uma vez que um impulso de reflexão causará comprimentos e qualidade de efeito diferentes, dependendo do som que o mesmo filtra. Adicionalmente, quando se lida com BRIRs, dicas binaurais podem afetar o mascaramento, uma vez que o ouvinte recebe duas versões do mascaramento e do som mascarado. Ambas as versões são diferentes na composição de ITD, ILD e espectral. O ouvinte reverte para mais informações nesse caso. Um exemplo proeminente é o “efeito de festa de coquetel” (consultar [033]), em que o sistema auditivo tem capacidade para focar em uma pessoa em um espaço cheio.
[0166] A Figura 28 ilustra distribuições de reflexão horizontal e vertical em “Mozart” com direção de fonte de som: azimute 45°, elevação 55°. Dessa vez, apenas as reflexões audíveis são deixadas em ambas as plotagens.
[0167] A Figura 29 mostra um par de BRIRs elevadas com direção de fonte de som: azimute 45°, elevação 55°. As seções 2911, 2912, 2913, 2914, 2915; 2931, 2932, 2933, 2934, 2935 são definidas para zero nas respostas de impulso 2901, 2902, 2903, 2904, 2905; 2921, 2922, 2923, 2924, 2925.
[0168] A abordagem para determinar reflexões suprimidas é conforme a seguir. Na primeira seção das reflexões antecipadas, tudo entre a amostra 300 e 650 é definido para zero. As reflexões aqui são repetições espaciais das primeiras reflexões de solo e de teto (consultar Figura 29). Pode ser presumido que as mesmas são perceptualmente não relevantes na BRIR devido aos efeitos de precedência ou mascaramento possíveis. A dominância das primeiras duas reflexões também pode ser vista nas plotagens de BRIR (consultar Figura 30). Isso suporta a suposição feita antes. A faixa entre a amostra 650 e 800 compreende reflexões comparativamente fracas, entretanto, as mesmas parecem ser importantes. É difícil que nenhum efeito de supressão se estenda até aqui e, embora a remoção dos mesmos cause apenas pequenas diferenças perceptuais, os mesmos permanecem nas BRIRs.
[0169] O começo da segunda seção (800 a 900) também parece não ser suprimido. As reflexões aqui, mostram altos picos nas plotagens de BRIR e se originam de direções opostas. A reflexão na amostra 910 é uma repetição precedente da reflexão mais forte na amostra 1.080 e, portanto, perceptualmente irrelevante. A faixa entre a amostra 900 e 1.040 foi removida. Da amostra 1.040 até a 1.250, existe um grupo dominante de reflexões, o qual não pode ser removido. Em comparação com o fim da primeira seção, o fim da segunda seção (1.250 a 1.490) também é perceptualmente menos decisivo, mas ainda importante.
[0170] Com exceção de duas exceções (1.630 a 1.680, 1.960 a 2.100), a terceira seção completa é definida para zero. Quando se chega ao ponto estratégico a partir de quase todas as direções, a composição de reflexões aparentemente não tem dicas direcionais.
[0171] A Figura 30 ilustra uma adição de todos os “instantâneos” da análise de campo sonoro para todas as reflexões antecipadas (esquerda) e apenas as reflexões antecipadas perceptualmente relevantes (direita).
[0172] Em particular, a Figura 30, esquerda, mostra a distribuição espacial cumulativa de todas as reflexões antecipadas. Nessa plotagem, a primeira e a segunda seções podem ser facilmente reconhecidas. Para a fonte no ângulo azimute 45°, o primeiro grupo de reflexões vem da direção de fonte e o segundo grupo vem de um ângulo de cerca de 170°. Essa distribuição obviamente causa dicas de som, as quais resultam em impressão de som natural e boa localização, uma vez que as mesmas são comparáveis com aquelas armazenadas no sistema auditivo humano.
[0173] Além disso, a Figura 30 mostra as distribuições espaciais cumulativas antes (esquerda) e após (direita) a remoção das reflexões não relevantes, em que nenhuma reflexão importante foi removida. Além disso, é agora fácil de indicar as reflexões dominantes envolvidas na localização. Esse conhecimento será usado a seguir, enquanto se busca por dicas de percepção de altura em reflexões antecipadas.
[0174] A Figura 31 ilustra as BRIRs não modificadas que foram testadas contra as BRIRs modificadas em um teste de escuta, enquanto se inclui três condições a mais. A primeira condição adicional foi remover todas as reflexões antecipadas; a segunda condição foi deixar apenas as reflexões que são removidas antes; e a terceira condição foi remover apenas a primeira e a segunda seção das reflexões antecipadas (consultar Figura 31).
[0175] A Figura 31 ilustra um par de BRIRs não elevadas (1,2 fileira), um par de BRIRs elevadas (3,4 fileira) e um par de BRIRs modificadas (5,6 fileira). No último caso, as reflexões antecipadas das BRIRs elevadas foram inseridas nas BRIRs não elevadas.
[0176] Enquanto se ouve a condição um, o som direto é percebido a partir de um ângulo menos elevado. Além disso, dois eventos individuais (o som direto e a reverberação) são audíveis. Um teste de escuta informal parece mostrar que as reflexões antecipadas podem ter uma propriedade conectiva.
[0177] A seguir, conceitos são apresentados, nos quais a presente invenção é particularmente baseada.
[0178] Primeiramente, dicas para percepção de altura são consideradas.
[0179] Com base no supracitado, agora, considera-se a possibilidade de as reflexões antecipadas suportarem percepção de altura. E o envelope espectral de reflexões antecipadas compreende dicas para a percepção de altura? Nos experimentos a seguir a avaliação auditiva é baseada na retroalimentação de alguns ouvintes especialistas.
[0180] Reflexões Antecipadas suportam Percepção de Altura. Isso é demonstrado em um teste inicial que analisa, se for possível aqui, diferenças entre as reflexões antecipadas de BRIRs não elevadas e aquelas de BRIRs elevadas, em relação à percepção de altura. Para o ângulo azimute de 45°, dois pares de BRIRs são escolhidos. As reflexões antecipadas das BRIRs elevadas são tomadas para substituir as reflexões antecipadas das BRIRs não elevadas (consultar Figura 32). Espera-se que as BRIRs não elevadas serão, então, percebidas a partir de um ângulo maior de elevação.
[0181] A Figura 32 ilustra, para cada canal, que a BRIR não elevada (esquerda) é perceptualmente comparada a si própria (direita), dessa vez compreendendo reflexões antecipadas de uma BRIR elevada (caixa no lado direito da Figura 32).
[0182] O algoritmo para estimar o ponto de transição entre reflexões antecipadas e reverberação é aplicado a cada BRIR individualmente. Portanto, quatro valores diferentes e quatro comprimentos para faixas de reflexão antecipada são esperados. A fim de trocar as reflexões antecipadas das BRIRs, o mesmo comprimento para cada canal é exigido. Nesse caso, a extensão para a área da reverberação é preferencial sobre uma redução removendo-se o fim da parte de reflexão antecipada. Em comparação com as reflexões antecipadas, a reverberação não compreende quaisquer informações direcionais e não distorcerá o experimento em grande medida, conforme esperado no outro caso. Conforme pode ser visto na Figura 31 (fileiras 5 e 6), as reflexões antecipadas no canal 1 começam na amostra 120 e terminam na 2.360. No canal 2, as mesmas começam na amostra 120 e terminam na 2.533.
[0183] O fato de que a fonte de som não elevada é de fato percebida a partir de um ângulo maior de elevação. Isso significa que reflexões antecipadas não estão apenas suportando o som direto que é percebido naturalmente, mas também têm propriedades dependentes de direção audíveis.
[0184] O envelope espectral compreende informações sobre a percepção de altura. Estando interessado na percepção de altura de uma fonte de som, o experimento anterior é repetido, com o uso apenas de informações espectrais. Uma vez que a localização no plano mediano é, em particular, controlada por dicas espectrais (e, por exemplo, adicionalmente por um intervalo de tempo entre o som direto e a reverberação), o objetivo é descobrir se as modificações ao domínio espectral são suficientes para alcançar o mesmo efeito. Dessa vez, as mesmas BRIRs e também os mesmos pontos de início e fim representam as faixas de reflexão antecipada que foram usadas.
[0185] A Figura 33 ilustra que as reflexões antecipadas da BRIR não elevada (esquerda) são perceptualmente comparadas com si próprias (direita), em que, dessa vez, as reflexões antecipadas são coloridas por reflexões antecipadas de uma BRIR elevada em relação a canal (caixa no lado direito da Figura 33). As reflexões antecipadas das BRIRs elevadas são usadas como uma referência para filtrar as reflexões antecipadas das BRIRs não elevadas em relação a canal.
[0186] De acordo com o processo de filtração para cada canal: - A transformação de Fourier distinta é calculada para as reflexões antecipadas da BRIR elevada para obter ERel,fft. A transformação de Fourier distinta é calculada para as reflexões antecipadas da BRIR não elevada para obter ERnão el,fft - As magnitudes de ERel,fft, assim como de ERnão el,fft, são suavizadas por uma janela retangular, deslizando sobre a escala de ERB (consultar [034]), o que rende uma aproximação às larguras de banda dos filtros na audição humana, para obter ERel ,fft,suave e ERnão el,fft,suave. - A fim de computar um filtro de correção, primeiro, a curva de referência é dividida pela curva real. Isso leva a uma curva de correção CCsuave = ERel,fft,suave / ERnão el,fft,suave. - é possível criar uma resposta de impulso de fase mínima IRcorreção a partir de CCsuave por meio de um sistema de janelas apropriado no domínio cepstral (consultar [035]). - IRcorreção é usada posteriormente para filtrar as reflexões antecipadas da BRIR não elevada
[0187] A suavização é executada aqui para obter uma curva de correção simples.
[0188] Para o canal um, uma diferença de energia de 4,3 por cento, e para o canal dois um valor de 3,0 por cento é obtido. Essas pequenas diferenças podem ser vistas na Figura 34, entre os envelopes espectrais 3411, 3412 e os envelopes espectrais tracejados 3401, 3402.
[0189] A Figura 34 ilustra envelopes espectrais das reflexões antecipadas não elevadas 3421, 2422, das reflexões antecipadas elevadas 3411, 2412 e das reflexões antecipadas modificadas (tracejadas) 3401, 3402 (primeira fileira). As curvas de correção correspondentes são mostradas na segunda fileira.
[0190] A comparação auditiva das BRIRs não elevadas e espectralmente modificadas não mostra um aumento do ângulo de elevação. E, além disso, as curvas de correção têm apenas uma faixa dinâmica de 6 dB. Parece que o espectro de todas as reflexões antecipadas não compreende informações sobre a altura.
[0191] A partir do supracitado, mostra-se que nem toda a faixa das reflexões antecipadas é audível, em que as partes inaudíveis que são incluídas nas modificações espectrais do último experimento distorcem os resultados. Especialmente, a terceira parte da faixa de reflexão antecipada, em que as reflexões vêm de todas as direções, pode ser responsável pela faixa dinâmica baixa das curvas de correção. Portanto, o último experimento é repetido, dessa vez focado apenas nas reflexões audíveis antecipadas.
[0192] As seções que são escolhidas para as reflexões audíveis são dadas na Tabela 1:TABELA 1:
Figure img0018
[0193] A Tabela 1 retrata seções audíveis das reflexões antecipadas das BRIRs elevadas e não elevadas. Devido à forte sobreposição, ITD não é considerada aqui. Uma Janela de Tukey é usada para mostrar e desvanecer as seções, enquanto se define o restante para zero.
[0194] A Figura 35 retrata envelopes espectrais das partes audíveis das reflexões antecipadas não elevadas 3521, 3522, das reflexões antecipadas elevadas 3511, 3512 e das reflexões antecipadas modificadas (tracejadas) 3501, 3502 (primeira fileira). As curvas de correção correspondentes são mostradas na segunda fileira.
[0195] A seguir, uma análise dos envelopes espectrais é conduzida.
[0196] Conforme já mencionado, a localização no plano mediano é controlada por amplificações de determinadas faixas de frequência. Logo, dicas espectrais são responsáveis por perceber fontes a partir de ângulos elevados e as investigações nesse trabalho ainda estão focadas em constatar as dicas desejadas no domínio espectral.
[0197] O uso dos envelopes espectrais de reflexões antecipadas de BRIRs elevadas para modificar BRIRs não elevadas não aumentou o ângulo de elevação de uma fonte de som. A comparação dos envelopes espectrais de todas as reflexões antecipadas com aqueles de reflexões únicas, pode ser dito que reflexões únicas têm um curso espectral mais dinâmico na faixa audível (até 20kHz). Por outro lado, os espectros gerais mostram curvas bastante planas (consultar Figura 36).
[0198] A Figura 36 mostra uma comparação de envelopes espectrais: Os envelopes espectrais de todas as reflexões antecipadas ou mesmo de todas as reflexões audíveis antecipadas mostram uma curva plana na faixa audível (até 20 kHz). Por outro lado, os espectros de reflexões únicas (2a fileira) têm um curso mais dinâmico.
[0199] Em particular, a Figura 36 mostra as curvas de correção resultantes. Embora dessa vez os padrões, assim como as faixas dinâmicas, tenham alterado, perceptualmente não existem alterações significativas em relação ao ângulo de elevação. Embora exista pelo menos 4,5 dB de diferença no envelope espectral no ouvido ipsilateral (CH1), não existem diferenças substanciais entre os envelopes no ouvido contralateral. Esses valores são relativamente pequenos, considerando que a faixa que os mesmos modificam está após o som direto dominante.
[0200] É possível que reflexões antecipadas ainda tenham uma influência importante sobre a naturalidade da impressão de som como um grupo, o que é essencial para introduzir a percepção de altura enquanto se ouve as fontes de som virtual. Entretanto, é óbvio que as dicas para a percepção de altura estão localizadas dentro dos espectros de reflexões únicas. O conhecimento sobre a distribuição espacial das reflexões ganho por meio das medições de matriz de microfone é usado nos experimentos a seguir.
[0201] Agora, um conceito que amplifica as reflexões antecipadas a partir de ângulos de elevação maiores é apresentado.
[0202] Determina-se as reflexões que compreendem as dicas para percepção de altura amplificando-se as mesmas. Intuitivamente, se houver quaisquer reflexões únicas que compreendem essas dicas, então, as mesmas podem chegar ao ouvinte a partir de ângulos de elevação maiores.
[0203] Em um teste anterior, tentou-se desviar a energia das reflexões que vêm de ângulos de elevação menores para aquelas que vêm de ângulos de elevação maiores. Infelizmente, existem apenas duas reflexões de ângulos de elevação menores, as quais não estão dentro das faixas inaudíveis. Essa situação foi observada em todas as direções, uma vez que as propriedades de geometria para os alto-falantes medidos em “Mozart” são quase idênticas. Em comparação, não é fatal se as reflexões de ângulos de elevação maiores estiverem dentro das seções inaudíveis. A amplificação dessas reflexões fará com que as mesmas excedam o efeito de supressão e se tornem perceptíveis. Entretanto, nesse caso, quatro reflexões podem ser separadas da resposta de impulso, sem ter áreas de forte sobreposição a reflexões adjacentes. Os valores correspondentes são dados na Tabela TA2. Devido à pequena quantidade de reflexões que são usadas nesse experimento, valores de ganho de apenas 1,14 para o 1o e 1,33 para o 2o canal são obtidos. Os mesmos não são suficientes para induzir um aprimoramento na percepção de altura. Diversas outras abordagens para desviar sistematicamente energias de outras partes para as quatro reflexões com ângulos de elevação maiores levaram a resultados semelhantes.
[0204] Por esse motivo, uma tentativa é feita para encontrar valores de ganho apropriados, com base em sintonização auditiva avaliada. Diferentes valores na faixa entre a faixa de 3 e 15 são escolhidos para amplificar cada uma das quatro reflexões. Essas reflexões são mostradas na Figura 37.
[0205] A Figura 37 ilustra quatro reflexões selecionadas 3701, 3702, 3703, 3704; 3711, 3712, 3713, 3714 que chegam ao ouvinte a partir de ângulos de elevação maiores que são amplificados pelo valor 3. Reflexões atrás da amostra 1100 têm forte sobreposição às reflexões adjacentes e, portanto, não podem ser separadas das respostas de impulso.
[0206] As mesmas são amplificadas e representadas pela curva 3701, 3702, 3703, 3704 e pela curva 3711, 3712, 3713, 3714. Enquanto se compara as reflexões amplificadas perceptualmente, mostrou-se que a 2a reflexão 3702; 3712 e 3a reflexão 3703; 3713 provocaram comutações espaciais no plano de azimute em vez de no plano mediano. Isso resulta em uma impressão de som fortemente reverberante.
[0207] A amplificação da 1a reflexão 3701; 3711 e 4a reflexão 3704; 3714 renderiza para uma intensificação do ângulo de elevação percebida. Enquanto se compara os mesmos, a amplificação da 1a reflexão 3701; 3711 leva a mais alterações em timbre do que a 4a reflexão 3704; 3714. Além disso, no caso da 4a reflexão 3704; 3714 a fonte soa mais compacta. Ainda assim, amplificar as mesmas simultaneamente, leva, perceptualmente, ao melhor resultado. A relação de ambos os valores de ganho é importante. Pode ser observado que o 4o valor de ganho tem que ser maio que o primeiro. Após diversas tentativas, os valores de ganho de 4 e 15 foram encontrados e confirmados por ouvintes experientes, na medida em que têm o maior e mais natural efeito possível. Deve ser notado que desvios desses valores provocam apenas pequenas alterações de efeito. Portanto, serão usados como valores de orientação nos seguintes experimentos.
[0208] A seguir, modalidades específicas da presente invenção são fornecidas.
[0209] Em particular, conceitos para elevar fontes de som virtual são descritos.
[0210] Os resultados acima mostraram que as duas reflexões que aparecem a partir de ângulos de elevação maiores, de fato, compreendem dicas que são responsáveis pela impressão de altura. Ao serem amplificadas em suas posições originais dentro das BRIRs, as dicas temporais não se alteram. De modo a garantir que a intensificação de altura seja provocada por dicas espectrais e não temporais, os espectros são isolados para criar um filtro.
[0211] Devido ao seu alto nível de som, o som direto domina o processo de localização. As reflexões antecipadas são de importância secundária, e não são percebidas como um evento auditivo individual. Influenciadas pelo efeito de precedência, as mesmas suportam o som direto. Portanto, é razoável aplicar o filtro criado ao som direto, de modo a modificar as HRTFs.
[0212] Uma análise geométrica das duas reflexões fornece a constatação de que, ao considerar as posições de ambas as reflexões nas BRIRs e os ângulos de elevação na representação de distribuição espacial, as reflexões podem ser identificadas como reflexões de teto de 1a e 2a ordem.
[0213] A Figura 38 retrata uma ilustração de ambas as reflexões de teto para uma determinada fonte de som. A vista superior (esquerda) e a vista traseira (direita) ao ouvinte e aos alto-falantes.
[0214] Em particular, a Figura 38 mostra em uma vista superior e uma vista traseira a situação geométrica. A reflexão de 2a ordem é, obviamente, mais fraca, e devido a ser refletida duas vezes, é acusticamente menos similar ao som direto em relação à reflexão de 1a ordem. No entanto, a mesma chega ao ouvinte a partir de um ângulo de elevação maior. O valor de ganho de 15, que é determinado conforme descrito acima, sustenta sua importância.
[0215] Na ilustração esquerda da Figura 38, pode ser visto que ambas as reflexões aparecem a partir da mesma direção que o som direto, embora tenham diferentes ângulos de elevação (ilustração direita). Devido à simetria da configuração de medições, essa situação geométrica é dada para cada um dos quatro (diagonais) alto-falantes medidos no anel elevado. Pode ser observado que as posições de ambas as reflexões nas BRIRs correspondentes são sempre as mesmas. Portanto, sem ter os resultados de análise de campo sonoro para os alto-falantes em ângulos azimute α€{0°, 90°, 180° e 270°}, os mesmos também podem ser usados nas seguintes investigações.
[0216] A seguir, modificação espectral do som direto, de acordo com modalidades, é descrita.
[0217] A curva-alvo de filtro é formada através da combinação das duas reflexões de teto. Aqui, não são usados os valores de ganho absolutos (4 e 15) mas apenas sua relação. Portanto, a reflexão de 1a ordem é amplificada em um e a reflexão de 2a ordem em quatro. Ambas as reflexões são consecutivamente convergidas em um sinal no domínio de tempo. Para as modificações espectrais do som direto, um banco de filtros Mel é usado. A ordem do banco de filtros é definida em M = 24 e o comprimento de filtro em NMFB = 2.048.
[0218] A Figura 39 ilustra um processo de filtração para cada canal com o uso do banco de filtros Mel. O sinal de entrada xDS,i,α (n) é filtrado com cada um dos filtros M. Os sinais de sub-banda M são multiplicados pelo vetor de potência PRiiiCL (m) e são finalmente adicionados a um sinal yDS,i,α (n).
[0219] O processo de filtração mostrado na Figura 39 é explicado de etapa em etapa: 1. O som direto xDS,i,α (n) é filtrado pelo banco de filtros Mel para obter sinais de sub-banda M xDS,i,α (n,m). O índice i€{1,2} denota os canais, α o ângulo azimute da fonte de som, n a posição de amostra e m€[1 ,M] a sub-banda. 2. A combinação das reflexões xR,i,α (n) é filtrada pelo banco de filtros Mel para obter sinais de sub-banda M xR,i,α (n,m) e a potência de cada sinal de subbanda, armazenada em um vetor de potência PRiiia (m). A potência é calculada através da equação (15):
Figure img0019
3. O vetor de potência PRiiiCL (m), que compreende implicitamente a curva- alvo de filtro, é usado para pesar xDS,i,α (n,m) em cada sub-banda. 4. Após XDS,i,α (n,m) ser multiplicado por PRiiiCL (m) no domínio de tempo, os sinais de sub-banda ponderados são adicionados em conjunto para obter o sinal filtrado completo yDS,i,α (n).
[0220] Após filtragem, a ILD entre os impulsos de som direto é alterada. A mesma é definida agora através da combinação de ambas as reflexões em cada canal. Portanto, os impulsos de som direto modificados precisam ser corrigidos para seus valores de nível original. A potência do som direto é calculada antes (PAntes,i,α) e após (PApós,i,a) filtragem e um valor de correção
Figure img0020
é calculado no sentido de canal. Cada impulso de som direto é, então, ponderado pelo valor de correção correspondente para obter o nível original.
[0221] A Figura 40 retrata um vetor de potência PRia (m) para uma fonte de som do ângulo azimute α=225°. Aqui, a curva 4001 provoca uma correção no ouvido ipsilateral e a curva 4011 no ouvido contralateral.
[0222] A correção da Figura 40 é expressa em um aumento da potência de sinal de sub-banda na faixa média. Os formatos dos vetores de correção ipsilateral e contralateral são similares. Após um teste de escuta informal, os ouvintes relataram sobre uma diferença de altura clara para as BRIRs não modificadas. O som elevado foi percebido por ter uma distância maior e volume de som menor. Para alguns ângulos azimute um aumento em reverberação foi audível, o que torna a localização mais difícil.
[0223] A seguir, a geração de altura variável, de acordo com modalidades, é considerada.
[0224] A Figura 41 retrata curvas de amplificação diferentes causadas por exponentes diferentes. Considerando uma função exponencial x1/2, valores menores que um serão amplificados e valores maiores que um serão atenuados (consultar a Figura 41). Ao alterar o valor exponente, curvas de amplificação diferentes são obtidas. Em caso de 1, nenhuma modificação é executada.
[0225] A Figura 42 retrata exponentes diferentes que são aplicados a PR,i,225°(m) (esquerda) e a PR,i(m) (direita). Como um resultado, formatos diferentes são obtidos. Na plotagem esquerda, o ângulo azimute é α=225°. Aqui, CH1 se refere ao canal contralateral e CH2 ao canal ipsilateral. Na plotagem direita, CH1 se refere ao ouvido esquerdo e CH2 ao ouvido direito, visto que as curvas são promediadas sobre todos os ângulos.
[0226] Ao aplicar esse mecanismo a PR,α, ênfase de curva diferente pode ser obtida. Conforme pode ser visto na Figura 42, a força da modificação espectral do som direto pode ser controlada pelo valor exponencial para controlar a curva de filtro e, portanto, a intensificação de altura da fonte de som. Por outro lado, exponentes negativos levam a um comportamento de parada de banda, atenuando-se os sinais de sub-banda na faixa média. Os impulsos de som direto modificados são novamente corrigidos para seus valores de nível originais, posteriormente.
[0227] Um teste de escuta informal foi executado e avaliado. Foi relatado que elevar os exponentes faz com que a fonte de som se mova para cima. Para exponentes negativos se move para baixo. Também foi relatado que o timbre se altera fortemente quando se abaixa a fonte. O mesmo se altera para um timbre bastante “apagado”. Além disso, pode ser observado que é razoável limitar a faixa dos exponentes a [-0,5, 1,5]. Valores menores e maiores provocam fortes alterações de timbre, enquanto tendem a diferenças de altura menores.
[0228] A seguir, o processamento independente de direção, de acordo com modalidades, é descrito.
[0229] Até agora, o processamento foi executado para cada ângulo azimute individualmente. Dependendo da direção azimutal, cada fonte de som foi modificada por suas próprias reflexões, conforme mostrado na Figura 38. Visto que se sabe que as reflexões que estão envolvidas no processamento sempre aparecem nas mesmas posições nas BRIRs, o processamento pode ser simplificado. Comparar pR,i,a (m) para cada direção, uma pessoa pode observar que todas as curvas parecem mostrar um comportamento de passa-banda. Portanto, PRiiia (m)é reduzido para PR>i (m) promediando-se sobre todos os ângulos azimute.
[0230] Deve ser notado que PRii (m) ainda depende de a possibilidade do processamento ser executado no ouvido ipsilateral ou no ouvido contralateral. O processo de ponderação é executado dependente do caso, conforme mostrado na Figura 43. No lado esquerdo, todos os sinais ipsilaterais são promediados e no lado direito, todos os sinais contralaterais são promediados. Para os alto-falantes em ângulos azimute α=0° e α=180°, há uma simetria em ambos os canais. Por esse motivo, não se distingue entre ipsilateral e contralateral, de modo que ambos sejam usados em cada caso.
[0231] A Figura 43 mostra canais ipsilaterais (esquerda) e contralaterais (direita) para o procedimento de ponderação. Os dois alto-falantes na frente e atrás do cabeçalho de medição têm canais simétricos. Portanto, para esses ângulos não há distinção entre ipsilateral e contralateral.
[0232] Conforme pode ser visto na Figura 42 (direita), após o processo de ponderação, as diferenças entre os canais são reduzidas. Um teste de escuta informal mostra que uma ponderação adicional sobre ambos os canais, para obter apenas uma curva PR(m) por exponente, não provoca diferenças auditivas. As curvas promediadas são mostradas na Figura 44 (esquerda).
[0233] A seguir, diferenciação de frente para trás é considerada.
[0234] As dicas espectrais, que são responsáveis pela “Diferenciação de Frente para Trás”, são compreendidas no som direto e na curva-alvo de filtro. As dicas no som direto são suprimidas ao serem filtradas e as dicas na curva-alvo são suprimidas promediando-se PRiiia (m) sobre todos os ângulos azimute. Portanto, essas dicas têm de ser enfatizadas novamente de modo a obter uma “Diferenciação de Frente para Trás” mais forte. Isso pode ser obtido como a seguir. 1. Promediar PRiiiCL (m) todos os canais e todos os α€ [90°,270°] para obter PTrás (m). 2. Promediar PR i a (m) todos os canais e todos os α€ [270°, 90°] para obter Pprente (^)- 3. Calcular PFrenteTrás,max(m) = PFrente(m)/PTrásÇm) para obter uma curva de diferença entre as direções frontal e traseira, conforme mostrado na Figura 44 (direita). Para obter um efeito de suavização mais forte, PRiiiCL (m) para α=90° e α=270° são usados duas vezes. Os mesmos não compreendem nenhuma informação frontal ou traseira, porque estão localizados no plano frontal, e não se deturpam da curva resultante. Hipoteticamente, aplicar essa curva à fonte elevada a α=180° moveria a mesma para α=0°. 4. Dependendo da direção de fonte, a curva é exponencialmente ponderada por um meio cosseno PFrenteTrás(m, a) = PFrenteTrás,max(m)°-5*cosÇa). Para α=0°, PFrenteTrás.maxím) tem a metade de sua extensão máxima e para α=180°, a metade de sua extensão inversa. Para os ângulos α= 90° e α=270° é 1, visto que o cosseno vira zero. 5. PFrenteTrás(.m>a) PFrenteTrás (m, α) é multiplicado por PR(m) no processo de filtração.
[0235] A Figura 44 retrata PR,IpCo (esquerda) e PFrenteTrás (direita).
[0236] Com PR(m) e PFrenteTrás(m’a) é possível aprimorar a percepção de altura continuamente de cada fonte de som que é medida no anel para o ângulo de elevação de β=55°. Esse método de intensificação foi aplicado nas fontes que são medidas no anel não elevado em “Mozart”. Além disso, nesse caso, uma intensificação de altura poderia ser percebida. Além disso, uma tentativa foi realizada de modo a elevar as fontes não elevadas, enquanto se usa suas próprias reflexões. Infelizmente, a reflexão de teto de 2a ordem naquele caso é fortemente sobreposta por outras reflexões. Ainda assim, ao usar apenas a reflexão de teto de 1a ordem, uma diferença de altura é perceptível.
[0237] Em uma etapa adicional, esse método foi aplicado às BRIRs que são medidas com uma cabeça humana, enquanto se usa as reflexões das BRIRs que são medidas com “Córtex”. Embora, as BRIRs de “Córtex” já soem mais altas, sem qualquer modificação, esse método rende para uma diferença de altura claramente perceptível.
[0238] Ao aplicar PR(m) e PprenteTrasim^ «) nas reflexões provocadas pelas fontes de som no anel elevado, esse método de intensificação de altura é perceptualmente investigado dentro de um teste de escuta.
[0239] A seguir, a renderização de direção variável parametrizada, de acordo com modalidades, é descrita.
[0240] O objetivo desse sistema é corrigir a direção percebida em uma renderização binaural realizando-se uma renderização em uma direção-base e, então, corrigindo-se a direção com um conjunto de atributos obtidos a partir de um conjunto de filtros-base.
[0241] Um sinal de áudio e uma entrada de direção de usuário são alimentados a um bloco de renderização binaural online que cria uma renderização binaural com percepção de direção variável.
[0242] Renderização binaural online, de acordo com modalidades, pode, por exemplo, ser conduzida como a seguir:
[0243] Uma renderização binaural de um sinal de entrada é realizada com o uso de filtros da direção de referência (‘renderização binaural de altura de referência’).
[0244] Em um primeiro estágio, a renderização de altura de referência é realizada com o uso de um conjunto (uma ou mais) de Respostas de Impulso de Espaço Binaural (BRIRs) de direções discretas.
[0245] Em um segundo estágio, por exemplo, em um processador de filtro corretor de direção, um filtro adicional pode, por exemplo, ser aplicado na renderização que adapta a direção percebida (em direção de azimute e/ou elevação positiva ou negativa). Esse filtro pode, por exemplo, ser criado calculando-se parâmetros de filtro reais, por exemplo, com uma entrada de direção de usuário (variável) (por exemplo, em graus azimute: 0° a 360°, elevação -90° a +90°) e com, por exemplo, um conjunto de coeficientes de direção, base e filtro.
[0246] Primeiros e segundos filtros de estágio também podem ser combinados (por exemplo, por adição ou multiplicação) com complexidade computacional salva.
[0247] A presente invenção é com base nas constatações apresentadas antes.
[0248] Agora, as modalidades da presente invenção são descritas em detalhes.
[0249] A Figura 1a ilustra um aparelho 100 para gerar um sinal de áudio filtrado a partir de um sinal de entrada de áudio de acordo com uma modalidade.
[0250] O aparelho 100 compreende um determinador de informações de filtro 110 que é configurado para determinar informações de filtro dependendo de informações de altura de entrada, em que as informações de altura de entrada dependem de uma altura de uma fonte de som virtual.
[0251] Além disso, o aparelho 100 compreende uma unidade de filtro 120 que é configurada para filtrar o sinal de entrada de áudio para obter o sinal de áudio filtrado dependendo das informações de filtro.
[0252] O determinador de informações de filtro 110 é configurado para determinar as informações de filtro com o uso de seleção, dependendo das informações de altura de entrada, de uma curva de filtro é selecionada dentre uma pluralidade de curvas de filtro. Ou, o determinador de informações de filtro 110 é configurado para determinar as informações de filtro com o uso de determinação de uma curva de filtro modificada modificando-se uma curva de filtro de referência dependendo das informações de elevação.
[0253] A presente invenção é inter alia com base na constatação de que (virtualmente) elevar ou rebaixar uma fonte de som virtual pode ser alcançado filtrando-se adequadamente um sinal de entrada de áudio. Uma curva de filtro pode, portanto, ser selecionada dentre uma pluralidade de curvas de filtro dependendo das informações de altura de entrada e aquela curva de filtro selecionada pode, então, ser empregada para filtrar o sinal de entrada de áudio para (virtualmente) elevar ou rebaixar a fonte de som virtual. Ou, uma curva de filtro de referência pode ser modificada dependendo das informações de altura de entrada para (virtualmente) elevar ou rebaixar a fonte de som virtual.
[0254] Em uma modalidade, as informações de altura de entrada podem, por exemplo, indicar pelo menos um valor de coordenada de uma coordenada de um sistema de coordenadas, em que a coordenada indica uma posição da fonte de som virtual.
[0255] Por exemplo, o sistema de coordenadas pode, por exemplo, ser um sistema de coordenadas cartesiano tridimensional e as informações de altura de entrada são uma coordenada do sistema de coordenadas cartesiano tridimensional ou são um valor de coordenada de três valores de coordenada da coordenada do sistema de coordenadas cartesiano tridimensional.
[0256] Por exemplo, uma coordenada em um sistema de coordenadas cartesiano tridimensional pode compreender um valor x, um valor y e um valor z: (x, y, z), por exemplo, (x, y, z) = (5, 3, 4). A coordenada (5, 3, 4) pode, então, por exemplo, ser as informações de altura de entrada. Ou, o valor z = 4, que é um dos valores de coordenada da coordenada (5, 3, 4) do sistema de coordenadas cartesiano, pode, por exemplo, ser as informações de altura de entrada.
[0257] Ou, por exemplo, o sistema de coordenadas pode, por exemplo, ser um sistema de coordenadas polares e as informações de altura de entrada podem, por exemplo, ser um ângulo de elevação de uma coordenada polar do sistema de coordenadas polares.
[0258] Por exemplo, uma coordenada em um sistema de coordenadas polares tridimensional pode, por exemplo, compreender um ângulo azimute Φ, um ângulo de elevação θ e um raio r; (Φ, θ, r), por exemplo, (Φ, θ, r) = (40°, 30°, 5). O ângulo de elevação θ = 30° é o ângulo de elevação da coordenada (40°, 30°, 5) do sistema de coordenadas polares.
[0259] Por exemplo, em um sistema de coordenadas polares, as informações de altura de entrada podem, por exemplo, indicar o ângulo de elevação de um sistema de coordenadas polares em que o ângulo de elevação indica uma elevação entre uma direção-alvo e uma direção de referência ou entre uma direção-alvo e um plano de referência.
[0260] Os conceitos acima para (virtualmente) elevar ou rebaixar uma fonte de som virtual podem, por exemplo, ser particularmente adequados para áudio binaural. Além disso, os conceitos acima também podem ser empregados para configurações de alto-falante. Por exemplo, se todas as configurações de alto-falante estão localizadas no mesmo plano horizontal, e caso nenhum alto-falante elevado ou rebaixado esteja presente, elevar virtualmente ou rebaixar virtualmente uma fonte de som virtual se torna possível.
[0261] De acordo com uma modalidade, o determinador de informações de filtro 110 pode, por exemplo, ser configurado para determinar as informações de filtro com o uso de seleção, dependendo das informações de altura de entrada, da curva de filtro selecionada dentre a pluralidade de curvas de filtro. As informações de altura de entrada é o ângulo de elevação que é um ângulo de elevação de entrada, em que cada curva de filtro da pluralidade de curvas de filtro tem um ângulo de elevação que é atribuído à dita curva de filtro e o determinador de informações de filtro 110 pode, por exemplo, ser configurado para selecionar com a curva de filtro selecionada uma curva de filtro dentre a pluralidade de curvas de filtro com uma diferença absoluta menor entre o ângulo de elevação de entrada e o ângulo de elevação que é atribuído à dita curva de filtro dentre toda a pluralidade de curvas de filtro.
[0262] Tal abordagem reconhece que uma curva de filtro particularmente adequada é selecionada. Por exemplo, a pluralidade de curvas de filtro pode compreender curvas de filtro para uma pluralidade de ângulos de elevação, por exemplo, para os ângulos de elevação 0°, +3°, -3°, +6°, -6°, +9°, -9°,+12°, -12°, etc. Caso, por exemplo, informações de altura de entrada especifiquem um ângulo de elevação de +4°, então, a curva de filtro para uma elevação de +3° será escolhido, porque dentre todas as curvas de filtro, a diferença absoluta entre as informações de altura de entrada de +4° e o ângulo de elevação de +3° que é atribuída àquela curva de filtro particular é a menor dentre todas as curvas de filtro, a saber | (+ 4°) - (+3°) | = 1°.
[0263] De acordo com outra modalidade, o determinador de informações de filtro 110 pode, por exemplo, ser configurado para determinar as informações de filtro com o uso de seleção, dependendo das informações de altura de entrada, da curva de filtro selecionada dentre a pluralidade de curvas de filtro. As informações de altura de entrada podem, por exemplo, ser o dito valor de coordenada dos três valores de coordenada da coordenada do sistema de coordenadas tridimensional que é um valor de coordenada de entrada, em que cada curva de filtro da pluralidade de curvas de filtro tem um valor de coordenada que é atribuído à dita curva de filtro e o determinador de informações de filtro 110 pode, por exemplo, ser configurado para selecionar como a curva de filtro selecionada uma curva de filtro dentre a pluralidade de curvas de filtro com uma diferença absoluta menor entre o valor de coordenada de entrada e o valor de coordenada que é atribuído à dita curva de filtro dentre toda a pluralidade de curvas de filtro.
[0264] De acordo com tal abordagem, por exemplo, a pluralidade de curvas de filtro pode compreender curvas de filtro para uma pluralidade de valores, por exemplo, da coordenada z de uma coordenada do sistema de coordenadas cartesiano tridimensional, por exemplo, para os valores z 0, +4, -4, +8, -8, +12°, -12, +16, -16, etc. Caso, por exemplo, informações de altura de entrada especifiquem um valor de coordenada z de +5, então, a curva de filtro para o valor de coordenada z +4 será escolhido, porque, dentre todas as curvas de filtro, a diferença absoluta entre as informações de altura de entrada de +5 e o valor de coordenada z de +4 que é atribuído àquela curva de filtro é a menor dentre todas as curvas de filtro, a saber | (+ 5) - (+4) | = 1.
[0265] Em uma modalidade, o determinador de informações de filtro 110 pode, por exemplo, ser configurado para amplificar a curva de filtro selecionada por um valor de amplificação determinado para obter uma curva de filtro processada ou o determinador de informações de filtro 110 é configurado para atenuar a curva de filtro selecionada em um valor de atenuação determinado para obter a curva de filtro processada. A unidade de filtro 120 pode, por exemplo, ser configurada para filtrar o sinal de entrada de áudio de modo a obter o sinal de áudio filtrado dependendo da curva de filtro processada. O determinador de informações de filtro 110 pode, por exemplo, ser configurado para determinar o valor de amplificação determinado ou o valor de atenuação determinado dependendo de uma diferença entre o valor de coordenada de entrada e o valor de coordenada que é atribuído à curva de filtro selecionada. Ou o determinador de informações de filtro 110 pode, por exemplo, ser configurado para determinar o valor de amplificação determinado ou o valor de atenuação determinado dependendo de uma diferença entre o ângulo de elevação e o ângulo de elevação que é atribuído à curva de filtro selecionada.
[0266] Quando a curva de filtro se refere a (é especificada com relação a) uma escala logarítmica, o valor de amplificação ou valor de atenuação é um fator de amplificação ou um fator de atenuação. O fator de amplificação ou fator de atenuação é, então, multiplicado por cada valor da curva de filtro selecionada para obter a curva de filtro espectral modificada.
[0267] Tal modalidade permite adaptar uma curva de filtro selecionada após seleção. No primeiro exemplo acima que se refere aos ângulos de elevação, as informações de altura de entrada de +4° de elevação não são exatamente iguais ao ângulo de elevação +3° que é atribuído à curva de filtro selecionada. De modo semelhante, no segundo exemplo acima que se refere aos valores de coordenada, as informações de altura de entrada de +5 para o valor de coordenada z não são exatamente iguais ao valor de coordenada z de +4 que é atribuído à curva de filtro selecionada. Portanto, em ambos os exemplos, a adaptação da curva de filtro selecionada parece útil.
[0268] Quando a curva de filtro se refere a (é especificada com relação a) uma escala linear, o valor de amplificação ou valor de atenuação é um valor de amplificação exponencial ou um valor de atenuação exponencial. O valor de amplificação exponencial/valor de atenuação exponencial é, então, usado como um exponente de uma função exponencial. O resultado de função exponencial, que tem o valor de amplificação exponencial ou o valor de atenuação exponencial como exponente, é então multiplicado por cada valor da curva de filtro selecionada para obter a curva de filtro espectral modificada.
[0269] De acordo com uma modalidade, o determinador de informações de filtro 110 pode, por exemplo, ser configurado para determinar as informações de filtro com o uso de determinação da curva de filtro modificada modificando-se a curva de filtro de referência dependendo das informações de elevação. Além disso, o determinador de informações de filtro 110 pode, por exemplo, ser configurado para amplificar a curva de filtro de referência por um valor de amplificação determinado para obter uma curva de filtro processada ou o determinador de informações de filtro 110 é configurado para atenuar a curva de filtro de referência em um valor de atenuação determinado para obter a curva de filtro processada.
[0270] Em tal modalidade, apenas uma única curva de filtro existe, a curva de filtro de referência. O determinador de informações de filtro 110, então, adapta a curva de filtro de referência dependendo das informações de altura de entrada.
[0271] Em uma modalidade, o determinador de informações de filtro 110 pode, por exemplo, ser configurado para determinar as informações de filtro com o uso de seleção, dependendo das informações de altura de entrada, da curva de filtro selecionada dentre uma pluralidade de curvas de filtro como uma primeira curva de filtro selecionada. Além disso, o determinador de informações de filtro 110 pode, por exemplo, ser configurado para determinar as informações de filtro com o uso de seleção, dependendo das informações de altura de entrada, de uma segunda curva de filtro selecionada dentre a pluralidade de curvas de filtro. Além disso, o determinador de informações de filtro 110 pode, por exemplo, ser configurado para determinar uma curva de filtro interpolada interpolando-se entre a primeira curva de filtro selecionada e a segunda curva de filtro selecionada.
[0272] Em uma modalidade, o determinador de informações de filtro 110 pode, por exemplo, ser configurado para determinar as informações de filtro de modo que a unidade de filtro 120 modifique uma primeira porção espectral do sinal de entrada de áudio e de modo que a unidade de filtro 120 não modifique uma segunda porção espectral do sinal de entrada de áudio.
[0273] Modificando-se as primeiras porções espectrais do sinal de entrada de áudio, elevação ou rebaixamento de uma fonte de som virtual é realizado. Outras porções espectrais do sinal de entrada de áudio são, entretanto, não modificadas para elevar ou rebaixar a fonte de som virtual.
[0274] De acordo com uma modalidade, o determinador de informações de filtro 110 pode, por exemplo, ser configurado para determinar as informações de filtro de modo que a unidade de filtro 120 amplifique uma primeira porção espectral do sinal de entrada de áudio por um primeiro valor de amplificação, e de modo que a unidade de filtro 120 amplifique uma segunda porção espectral do sinal de entrada de áudio por um segundo valor de amplificação, em que o primeiro valor de amplificação é diferente do segundo valor de amplificação.
[0275] Modalidades são com base na constatação de que uma elevação virtual ou um rebaixamento virtual de uma fonte de som virtual é obtido amplificando-se particularmente algumas porções de frequência, enquanto outras porções de frequência deveriam ser rebaixadas. Dessa forma, em modalidades, filtragem é conduzida, de modo que gerar um sinal de áudio filtrado a partir de um sinal de entrada de áudio corresponde a amplificar (ou atenuar) o sinal de entrada de áudio com valores de amplificação diferentes (fatores de ganho diferentes).
[0276] Em uma modalidade, o determinador de informações de filtro 110 pode, por exemplo, ser configurado para determinar as informações de filtro com o uso de seleção, dependendo das informações de altura de entrada, da curva de filtro selecionada dentre a pluralidade de curvas de filtro, em que cada uma dentre a pluralidade de curvas de filtro tem um máximo global ou um mínimo global entre 700 Hz e 2.000 Hz. Ou, o determinador de informações de filtro 110 pode, por exemplo, ser configurado para determinar as informações de filtro com o uso da determinação da curva de filtro modificada modificando-se a curva de filtro de referência dependendo das informações de elevação, em que o filtro de referência tem um máximo global ou um mínimo global entre 700 Hz e 2.000 Hz.
[0277] As Figuras 51 a 55 mostram uma pluralidade de curvas de filtro diferentes que são adequadas para criar o efeito de elevar ou rebaixar uma fonte de som virtual. Constatou-se que para criar o efeito de elevar ou rebaixar uma fonte de som virtual, algumas frequências, particularmente na faixa entre 700 Hz e 2.000 Hz, deveriam ser particularmente amplificadas ou deveriam ser particularmente atenuadas para elevar virtualmente ou rebaixar virtualmente uma fonte de som virtual.
[0278] Em particular, as curvas de filtro com valores de amplificação positivos (maiores que 0) na Figura 51 têm um máximo global 5101, 5102, 5103, 5104 aproximadamente 1.000 Hz, isto é, entre 700 Hz e 2.000 Hz.
[0279] De modo semelhante, as curvas de filtro com valores de amplificação positivos na Figura 52, Figura 53, Figura 54 e Figura 55 têm um máximo global 5201, 5202, 5203, 5204 e 5301, 5302, 5303, 5304 e 5401, 5402, 5403, 5404 e 5501, 5502, 5503, 5504 aproximadamente 1.000 Hz, isto é, entre 700 Hz e 2.000 Hz.
[0280] De acordo com uma modalidade, o determinador de informações de filtro 110 pode, por exemplo, ser configurado para determinar informações de filtro dependendo das informações de altura de entrada e dependendo, adicionalmente, das informações azimute de entrada. Além disso, o determinador de informações de filtro 110 pode, por exemplo, ser configurado para determinar as informações de filtro como uso de seleção, dependendo das informações de altura de entrada e dependendo das informações azimute de entrada, da curva de filtro selecionada dentre a pluralidade de curvas de filtro. Ou, o determinador de informações de filtro 110 pode, por exemplo, ser configurado para determinar as informações de filtro com o uso da determinação da curva de filtro modificada modificando-se a curva de filtro de referência dependendo das informações de elevação e dependendo das informações azimute.
[0281] As Figuras 51 a 55 mencionadas acima mostram curvas de filtro que são atribuídas aos valores azimute diferentes.
[0282] Em particular, a Figura 51 ilustra curvas de filtro de correção para azimute = 0°, a Figura 52 ilustra curvas de filtro de correção para azimute = 30°, a Figura 53 ilustra curvas de filtro de correção para azimute = 45°, a Figura 54 ilustra curvas de filtro de correção para azimute = 60° e a Figura 55 ilustra curvas de filtro de correção para azimute = 90°.
[0283] As curvas de filtro correspondentes nas Figuras 51 a 55 se diferem sutilmente, na medida em que as curvas de filtro são atribuídas aos valores azimute diferentes. Dessa forma, em algumas modalidades, as informações azimute de entrada, por exemplo, um ângulo azimute que depende de uma posição de uma fonte de som virtual, também podem ser levadas em conta.
[0284] Em uma modalidade, a unidade de filtro 120 pode, por exemplo, ser configurada para filtrar o sinal de entrada de áudio para obter um sinal de áudio binaural como o sinal de áudio filtrado que tem exatamente dois canais de áudio dependendo das informações de filtro. O determinador de informações de filtro 110 pode, por exemplo, ser configurado para receber informações de entrada em uma função de transferência relacionada ao cabeçalho de entrada. Além disso, o determinador de informações de filtro 110 pode, por exemplo, ser configurado para determinar as informações de filtro determinando-se uma função de transferência relacionada ao cabeçalho modificada modificando-se a função de transferência relacionada ao cabeçalho de entrada dependendo da curva de filtro selecionada ou dependendo da curva de filtro modificada.
[0285] Os conceitos descritos acima são particularmente adequados para áudio binaural. Ao conduzir renderização binaural, uma função de transferência relacionada ao cabeçalho é aplicada no sinal de entrada de áudio para gerar um sinal de saída de áudio (aqui: um sinal de áudio filtrado) que compreende exatamente dois canais de áudio. De acordo com modalidades, a própria função de transferência relacionada ao cabeçalho é modificada (por exemplo, filtrada), antes da função de transferência relacionada ao cabeçalho modificada resultante ser aplicada no sinal de entrada de áudio.
[0286] De acordo com uma modalidade, a função de transferência relacionada ao cabeçalho de entrada pode, por exemplo, ser representada em um domínio espectral. A curva de filtro selecionada pode, por exemplo, ser representada no domínio espectral, ou a curva de filtro modificada é representada no domínio espectral.
[0287] O determinador de informações de filtro 110 pode, por exemplo, ser configurado - para determinar a função de transferência relacionada ao cabeçalho modificada adicionando-se valores espectrais da curva de filtro selecionada ou da curva de filtro modificada para valores espectrais da função de transferência relacionada ao cabeçalho de entrada, ou - para determinar a função de transferência relacionada ao cabeçalho modificada multiplicando-se valores espectrais da curva de filtro selecionada ou da curva de filtro modificada e valores espectrais da função de transferência relacionada ao cabeçalho de entrada, ou - para determinar a função de transferência relacionada ao cabeçalho modificada subtraindo-se valores espectrais da curva de filtro selecionada ou da curva de filtro modificada a partir de valores espectrais da função de transferência relacionada ao cabeçalho de entrada, ou subtraindo-se valores espectrais da função de transferência relacionada ao cabeçalho de entrada a partir de valores espectrais da curva de filtro selecionada ou da curva de filtro modificada, ou - para determinar a função de transferência relacionada ao cabeçalho modificada dividindo-se valores espectrais da função de transferência relacionada ao cabeçalho de entrada por valores espectrais da curva de filtro selecionada ou da curva de filtro modificada, ou dividindo-se valores espectrais da curva de filtro selecionada ou da curva de filtro modificada por valores espectrais da função de transferência relacionada ao cabeçalho de entrada.
[0288] Em tal modalidade, a função de transferência relacionada ao cabeçalho é representada no domínio espectral e a curva de filtro de domínio espectral é usada para modificar a função de transferência relacionada ao cabeçalho. Por exemplo, a adição ou subtração pode, por exemplo, ser empregada quando a função de transferência relacionada ao cabeçalho e a curva de filtro se referem a uma escala logarítmica. Por exemplo, a multiplicação ou divisão pode, por exemplo, ser empregada quando a função de transferência relacionada ao cabeçalho e a curva de filtro se referem a uma escala linear.
[0289] Em uma modalidade, a função de transferência relacionada ao cabeçalho de entrada pode, por exemplo, ser representada em um domínio de tempo. A curva de filtro selecionada é representada no domínio de tempo, ou a curva de filtro modificada é representada no domínio de tempo. O determinador de informações de filtro 110 pode, por exemplo, ser configurado para determinar a função de transferência relacionada ao cabeçalho modificada convolvendo-se a curva de filtro selecionada ou a curva de filtro modificada e a função de transferência relacionada ao cabeçalho de entrada.
[0290] Em tal modalidade, a função de transferência relacionada ao cabeçalho é representada no domínio de tempo e a função de transferência relacionada ao cabeçalho e a curva de filtro são convolvidas para obter a função de transferência relacionada ao cabeçalho modificada.
[0291] Em outra modalidade, o determinador de informações de filtro 110 pode, por exemplo, ser configurado para determinar a função de transferência relacionada ao cabeçalho modificada filtrando-se a curva de filtro selecionada ou a curva de filtro modificada com uma estrutura de filtro não recursiva. Por exemplo, filtragem com um filtro FIR (filtro de Resposta de Impulso Finito) pode ser conduzida.
[0292] Em uma modalidade adicional, o determinador de informações de filtro 110 pode, por exemplo, ser configurado para determinar a função de transferência relacionada ao cabeçalho modificada filtrando-se a curva de filtro selecionada ou a curva de filtro modificada com uma estrutura de filtro recursiva. Por exemplo, filtragem com um filtro FII (filtro de Resposta de Impulso Infinito) pode ser conduzida.
[0293] A Figura 1b ilustra um aparelho 200 para fornecer informações de modificação de direção de acordo com uma modalidade.
[0294] O aparelho 200 compreende uma pluralidade de alto-falantes 211, 212, em que cada um da pluralidade de alto-falantes 211, 212 é configurado para reproduzir novamente um sinal de áudio reproduzido novamente, em que um primeiro alto-falante da pluralidade de alto-falantes 211, 212 está localizado em uma primeira posição em uma primeira altura e em que um segundo alto-falante da pluralidade de alto-falantes 211, 212 está localizado em uma segunda posição, que é diferente da primeira posição, em uma segunda altura, que é diferente da primeira altura.
[0295] Além disso, o aparelho 200 compreende dois microfones 221, 222, em que cada um dos dois microfones 221, 222 é configurado para registrar um sinal de áudio registrado recebendo-se ondas de som de cada alto-falante da pluralidade de alto-falantes 211, 212 emitidas pelo dito alto-falante quando se repete o sinal de áudio.
[0296] Além disso, o aparelho 200 compreende um determinador de resposta de impulso de espaço binaural 230 que é configurado para determinar uma pluralidade de respostas de impulso de espaço binaural determinando-se uma resposta de impulso de espaço binaural para cada alto-falante da pluralidade de alto-falantes 211, 212 dependendo do sinal de áudio reproduzido novamente que é reproduzido novamente pelo dito alto-falante e dependendo de cada um dos sinais de áudio registrados que são registrados por cada um dos dois microfones 221, 222 quando o dito sinal de áudio reproduzido novamente é reproduzido novamente pelo dito alto- falante.
[0297] Determinação de uma resposta de impulso de espaço binaural é conhecida na técnica. Aqui, as respostas de impulso de espaço binaural são determinadas por alto-falantes que estão localizados em posições que podem, por exemplo, exibir elevações diferentes, por exemplo, ângulos de elevação diferentes.
[0298] Além disso, o aparelho 200 compreende um gerador de curva de filtro 240 que é configurado para gerar pelo menos uma curva de filtro que depende de duas da pluralidade de respostas de impulso de espaço binaural. As informações de modificação de direção dependem da pelo menos uma curva de filtro.
[0299] Por exemplo, uma (referência) resposta de impulso de espaço binaural foi determinada para um alto-falante que está localizado em uma posição de referência em uma elevação de referência (por exemplo, a elevação de referência pode, por exemplo, ser 0°). Então, uma segunda resposta de impulso de espaço binaural pode, por exemplo, ser considerada aquela que foi determinada, por exemplo, para um alto-falante em uma segunda posição com uma segunda elevação, por exemplo, uma elevação de -15°.
[0300] O primeiro ângulo de 0° especifica que o primeiro alto-falante está localizado em uma primeira altura. O segundo ângulo de -15° especifica que o segundo alto-falante está localizado em uma segunda altura que é inferior à primeira altura. Isso é mostrado na Figura 49. Na Figura 49, o primeiro alto-falante 211 está localizado em uma primeira altura que é inferior à segunda altura em que o segundo alto-falante 212 está localizado.
[0301] Ambas as respostas de impulso de espaço binaural podem, por exemplo, ser representadas em um domínio espectral ou podem, por exemplo, ser transferidas do domínio de tempo para o domínio espectral. Para obter uma das curvas de filtro a segunda resposta de impulso de espaço binaural, que é um segundo sinal no domínio espectral, pode, por exemplo, ser subtraída da resposta de impulso de espaço binaural de referência, que é um primeiro sinal no domínio espectral. O sinal resultante é uma dentre a pelo menos uma curva de filtro. O sinal resultante, que é representado no domínio espectral pode ser, porém, não tem de ser convertido no domínio de tempo para obter a curva de filtro final.
[0302] Em uma modalidade, o gerador de curva de filtro 240 é configurado para obter duas ou mais curvas de filtro gerando-se uma ou mais curvas intermediárias dependendo da pluralidade de respostas de impulso de espaço binaural, amplificando-se cada uma dentre a uma ou mais curvas intermediárias por cada um dentre uma pluralidade de valores de atenuação diferentes.
[0303] Dessa forma, a geração das curvas de filtro pelo gerador de curva de filtro 240 é conduzida em uma abordagem de duas etapas. Primeiro, uma ou mais curvas intermediárias são geradas. Então, cada um dentre uma pluralidade de valores de atenuação é aplicado na uma ou mais curvas intermediárias para obter uma pluralidade de curvas de filtro diferentes. Por exemplo, na Figura 51, valores de atenuação diferentes, a saber, os valores de atenuação -0,5, 0, 0,5, 1, 1,5 e 2 foram aplicados em uma curva intermediária. Na prática, aplicar um valor de atenuação de 0 é desnecessário na medida em sempre isso resulta em uma função de zero, e aplicar um valor de atenuação de 1 é desnecessário na medida em que isso não modifica a curva intermediária já existente.
[0304] De acordo com uma modalidade, o gerador de curva de filtro 240 é configurado para determinar uma pluralidade de funções de transferência relacionadas ao cabeçalho dentre a pluralidade de respostas de impulso de espaço binaural extraindo-se uma função de transferência relacionada ao cabeçalho de cada uma das respostas de impulso de espaço binaural. A pluralidade de funções de transferência relacionadas ao cabeçalho pode, por exemplo, ser representada em um domínio espectral. Um valor de altura pode, por exemplo, ser atribuído a cada uma dentre a pluralidade de funções de transferência relacionadas ao cabeçalho. O gerador de curva de filtro 240 pode, por exemplo, ser configurado para gerar duas ou mais curvas de filtro. O gerador de curva de filtro 240 é configurado para gerar cada uma das duas ou mais curvas de filtro subtraindo-se valores espectrais de uma segunda dentre a pluralidade de funções de transferência relacionadas ao cabeçalho de valores espectrais de uma primeira dentre a pluralidade de funções de transferência relacionadas ao cabeçalho, ou dividindo-se os valores espectrais da primeira dentre a pluralidade de funções de transferência relacionadas ao cabeçalho pelos valores espectrais da segunda dentre a pluralidade de funções de transferência relacionadas ao cabeçalho. Além disso, o gerador de curva de filtro 240 é configurado para atribui um valor de altura a cada uma das duas ou mais curvas de filtro subtraindo-se o valor de altura que é atribuído ao primeiro dentre a pluralidade de funções de transferência relacionadas ao cabeçalho do valor de altura que é atribuído à segunda dentre a pluralidade de funções de transferência relacionadas ao cabeçalho. Além disso, as informações de modificação de direção compreendem cada uma das duas ou mais curvas de filtro e o valor de altura que é atribuído à dita curva de filtro. Um valor de altura pode, por exemplo, ser um ângulo de elevação, por exemplo, um ângulo de elevação de uma coordenada de um sistema de coordenadas polares. Ou, um valor de altura pode, por exemplo, ser um valor de coordenada de uma coordenada de um sistema de coordenadas cartesiano.
[0305] Em tal modalidade, uma pluralidade de curvas de filtro é gerada. Tal modalidade pode ser adequada para interagir com um aparelho 100 da Figura 1a que seleciona uma curva de filtro selecionada dentre uma pluralidade de curvas de filtro.
[0306] Em uma modalidade, o gerador de curva de filtro 240 é configurado para determinar uma pluralidade de funções de transferência relacionadas ao cabeçalho dentre a pluralidade de respostas de impulso de espaço binaural extraindo-se uma função de transferência relacionada ao cabeçalho de cada uma das respostas de impulso de espaço binaural. A pluralidade de funções de transferência relacionadas ao cabeçalho é representada em um domínio espectral. Um valor de altura pode, por exemplo, ser atribuído a cada uma dentre a pluralidade de funções de transferência relacionadas ao cabeçalho. O gerador de curva de filtro 240 pode, por exemplo, ser configurado para gerar exatamente uma curva de filtro. Além disso, o gerador de curva de filtro 240 pode, por exemplo, ser configurado para gerar a exatamente uma curva de filtro subtraindo-se valores espectrais de uma segunda dentre a pluralidade de funções de transferência relacionadas ao cabeçalho de valores espectrais de uma primeira dentre a pluralidade de funções de transferência relacionadas ao cabeçalho, ou dividindo-se os valores espectrais da primeira dentre a pluralidade de funções de transferência relacionadas ao cabeçalho pelos valores espectrais da segunda dentre a pluralidade de funções de transferência relacionadas ao cabeçalho. O gerador de curva de filtro 240 pode, por exemplo, ser configurado para atribuir um valor de altura à exatamente uma curva de filtro subtraindo-se o valor de altura que é atribuído à primeira dentre a pluralidade de funções de transferência relacionadas ao cabeçalho do valor de altura que é atribuído à segunda dentre a pluralidade de funções de transferência relacionadas ao cabeçalho. As informações de modificação de direção podem, por exemplo, compreender a exatamente uma curva de filtro e o valor de altura que é atribuído à exatamente uma curva de filtro. Um valor de altura pode, por exemplo, ser um ângulo de elevação, por exemplo, um ângulo de elevação de uma coordenada de um sistema de coordenadas polares. Ou, um valor de altura pode, por exemplo, ser um valor de coordenada de uma coordenada de um sistema de coordenadas cartesiano.
[0307] Em tal modalidade, apenas uma única curva de filtro é gerada. Tal modalidade pode ser adequada para interagir com um aparelho 100 da Figura 1a que modifica uma curva de filtro de referência.
[0308] A Figura 1c ilustra um sistema 300 de acordo com uma modalidade.
[0309] O sistema 300 compreende o aparelho 200 da Figura 1b para fornecer informações de modificação de direção.
[0310] Além disso, o sistema 300 compreende o aparelho 100 da Figura 1a. Na modalidade ilustrada pela Figura 1c, a unidade de filtro 120 do aparelho 100 da Figura 1a é configurada para filtrar o sinal de entrada de áudio para obter um sinal de áudio binaural como o sinal de áudio filtrado que tem exatamente dois canais de áudio dependendo das informações de filtro.
[0311] Na modalidade da Figura 1c, o determinador de informações de filtro 110 do aparelho 100 da Figura 1a é configurado para determinar as informações de filtro com o uso de seleção, dependendo das informações de altura de entrada, de uma curva de filtro selecionada dentre uma pluralidade de curvas de filtro. Ou, na modalidade da Figura 1c, o determinador de informações de filtro 110 do aparelho 100 da Figura 1a é configurado para determinar as informações de filtro com o uso de determinação de uma curva de filtro modificada modificando-se uma curva de filtro de referência dependendo das informações de elevação.
[0312] Na modalidade da Figura 1c, as informações de modificação de direção fornecidas pelo aparelho 200 da Figura 1b compreendem a pluralidade de curvas de filtro ou a curva de filtro de referência.
[0313] Além disso, na modalidade da Figura 1c, o determinador de informações de filtro 110 do aparelho 100 da Figura 1a é configurado para receber informações de entrada em uma função de transferência relacionada ao cabeçalho de entrada. Além disso, o determinador de informações de filtro 110 do aparelho 100 da Figura 1a é configurado para determinar as informações de filtro determinando-se uma função de transferência relacionada ao cabeçalho modificada modificando-se a função de transferência relacionada ao cabeçalho de entrada dependendo da curva de filtro selecionada ou dependendo da curva de filtro modificada.
[0314] A Figura 45 retrata um sistema, de acordo com uma modalidade particular, em que o sistema da Figura 48 compreende um aparelho 100 para gerar um sinal de áudio filtrado de um sinal de entrada de áudio, de acordo com uma modalidade, e um aparelho 200 para fornecer informações de modificação de direção de acordo com uma modalidade.
[0315] Da mesma maneira, nas Figuras 46 a 48, sistemas, de acordo com modalidades particulares, são retratados, em que cada sistema de cada uma das Figuras 46 a 48 compreende um aparelho 100 para gerar um sinal de áudio filtrado de um sinal de entrada de áudio, de acordo com uma modalidade, e um aparelho 200 para fornecer informações de modificação de direção de acordo com uma modalidade.
[0316] Em cada uma das Figuras 45 a 48, o aparelho 100 para gerar um sinal de áudio filtrado de um sinal de entrada de áudio, de acordo com a modalidade da respectiva Figura, retrata uma modalidade que pode ser realizada sem o aparelho 200 para fornecer informações de modificação de direção daquela Figura. Da mesma forma, em cada uma dentre a Figura 45 à Figura 48, o aparelho 200 para fornecer informações de modificação de direção de acordo com a modalidade da respectiva Figura retrata uma modalidade que pode ser realizada sem o aparelho 100 para gerar um sinal de áudio filtrado a partir de um sinal de entrada de áudio daquela Figura. Dessa forma, a descrição fornecida para a Figura 45 à Figura 48 não é apenas uma descrição para o respectivo sistema, mas uma descrição para um aparelho 100 para gerar um sinal de áudio filtrado a partir de um sinal de entrada de áudio de acordo com a modalidade que é implantada sem um aparelho para fornecer coeficientes de filtro de modificação de direção, e é também uma descrição para um aparelho 200 para fornecer informações de modificação de direção que é implantado sem um aparelho para gerar som direcional.
[0317] Primeiramente, a preparação de filtro binaural offline, de acordo com as modalidades, é descrita.
[0318] Na Figura 45, um aparelho 200 para fornecer informações de modificação de direção de acordo com uma modalidade particular é ilustrado. Os alto-falantes 211 e 212 da Figura 1b e os microfones 221 e 222 não são mostrados para motivos ilustrativos.
[0319] Um conjunto de BRIRs (respostas de impulso de espaço binaural) que foram determinadas para uma pluralidade de alto-falantes diferentes 211, 212, localizados em posições diferentes, é gerado pelo determinador de resposta de impulso de espaço binaural 230. Pelo menos parte da pluralidade de alto-falantes diferentes está localizada em posições diferentes em elevações diferentes (por exemplo, as posições desses alto-falantes exibem ângulos de elevação diferentes). As BRIRs determinadas podem, por exemplo, ser armazenadas em um armazenamento de BRIR 251 (por exemplo, em uma memória ou, por exemplo, em um banco de dados).
[0320] Na Figura 45, o gerador de curva de filtro 240 compreende um analisador de dica de direção 241 e um gerador de filtro de modificação de direção 242.
[0321] A partir do conjunto de BRIRs de referência, o analisador de dica de direção 241 pode, por exemplo, isolar as dicas importantes para percepção direcional, por exemplo, em uma análise de dica de elevação. Por meio disso, os coeficientes de filtro de base de elevação podem, por exemplo, ser criados. As dicas importantes podem, por exemplo, ser atributos dependentes de frequência, atributos dependentes de tempo ou atributos dependentes de fase de partes específicas do conjunto de filtro de BRIR de referência.
[0322] A extração pode, por exemplo, ser feita com o uso de ferramentas, como uma matriz de microfone esférica ou um modelo de espaço geométrico, para capturar apenas partes específicas do ‘Conjunto de Filtro de BRIR de Referência’, como a reflexão de som a partir de uma parede ou do teto.
[0323] O aparelho 200 para fornecer informações de modificação de direção pode compreender ferramentas, como a matriz de microfone esférica ou o modelo de espaço geométrico, mas não tem que compreender tais ferramentas.
[0324] Nas modalidades em que o aparelho para fornecer coeficientes de filtro de modificação de direção não compreende ferramentas como a matriz de microfone esférica ou o modelo de espaço geométrico, dados de tais ferramentas como a matriz de microfone esférica ou o modelo de espaço geométrico podem, por exemplo, ser fornecidos como entrada ao aparelho para fornecer coeficientes de filtro de modificação de direção.
[0325] O aparelho para fornecer coeficientes de filtro de modificação de direção da Figura 45 compreende adicionalmente o gerador de filtro de modificação de direção 242. As informações da análise de dica de direção, por exemplo, conduzida pelo analisador de dica de direção, são usadas pelo gerador de filtro de modificação de direção 242 para gerar uma ou mais curvas intermediárias. O gerador de filtro de modificação de direção 242 gera, então, uma pluralidade de curvas de filtro a partir da uma ou mais curvas intermediárias, por exemplo, alongando-se ou comprimindose a curva intermediária. As curvas de filtro resultantes, por exemplo, seus coeficientes podem ser, então, armazenadas em um armazenamento de curva de filtro 252 (por exemplo, em uma memória ou, por exemplo, em um banco de dados).
[0326] Por exemplo, o gerador de filtro de modificação de direção 242 pode, por exemplo, gerar apenas uma curva intermediária. Então, para algumas elevações (por exemplo, para ângulos de elevação -15°, -55° e -90°) as curvas de filtro podem ser, então, geradas pelo gerador de filtro de modificação de direção 242 dependendo da curva intermediária gerada.
[0327] O determinador de impulso de espaço binaural 230 e o gerador de curva de filtro 240 da Figura 45 são descritos, agora, em mais detalhes com referência à Figura 49 e à Figura 50.
[0328] A Figura 49 retrata uma ilustração esquemática que mostra um ouvinte 491, dois alto-falantes 211, 212 em duas elevações diferentes e uma fonte de som virtual 492.
[0329] Na Figura 49, o primeiro alto-falante 211 com uma elevação de 0° (o alto- falante não é elevado) e o segundo alto-falante 212 com uma elevação de -15° (o alto-falante é abaixado em 15°) são retratados.
[0330] O primeiro alto-falante 211 emite um primeiro sinal que é registrado, por exemplo, pelos dois microfones 221, 222 da Figura 1b (não mostrados na Figura 49). O determinador de impulso de espaço binaural 230 (não mostrado na Figura 49) determina uma primeira resposta de impulso de espaço binaural e a elevação de 0° do primeiro alto-falante 211 é atribuída àquela primeira resposta de impulso de espaço binaural.
[0331] Então, o segundo alto-falante 212 emite um segundo sinal que é novamente registrado, por exemplo, pelos dois microfones 221, 222. O determinador de impulso de espaço binaural 230 determina uma segunda resposta de impulso de espaço binaural e a elevação de -15° do segundo alto-falante 212 é atribuída àquela segunda resposta de impulso de espaço binaural.
[0332] O analisador de dica de direção 241 da Figura 45 pode, por exemplo, agora, extrair uma função de transferência relacionada ao cabeçalho de cada uma das duas respostas de impulso de espaço binaural.
[0333] Após isso, o gerador de filtro de modificação de direção 242 pode, por exemplo, determinar uma diferença espectral entre as duas funções de transferência relacionadas ao cabeçalho determinadas.
[0334] A diferença espectral pode, por exemplo, ser considerada como uma curva intermediária, conforme descrito acima. Para determinar uma pluralidade de curvas de filtro a partir dessa diferença espectral determinada, o gerador de filtro de modificação de direção 242 pode, agora, ponderar essa curva intermediária com uma pluralidade de fatores de alargamento diferentes (também denominados como valores de amplificação). Cada valor de amplificação que é aplicado gerou uma nova curva de filtro e é associado a um novo ângulo de elevação.
[0335] Se o fator de alongamento se tornar maior, a correção/modificação da curva intermediária, por exemplo, a elevação da curva intermediária (que era -15°) diminui adicionalmente (por exemplo, para -30°; nova elevação < -15°).
[0336] Se, por exemplo, um fator de alongamento negativo for aplicado, a correção/modificação da curva intermediária, por exemplo, a elevação da curva intermediária (que foi -15°) aumenta (a elevação aumenta e se torna maior que -15°; nova elevação > -15°).
[0337] A Figura 50 ilustra curvas de filtro que resultam da aplicação de valores de amplificação diferentes (fatores de alargamento) em uma curva intermediária de acordo com uma modalidade.
[0338] De volta à Figura 45, aqui, um aparelho 100 para gerar um sinal de áudio filtrado compreende um determinador de informações de filtro 110 e uma unidade de filtro 120. Na Figura 45, o determinador de informações de filtro 110 compreende um seletor de filtro de modificação de direção 111 e um processador de informações de modificação de direção de filtro 115. O processador de filtro de informações de modificação de direção 115 pode, por exemplo, aplicar a curva de filtro selecionada no início temporal de resposta de impulso de espaço binaural.
[0339] O seletor de filtro de modificação de direção 111 seleciona uma curva dentre a pluralidade de curvas de filtro fornecidas pelo aparelho 200 como uma curva de filtro selecionada. Em particular, o seletor de filtro de modificação de direção 111 da Figura 45 seleciona uma curva de filtro selecionada (também denominada como uma curva de correção) dependendo da entrada de direção, particularmente dependendo das informações de elevação.
[0340] A curva de filtro selecionada pode, por exemplo, ser selecionada a partir do armazenamento de curva de filtro 252 (também denominado como recipiente de coeficientes de filtro de direção). No armazenamento de curva de filtro 252, uma curva de filtro pode, por exemplo, ser armazenada armazenando-se seus coeficientes de filtro ou armazenando-se seus valores espectrais.
[0341] Então, o processador de informações de modificação de direção de filtro 115 aplica coeficientes de filtro ou valores espectrais da curva de filtro selecionada em uma função de transferência relacionada ao cabeçalho de entrada para obter uma função de transferência relacionada ao cabeçalho modificada. A função de transferência relacionada ao cabeçalho modificada é, então, usada pela unidade de filtro 120 do aparelho 100 da Figura 45 para renderização binaural.
[0342] A função de transferência relacionada ao cabeçalho de entrada também pode, por exemplo, ser determinada pelo aparelho 200.
[0343] A unidade de filtro 120 da Figura 45 pode, por exemplo, conduzir renderização binaural com base em medições de BRIR existentes (e, por exemplo, possivelmente pré-processadas).
[0344] Em relação ao aparelho 200, a modalidade da Figura 46 é diferente da modalidade da Figura 45 pelo fato de que o gerador de curva de filtro 240 compreende um gerador de filtro de base de modificação de direção 243 em vez de um gerador de filtro de modificação de direção 242.
[0345] O gerador de filtro de base de modificação de direção 243 é configurado para gerar apenas uma única curva de filtro a partir das respostas de impulso de espaço binárias como uma curva de filtro de referência (também denominada como uma curva de filtro de correção de base).
[0346] Em relação ao aparelho 100, a modalidade da Figura 46 é diferente da modalidade da Figura 45 pelo que de que o determinador de informações de filtro compreende um gerador de filtro de modificação de direção I 112. O gerador de filtro de modificação de direção I 112 é configurado para modificar a curva de filtro de referência do aparelho 200, por exemplo, alongando-se ou comprimindo-se a curva de filtro de referência (dependendo das informações de altura de entrada).
[0347] Na Figura 47, o aparelho 200 corresponde ao aparelho 200 da Figura 45. O aparelho 200 gera uma pluralidade de curvas de filtro.
[0348] O aparelho 100 da Figura 47 é diferente do aparelho 100 da Figura 45 pelo fato de que o determinador de informações de filtro 110 do aparelho 100 da Figura 47 compreende um gerador de filtro de modificação de direção II 113 em vez de um seletor de filtro de modificação de direção 111.
[0349] O gerador de filtro de modificação de direção II 113 seleciona uma curva dentre a pluralidade de curvas de filtro fornecidas pelo aparelho 200 como uma curva de filtro selecionada. Em particular, o seletor de filtro de modificação de direção 111 da Figura 45 seleciona uma curva de filtro selecionada (também denominada como uma curva de correção) dependendo da entrada de direção, particularmente dependendo das informações de elevação. Após selecionar a curva de filtro selecionada, o gerador de filtro de modificação de direção II 113 modifica a curva de filtro selecionada, por exemplo, alongando-se ou comprimindo-se a curva de filtro de referência (dependendo das informações de altura de entrada).
[0350] Em uma modalidade alternativa, o gerador de filtro de modificação de direção II 113 interpola entre duas dentre a pluralidade de curvas de filtro fornecidas pelo aparelho 200, por exemplo, dependendo das informações de altura de entrada, e gera uma curva de filtro interpolada a partir dessas duas curvas de filtro.
[0351] A Figura 48 ilustra um aparelho 100 para gerar um sinal de áudio filtrado de acordo com uma modalidade diferente.
[0352] Na modalidade da Figura 48, o determinador de informações de filtro 110 pode, por exemplo, ser implantado como na modalidade da Figura 45 ou como na modalidade da Figura 46 ou como na modalidade da Figura 47.
[0353] Na modalidade da Figura 48, a unidade de filtro 120 compreende um renderizador binaural 121 que conduz renderização binaural para obter um sinal de áudio binaural intermediário que compreende dois canais de áudio intermediários.
[0354] Além disso, a unidade de filtro 120 compreende um processador de filtro corretor de direção 122 que é configurado para filtrar os dois canais de áudio intermediários do sinal de áudio binaural intermediário dependendo das informações de filtro fornecidas pelo determinador de informações de filtro 110.
[0355] Dessa forma, na modalidade da Figura 48, primeiramente, a renderização binaural é conduzida. A adaptação de elevação virtual é conduzida posteriormente pelo processador de filtro corretor de direção 122.
[0356] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é evidente que esses aspectos também representam uma descrição do método correspondente, em que um bloco ou um dispositivo corresponde a uma etapa do método ou um recurso de uma etapa do método. De modo análogo, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item ou recurso correspondente de um aparelho correspondente. Algumas ou todas as etapas do método podem ser executadas por (ou com o uso de) um aparelho de hardware, como, por exemplo, um microprocessador, um computador programável ou um circuito eletrônico. Em algumas modalidades, uma ou mais das etapas mais importantes do método podem ser executadas por tal aparelho.
[0357] Dependendo de determinadas exigências de implantação, as modalidades da invenção podem ser implantadas em hardware ou em software, ou pelo menos parcialmente em hardware, ou pelo menos parcialmente em software. A implantação pode ser desempenhada com a utilização de uma mídia de armazenamento digital, por exemplo, um disquete, um DVD, um Blu-Ray, um CD, uma ROM, uma PROM, uma EPROM, uma EEPROM ou uma memória Flash, que tem sinais de controle eletronicamente legíveis armazenados no mesmo, que cooperam (ou têm a capacidade de cooperar) com um sistema de computador programável de tal modo que o respectivo método seja realizado. Portanto, o meio de armazenamento digital pode ser legível por computador.
[0358] Algumas modalidades de acordo com a invenção compreendem uma portadora de dados que tem sinais de controle eletronicamente legíveis, os quais têm capacidade para cooperar com um sistema de computador programável, de modo que um dos métodos descritos no presente documento seja executado.
[0359] Em geral, as modalidades da presente invenção podem ser implantadas como um produto de programa de computador com um código de programa, em que o código de programa é operacional para realizar um dos métodos quando o produto de programa de computador opera em um computador. O código de programa pode, por exemplo, ser armazenado em uma portadora legível por máquina.
[0360] Outras modalidades compreendem o programa de computador para realizar um dos métodos descritos no presente documento armazenado em uma portadora legível por máquina.
[0361] Em outras palavras, uma modalidade do método inventivo é, portanto, um programa de computador que tem um código de programa para desempenho de um dos métodos descritos no presente documento, quando o programa de computador é executado em um computador.
[0362] Uma modalidade adicional dos métodos inventivos é, portanto, uma portadora de dados (ou uma mídia de armazenamento digital, ou uma mídia legível por computador) que compreende, registrado no mesmo, o programa de computador para desempenho de um dentre os métodos descritos no presente documento. A portadora de dados, a mídia de armazenamento digital ou a mídia registrada são tipicamente tangíveis e/ou não transitórias.
[0363] Uma modalidade adicional do método da invenção é, portanto, um fluxo de dados ou uma sequência de sinais que representa o programa de computador para realizar um dos métodos descritos no presente documento. O fluxo de dados ou a sequência de sinais pode ser configurado, por exemplo, para ser transferido por meio de uma conexão de comunicação de dados, por exemplo, por meio da internet.
[0364] Uma modalidade adicional compreende meios de processamento, por exemplo, um computador ou um dispositivo de lógica programável, configurados ou adaptados para realizar um dos métodos descritos no presente documento.
[0365] Uma modalidade adicional compreende um computador que tem instalado em si o programa de computador para desempenho de um dos métodos descritos no presente documento.
[0366] Uma modalidade adicional, de acordo com a invenção, compreende um aparelho e um sistema configurados para transferir (por exemplo, de modo eletrônico ou óptico) um programa de computador para desempenho de um dos métodos descritos no presente documento para um receptor. O receptor pode, por exemplo, ser um computador, um dispositivo móvel, um dispositivo de memória ou semelhantes. O aparelho ou o sistema pode compreender, por exemplo, um servidor de arquivo para transferir o programa de computador para o receptor.
[0367] Em algumas modalidades, um dispositivo de lógica programável (por exemplo, uma matriz de portas programável em campo) pode ser usado para realizar algumas ou todas as funcionalidades dos métodos descritos no presente documento. Em algumas modalidades, uma matriz de portas programável em campo pode cooperar com um microprocessador a fim de realizar um dentre os métodos descritos no presente documento. De modo geral, os métodos são realizados, de preferência, por meio de qualquer aparelho de hardware.
[0368] O aparelho descrito no presente documento pode ser implantado com o uso de um aparelho de hardware, ou com o uso de um computador, ou com o uso de uma combinação de um aparelho de hardware e um computador.
[0369] Os métodos descritos no presente documento podem ser desempenhados com a utilização de um aparelho de hardware, ou com a utilização de um computador, ou com a utilização de uma combinação de um aparelho de hardware e um computador.
[0370] As modalidades descritas acima são meramente ilustrativas para os princípios da presente invenção. Entende-se que as modificações e as variações das disposições e dos detalhes descritos no presente documento serão evidentes para outras pessoas versadas na técnica. Portanto, pretende-se que as mesmas sejam limitadas apenas pelo escopo das reivindicações da patente iminentes e não pelos detalhes específicos apresentados a título de descrição e explicação das modalidades no presente documento. REFERÊNCIAS: Rubak, P. e Johansen, L., “Artificial reverberation based on a pseudorandom impulse response 2”, Proceedings of the 106th AES Convention, 4.875, 8 a 11 de maio, 1999 Kuttruff H. Room Acoustics, Quarta Edição, Spon Press, 2000 Jens Blauert, Rãumliches Horen, S. Hirzel Verlag, Stuttgart, 1974 https://commons.wikimedia.org/wiki/File:Akustik_- _Richtungsb%C3%A4nder.svg Litovsky et. al., Precedence effect, J. Acoust. Soc. Am. Vol. 106, no 4. Pt. 1. outubro de 1999 V. Pullki, M. Karjalainen, Communication Acoustics, Wiley, 2015 http://www.sengpielaudio.com/PraktischeDatenZurStereo-Lokalisation.pdfhttp://www.sengpielaudio.com/Haas-Effekt.pdf G. Theile. On the Standardization of the Frequency Response of High Quality Studio Headphones. AES convention 77, 1985 F. Fleischmann, Messung, Vergleich e psychoakustische Evaluierung von Kopfhõrer-Übertragungsm^en, FAU Erlangen, Diplomarbeit, 2011 A Simple, Robust Measure of Reverberation Echo Density, J. Abel, P. Huang, AES 121st Convention, 5 a 8 de outubro de 2006. Perceptual Evaluation of Model- and Signal-Based Predictors of the Mixing Time in Binaural Room Impulse Responses, A. Lindau, L. Kosanke, S. Weinzierl, J. Audio Eng. Soc., Vol. 60, no 11, novembro de 2012 Rubak, P. and Johansen, L., “Artificial reverberation based on a pseudo-random impulse response," in Proceedings of the 104th AES Convention, pré- impressão 4875, Amsterdã, Países Baixos, 16 a 19 de maio, 1998. Rubak, P. e Johansen, L., “Artificial reverberation based on a pseudorandom impulse response II," in Proceedings of the 106th AES Convention, pré- impressão 4875, Munique, Alemanha, 8 a 11 de maio, 1999. Jot, J.-M., Cerveau, L., e Warusfel, O., “Analysis and synthesis of room reverberation based on a statistical time-frequency model," in Proceedings of the 103rd AES Convention, pré-impressão 4629, Nova Iorque, 26 a 29 de setembro, 1997. Stanley Smith Stevens: Psychoacoustics. John Wiley & Sons, 1975 http://www.mathworks.com/matlabcentral/mlc- downloads/downloads/submissions/ 43856/versions/8/screenshot.jpg Fourier Acoustics, Sound Radiation and Nearfield Acoustical Holography, Earl. G. Williams, Academic Press, 1999 Richtungsdetektion mit dem Eigenmike Mikrofonarray, Messung und Analyse, M. Brandner, IEM, Kunst Uni Graz, 2013 Bandwidth Extension for Microphone Arrays, B. Bernschütz, AES 8751, outubro de 2012 Zotter, F. (2009): Analysis and Synthesis of Sound-Radiation with Spherical Arrays. Dissertation, University of Music and Performing Arts Graz Sank J.R., Improved Real-Ear Test for Stereophones. J. Audio Eng Soc 28 (1980), no 4, S.206 a 218 Spikofski, G. Das Diffusfeldsonden-Übertragungsmass eines Studiokopfhorers. Rundfunktechnische Mitteilung Nr. 3, 1988 Vision and Technique behind the New Studios and Listening Rooms of the Fraunhofer IIS Audio Laboratory, A. Silzle, AES 7672, maio de 2009 https://hps.oth-regensburg.de/~elektrogitarre/pdfs/kunstkopf.pdf Localization with Binaural Recordings from Artificial and Human Heads, P. Minhaar, S. Olesen, F. Christensen, H. Moller, J Audio Eng. Soc, Vol 49, no 5, maio de 2001 http://www.f07.fh- koeln.de/einrichtungen/nachrichtentechnik/forschung_kooperationen/aktuelle_projekt e/asar/00534/index.html Entwurf und Aufbau eines variable sphãrischen Mikrofonarrays für Forschungsanwendungen in Raumakustik und Virtual Audio. B. Bernschütz, C. Porschmann, S. Spors, S. Weinzierl, DAGA 2010, Berlin Farina, A. Advances in Impulse Response Measurements by Sine Sweeps. AES Convention 122. Wien, maio de 2007 Weinzierl, S. et. al. Generalized multiple sweep measurement. AES Convention 126, 7767. Munich, maio de 2009 Weinzierl, S. Handbuch der Audiotechnik. Springer, 2008 https://web.archive.org/web/20160615231517/https://code.google.com/p/s ofia-toolbox/wiki/WELCOME E. C. Cherry. “Some experiments on the recognition of speech with one and with two ears”. J. Acoustical Soc. Am. vol. 25 pp. 975 a 979 (1953). https://ccrma.stanford.edu/~jos/bbt/Equivalent_Rectangular_Bandwidth.ht ml http://de.mathworks.com/help/sinal/ref/rceps.html

Claims (24)

1. Aparelho (100) para gerar um sinal de áudio filtrado a partir de um sinal de entrada de áudio, sendo que o aparelho (100) é caracterizado por compreender: um determinador de informações de filtro (110) que é configurado para determinar informações de filtro dependendo das informações de altura de entrada, em que as informações de altura de entrada dependem de uma altura de uma fonte de som virtual (492), e uma unidade de filtro (120) que é configurada para filtrar o sinal de entrada de áudio para adquirir o sinal de áudio filtrado dependendo das informações de filtro, em que o determinador de informações de filtro (110) é configurado para determinar as informações de filtro com o uso de seleção, dependendo das informações de altura de entrada, de uma curva de filtro selecionada dentre uma pluralidade de curvas de filtro, ou em que o determinador de informações de filtro (110) é configurado para determinar as informações de filtro com o uso de determinação de uma curva de filtro modificada modificando-se uma curva de filtro de referência dependendo das informações de altura de entrada.
2. Aparelho (100), de acordo com a reivindicação 1, caracterizado por o determinador de informações de filtro (110) ser configurado para determinar as informações de filtro de modo que a unidade de filtro (120) modifique uma primeira porção espectral do sinal de entrada de áudio, e de modo que a unidade de filtro (120) não modifique uma segunda porção espectral do sinal de entrada de áudio.
3. Aparelho (100), de acordo com a reivindicação 1, caracterizado por o determinador de informações de filtro (110) ser configurado para determinar as informações de filtro de modo que a unidade de filtro (120) amplifique uma primeira porção espectral do sinal de entrada de áudio por um primeiro valor de amplificação, e de modo que a unidade de filtro (120) amplifique uma segunda porção espectral do sinal de entrada de áudio por um segundo valor de amplificação, em que o primeiro valor de amplificação é diferente do segundo valor de amplificação.
4. Aparelho (100), de acordo com a reivindicação 1, caracterizado por as informações de altura de entrada indicarem pelo menos um valor de coordenada de uma coordenada de um sistema de coordenada, em que a coordenada indica uma posição da fonte de som virtual.
5. Aparelho (100), de acordo com a reivindicação 4, caracterizado por: o sistema de coordenada ser um sistema de coordenada Cartesiana tridimensional, e as informações de altura de entrada serem uma coordenada do sistema de coordenada Cartesiana tridimensional ou ser um valor de coordenada de três valores de coordenada da coordenada do sistema de coordenada Cartesiana tridimensional, ou o sistema de coordenada ser um sistema de coordenada polar, e as informações de altura de entrada são um ângulo de elevação de uma coordenada polar do sistema de coordenada polar.
6. Aparelho (100), de acordo com a reivindicação 5, caracterizado por o determinador de informações de filtro (110) ser configurado para determinar as informações de filtro com o uso de seleção, dependendo das informações de altura de entrada, da curva de filtro selecionada dentre a pluralidade de curvas de filtro, e em que as informações de altura de entrada são o dito valor de coordenada dos três valores de coordenada da coordenada do sistema de coordenada tridimensional que é um valor de coordenada de entrada, em que cada curva de filtro da pluralidade de curvas de filtro compreende um valor de coordenada que é designado para a dita curva de filtro, e o determinador de informações de filtro (110) é configurado para selecionar como a curva de filtro selecionada uma curva de filtro dentre a pluralidade de curvas de filtro com uma menor diferença absoluta entre o valor de coordenada de entrada e o valor de coordenada que é designado para a dita curva de filtro dentre toda a pluralidade de curvas de filtro, ou em que as informações de altura de entrada são o ângulo de elevação que é um ângulo de elevação de entrada, sendo que cada curva de filtro da pluralidade de curvas de filtro compreende um ângulo de elevação é designada para a dita curva de filtro, e o determinador de informações de filtro (110) é configurado para selecionar como a curva de filtro selecionada uma curva de filtro dentre a pluralidade de curvas de filtro com uma menor diferença absoluta entre o ângulo de elevação de entrada e o ângulo de elevação que é designado para a dita curva de filtro dentre toda a pluralidade de curvas de filtro.
7. Aparelho (100), de acordo com a reivindicação 6, caracterizado por o determinador de informações de filtro (110) ser configurado para amplificar a curva de filtro selecionada por um valor de amplificação determinado para adquirir uma curva de filtro processada, ou o determinador de informações de filtro (110) ser configurado para atenuar a curva de filtro selecionada por um valor de atenuação determinado para adquirir a curva de filtro processada, em que a unidade de filtro (120) é configurada para filtrar o sinal de entrada de áudio para adquirir o sinal de áudio filtrado dependendo da curva de filtro processada, e em que o determinador de informações de filtro (110) é configurado para determinar o valor de amplificação determinado ou o valor de atenuação determinado dependendo de uma diferença entre o valor de coordenada de entrada e o valor de coordenada que é designado para a curva de filtro selecionada, ou o determinador de informações de filtro (110) é configurado para determinar o valor de amplificação determinado ou o valor de atenuação determinado dependendo de uma diferença entre o ângulo de elevação e o ângulo de elevação que é designado para a curva de filtro selecionada.
8. Aparelho (100), de acordo com a reivindicação 1, caracterizado por: o determinador de informações de filtro (110) ser configurado para determinar as informações de filtro com o uso de determinação da curva de filtro modificada modificando-se a curva de filtro de referência dependendo das informações de altura de entrada, e o determinador de informações de filtro (110) ser configurado para amplificar a curva de filtro de referência por um valor de amplificação determinado para adquirir a curva de filtro modificada, ou o determinador de informações de filtro (110) é configurado para atenuar a curva de filtro de referência por um valor de atenuação determinado para adquirir a curva de filtro modificada.
9. Aparelho (100), de acordo com a reivindicação 1, caracterizado por: o determinador de informações de filtro (110) ser configurado para determinar as informações de filtro com o uso de seleção, dependendo das informações de altura de entrada, da curva de filtro selecionada dentre uma pluralidade de curvas de filtro como uma primeira curva de filtro selecionada, o determinador de informações de filtro (110) ser configurado para determinar as informações de filtro com o uso de seleção, dependendo das informações de altura de entrada, de uma segunda curva de filtro selecionada dentre a pluralidade de curvas de filtro, e o determinador de informações de filtro (110) ser configurado para determinar uma curva de filtro interpolada interpolando-se entre a primeira curva de filtro selecionada e a segunda curva de filtro selecionada.
10. Aparelho (100), de acordo com a reivindicação 1, caracterizado por: o determinador de informações de filtro (110) ser configurado para determinar as informações de filtro com o uso de seleção, dependendo das informações de altura de entrada, da curva de filtro selecionada dentre a pluralidade de curvas de filtro, em que cada um dentre a pluralidade de curvas de filtro compreende um máximo global ou um mínimo global entre 700 Hz e 2.000 Hz, ou o determinador de informações de filtro (110) ser configurado para determinar as informações de filtro com o uso de determinação da curva de filtro modificada, modificando-se a curva de filtro de referência dependendo das informações de altura de entrada, em que o filtro de referência compreende um máximo global ou um mínimo global entre 700 Hz e 2.000 Hz.
11. Aparelho (100), de acordo com a reivindicação 1, caracterizado por: o determinador de informações de filtro (110) ser configurado para determinar informações de filtro dependendo das informações de altura de entrada e também dependendo de informações de azimute de entrada, e o determinador de informações de filtro (110) ser configurado para determinar as informações de filtro com o uso de seleção, dependendo das informações de altura de entrada e dependendo das informações de azimute de entrada, a curva de filtro selecionada dentre a pluralidade de curvas de filtro, ou o determinador de informações de filtro (110) ser configurado para determinar as informações de filtro com o uso de determinação da curva de filtro modificada modificando-se a curva de filtro de referência dependendo das informações de altura de entrada e dependendo das informações de azimute.
12. Aparelho (100), de acordo com a reivindicação 1, caracterizado por a unidade de filtro (120) ser configurada para filtrar o sinal de entrada de áudio para adquirir um sinal de áudio binaural como o sinal de áudio filtrado compreendendo exatamente dois canais de áudio dependendo das informações de filtro, em que o determinador de informações de filtro (110) é configurado para receber informações de entrada em uma função de transferência relacionada ao cabeçalho de entrada, e em que o determinador de informações de filtro (110) é configurado para determinar as informações de filtro determinando-se uma função de transferência relacionada ao cabeçalho modificada modificando-se a função de transferência relacionada ao cabeçalho de entrada dependendo da curva de filtro selecionada ou dependendo da curva de filtro modificada.
13. Aparelho (100), de acordo com a reivindicação 12, caracterizado por a função de transferência relacionada ao cabeçalho de entrada ser representada em um domínio espectral, e em que a curva de filtro selecionada é representada no domínio espectral, ou a curva de filtro modificada é representada no domínio espectral, e em que o determinador de informações de filtro (110) é configurado para determinar a função de transferência relacionada ao cabeçalho modificada adicionando-se valores espectrais da curva de filtro selecionada ou da curva de filtro modificada aos valores espectrais da função de transferência relacionada ao cabeçalho de entrada, ou o determinador de informações de filtro (110) é configurado para determinar a função de transferência relacionada ao cabeçalho modificada multiplicando-se valores espectrais da curva de filtro selecionada ou da curva de filtro modificada e valores espectrais da função de transferência relacionada ao cabeçalho de entrada, ou o determinador de informações de filtro (110) é configurado para determinar a função de transferência relacionada ao cabeçalho modificada subtraindo-se valores espectrais da curva de filtro selecionada ou da curva de filtro modificada de valores espectrais da função de transferência relacionada ao cabeçalho de entrada, ou subtraindo-se valores espectrais da função de transferência relacionada ao cabeçalho de entrada de valores espectrais da curva de filtro selecionada ou da curva de filtro modificada, ou o determinador de informações de filtro (110) é configurado para determinar a função de transferência relacionada ao cabeçalho modificada dividindose valores espectrais da função de transferência relacionada ao cabeçalho de entrada por valores espectrais da curva de filtro selecionada ou da curva de filtro modificada, ou dividindo-se valores espectrais da curva de filtro selecionada ou da curva de filtro modificada por valores espectrais da função de transferência relacionada ao cabeçalho de entrada.
14. Aparelho (100), de acordo com a reivindicação 12, caracterizado por a função de transferência relacionada ao cabeçalho de entrada ser representada em um domínio de tempo, em que a curva de filtro selecionada é representada no domínio de tempo, ou a curva de filtro modificada é representada no domínio de tempo, e em que o determinador de informações de filtro (110) é configurada para determinar a função de transferência relacionada ao cabeçalho modificada convolvendo-se a curva de filtro selecionada ou a curva de filtro modificada e a função de transferência relacionada ao cabeçalho de entrada, ou em que o determinador de informações de filtro (110) é configurado para determinar a função de transferência relacionada ao cabeçalho modificada filtrando- se a curva de filtro selecionada ou a curva de filtro modificada com uma estrutura de filtro não recursiva, ou em que o determinador de informações de filtro (110) é configurado para determinar a função de transferência relacionada ao cabeçalho modificada filtrando- se a curva de filtro selecionada ou a curva de filtro modificada com uma estrutura de filtro recursiva.
15. Sistema (300) caracterizado por compreender: um aparelho (100) para gerar um sinal de áudio filtrado a partir de um sinal de entrada de áudio, em que unidade de filtro (120) é configurada para filtrar o sinal de entrada de áudio para adquirir um sinal de áudio binaural como o sinal de áudio filtrado compreendendo exatamente dois canais de áudio dependendo das informações de filtro, em que o determinador de informações de filtro (110) é configurado para receber informações de entrada em uma função de transferência relacionada ao cabeçalho de entrada, e em que o determinador de informações de filtro (110) é configurado para determinar as informações de filtro determinando-se uma função de transferência relacionada ao cabeçalho modificada, modificando-se a função de transferência relacionada ao cabeçalho de entrada dependendo da curva de filtro selecionada ou dependendo da curva de filtro modificada; um aparelho (200) para fornecer informações de modificação de direção, em que o aparelho (200) para fornecer informações de modificação de direção compreende: uma pluralidade de alto-falantes (211, 212), em que cada um dentre a pluralidade de alto-falantes (211, 212) é configurado para reproduzir novamente um sinal de áudio novamente reproduzido, em que um primeiro dentre a pluralidade de alto-falantes (211, 212) é localizado em uma primeira posição em uma primeira altura, e em que o segundo dentre a pluralidade de alto-falantes (211, 212) é localizado em uma segunda posição que é diferente da primeira posição em uma segunda altura, que é diferente da primeira altura, dois microfones (221, 222), sendo que cada um dos dois microfones (221, 222) é configurado para registrar um sinal de áudio registrado recebendo-se ondas de som de cada alto-falante da pluralidade de alto-falantes (211, 212) emitido pelo dito alto-falante ao reproduzir novamente o sinal de áudio, um determinador de resposta de impulso de espaço binaural (230) que é configurado para determinar uma pluralidade de respostas de impulso de espaço binaural determinando-se uma resposta de impulso de espaço binaural para cada alto-falante da pluralidade de alto-falantes (211, 212) dependendo do sinal de áudio novamente reproduzido que é reproduzido novamente pelo dito alto-falante e dependendo de cada um dos sinais de áudio registrados que são registrados por cada um dos dois microfones (221, 222) quando o dito sinal de áudio novamente reproduzido é reproduzido novamente pelo dito alto-falante, e um gerador de curva de filtro (240) que é configurado para gerar pelo menos uma curva de filtro dependendo de duas dentre a pluralidade de respostas de impulso de espaço binaural, em que as informações de modificação de direção dependem da pelo menos uma curva de filtro, em que o determinador de informações de filtro (110) do aparelho (100), para gerar um sinal de áudio filtrado a partir de um sinal de entrada de áudio, é configurado para determinar informações de filtro com o uso de seleção, dependendo de informações de altura de entrada, de uma curva de filtro selecionada dentre uma pluralidade de curvas de filtro, ou em que o determinador de informações de filtro (110) do aparelho (100), para gerar um sinal de áudio filtrado a partir de um sinal de entrada de áudio, é configurado para determinar as informações de filtro com o uso de determinação de uma curva de filtro modificada modificando-se uma curva de filtro de referência dependendo das informações de altura de entrada, em que informações de modificação de direção fornecida pelo aparelho (200) para fornecer informações de modificação de direção compreende a pluralidade de curvas de filtro ou a curva de filtro de referência.
16. Sistema (300) de acordo com a reivindicação 15, caracterizado por o gerador de curva de filtro (240) do aparelho (200) para fornecer informações de modificação de direção ser configurado para adquirir duas ou mais curvas de filtro filtrando-se uma ou mais curvas intermediárias dependendo da pluralidade de respostas de impulso de espaço binaural, amplificando-se cada uma dentre uma ou mais curvas intermediárias por cada um dentre uma pluralidade de diferentes valores de atenuação.
17. Sistema (300) de acordo com a reivindicação 15, caracterizado por o gerador de curva de filtro (240) do aparelho (200) para fornecer informações de modificação de direção ser configurado para determinar uma pluralidade de funções de transferência relacionadas ao cabeçalho dentre a pluralidade de respostas de impulso de espaço binaural extraindo-se uma função de transferência relacionada ao cabeçalho de cada uma das respostas de impulso de espaço binaural, em que a pluralidade de funções de transferência relacionadas ao cabeçalho é representada em um domínio espectral, em que um valor de altura é designado a cada um dentre a pluralidade de funções de transferência relacionadas ao cabeçalho, em que o gerador de curva de filtro (240) do aparelho (200) para fornecer informações de modificação de direção é configurado para gerar duas ou mais curvas de filtro, em que o gerador de curva de filtro (240) do aparelho (200) para fornecer informações de modificação de direção é configurado para gerar cada uma dentre as duas ou mais curvas de filtro subtraindo-se valores espectrais de uma segunda dentre a pluralidade de funções de transferência relacionadas ao cabeçalho de valores espectrais de uma primeira dentre a pluralidade de funções de transferência relacionadas ao cabeçalho, ou dividindo-se os valores espectrais da primeira dentre a pluralidade de funções de transferência relacionadas ao cabeçalho pelos valores espectrais da segunda dentre a pluralidade de funções de transferência relacionadas ao cabeçalho, em que o gerador de curva de filtro (240) do aparelho (200) para fornecer informações de modificação de direção é configurado para designar um valor de altura para cada uma dentre as duas ou mais curvas de filtro subtraindo-se o valor de altura que é designado para a primeira dentre a pluralidade de funções de transferência relacionadas ao cabeçalho do valor de altura que é designado para a segunda dentre a pluralidade de funções de transferência relacionadas ao cabeçalho, e em que as informações de modificação de direção compreendem cada uma dentre as duas ou mais curvas de filtro e o valor de altura que é designada para a dita curva de filtro.
18. Sistema (300) de acordo com a reivindicação 15, caracterizado por o gerador de curva de filtro (240) do aparelho (200) para fornecer informações de modificação de direção ser configurado para determinar uma pluralidade de funções de transferência relacionadas ao cabeçalho dentre a pluralidade de respostas de impulso de espaço binaural extraindo-se uma função de transferência relacionada ao cabeçalho de cada uma das respostas de impulso de espaço binaural, em que a pluralidade de funções de transferência relacionadas ao cabeçalho é representada em um domínio espectral, em que um valor de altura é designado a cada um dentre a pluralidade de funções de transferência relacionadas ao cabeçalho, em que o gerador de curva de filtro (240) do aparelho (200) para fornecer informações de modificação de direção é configurado para gerar exatamente uma curva de filtro, em que o gerador de curva de filtro (240) do aparelho (200) para fornecer informações de modificação de direção é configurada a exatamente uma curva de filtro subtraindo-se valores espectrais de uma segunda dentre a pluralidade de funções de transferência relacionadas ao cabeçalho de valores espectrais de uma primeira dentre a pluralidade de funções de transferência relacionadas ao cabeçalho, ou dividindo-se os valores espectrais da primeira dentre a pluralidade de funções de transferência relacionadas ao cabeçalho pelos valores espectrais da segunda dentre a pluralidade de funções de transferência relacionadas ao cabeçalho, em que o gerador de curva de filtro (240) do aparelho (200) para fornecer informações de modificação de direção é configurado para designar um valor de altura para a exatamente uma curva de filtro subtraindo-se o valor de altura que é designado para a primeira dentre a pluralidade de funções de transferência relacionadas ao cabeçalho do valor de altura que é designado para a segunda dentre a pluralidade de funções de transferência relacionadas ao cabeçalho, e em que as informações de modificação de direção compreendem a exatamente uma curva de filtro e o valor de altura que é designada para a exatamente uma curva de filtro.
19. Aparelho (200) para fornecer informações de modificação de direção, sendo que o aparelho (200) é caracterizado por compreender: uma pluralidade de alto-falantes (211, 212), em que cada um dentre a pluralidade de alto-falantes (211, 212) é configurado para reproduzir novamente um sinal de áudio novamente reproduzido, em que um primeiro dentre a pluralidade de alto-falantes (211, 212) é localizado em uma primeira posição em uma primeira altura, e em que o segundo dentre a pluralidade de alto-falantes (211, 212) é localizado em uma segunda posição que é diferente da primeira posição, em uma segunda altura, que é diferente da primeira altura, dois microfones (221, 222), sendo que cada um dos dois microfones (221, 222) é configurado para registrar um sinal de áudio registrado recebendo-se ondas de som de cada alto-falante da pluralidade de alto-falantes (211, 212) emitido pelo dito alto-falante ao reproduzir novamente o sinal de áudio, um determinador de resposta de impulso de espaço binaural (230) que é configurado para determinar uma pluralidade de respostas de impulso de espaço binaural determinando-se uma resposta de impulso de espaço binaural para cada alto-falante da pluralidade de alto-falantes (211, 212) dependendo do sinal de áudio novamente reproduzido que é reproduzido novamente pelo dito alto-falante e dependendo de cada um dos sinais de áudio registrados que são registrados por cada um dos dois microfones (221, 222) quando o dito sinal de áudio novamente reproduzido é reproduzido novamente pelo dito alto-falante, e um gerador de curva de filtro (240) que é configurado para gerar pelo menos uma curva de filtro dependendo de duas dentre a pluralidade de respostas de impulso de espaço binaural, em que as informações de modificação de direção dependem da pelo menos uma curva de filtro.
20. Aparelho (200), de acordo com a reivindicação 19, caracterizado por o gerador de curva de filtro (240) ser configurado para adquirir duas ou mais curvas de filtro filtrando-se uma ou mais curvas intermediárias dependendo da pluralidade de respostas de impulso de espaço binaural, amplificando-se cada uma dentre uma ou mais curvas intermediárias por cada um dentre uma pluralidade de diferentes valores de atenuação.
21. Aparelho (200), de acordo com a reivindicação 19, caracterizado por o gerador de curva de filtro (240) ser configurado para determinar uma pluralidade de funções de transferência relacionadas ao cabeçalho da pluralidade de respostas de impulso de espaço binaural extraindo-se uma função de transferência relacionada ao cabeçalho de cada uma das respostas de impulso de espaço binaural, em que a pluralidade de funções de transferência relacionadas ao cabeçalho é representada em um domínio espectral, em que um valor de altura é designado a cada um dentre a pluralidade de funções de transferência relacionadas ao cabeçalho, em que o gerador de curva de filtro (240) é configurado para gerar duas ou mais curvas de filtro, em que o gerador de curva de filtro (240) é configurado para gerar cada uma dentre as duas ou mais curvas de filtro subtraindo-se valores espectrais de uma segunda dentre a pluralidade de funções de transferência relacionadas ao cabeçalho de valores espectrais de uma primeira dentre a pluralidade de funções de transferência relacionadas ao cabeçalho, ou dividindo-se os valores espectrais da primeira dentre a pluralidade de funções de transferência relacionadas ao cabeçalho pelos valores espectrais da segunda dentre a pluralidade de funções de transferência relacionadas ao cabeçalho, em que o gerador de curva de filtro (240) é configurado para designar um valor de altura para cada uma dentre as duas ou mais curvas de filtro subtraindo-se o valor de altura que é designado para a primeira dentre a pluralidade de funções de transferência relacionadas ao cabeçalho do valor de altura que é designado para a segunda dentre a pluralidade de funções de transferência relacionadas ao cabeçalho, e em que as informações de modificação de direção compreendem cada uma dentre as duas ou mais curvas de filtro e o valor de altura que é designada para a dita curva de filtro.
22. Aparelho (200), de acordo com a reivindicação 19, caracterizado por o gerador de curva de filtro (240) ser configurado para determinar uma pluralidade de funções de transferência relacionadas ao cabeçalho da pluralidade de respostas de impulso de espaço binaural extraindo-se uma função de transferência relacionada ao cabeçalho de cada uma das respostas de impulso de espaço binaural, em que a pluralidade de funções de transferência relacionadas ao cabeçalho é representada em um domínio espectral, em que um valor de altura é designado a cada um dentre a pluralidade de funções de transferência relacionadas ao cabeçalho, em que o gerador de curva de filtro (240) é configurado para gerar exatamente uma curva de filtro, em que o gerador de curva de filtro (240) é configurado a exatamente uma curva de filtro subtraindo-se valores espectrais de uma segunda dentre a pluralidade de funções de transferência relacionadas ao cabeçalho de valores espectrais de uma primeira dentre a pluralidade de funções de transferência relacionadas ao cabeçalho, ou dividindo-se os valores espectrais da primeira dentre a pluralidade de funções de transferência relacionadas ao cabeçalho pelos valores espectrais da segunda dentre a pluralidade de funções de transferência relacionadas ao cabeçalho, em que o gerador de curva de filtro (240) é configurado para designar um valor de altura para a exatamente uma curva de filtro subtraindo-se o valor de altura que é designado para a primeira dentre a pluralidade de funções de transferência relacionadas ao cabeçalho do valor de altura que é designado para a segunda dentre a pluralidade de funções de transferência relacionadas ao cabeçalho, e em que as informações de modificação de direção compreendem a exatamente uma curva de filtro e o valor de altura que é designada para a exatamente uma curva de filtro.
23. Método para gerar um sinal de áudio filtrado a partir de um sinal de entrada de áudio, sendo que o método é caracterizado por compreender: determinar informações de filtro dependendo de informações de altura de entrada em que as informações de altura de entrada dependem de uma altura de uma fonte de som virtual (492), e filtrar o sinal de entrada de áudio para adquirir o sinal de áudio filtrado dependendo das informações de filtro, em que a determinação das informações de filtro é conduzida com o uso de seleção, dependendo das informações de altura de entrada, de uma curva de filtro selecionada dentre uma pluralidade de curvas de filtro, ou em que a determinação das informações de filtro é conduzida com o uso de determinação de uma curva de filtro modificada modificando-se uma curva de filtro de referência dependendo das informações de altura de entrada.
24. Método para fornecer informações de modificação de direção, sendo que o método é caracterizado por compreender: para cada alto-falante de uma pluralidade de alto-falantes, reproduzir novamente um sinal de áudio novamente reproduzido pelo dito alto-falante e registrar ondas de som emitidas do dito alto-falante ao reproduzir novamente o dito sinal de áudio novamente reproduzido por dois microfones para adquirir um sinal de áudio registrado para cada um dos dois microfones, em que um primeiro dentre a pluralidade de alto-falantes é localizado em uma primeira posição em uma primeira altura, e em que o segundo dentre a pluralidade de alto-falantes é localizado em uma segunda posição que é diferente da primeira posição, em uma segunda altura, que é diferente da primeira altura, determinar uma pluralidade de respostas de impulso de espaço binaural determinando-se um resposta de impulso de espaço binaural para cada alto-falante da pluralidade de alto-falantes dependendo do sinal de áudio novamente reproduzido que é reproduzido novamente pelo dito alto-falante e dependendo de cada um dos sinais de áudio registrados que é registrado por cada um dos dois microfones quando o dito sinal de áudio novamente reproduzido é reproduzido novamente pelo dito alto-falante, e gerar pelo menos uma curva de filtro dependendo de duas dentre a pluralidade de respostas de impulso de espaço binaural, em que as informações de modificação de direção dependem da pelo menos uma curva de filtro.
BR112018008504-9A 2015-10-26 2016-10-25 Aparelho para gerar um sinal de áudio filtrado e seu método, sistema e método para fornecer informações de modificação de direção BR112018008504B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP15191542 2015-10-26
EP15191542.8 2015-10-26
PCT/EP2016/075691 WO2017072118A1 (en) 2015-10-26 2016-10-25 Apparatus and method for generating a filtered audio signal realizing elevation rendering

Publications (2)

Publication Number Publication Date
BR112018008504A2 BR112018008504A2 (pt) 2018-10-23
BR112018008504B1 true BR112018008504B1 (pt) 2022-10-25

Family

ID=57200022

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112018008504-9A BR112018008504B1 (pt) 2015-10-26 2016-10-25 Aparelho para gerar um sinal de áudio filtrado e seu método, sistema e método para fornecer informações de modificação de direção

Country Status (11)

Country Link
US (1) US10433098B2 (pt)
EP (1) EP3369260B1 (pt)
JP (1) JP6803916B2 (pt)
KR (1) KR102125443B1 (pt)
CN (1) CN108476370B (pt)
BR (1) BR112018008504B1 (pt)
CA (1) CA3003075C (pt)
ES (1) ES2883874T3 (pt)
MX (1) MX2018004828A (pt)
RU (1) RU2717895C2 (pt)
WO (1) WO2017072118A1 (pt)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10805757B2 (en) 2015-12-31 2020-10-13 Creative Technology Ltd Method for generating a customized/personalized head related transfer function
SG10201800147XA (en) 2018-01-05 2019-08-27 Creative Tech Ltd A system and a processing method for customizing audio experience
SG10201510822YA (en) 2015-12-31 2017-07-28 Creative Tech Ltd A method for generating a customized/personalized head related transfer function
WO2018084769A1 (en) * 2016-11-04 2018-05-11 Dirac Research Ab Constructing an audio filter database using head-tracking data
US10334360B2 (en) * 2017-06-12 2019-06-25 Revolabs, Inc Method for accurately calculating the direction of arrival of sound at a microphone array
US10764684B1 (en) * 2017-09-29 2020-09-01 Katherine A. Franco Binaural audio using an arbitrarily shaped microphone array
KR102119239B1 (ko) * 2018-01-29 2020-06-04 구본희 바이노럴 스테레오 오디오 생성 방법 및 이를 위한 장치
KR102119240B1 (ko) * 2018-01-29 2020-06-05 김동준 스테레오 오디오를 바이노럴 오디오로 업 믹스하는 방법 및 이를 위한 장치
US10872602B2 (en) 2018-05-24 2020-12-22 Dolby Laboratories Licensing Corporation Training of acoustic models for far-field vocalization processing systems
US10484784B1 (en) * 2018-10-19 2019-11-19 xMEMS Labs, Inc. Sound producing apparatus
US11503423B2 (en) * 2018-10-25 2022-11-15 Creative Technology Ltd Systems and methods for modifying room characteristics for spatial audio rendering over headphones
CN111107481B (zh) * 2018-10-26 2021-06-22 华为技术有限公司 一种音频渲染方法及装置
US11418903B2 (en) 2018-12-07 2022-08-16 Creative Technology Ltd Spatial repositioning of multiple audio streams
US10966046B2 (en) 2018-12-07 2021-03-30 Creative Technology Ltd Spatial repositioning of multiple audio streams
CN109903256B (zh) * 2019-03-07 2021-08-20 京东方科技集团股份有限公司 模型训练方法、色差校正方法、装置、介质和电子设备
US11221820B2 (en) 2019-03-20 2022-01-11 Creative Technology Ltd System and method for processing audio between multiple audio spaces
US10623882B1 (en) * 2019-04-03 2020-04-14 xMEMS Labs, Inc. Sounding system and sounding method
CN110742583A (zh) * 2019-10-09 2020-02-04 南京沃福曼医疗科技有限公司 一种导管偏振敏感光学相干层析成像解调用光谱整形方法
CN111031463B (zh) * 2019-11-20 2021-08-17 福建升腾资讯有限公司 麦克风阵列性能评测方法、装置、设备和介质
FR3111536B1 (fr) * 2020-06-22 2022-12-16 Morgan Potier Systèmes et procédés pour tester la capacité de localisation sonore spatiale
WO2022108494A1 (en) * 2020-11-17 2022-05-27 Dirac Research Ab Improved modeling and/or determination of binaural room impulse responses for audio applications
CN114339582B (zh) * 2021-11-30 2024-02-06 北京小米移动软件有限公司 双通道音频处理、方向感滤波器生成方法、装置以及介质
CN114630240B (zh) * 2022-03-16 2024-01-16 北京小米移动软件有限公司 方向滤波器的生成方法、音频处理方法、装置及存储介质
WO2023188661A1 (ja) * 2022-03-29 2023-10-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 妨害音抑圧装置、妨害音抑圧方法及び妨害音抑圧プログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3288520B2 (ja) * 1994-02-17 2002-06-04 松下電器産業株式会社 音像位置の上下方向への制御方法
JPH07241000A (ja) * 1994-02-28 1995-09-12 Victor Co Of Japan Ltd 音像定位制御椅子
JPH09224300A (ja) * 1996-02-16 1997-08-26 Sanyo Electric Co Ltd 音像位置の補正方法及び装置
JP3435156B2 (ja) 2001-07-19 2003-08-11 松下電器産業株式会社 音像定位装置
GB0123493D0 (en) * 2001-09-28 2001-11-21 Adaptive Audio Ltd Sound reproduction systems
JP2005109914A (ja) * 2003-09-30 2005-04-21 Nippon Telegr & Teleph Corp <Ntt> 高臨場感音場再生方法、頭部伝達関数データベース作成方法及び高臨場感音場再生装置
US7561706B2 (en) * 2004-05-04 2009-07-14 Bose Corporation Reproducing center channel information in a vehicle multichannel audio system
JP5285626B2 (ja) * 2007-03-01 2013-09-11 ジェリー・マハバブ 音声空間化及び環境シミュレーション
JP2012525051A (ja) * 2009-04-21 2012-10-18 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号の合成
JP5499513B2 (ja) * 2009-04-21 2014-05-21 ソニー株式会社 音響処理装置、音像定位処理方法および音像定位処理プログラム
KR20120004909A (ko) * 2010-07-07 2012-01-13 삼성전자주식회사 입체 음향 재생 방법 및 장치
EP2523473A1 (en) * 2011-05-11 2012-11-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an output signal employing a decomposer
WO2013103256A1 (ko) * 2012-01-05 2013-07-11 삼성전자 주식회사 다채널 음향 신호의 정위 방법 및 장치
CN102665156B (zh) * 2012-03-27 2014-07-02 中国科学院声学研究所 一种基于耳机的虚拟3d重放方法
US9549276B2 (en) 2013-03-29 2017-01-17 Samsung Electronics Co., Ltd. Audio apparatus and audio providing method thereof
EP2802162A1 (en) * 2013-05-07 2014-11-12 Gemalto SA Method for accessing a service, corresponding device and system
CA2943670C (en) 2014-03-24 2021-02-02 Samsung Electronics Co., Ltd. Method and apparatus for rendering acoustic signal, and computer-readable recording medium
EP2925024A1 (en) * 2014-03-26 2015-09-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for audio rendering employing a geometric distance definition
KR101856540B1 (ko) * 2014-04-02 2018-05-11 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치

Also Published As

Publication number Publication date
CN108476370A (zh) 2018-08-31
MX2018004828A (es) 2018-12-10
CA3003075C (en) 2023-01-03
ES2883874T3 (es) 2021-12-09
BR112018008504A2 (pt) 2018-10-23
RU2717895C2 (ru) 2020-03-27
US10433098B2 (en) 2019-10-01
RU2018119087A (ru) 2019-11-29
CA3003075A1 (en) 2017-05-04
JP2019500823A (ja) 2019-01-10
EP3369260A1 (en) 2018-09-05
CN108476370B (zh) 2022-01-25
JP6803916B2 (ja) 2020-12-23
RU2018119087A3 (pt) 2019-11-29
WO2017072118A1 (en) 2017-05-04
US20180249279A1 (en) 2018-08-30
KR20180088650A (ko) 2018-08-06
KR102125443B1 (ko) 2020-06-22
EP3369260B1 (en) 2021-06-30

Similar Documents

Publication Publication Date Title
BR112018008504B1 (pt) Aparelho para gerar um sinal de áudio filtrado e seu método, sistema e método para fornecer informações de modificação de direção
US10531198B2 (en) Apparatus and method for decomposing an input signal using a downmixer
Ahrens et al. An analytical approach to sound field reproduction using circular and spherical loudspeaker distributions
Baumgarte et al. Binaural cue coding-Part I: Psychoacoustic fundamentals and design principles
ES2892773T3 (es) Procesador de audio para generar una señal reverberada a partir de una señal directa y método para el mismo
RU2569346C2 (ru) Устройство и способ генерирования выходного сигнала с применением блока разложения сигнала
EP2002692B1 (en) Rendering center channel audio
RU2663345C2 (ru) Устройство и способ масштабирования центрального сигнала и улучшения стереофонии на основе отношения сигнал-понижающее микширование
Blau et al. Toward realistic binaural auralizations–perceptual comparison between measurement and simulation-based auralizations and the real room for a classroom scenario
Li et al. The effect of variation of reverberation parameters in contralateral versus ipsilateral ear signals on perceived externalization of a lateral sound source in a listening room
Frank et al. Spatial impression and directional resolution in the reproduction of reverberation
Robinson et al. Echo thresholds for reflections from acoustically diffusive architectural surfaces
Gonzalez et al. Predicting perceptual transparency of head-worn devices
Hládek et al. Communication conditions in virtual acoustic scenes in an underground station
Meyer-Kahlen et al. Parametric late reverberation from broadband directional estimates
Fallahi et al. Evaluation of head-tracked binaural auralizations of speech signals generated with a virtual artificial head in anechoic and classroom environments
Marschall et al. A database of near-field head-related transfer functions based on measurements with a laser spark source
Pörschmann et al. Spatial upsampling of individual sparse head-related transfer function sets by directional equalization
Baumgarte et al. Design and evaluation of binaural cue coding schemes
Stade et al. A Perception-Based Parametric Model for Synthetic Late Binaural Reverberation
Raine Clarke The Perceptual Contribution of Pinna Related Transfer Function Attributes in the Median Plane
Wendt Modeling the Perception of Directional Sound Sources in Reverberant Environments
Jú Terbock et al. Spatio-Temporal Windowing for Encoding Perceptually Salient Early Reflections in Parametric Spatial Audio Rendering
Völk et al. Experiments on the loudness-transfer of headphone-based virtual acoustics
Koya Predicting the Overall Spatial Quality of Automotive Audio Systems

Legal Events

Date Code Title Description
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 25/10/2016, OBSERVADAS AS CONDICOES LEGAIS