BR112016001249B1 - Método para o processamento de um sinal de áudio de acordo com uma resposta de impulso de ambiente, unidade de processamento de sinal, codificador de áudio, decodificador de áudio e renderizador binaural - Google Patents

Método para o processamento de um sinal de áudio de acordo com uma resposta de impulso de ambiente, unidade de processamento de sinal, codificador de áudio, decodificador de áudio e renderizador binaural Download PDF

Info

Publication number
BR112016001249B1
BR112016001249B1 BR112016001249-6A BR112016001249A BR112016001249B1 BR 112016001249 B1 BR112016001249 B1 BR 112016001249B1 BR 112016001249 A BR112016001249 A BR 112016001249A BR 112016001249 B1 BR112016001249 B1 BR 112016001249B1
Authority
BR
Brazil
Prior art keywords
impulse response
ambient
time
audio
reverb
Prior art date
Application number
BR112016001249-6A
Other languages
English (en)
Other versions
BR112016001249A2 (pt
Inventor
Simone Füg
Jan PLOGSTIES
Original Assignee
Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. filed Critical Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V.
Publication of BR112016001249A2 publication Critical patent/BR112016001249A2/pt
Publication of BR112016001249B1 publication Critical patent/BR112016001249B1/pt

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01HMEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
    • G01H7/00Measuring reverberation time ; room acoustic measurements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • G10K15/12Arrangements for producing a reverberation or echo sound using electronic time-delay networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

método para o processamento de um sinal de áudio de acordo com uma resposta de impulso de ambiente, unidade de processamento de sinal, codificador de áudio, decodificador de áudio e renderizador binaural. trata-se de um método para o processamento de um sinal de áudio (400) de acordo com uma resposta de impulso de ambiente (434). o sinal de áudio (400) é separadamente processado (422, 424) com uma parte anterior e uma reverberação posterior da resposta de impulso de ambiente (434), e a parte anterior processada (428) do sinal de áudio e o sinal reverberado (430) são combinados (432). uma transição a partir da parte anterior para a reverberação posterior na resposta de impulso de ambiente é alcançada quando uma medição de correlação alcança um limiar, sendo que o limiar é ajustado dependendo da medição de correlação para uma selecionada dentre as reflexões anteriores na parte anterior da resposta de impulso de ambiente. figura 6(b)

Description

Descrição
[001] A presente invenção refere-se ao campo de codificação/decodificação de áudio, especialmente à codificação de áudio espacial e codificação de objeto de áudio espacial, por exemplo, o campo de sistemas de codec de áudio em 3D. As modalidades da invenção se referem a abordagens para o processamento de um sinal de áudio de acordo com uma resposta de impulso de ambiente e para a determinação, em tal resposta de impulso de ambiente, de uma transição a partir de reflexões anteriores para reverberação posterior.
[002] As ferramentas de codificação de áudio espacial são bem conhecidas na técnica e são, por exemplo, padronizadas no padrão de MPEG- surround. A codificação de áudio espacial começa de uma pluralidade de canais de entrada original como cinco ou sete canais que são identificados por sua colocação em uma definição de reprodução, por exemplo, como um canal esquerdo, um canal central, um canal direito, um canal surround esquerdo, um canal surround direito e um canal de intensificação de baixa frequência. Um codificador de áudio espacial pode derivar um ou mais canais de mistura descendente dos canais originais e, adicionalmente, pode derivar dados paramétricos relacionados a pistas espaciais como diferenças de nível entre canais nos valores de coerência de canal, diferenças de fase entre canais, diferenças de tempo entre canais, etc. O um ou mais canais de mistura descendente são transmitidos junto com as informações de lado paramétrico indicando as pistas espaciais para um decodificador de áudio espacial para a decodifcação dos canais de mistura descendente e os dados paramétricos associado a sim de obter, finalmente, canais de saída que são uma versão aproximada dos canais de entrada original. A colocação dos canais na definição de saída pode ser fixa, por exemplo, um formato 5.1, um formato 7.1, etc.
[003] Além disso, as ferramentas de codificação de objeto áudio espacial são bem conhecidas na técnica e são padronizadas, por exemplo, no padrão MPEG SAOC (SAOC = codificação de objeto áudio espacial). Ao contrário da codificação de áudio espacial que inicia de canais originais, a codificação de objeto áudio espacial inicia de objetos de áudio que não são automaticamente dedicados para certa definição de reprodução de renderização. De preferência, a colocação dos objetos de áudio na cena de reprodução é flexível e pode ser ajustada por um usuário, por exemplo, mediante a inserção de certas informações de renderização em um decodificador de codificação de objeto áudio espacial. Alternativa ou adicionalmente, as informações de renderização podem ser transmitidas como informações de lado adicionais ou metadados; as informações de renderização podem incluir informações sobre qual posição na definição de reprodução um certo objeto de áudio deve ser colocado (por exemplo, no decorrer do tempo). A fim de obter uma certa compactação de dados, inúmeros objetos de áudio são codificados com o uso de um codificador de SAOC que calcula, a partir dos objetos de entrada, um ou mais canais de transporte mediante a mistura descendente dos objetos de acordo com certas informações de mistura descendente. Adicionalmente, o codificador de SAOC calcula informações de lado paramétrico que representam pistas entre objetos, tais como diferenças de nível de objeto (OLD), valores de coerência de objeto, etc. Como na SAC (SAC = Codificação de Áudio Espacial), os dados paramétricos entre objetos são calculados para recortes de tempo/frequência individuais. Para um certo quadro (por exemplo, 1.024 ou 2.048 amostras) do sinal de áudio, uma pluralidade de bandas de frequência (por exemplo, 24, 32 ou 64, bandas) são consideradas de modo que os dados paramétricos sejam fornecidos para cada quadro e cada banda de frequência. Por exemplo, quando uma parte de áudio tem 20 quadros e quando cada quadro é subdividido em 32 bandas de frequência, o número de recortes de tempo/frequência é 640.
[004] Em sistemas de áudio 3D, pode ser desejado fornecer uma impressão espacial de um sinal de áudio como se o sinal de áudio fosse escutado em um ambiente específico. Em tal situação, uma resposta de impulso de ambiente do ambiente específico é fornecida, por exemplo, com base em uma medição da mesma, e é usada para o processamento do sinal de áudio sob a apresentação da mesma a um ouvinte. Pode ser desejado processar o som direto e reflexões anteriores em tal apresentação separada da reverberação posterior. Isto exige determinar aonde as reflexões anteriores terminam e aonde a reverberação posterior começa.
[005] É um objetivo da presente invenção fornecer uma abordagem aprimorada para o processamento de um sinal de áudio de acordo com uma resposta de impulso de ambiente.
[006] Esse objetivo é alcançado por um método de acordo com a reivindicação 1, uma unidade de processamento de sinal de acordo com a reivindicação 16, um codificador de áudio de acordo com a reivindicação 18, um decodificador de áudio de acordo com a reivindicação 20 e um renderizador binaural de acordo com a reivindicação 24.
[007] A presente invenção é baseada nas constatações do inventor que, em abordagens convencionais, existe um problema em relação a situações em que a determinação da transição a partir de reflexões anteriores para reverberação posterior é excessivamente anterior devido ao fato de que uma correlação usada para julgar a ocorrência da transição já alcança um limiar antes mesmo da primeira reflexão ocorrer ou colidir. Com base nessas constatações e uma vez que é fato conhecido que o tempo de transição precisa ser maior do que o tempo de chegada da primeira reflexão, devido ao fato de que a primeira reflexão é claramente distinta e pode com certeza não ser a reverberação posterior difusa, os inventores constataram que é necessário evitar o uso de um limiar fixo, de preferência, de acordo com a abordagem da invenção, o limiar é definido de modo que seja dependente da correlação no tempo de colisão de uma dentre as reflexões anteriores. Isto assegura que a primeira reflexão esteja sempre situada antes do tempo de transição. (1) A presente invenção fornece um método para o processamento de um sinal de áudio de acordo com uma resposta de impulso de ambiente, sendo que o método compreende:
[008] processar separadamente o sinal de áudio com uma parte anterior e uma reverberação posterior da resposta de impulso de ambiente; e
[009] combinar o sinal de áudio processado com a parte anterior da resposta de impulso de ambiente e o sinal reverberado,
[010] em que uma transição a partir da parte anterior para a reverberação posterior na resposta de impulso de ambiente é determinada por uma medição de correlação que alcança um limiar, sendo que o limiar é ajustado dependendo da medição de correlação para uma selecionada dentre as reflexões anteriores na parte anterior da resposta de impulso de ambiente.
[011] A abordagem da invenção é vantajosa à medida que permite um processamento aprimorado do sinal de áudio com base em um ponto de transição robusto. A abordagem da invenção é independente do ambiente, se uma abordagem binaural é usada ou não e do ângulo de incidência. Quando comparada a abordagens da técnica anterior, a abordagem da invenção é adicionalmente vantajosa devido ao fato de que não é fortemente dependente do ângulo azimutal de uma resposta de impulso binaural e da relação entre as amplitudes de som direto e primeira reflexão colidente.
[012] (2) De acordo com as modalidades, a medição de correlação descrever em relação à resposta de impulso de ambiente a similaridade do decaimento em energia acústica que inclui o estado inicial do decaimento em energia acústica começando em qualquer momento após o estado inicial sobre uma faixa de frequência predefinida.
[013] (3) De acordo com as modalidades, a determinação da transição compreende determinar uma distribuição de energia acústica com base na resposta de impulso de ambiente, e determinar uma pluralidade de medições de correlação que indicam, para uma pluralidade de porções da distribuição determinada, uma correlação entre a energia acústica na respectiva porção da distribuição determinada e a energia acústica em um estado inicial.
[014] (4) De acordo com as modalidades, a determinação da distribuição compreende determinar uma distribuição de frequência de tempo da energia acústica, em que uma porção da distribuição compreende um bloco de tempo de uma duração predefinida, sendo que o estado inicial é definido pelo primeiro dentre a pluralidade de blocos de tempo da distribuição de frequência de tempo.
[015] Isto é vantajoso à medida que permite analisar a distribuição de frequência em tempos diferentes, fornecendo, assim, uma representação das características da distribuição de frequência no decorrer do tempo.
[016] (5) De acordo com as modalidades, a determinação da distribuição compreende calcular o alívio de decaimento de energia (EDR) a partir da resposta de impulso de ambiente, em que o EDR é calculado conforme exposto a seguir:
Figure img0001
em que
Figure img0002
= alívio de decaimento de energia,
Figure img0003
= resposta de impulso de ambiente,
Figure img0004
[017] (6) De acordo com as modalidades, a resposta de impulso de ambiente tem uma duração eficaz predefinida, e em que a determinação da distribuição de frequência de tempo compreende calcular o espectro de FFT da resposta de impulso de ambiente com o uso de uma janela que tem uma duração que corresponde à duração eficaz da resposta de impulso de ambiente.
[018] Isto é vantajoso à medida que a FFT/DFT é bem definida e existem algoritmos eficazes para calcular os valores espectrais. Se os valores na janela forem conhecidos, a FFT/DFT pode ser calculada de uma maneira não complicada.
[019] (7) De acordo com as modalidades, a energia acústica no estado inicial é determinada tomando-se a duração eficaz total da resposta de impulso de ambiente, calculando-se o espectro de FFT e tomando-se o quadrado dos valores absolutos, e a energia acústica de um bloco de tempo é determinada deslocando-se a janela pelo tempo associado ao bloco de tempo, completando-se com zeros as amostras em janela até a duração eficaz, calculando-se a FFT e tomando-se o quadrado dos valores absolutos.
[020] Isto é vantajoso, à medida que nenhum banco de filtros adicional, ou similares, é exigido para o cálculo de banda estreita do EDR; apenas um deslocamento da janela é exigido.
[021] (8) De acordo com as modalidades, a medição de correlação é uma medição de correlação que descreve a similaridade do decaimento em energia acústica que inclui o estado inicial e o decaimento em energia acústica começando em qualquer momento após o estado inicial. A medição de correlação pode ser calculada conforme exposto a seguir:
[022]
Figure img0005
[023] em que
[024]
Figure img0006
medição de correlação,
[025]
Figure img0007
alívio de decaimento de energia de faixa de frequência total na frequência f,
[026]
Figure img0008
valor médio sobre todas as frequências do alívio de decaimento de energia de faixa total inicial,
[027]
Figure img0009
alívio de decaimento de energia na frequência f começando em um tempo t,
[028]
Figure img0010
valor médio sobre todas as frequências do alívio de decaimento de energia de faixa total começando no tempo t,co = 2π f.
[029] Isto é vantajoso à medida que a fórmula se refere ao coeficiente de correlação de Pearson bem conhecido (correlação de produto-momento de Pearson). O coeficiente de correlação pode ser calculado diretamente a partir do EDR.
[030] (9) De acordo com as modalidades, o limiar é determinado com base em um valor constante e na medição de correlação para a uma selecionada dentre as reflexões anteriores. O limiar pode ser definido conforme exposto a seguir:
[031]
Figure img0011
[032] em que
[033]
Figure img0012
medição de correlação para uma selecionada dentre as reflexões anteriores,
[034] tF = índice de tempo em que a uma selecionada dentre as reflexões anteriores depois que o som direto colide,
[035] c = o valor constante que tem por base
Figure img0013
sendo que e é o número de Euler.
[036] Isto é vantajoso à medida que o limiar não é constante, mas dependente da reflexão anterior selecionada para assegurar que a correlação fique não tão anterior abaixo do limiar.
[037] (10) De acordo com as modalidades, o tempo da uma selecionada dentre as reflexões anteriores é determinado, por exemplo, por um operador de curtose em operação, por uma detecção de limiar ou por uma detecção de ataque.
[038] Isto é vantajoso à medida que o tempo de colisão da reflexão pode ser calculado direta e automaticamente a partir das amostras de domínio do tempo da resposta de impulso.
[039] (11) De acordo com as modalidades, a uma selecionada dentre as reflexões anteriores é a primeira reflexão após o som direto.
[040] (12) A presente invenção fornece uma unidade de processamento de sinal que compreende uma entrada para a recepção de um sinal de áudio, um processador configurado ou programado para processar um sinal de áudio recebido de acordo com uma resposta de impulso de ambiente, de acordo com o método da invenção, e uma saída para a combinação da parte anterior processada do sinal de áudio recebido e do sinal reverberado em um sinal de áudio de saída. A unidade de processamento de sinal pode compreender um processador de parte anterior para o processamento do sinal de áudio recebido de acordo com a parte anterior da resposta de impulso de ambiente, e um processador de reverberação posterior para o processamento do sinal de áudio recebido de acordo com a reverberação posterior da resposta de impulso de ambiente.
[041] (13) A presente invenção fornece um codificador de áudio para a codificação de um sinal de áudio, em que o codificador de áudio é configurado ou programado para processar um sinal de áudio a ser codificado de acordo com uma resposta de impulso de ambiente, de acordo com o método da invenção. O codificador de áudio pode compreender a unidade de processamento de sinal da invenção.
[042] (14) A presente invenção fornece um decodificador de áudio para a decodificação de um sinal de áudio codificado, em que o decodificador de áudio é configurado ou programado para processar um sinal de áudio decodificado de acordo com uma resposta de impulso de ambiente, de acordo com o método da invenção. O decodificador de áudio pode compreender a unidade de processamento de sinal da invenção. O decodificador de áudio pode compreender um renderizador, como um renderizador binaural, configurado ou programado para receber o sinal de áudio decodificado e para renderizar os sinais de saída com base na resposta de impulso de ambiente.
[043] (15) A presente invenção fornece um renderizador binaural que compreende a unidade de processamento de sinal da invenção.
[044] As modalidades da presente invenção serão descritas com referência aos desenhos em anexo, nos quais:
[045] A Figura 1 ilustra uma visão geral de um codificador de áudio 3D de um sistema de áudio 3D;
[046] A Figura 2 ilustra uma visão geral de um decodificador de áudio 3D de um sistema de áudio 3D;
[047] A Figura 3 ilustra um exemplo para a implantação de um conversor de formato que pode ser implantado no decodificador de áudio 3D da Figura 2;
[048] A Figura 4 ilustra uma modalidade de um renderizador binaural que pode ser implantado no decodificador de áudio 3D da Figura 2;
[049] A Figura 5 ilustra um exemplo de uma resposta de impulso de ambiente h(t);
[050] A Figura 6(A) ilustra um diagrama de blocos de uma unidade de processamento de sinal (por exemplo, em um renderizador binaural da Figura 4) para o processamento separadamente de um sinal de áudio com uma parte anterior e uma reverberação posterior do impulso de ambiente, de acordo com uma modalidade da invenção;
[051] A Figura 6(B) ilustra um diagrama de blocos de outra unidade de processamento de sinal (por exemplo, em um renderizador binaural da Figura 4) para o processamento separadamente de um sinal de áudio com uma parte anterior e uma reverberação posterior do impulso de ambiente, de acordo com uma modalidade adicional da invenção;
[052] A Figura 7 ilustra um diagrama de fluxo de uma abordagem para a determinação de um tempo de transição entre reflexões anteriores e reverberação posterior em uma resposta de impulso de ambiente, de acordo com uma modalidade da invenção;
[053] A Figura 8 ilustra o alívio de decaimento de energia (EDR) alcançado para uma resposta de impulso determinada de acordo com uma abordagem baseada em FFT;
[054] A Figura 9 ilustra a determinação de tempo de transição de acordo com uma modalidade da invenção;
[055] A Figura 10 ilustra os tempos de transição para um canal esquerdo e um canal direito para uma resposta de impulso de ambiente binaural medida determinada com o uso de uma abordagem convencional;
[056] A Figura 11 ilustra os tempos de transição para um canal esquerdo e um canal direito para uma resposta de impulso de ambiente binaural medida determinada com o uso da abordagem da invenção;
[057] A Figura 12 ilustra esquematicamente o processamento binaural de sinais de áudio em um renderizador binaural, de acordo com uma modalidade da presente invenção; e
[058] A Figura 13 ilustra esquematicamente o processamento na reverberador de domínio da frequência do renderizador binaural da Figura 12, de acordo com uma modalidade da presente invenção.
[059] Serão descritas as modalidades da abordagem da invenção para o processamento de um sinal de áudio de acordo com uma resposta de impulso de ambiente e para a determinação, em tal resposta de impulso de ambiente, de uma transição a partir de reflexões anteriores para reverberação posterior. A descrição a seguir irá começar com uma visão geral de sistema de um sistema de codec de áudio 3D em que a abordagem da invenção pode ser implantada.
[060] As Figuras 1 e 2 mostram os blocos de algoritmos de um sistema de áudio 3D, de acordo com as modalidades. Mais especificamente, a Figura 1 mostra uma visão geral de um codificador de áudio 3D 100. O codificador de áudio 100 recebe em um circuito pré-renderizador/misturador 102, o qual pode ser opcionalmente fornecido, sinais de entrada, mais especificamente, uma pluralidade de canais de entrada que fornecem para o codificador de áudio 100 uma pluralidade de sinais de canal 104, uma pluralidade de sinais de objeto 106 e metadados de objeto correspondentes 108. Os sinais de objeto 106 processados pelo pré-renderizador/misturador 102 (consulte sinais 110) podem ser fornecidos para um codificador SAOC 112 (SAOC = Codificação de Objeto de Áudio Espacial). O codificador SAOC 112 gera os canais de transporte de SAOC 114 fornecidos para um codificador USAC 116 (USAC = Codificação de Áudio e Fala Unificada). Além disso, o sinal SAOC-SI 118 (SAOC-SI = informações de lado SAOC) também é fornecido para o codificador USAC 116. O codificador USAC 116 recebe adicionalmente sinais de objeto 120 diretamente a partir do pré-renderizador/misturador, assim como os sinais de canal e sinais de objeto pré-renderizados 122. As informações de metadados de objeto 108 são aplicadas a um codificador OAM 124 (OAM = metadados de objeto) que fornece as informações de metadados de objeto compactados 126 para o codificador USAC. O codificador USAC 116, com base nos sinais de entrada mencionados acima, gera um sinal de entrada compactado mp4, conforme é mostrado em 128.
[061] A Figura 2 ilustra uma visão geral de um decodificador de áudio 3D 200 do sistema de áudio 3D. O sinal codificado 128 (mp4) gerado pelo codificador de áudio 100 da Figura 1 é recebido no decodificador de áudio 200, mais especificamente, em um decodificador USAC 202. O decodificador USAC 202 decodifica o sinal recebido 128 nos sinais de canal 204, nos sinais de objeto pré-renderizados 206, nos sinais de objeto 208 e nos sinais de canal de transporte de SAOC 210. Adicionalmente, as informações de metadados de objeto compactados 212 e o sinal SAOC-SI 214 são emitidos pelo decodificador USAC 202. Os sinais de objeto 208 são fornecidos para um renderizador de objeto 216 que emite os sinais de objeto renderizados 218. Os sinais de canal de transporte de SAOC 210 são supridos para o decodificador SAOC 220 que emite os sinais de objeto renderizados 222. As informações de metadados de objeto compactados 212 são supridas para o decodificador OAM 224 que emite respectivos sinais de controle para o renderizador de objeto 216 e o decodificador SAOC 220 para a geração dos sinais de objeto renderizados 218 e dos sinais de objeto renderizados 222. O decodificador compreende adicionalmente um misturador 226 que recebe, conforme mostrado na Figura 2, os sinais de entrada 204, 206, 218 e 222 para a emissão dos sinais de canal 228. Os sinais de canal podem ser diretamente emitidos para um alto-falante, por exemplo, um alto-falante de 32 canais, como é indicado em 230. Os sinais 228 podem ser fornecidos para um circuito de conversão de formato 232 que recebe como uma entrada de controle um sinal de esboço de reprodução que indica a maneira que os sinais de canal 228 devem ser convertidos. Na modalidade representada na Figura 2, presume-se que a conversão seja feita de tal maneira que os sinais possam ser fornecidos para um sistema de alto- falante 5.1, como é indicado em 234. Além disso, os sinais de canal 228 podem ser fornecidos para um renderizador binaural 236 que gera dois sinais de saída, por exemplo, para um fone de ouvido, como é indicado em 238.
[062] Em uma modalidade da presente invenção, o sistema de codificação/decodificação representado nas Figuras 1 e 2 é baseado no codec MPEG-D USAC para a codificação de sinais de canal e objeto (consulte sinais 104 e 106). Para aumentar a eficiência para a codificação de uma grande quantidade de objetos, a tecnologia MPEG SAOC pode ser usada. Três tipos de renderizadores podem realizar as tarefas de renderização de objetos para canais, renderização de canais para fones de ouvido ou renderização de canais para uma definição de alto-falante diferente (consulte a Figura 2, símbolos de referência 230, 234 e 238). Quando sinais de objeto são explicitamente transmitidos ou parametricamente codificados com o uso de SAOC, as informações de metadados de objeto correspondentes 108 são compactadas (consulte sinal 126) e multiplexadas na corrente de bits de áudio 3D 128.
[063] Os blocos de algoritmos do sistema de áudio 3D de modo geral, mostrados nas Figuras 1 e 2, serão descritos em detalhes adicionais abaixo.
[064] O pré-renderizador/misturador 102 pode ser opcionalmente fornecido para converter uma cena de entrada de objeto mais canal em uma cena de canal antes da codificação. Funcionalmente, o mesmo é idêntico ao renderizador/misturador de objeto que será descrito abaixo. A pré-renderização de objetos pode ser desejada para assegurar uma entropia de sinal determinística na entrada de codificador que é basicamente independente do número de sinais de objeto simultaneamente ativos. Com a pré-renderização de objetos, não é exigida transmissão de metadados de objeto. Os sinais de objeto distintos são renderizados no esboço de canal que o codificador é configurado para usar. Os pesos dos objetos para cada canal são obtidos juntos aos metadados de objeto associados (OAM).
[065] O codificador USAC 116 é o codec de núcleo para sinais de canal de alto-falante, sinais de objeto discretos, sinais de mistura descendente de objeto e sinais pré-renderizados. O mesmo é baseado na tecnologia MPEG-D USAC. O mesmo manuseia a codificação dos sinais acima mediante a criação de informações de mapeamento de canal e objeto com base nas informações geométricas e semânticas da atribuição de canal e objeto da entrada. Estas informações de mapeamento descrevem como os objetos e canais de entrada são mapeados para elementos de canal de USAC, como elementos de par de canais (CPEs), elementos de canal simples (SCEs), efeitos de baixa frequência (LFEs) e elementos quádruplos de canal (QCEs) e CPEs, SCEs e LFEs e as informações correspondentes são transmitidos para o decodificador. Todas as cargas adicionais como dados de SAOC 114, 118 ou metadados de objeto 126 são consideradas no controle de taxa do codificador. A codificação de objetos é possível de formas diferentes, dependendo dos requisitos de distorção/taxa e nos requisitos de interatividade para o renderizador. De acordo com as modalidades, as variantes de codificação de objeto a seguir são possíveis:
[066] Objetos pré-renderizados: Os sinais de objeto são pré-renderizados e misturados para os sinais de canal de 22.2 antes da codificação. A cadeia de codificação subsequente nota sinais de canal de 22.2.
[067] Formas de onda de objeto distinto: Os objetos são supridos como formas de onda monofônica para o codificador. O codificador usa elementos de canal simples (SCEs) para transmitir os objetos além dos sinais de canal. Os objetos decodificados são renderizados e misturado no lado de receptor. As informações de metadados de objeto compactadas são transmitidas para o receptor/renderizador.
[068] Formas de onda de objeto paramétrico: propriedades de objeto e sua relação entre si são descritas por meio de parâmetros de SAOC. A mistura descendente dos sinais de objeto é codificada com a USAC. As informações paramétricas são transmitidas em conjunto. O número de canais de mistura descendente é escolhido dependendo do número de objetos e da taxa de dados geral. As informações de metadados de objeto compactadas são transmitidas para o renderizador de SAOC.
[069] O codificador SAOC 112 e o decodificador SAOC 220 para sinais de objeto podem ser baseados na tecnologia MPEG SAOC. O sistema tem a capacidade de recriar, modificar e renderizar inúmeros objetos de áudio com base em um número menor de canais transmitidos e dados paramétricos adicionais, tais como OLDs, IOCs (Coerência Entre Objetos), DMGs (Ganhos de Mistura Descendente). Os dados paramétricos adicionais exibem uma taxa de dados significativamente inferior do que é exigido para transmitir todos os objetos individualmente, tornando a codificação muito eficiente. O codificador SAOC toma, como entrada, os sinais de objeto/canal como formas de onda monofônica e emite as informações paramétricas (que são empacotadas na corrente de bits de áudio 3D) e os canais de transporte de SAOC (que são codificados com o uso de elementos de canal simples e são transmitidos). O decodificador SAOC 220 reconstrói os sinais de objeto/canal a partir dos canais de transporte de SAOC decodificados 210 e das informações paramétricas 214 e gera a cena de áudio de saída com base no esboço de reprodução, nas informações de metadados de objeto descompactadas e, opcionalmente, com base nas informações de interação de usuário.
[070] O codec de metadados de objeto (consulte codificador OAM 124 e decodificador OAM 224) é fornecido de modo que, para cada objeto, os metadados associados que especifica a posição geométrica e o volume dos objetos no espaço 3D sejam codificados de modo eficaz pela quantização das propriedades de objeto em tempo e espaço. Os metadados de objeto compactados cOAM 126 são transmitidos para o receptor 200 como informações de lado.
[071] O renderizador de objeto 216 utiliza os metadados de objeto compactados para gerar formas de onda de objeto de acordo com o dado formato de reprodução. Cada objeto é renderizado para um certo canal de saída de acordo com seus metadados. A saída desse bloco resulta da soma dos resultados parciais. Se o conteúdo baseado em canal bem como objetos paramétricos/distintos são decodificados, as formas de onda baseadas em canal e as formas de onda de objeto renderizado são misturadas pelo misturador 226 antes da emissão das formas de onda resultantes 228 ou antes da alimentação das mesmas para um módulo de pós-processador como o renderizador binaural 236 ou o módulo de renderizador de alto-falante 232.
[072] O módulo de renderizador binaural 236 produz uma mistura descendente binaural do material de áudio de múltiplos canais, de modo que cada canal de entrada seja representada por uma fonte de sim virtual. O processamento é conduzido ao longo do quadro no domínio de QMF (Banco de Filtro de Espelho de Quadratura) e a binauralização é baseada em respostas de impulso de ambiente binaural medidas.
[073] O renderizador de alto-falante 232 converte entre a configuração de canal transmitido 228 e o formato de reprodução desejado. O mesmo também pode ser chamado de “conversor de formato”. O conversor de formato realiza conversões em números inferiores de canais de saída, isto é, cria misturas descendentes.
[074] A Figura 3 mostra um exemplo para a implantação de um conversor de formato 232. O conversor de formato 232, também chamado de renderizador de alto-falante, converte entre a configuração de canal transmissor e o formato de reprodução desejado. O conversor de formato 232 realiza conversões para um número mais baixo de canais de saída, isto é, realiza um processo de mistura descendente (DMX) 240. O misturador descendente 240, o qual opera, de preferência, no domínio de QMF, recebe os sinais de saída de misturador 228 e emite os sinais de alto-falante 234. Um configurador 242, também chamado de controlador, pode ser fornecido, o qual recebe, como uma entrada de controle, um sinal 246 indicativo do esboço de saída de misturador, isto é, o esboço para qual os dados representados pelo sinal de saída de misturador 228 são determinados, e o sinal 248 indicativo do esboço de reprodução desejado. Com base nessas informações, o controlador 242 gera, de preferência, automaticamente matrizes de mistura descendente otimizadas para a dada combinação de formatos de entrada e saída e aplica essas matrizes no misturador descendente 240. O conversor de formato 232 permite configurações de alto-falante padrão bem como configurações aleatórias com posições de alto-falante não padrão.
[075] A Figura 4 ilustra uma modalidade adicional do renderizador binaural 236 da Figura 2. O módulo de renderizador binaural pode fornecer uma mistura descendente binaural do material de áudio de múltiplos canais. A binauralização pode ser baseada em uma resposta de impulso de ambiente binaural medida. A resposta de impulso de ambiente pode ser considerada uma “impressão digital” das propriedades acústicas de um ambiente real. A resposta de impulso de ambiente é medida e armazenada, e sinais acústicos arbitrários podem ser fornecidos com esta “impressão digital”, permitindo, assim, no ouvinte, uma simulação das propriedades acústicas do ambiente associado à resposta de impulso de ambiente. O renderizador binaural 236 pode ser programado ou configurado para renderizar os canais de saída em dois canais binaurais com o uso de funções de transferência relacionadas à cabeça ou respostas de impulso de ambiente binaural (BRIR). Por exemplo, para dispositivos móveis, a renderização binaural é desejada para fones de ouvido ou alto-falantes fixados a tais dispositivos móveis. Em tais dispositivos móveis, devido às restrições, pode ser necessário limitar a complexidade de renderização e decodificador. Além da omissão de descorrelação em tais cenários de processamento, pode ser preferencial realizar primeiramente uma mistura descendente com o uso do misturador descendente 250 a um sinal de mistura descendente intermediário 252, isto é, a um número inferior de canais de saída que resulta em um número inferior de canal de entrada para o conversor binaural real 254. Por exemplo, o material de canal de 22.2 pode ser misturado de modo descendente pelo misturador descendente 250 para uma mistura descendente intermediária de 5.1 ou, alternativamente, a mistura descendente intermediária pode ser diretamente calculada pelo decodificador SAOC 220 na Figura 2 em um tipo de modo de “atalho”. A renderização binaural, então, deve apenas aplicar dez HRTFs (Funções de Transferência Relacionada à Cabeça) ou funções de BRIR para renderizar os cinco canais individuais em diferentes posições ao contrário de aplicar 44 funções de HRTF ou BRIR se os canais de entrada de 22.2 já tivessem sido diretamente renderizados. As operações de convolução necessárias para a renderização binaural exigem muita potência de processamento e, portanto, a redução essa potência de processamento enquanto ainda obtém uma qualidade de áudio aceitável é, particularmente, útil para dispositivos móveis. O renderizador binaural 236 produz uma mistura descendente binaural 238 do material de áudio de múltiplos canais 228, de modo que cada canal de entrada (excluindo os canais de LFE) seja representado por uma fonte de som virtual. O processamento pode ser conduzido ao longo do quadro em domínio de QMF. A binauralização é baseada em respostas de impulso de ambiente binaural medidas, e o som direto e reflexões anteriores podem ser impressos para o material de áudio através de uma abordagem de convolução em um pseudodomínio de FFT com o uso de uma convolução rápida no topo do domínio de QMF, enquanto que a reverberação posterior pode ser processada separadamente.
[076] A Figura 5 mostra um exemplo de uma resposta de impulso de ambiente h(t) 300. A resposta de impulso de ambiente compreende três componentes, o som direto 301, reflexões anteriores 302 e reverberação posterior 304. Dessa forma, a resposta de impulso de ambiente descreve o comportamento de reflexão de um espaço acústico reverberante encerrado quando um impulso é reproduzido. As reflexões anteriores 302 são reflexões discretas com densidade crescente, e a parte da resposta de impulso, em que as reflexões individuais não podem mais ser discriminadas, é chamada de reverberação posterior 304. O som direto 301 pode ser facilmente identificado na resposta de impulso de ambiente e pode ser separado de reflexões anteriores, no entanto, a transição a partir da reflexão anterior 302 para a reverberação posterior 304 é menos óbvia.
[077] Nas seguintes modalidades, a abordagem da invenção será descrita em detalhes adicionais. De acordo com as modalidades da invenção, um sinal de áudio é separadamente processado com uma parte anterior e uma reverberação posterior de uma resposta de impulso de ambiente. O sinal de áudio processado com a parte anterior da resposta de impulso de ambiente e o sinal reverberado são combinados e emitidos como o sinal de áudio de saída. Para o processamento separado, a transição na resposta de impulso de ambiente a partir da parte anterior para a reverberação posterior precisa ser conhecida. A transição é determinada por uma medição de correlação que alcança um limiar, em que o limiar é ajustado dependendo da medição de correlação para uma selecionada dentre as reflexões anteriores na parte anterior da resposta de impulso de ambiente. A medição de correlação pode descrever em relação à resposta de impulso de ambiente a similaridade do decaimento em energia acústica que inclui o estado inicial e o decaimento em energia acústica começando em qualquer momento após o estado inicial sobre uma faixa de frequência predefinida.
[078] De acordo com as modalidades, o processamento separado do sinal de áudio compreende o processamento do sinal de áudio com a parte de reflexão anterior 301, 302 da resposta de impulso de ambiente durante um primeiro processo, e o processamento do sinal de áudio com a reverberação difusa 304 da resposta de impulso de ambiente durante um segundo processo que é diferente e separado do primeiro processo. A alteração do primeiro processo para o segundo processo ocorre no tempo de transição. De acordo com modalidades adicionais, no segundo processo, a reverberação difusa (posterior) 304 pode ser substituída por uma reverberação sintética. Nesse caso, a resposta de impulso de ambiente fornecida pode conter apenas a parte de reflexão anterior 301, 302 (consulte a Figura 5) e a reverberação posterior difusa 304 não é incluída.
[079] A Figura 6(A) mostra um diagrama de blocos que ilustra uma primeira unidade de processamento de sinal exemplificadora para o processamento separadamente de um sinal de áudio com uma parte anterior e uma reverberação posterior do impulso de ambiente, de acordo com uma modalidade da invenção. O processamento do sinal de áudio de acordo com partes diferentes da resposta de impulso de ambiente pode ser realizado em um renderizador binaural 236 que tem sido descrito acima. O sinal de entrada de áudio 400 pode ser um material de áudio não reverberante, por exemplo, um sinal de entrada de áudio de múltiplos canais, que é convolvido com a resposta de impulso de ambiente, por exemplo, uma resposta de impulso de ambiente medida com o uso de um fone de ouvido ou microfones internos artificiais. Esta convolução permitir ganhar uma impressão espacial do material de áudio não reverberante original como se o material de áudio fosse escutado no ambiente associado à resposta de impulso de ambiente. Por exemplo, no renderizador binaural 236 mencionado acima, pode ser desejado processar o sinal de áudio com o som direto 301 e a reflexão anterior 302 na resposta de impulso de ambiente e processar o sinal de áudio com a reverberação posterior 304 separadamente. Para o processamento do sinal de entrada de áudio 400, um bloco 402 para o processamento de som direto, um bloco 404 para o processamento de reflexões anteriores e um bloco 406 para o processamento de reverberação posterior são fornecidos. Os sinais de saída 408 e 410 dos respectivos blocos 402 a 406 são combinados por um primeiro somador 412 para a geração de um sinal processado anterior 414. O sinal processado anterior 414 e o sinal reverberado 416 fornecidos pelo processador 406 são combinados por um segundo somador 418 para a geração do sinal de saída de áudio 420 que fornece para um ouvinte a impressão como se o sinal de áudio fosse escutado no ambiente associado às respostas de impulso de ambiente.
[080] O processamento da reverberação posterior 302 separado do som direto e reflexões anteriores é vantajoso devido à complexidade computacional reduzida. Mais especificamente, o uso de uma convolução para toda a resposta de impulso é muito dispendioso do ponto de vista computacional. Portanto, os algoritmos de reverberação com complexidade inferior são tipicamente usados para processar sinais de áudio a fim de simular a reverberação posterior. A parte de reflexões anteriores e som direto da resposta de impulso são computados com maior precisão, por exemplo, por uma convolução. Uma vantagem adicional é a possibilidade de controle de reverberação. Isto permite que a reverberação posterior seja modificada dependendo, por exemplo, de uma entrada de usuário, um parâmetro de ambiente medido ou dependendo dos conteúdos do sinal de áudio. Para alcançar as vantagens acima, a transição (por exemplo, o ponto no tempo) em que as reflexões anteriores 302 terminam e em que a reverberação posterior 304 começa precisa ser conhecida. Quando o processamento de reverberação posterior começa anterior demais, o sinal de áudio pode ser de qualidade inferior, à medida que a audição humana pode detectar as reflexões anteriores distintas perdidas. Por outro lado, se o tempo de transição for detectado tarde demais, a eficiência computacional não será explorada, à medida que o processamento de reflexões anteriores é tipicamente mais dispendioso do que o processamento de reverberação posterior. A transição, por exemplo, em amostras de domínio do tempo, pode ser alimentada para o renderizador binaural como um parâmetro de entrada que irá, então, dependendo da transição recebida, controlar os processadores 402 a 406 para o processamento separadamente do sinal de áudio.
[081] A Figura 6(B) ilustra um diagrama de blocos de outra unidade de processamento de sinal exemplificadora para o processamento separadamente de um sinal de áudio com uma parte anterior e uma reverberação posterior do impulso de ambiente, de acordo com uma modalidade da invenção. O sinal de entrada 400, por exemplo, um sinal de entrada de áudio de múltiplos canais, é recebido e aplicado a um primeiro processador 422 para o processamento da parte anterior, ou seja, para o processamento do sinal de áudio de acordo com o som direto 301 e as reflexões anteriores 302 na resposta de impulso de ambiente 300 mostrada na Figura 5. O sinal de entrada de áudio de múltiplos canais 400 também é aplicado a um segundo processador 424 para o processamento do sinal de áudio de acordo com a reverberação posterior 304 da resposta de impulso de ambiente. Em um renderizador binaural, conforme mencionado acima, pode ser desejado processar o som direto e reflexões anteriores separados da reverberação posterior, principalmente devido à complexidade computacional reduzida. O processamento do som direto e reflexões anteriores pode ser, por exemplo, impresso para o sinal de áudio por uma abordagem de convolução realizada pelo primeiro processador 422, enquanto que a reverberação posterior pode ser substituída por uma reverberação sintética fornecida pelo segundo processador 424. O sinal de saída binaural total 420 é então uma combinação do resultado de convolução 428 fornecido pelo processador 422 e o sinal reverberado sintético 430 fornecido pelo processador 424. De acordo com as modalidades, os sinais 428 e 430 são combinados por um somador 432 que emite o sinal de saída binaural total 420.
[082] Conforme mencionado, o primeiro processador 422 pode causar uma convolução do sinal de entrada de áudio 400 com um som direto e reflexões anteriores da resposta de impulso de ambiente que pode ser fornecida para o primeiro processador 422 a partir de um banco de dados externo 434 que retém uma pluralidade de respostas de impulso de ambiente binaural registradas. O segundo processador ou reverberador 424 pode operar com base nos parâmetros de reverberador, como a reverberação RT60 e a energia de reverberação, que podem ser obtidos a partir das respostas de impulso de ambiente binaural armazenadas por meio de uma análise 436. É observado que a análise 436 não é necessariamente parte do renderizador, de preferência, isto é para indicar que, a partir das respectivas respostas armazenadas em banco de dados 434, os respectivos parâmetros de reverberação podem ser derivados; isto pode ser feito externamente. Os parâmetros de reverberador podem ser determinados, por exemplo, mediante o cálculo da energia e do tempo de reverberação de RT60 em uma análise de banco de filtro de uma oitava ou um terço de oitava, ou podem ser valores médios dos resultados de múltiplas análises de resposta de impulso.
[083] Além disso, ambos os processadores 422 e 424 recebem a partir do banco de dados 434 - diretamente ou através da análise 436 - como parâmetro de entrada, também informações sobre a transição na resposta de impulso de ambiente a partir da parte anterior à reverberação posterior. A transição pode ser determinada de uma maneira como será descrito em maiores detalhes abaixo.
[084] De acordo com as modalidades, a análise de transição pode ser usada para separar as reflexões anteriores e a reverberação posterior. O mesmo pode ser alimentado para o renderizador binaural como um parâmetro de entrada (por exemplo, pode ser lido a partir de uma interface/arquivo dedicado junto com valores de RT60 e valores de energia que são usados para configurar o reverberador). A análise pode ser com base em um conjunto de respostas de impulso de ambiente binaural (um conjunto de pares de BRIR para uma grande quantidade de ângulos de elevação e azimute). A análise pode ser uma etapa de pré-processamento que é realizada separadamente para cada resposta de impulso e, então, a mediana de todos os valores de transição é tomada como um valor de transição total do um conjunto de BRIR. Este valor de transição total pode, então, ser usado para separar as reflexões anteriores da reverberação posterior no cálculo do sinal de saída binaural.
[085] Várias abordagens para a determinação da transição são conhecidas, no entanto, essas abordagens são desvantagens, como será descrito agora. Na referência da técnica anterior [1] é descrito um método que usa o alívio de decaimento de energia (EDR) e uma medição de correlação para determinar o tempo de transição a partir de reflexões anteriores para reverberação posterior. No entanto, a abordagem descrita na referência da técnica anterior [1] não é vantajosa.
[086] A abordagem é fortemente dependente do ângulo azimutal da resposta de impulso binaural e da relação entre as amplitudes de som direto e primeira reflexão colidente.
[087] O tempo de transição é calculado em bandas de frequência arbitrárias. Não há conhecimento geral sobre qual dentre as bandas de frequência gera o tempo de transição correto a ser usado para a resposta de impulso em geral.
[088] Não há informações sobre a etapa de correlação essencial da abordagem.
[089] Uma outra abordagem conhecida consiste em descrever reflexões anteriores pela dispersão de ecos em um espaço, por exemplo, pelo número médio de reflexões por segundo, e em determinar o início da reverberação posterior quando este número excede um limiar predefinido (consulte a referência da técnica anterior [2]). Esta abordagem depende da característica de ambiente, ou seja, do volume do ambiente, o qual é muitas vezes desconhecido. O volume do ambiente não pode ser facilmente extraído de uma resposta de impulso medida. Portanto, este método não é aplicável para o cálculo da transição a partir de respostas de impulso medidas. Além disso, não há conhecimento comum de quão densa as reflexões devem ser para serem chamadas de reverberação posterior.
[090] Outra possibilidade descrita na referência de técnica anterior [3], consiste em comparar a distribuição real em um momento em uma janela de resposta de impulso com uma distribuição gaussiana no domínio do tempo. Presume-se que a reverberação posterior tenha uma distribuição normal. Em uma distribuição normal aproximadamente um terço (exatamente 1/e) das amostras se situa fora de um desvio padrão da média e dois terços das amostras estão dentro de um desvio padrão da média. As reflexões anteriores distintas têm mais amostras dentro de um desvio padrão e menos fora. A razão entre amostras fora de um desvio padrão versus as amostras dentro de um desvio padrão pode ser usada para definir o tempo de transição. No entanto, a desvantagem dessa abordagem é o fato de que a transição é difícil de definir com essa medida, devido ao fato de que a razão às vezes flutua em torno do limiar. A medida também é fortemente dependente do tamanho e do tipo da janela deslizante em que a razão é calculada.
[091] Além das abordagens mencionadas acima, também a curtose (o acumulador de ordem superior de um sinal estocástico) pode ser usada para determinar o tempo de transição. O mesmo diminui rapidamente quando se aproxima da parte posterior da resposta de impulso, conforme é descrito na referência da técnica anterior [4]. No entanto, a definição do limiar para a transição (o uso de uma diminuição rápida ou o tempo quando o mesmo primeiramente alcança o zero) não é clara.
[092] Há ainda outra abordagem que não depende da análise de uma resposta de impulso medida, mas do volume de ambiente, como é descrito em [2]. Esta abordagem presume que o tempo de transição é apenas dependente do volume, mas não leva em conta as propriedades de difusão dos limites. Portanto, o resultado pode ser apenas uma aproximação do tempo de transição e não é tão preciso como necessário para evitar as desvantagens mencionadas acima, quando não se determina com precisão o tempo de transição. Adicionalmente, o volume de um ambiente muitas vezes não é conhecido e não pode ser facilmente extraído de uma resposta de impulso medida.
[093] Outras abordagens conhecidas negligenciam completamente o ambiente e definem o tempo de transição como simplesmente 80 ms, consulte, por exemplo, a referência da técnica anterior [5]. Este número, no entanto, é totalmente separado das características de ambiente ou uma resposta de impulso medida e, portanto, é impreciso demais para o propósito de separação da reverberação posterior do restante da resposta de impulso.
[094] A presente invenção, de acordo com as modalidades, também fornece, além do processamento de sinal de áudio aprimorado, uma abordagem aprimorada para a determinação do tempo de transição entre reflexões anteriores e a reverberação posterior em uma resposta de impulso de ambiente que rende uma determinação mais precisa do tempo de transição. As modalidades, como será descrito abaixo, fornecem uma possibilidade simples e eficaz para calcular o tempo de transição a partir de uma resposta de impulso medida com o uso de uma análise de FFT.
[095] A Figura 7 mostra um diagrama de fluxo de uma abordagem para a determinação de um tempo de transição entre reflexões anteriores e reverberação posterior em uma resposta de impulso de ambiente, de acordo com uma modalidade da invenção. Para determinar o tempo de transição a partir das reflexões anteriores à reverberação posterior, em uma primeira etapa 500, uma distribuição de frequência de tempo da energia acústica é determinada. Por exemplo, de acordo com as modalidades, o alívio de decaimento de energia (E(t,f), EDR) pode ser calculado na etapa 500. O EDR pode ser diretamente calculado a partir de uma resposta de impulso de ambiente medida (por exemplo, binaural) e pode ser interpretado como uma expansão de domínio da frequência da curva de decaimento de energia comumente usada (integração de Schroeder, EDC (d)) que mostra a energia restante na resposta de impulso após um tempo t. Em vez de usar a resposta de impulso de banda larga, o EDR é derivado de uma representação de tempo- frequência e muitas representações de tempo-frequência diferentes podem ser usadas para este propósito. Uma vez que a distribuição de frequência de tempo da energia acústica tem sido determinada na etapa 500, na etapa 502, uma medição de correlação entre a energia acústica em um bloco de tempo da distribuição de frequência de tempo e a energia acústica total em um estado inicial é determinada. Na etapa 504, é determinado se a medição de correlação alcança um limiar definido (por exemplo, fica abaixo do limiar definido) ou não. Se a mesma não alcançar o limiar, o método prossegue para a etapa 506, em que o bloco de tempo seguinte e a distribuição após o bloco de tempo atual são selecionados e as etapas 502 e 504 são repetidas para o bloco de tempo seguinte. Dessa forma, de acordo com as etapas 502 a 506, uma medição de correlação é usada para calcular o valor de correlação entre cada bloco de tempo do EDR determinado na etapa 500 com a energia total no estado inicial. O tempo de transição é alcançado quando a medição de correlação alcança o limiar definido (por exemplo, fica abaixo do limiar definido). Em outras palavras, quando é determinado na etapa 504 que para um bloco de tempo atual a medição de correlação é menor que o limiar, o método prossegue para a etapa 508, em que o tempo do bloco de tempo atual é emitido como o tempo de transição.
[096] A seguir, uma modalidade da abordagem da invenção será descrita em detalhes adicionais. Inicialmente, uma resposta de impulso binaural medida pode ser tomada como uma entrada para o cálculo do tempo de transição. Então, uma distribuição de Page ou Levin é empregada para o cálculo do alívio de decaimento de energia (EDR). A distribuição de Page se refere ao derivado do espectro em operação anterior e a distribuição de Page do sinal de tempo reverso é chamada de distribuição de Levin (consulte também a referência da técnica anterior [2]). A distribuição descreve um espectro de potência instantâneo e o EDR da resposta de impulso h(t) (consulte, por exemplo, a Figura 5) é calculado conforme exposto a seguir:
[097]
Figure img0014
[098] em que
[099]
Figure img0015
alívio de decaimento de energia,
[100]
Figure img0016
resposta de impulso de ambiente,
[101]
Figure img0017
[102] O cálculo de acordo com a equação acima começa no som direto 301 (consulte a Figura 5), e com o aumento do tempo, o alívio de decaimento de energia contém menos reflexões distintas e mais reverberação estocástica. De acordo com a modalidade descrita, o alívio de decaimento de energia é calculado para os blocos de tempo que têm uma duração de 1 ms, para facilidade de computação. Por meio da funcionalidade descrita acima, a distribuição de frequência de tempo da energia acústica é determinada como foi descrito em relação à etapa 500 na Figura 7.
[103] Depois disso, como foi descrito em relação às etapas 502 a 506, na Figura 7, a medição de correlação ρ(t) que é baseada na correlação de produto-momento de Pearson (também conhecida como coeficiente de correlação) é determinada. Mais especificamente, a correlação da energia acústica para cada bloco de tempo com a energia total no estado inicial é determinada, de acordo com as modalidades, conforme exposto a seguir:
[104]
Figure img0018
[105] em que
[106]
Figure img0019
frequência total na frequência f,
[107]
Figure img0020
valor médio sobre todas as frequências do alívio de decaimento de energia de faixa total inicial,
[108]
Figure img0021
alívio de decaimento de energia na frequência f começando em um tempo t,
[109]
Figure img0022
valor médio sobre todas as frequências do alívio de decaimento de energia de faixa total começando no tempo t,
[110]
Figure img0023
[111] A correlação acima descreve a similaridade do decaimento que inclui o estado inicial e o decaimento que começa em qualquer tempo t. A mesma é calculada a partir do EDR de banda larga, com o uso da faixa de frequências total do EDR para o cálculo, comparando-se, assim, a situação energética inicial completa com a situação no tempo t.
[112] A presente invenção não se limita ao cálculo da correlação sobre todas as frequências. De preferência, a correlação também pode ser calculada sobre uma faixa de frequências predefinida. A faixa de frequências pode ser determinada a partir do sinal de áudio a ser processado. Por exemplo, para os sinais de áudio específicos, a faixa de frequências pode ser limitada a uma faixa predefinida, por exemplo, a faixa de frequências audíveis. De acordo com as modalidades, a faixa de frequências pode ser de 20 Hz a 20 kHz. É observado que outras faixas também podem ser selecionadas, por exemplo, por meio de estudos empíricos.
[113] De acordo com uma modalidade, uma implantação à base de FFT eficaz do EDR pode ser usada. Uma janela que tem uma duração eficaz da resposta de impulso medida é aplicada, e é presumido que uma resposta de impulso medida tenha uma duração eficaz de 213, o qual é igual a 8.192 intervalos de frequência. Durante o cálculo, esta janela é deslocada pela duração discreta de um único bloco de tempo, e o final da janela é completado com zeros. De acordo com as modalidades, uma duração de bloco de tempo de 1 ms é usada e para um cálculo simples e eficaz do EDR, a seguinte abordagem é aplicada:
[114] A duração eficaz total da resposta de impulso medida é tomada para calcular o espectro de FFT e os valores absolutos são elevados ao quadrado rendendo E(1.OJ) .
[115] Até que o final da resposta de impulso seja alcançado, a janela é movida pela duração de bloco de tempo discreto de 1 ms em direção ao final da resposta de impulso, as amostras em janela são completadas com zeros até a duração eficaz (isto é, aquelas amostras além da duração eficaz são zeradas) e, então, o espectro de FFT é calculado, o qual rende E(t.oj).
[116] A abordagem acima é vantajosa, à medida que nenhum banco de filtros adicional, ou similares, é exigido para o cálculo de banda estreita do EDR; apenas um deslocamento da janela é exigido. A Figura 8 mostra um exemplo para um alívio de decaimento de energia alcançado para uma resposta de impulso de acordo com a abordagem à base de FFT descrita acima.
[117] Como foi descrito na Figura 7 em relação às etapas 504 e 508, a correlação determinada da maneira descrita acima será, então, comparada com um limiar predefinido. Quanto menor for o limiar, mais o tempo de transição se move em direção ao final da resposta de impulso. Por exemplo, para respostas de impulso binaural, se o limiar for escolhido para ser 1/e ~ 0,3679 (consulte também a referência da técnica anterior [2]), a transição é anterior demais em alguns ângulos azimutais, devido ao fato de que a correlação fica abaixo do limiar antes da primeira reflexão ocorrer ou colidir. No entanto, uma vez que é fato conhecido que o tempo de transição precisa ser posterior ao tempo de chegada da primeira reflexão, devido ao fato de que a primeira reflexão é claramente distinta e pode, com certeza, não ser a reverberação posterior difusa, de acordo com as modalidades, o limiar não é definido como um limiar fixo. De preferência, de acordo com a abordagem da invenção, o limiar é definido de modo que seja dependente da correlação no tempo de colisão da primeira reflexão. Com esta definição, é assegurado que a primeira reflexão esteja sempre situada antes do tempo de transição. De acordo com as modalidades, o tempo de transição, conforme mostrado na etapa 508, é considerado como alcançado quando o mencionado a seguir se aplica:
[118]
Figure img0024
[119] em que
[120]
Figure img0025
medição de correlação para uma selecionada dentre as reflexões anteriores,
[121] tF = índice de tempo em que a uma selecionada dentre as reflexões anteriores depois que o som direto colide,
[122] c = o valor constante que tem por base i sendo que e é o número de Euler.
[123] De acordo com as modalidades, o valor constante pode ser p no entanto, a presente invenção não se limita a esse valor. De acordo com as modalidades, o valor constante pode ser aproximado por p por exemplo, pelo arredondamento ou truncamento | em relação a uma posição decimal predefinida (consulte abaixo).
[124] Na modalidade descrita, tF é o índice de bloco de tempo em que a primeira reflexão após o som direto colide.
[125] A Figura 9 representa a determinação de tempo de transição de acordo com a abordagem da invenção, em que o limiar é calculado dependendo da resposta de impulso pela multiplicação da correlação no ponto de colisão da primeira reflexão e um valor constante ou fixo de 1/e. A amplitude da resposta de impulso de ambiente 600 é mostrada sobre o número de amostras e uma primeira reflexão 602 também é indicada. A forma de onda 604 indica os valores de correlação obtidos mediante a aplicação da equação (2). Em 606, é mostrado o valor de correlação na primeira reflexão que, no exemplo representado, tem um valor de 0,58. Além disso, o limiar fixo usado convencionalmente de 1/e é mostrado em 608. O valor de correlação 606 para a primeira reflexão e o valor fixo original 1/e são aplicados em um multiplicador 610 que gera o novo limiar que é dependente do valor de correlação na primeira reflexão e, na modalidade descrita, tem um valor de 0,21, como é mostrado em 612. Dessa forma, quando comparado com abordagens convencionais, o ponto de transição 614 é movido adicionalmente em direção à direita, de modo que todas as amostras após o ponto de transição 614 sejam agora consideradas reverberação posterior 304 e todas as amostras antes sejam consideradas reflexão anterior 302. Pode-se notar que o tempo de decisão resultante 614 é mais robusto. Por exemplo, em uma resposta de impulso de ambiente binaural, isto significa que o tempo de transição calculado é muito mais estável em relação ao ângulo azimutal. Isto pode ser observado a partir de uma comparação entre as Figuras 10 e 11. A Figura 10 mostra os tempos de transição, sob a aplicação da abordagem descrita na referência da técnica anterior [1], para o canal esquerdo 700 e o canal direito 702 para uma resposta de impulso de ambiente binaural medida com o uso da implantação de EDC descrita acima, mas com um limiar fixo de 1/e. Uma dependência da audição e do ângulo azimutal é claramente visível, assim como as imersões profundas no tempo de transição abaixo de menos que 10 ms que são devido ao fato de que a correlação p (t) fica abaixo do limiar antes da primeira reflexão colidir. A Figura 11 mostra o tempo de transição para o canal esquerdo 700 e o canal direito 702 quando calculado de acordo com a abordagem da invenção. Pode-se notar que o tempo de transição resultante é muito menos dependente da audição e do ângulo azimutal quando comparado com a abordagem convencional explicada em relação à Figura 10.
[126] De acordo com as modalidades, o tempo de transição é considerado como alcançado quando a correlação fica abaixo ou é igual ao valor limiar para o primeiro tempo e não aumenta novamente acima do limiar posteriormente. O valor temporal que é associado a esta amostra na função de correlação calculada é o tempo em que a reverberação posterior da resposta de impulso é considerada a iniciar. De acordo com a abordagem da invenção, o tempo de colisão da primeira reflexão pode ser determinado por um operador de curtose em operação, como é descrito na referência da técnica anterior [6]. Alternativamente, a primeira reflexão pode ser detectada por meio de outros métodos, por exemplo, por uma detecção de limiar ou por uma detecção de ataque como é descrito, por exemplo, na referência da técnica anterior [7].
[127] De acordo com as modalidades, e-1 = 0,3679 é usado como um valor para indicar uma baixa correlação em processos estocásticos como é indicado, por exemplo, também na referência da técnica anterior [1]. De acordo com as modalidades, este valor é usado com quatro dígitos decimais, de modo que e-1 seja aproximado a 0,3679. De acordo com outras modalidades, também podem ser usados mais ou menos dígitos decimais e tem sido observado que o tempo de transição detectado se altera consequentemente com o desvio do número exato de e-1. Por exemplo, sob o uso do valor de 0,368, isto resulta apenas em alterações mínimas no tempo de transição de abaixo de 1 ms.
[128] De acordo com as modalidades adicionais, a resposta de impulso pode ser limitada por banda e, nesse caso, o EDR pode ser calculado sobre uma faixa de frequências limitada e também a correlação pode ser calculada sobre a faixa de frequências limitada do EDR. Transformações de frequência ou bancos de filtro alternativos também podem ser usados, por exemplo, abordagens que operam completamente no domínio de FFT, economizando, assim, transformações adicionais, por exemplo, sob o uso de filtração/convolução à base de FFT.
[129] É observado que na descrição acima das modalidades, tem sido feita referência a um valor do valor de correlação para a primeira reflexão. No entanto, outras modalidades podem usar um valor de correlação calculado para outra dentre as reflexões anteriores.
[130] Como mencionado acima, a abordagem da invenção, de acordo com as modalidades, pode ser usada em um processador binaural para o processamento binaural de sinais de áudio. A seguir, uma modalidade de processamento binaural de sinais de áudio será descrita. O processamento binaural pode ser realizado como um processo de decodificador que converte o sinal decodificado em um sinal de mistura descendente binaural que fornece uma experiência de som surround quando escutado em fones de ouvido.
[131] A Figura 12 mostra uma representação esquemática de um renderizador binaural 800 para o processamento binaural de sinais de áudio de acordo com uma modalidade da presente invenção. A Figura 12 também fornece uma visão geral do processamento de domínio de QMF no renderizador binaural. Em uma entrada 802, o renderizador binaural 800 recebe o sinal de áudio a ser processado, por exemplo, um sinal de entrada que inclui N canais e 64 bandas de QMF. Além disso, o renderizador binaural 800 recebe inúmeros parâmetros de entrada para o controle do processamento do sinal de áudio. Os parâmetros de entrada incluem a resposta de impulso de ambiente binaural (BRIR) 804 para 2 x N canais e 64 bandas de QMF, uma indicação Kmax 806 da banda máxima que é usada para a convolução do sinal de entrada de áudio com a parte de reflexão anterior das BRIRs 804, e os parâmetros de reverberador 808 e 810 mencionados acima (RT60 e a energia de reverberação). O renderizador binaural 800 compreende um processador de convolução rápida 812 para o processamento do sinal de áudio de entrada 802 com a parte anterior das BRIRs recebidas 804. O processador 812 gera em uma saída o sinal processado anterior 814 que inclui dois canais e Kmax bandas de QMF. O renderizador binaural 800 compreende, além da ramificação de processamento anterior que tem o processador de convolução rápida 812, também uma ramificação de reverberação que inclui dois reverberadores 816a e 816b em que cada um recebe como parâmetro de entrada as informações de RT60 808 e as informações de energia de reverberação 810. A ramificação de reverberação inclui adicionalmente um processador de mistura descendente de estéreo 818 e um processador de análise de correlação 820, em que ambos recebem o sinal de áudio de entrada 802. Além disso, dois estágios de ganho 821a e 821b são fornecidos entre o processador de mistura descendente de estéreo 818 e os respectivos reverberadores 816a e 816b para o controle do ganho de um sinal misturado de modo descendente 822 fornecido pelo processador de mistura descendente de estéreo 818. O processador de mistura descendente de estéreo 818 fornece, com base no sinal de entrada 802, o sinal misturado de modo descendente 822 que tem duas bandas e 64 bandas de QMF. O ganho dos estágios de ganho 821a e 821b é controlado por respectivos sinais de controle 824a e 824b fornecidos pelo processador de análise de correlação 820. O sinal misturado de modo descendente controlado por ganho é inserido nos respectivos reverberadores 816a e 816b que geram respectivos sinais reverberados 826a, 826b. O sinal processado anterior 814 e os sinais reverberados 826a, 826b são recebidos por um misturador 828 que combina os sinais recebidos no sinal de áudio de saída 830 que tem dois canais e 64 bandas de QMF. Além disso, de acordo com a presente invenção, o processador de convolução rápida 812 e os reverberadores 816a e 816b recebem um parâmetro de entrada adicional 832 que indica a transição na resposta de impulso de ambiente 804 a partir da parte anterior para a reverberação posterior determinada conforme discutido acima.
[132] O módulo de renderizador binaural 800 (por exemplo, o renderizador binaural 236 da Figura 2 ou Figura 4) tem como entrada 802 a corrente de dados decodificados. O sinal é processado por um banco de filtro de análise QMF, como descrito em ISO/IEC 14496-3:2009, subcláusula 4.B.18.2, com as modificações indicadas em ISO/IEC 14496-3:2009, subcláusula 8.6.4.2. O módulo de renderizador 800 também pode processar dados de entrada de domínio de QMF; nesse caso, o banco de filtro de análise pode ser omitido. As respostas de impulso de ambiente binaural (BRIRs) 804 são representadas como filtros de domínio de QMF complexos. A conversão de respostas de impulso de ambiente binaural de domínio do tempo na representação de filtro QMF complexo é descrita em ISO/IEC FDIS 23003-1:2006, Anexo B. As BRIRs 804 são limitadas a um certo número de intervalos de tempo no domínio de QMF complexo, de modo que as mesmas contenham apenas a parte de reflexão anterior 301, 302 (consulte a Figura 5) e a reverberação posterior difusa 304 não é incluída. O ponto de transição 832 a partir de reflexões anteriores para a reverberação posterior é determinado conforme descrito acima, por exemplo, por meio de uma análise das BRIRs 804 em uma etapa de pré-processamento do processamento binaural. Os sinais de áudio 802 do domínio QMF e as BRIRs 804 do domínio QMF são, então, processados por uma convolução rápida por banda 812 para realizar o processamento binaural. Um reverberador de domínio de QMF 816a, 816b é usado para gerar uma reverberação posterior de domínio de QMF de 2 canais 826a, 826b. O módulo de reverberação 816a, 816b usa um conjunto de tempos de reverberação dependente de frequência 808 e valores de energia 810 para adaptar as características da reverberação. A forma de onda da reverberação é baseada em uma mistura descendente de estéreo 818 do sinal de entrada de áudio 802 e é escalonada de maneira adaptável 821a, 821b em amplitude dependendo de uma análise de correlação 820 do sinal de áudio de múltiplos canais 802. O resultado de convolução de domínio de QMF de 2 canais 814 e a reverberação de domínio de QMF de 2 canais 816a, 816b são, então, combinados 828 e finalmente, dois bancos de filtro de síntese de QMF computam os sinais de saída de domínio do tempo binaural 830, conforme descrito em ISO/IEC 14496-3:2009, subcláusula 4.6.18.4.2. O renderizador também pode produzir dados de saída de domínio de QMF; o banco de filtro de síntese é então omitido.
DEFINIÇÕES
[133] Os sinais de áudio 802 que são alimentados no módulo de renderizador binaural 800 são chamados de sinais de entrada no mencionado a seguir. Os sinais de áudio 830 que são o resultado do processamento binaural são chamados de sinais de saída. Os sinais de entrada 802 do módulo de renderizador binaural 800 são sinais de saída de áudio do decodificador de núcleo (consulte, por exemplo, sinais 228 na Figura 2). As seguintes definições variáveis são usadas:
Figure img0026
Figure img0027
Figure img0028
PROCESSAMENTO
[134] O processamento do sinal de entrada é agora descrito. O módulo de renderizador binaural opera em quadros não sobrepostos contíguos de duração = 2.048 amostras de domínio do tempo dos sinais de áudio de entrada e emite um quadro de amostras por quadro de entrada processado de duração . (1) Inicialização e pré-processamento
[135] A inicialização do bloco de processamento binaural é realizada antes do processamento das amostras de áudio liberadas pelo decodificador de núcleo (consulte, por exemplo, o decodificador de 200 na Figura 2) ocorrer. A inicialização consiste em várias etapas de processamento. (a) Leitura de valores de análise
[136] O módulo de reverberador 816a, 816b toma um conjunto dependente de frequência de tempos de reverberação 808 e valores de energia 810 como parâmetros de entrada. Esses valores são lidos a partir de uma interface na inicialização do módulo de processamento binaural 800. Além disso, o tempo de transição 832 a partir de reflexões anteriores para reverberação posterior em amostras de domínio do tempo é lido. Os valores podem ser armazenados em um arquivo binário gravado com 32 bits por amostra, valores flutuantes, ordenação little-endian. Os valores lidos que são necessários para o processamento são mencionados na tabela abaixo:
Figure img0029
(b) Leitura e pré-processamento de BRIRs
[137] As respostas de impulso de ambiente binaural 804 são lidas a partir de dois arquivos dedicados que armazenam individualmente as BRIRs de ouvido esquerdo e direito. As amostras de domínio do tempo das BRIRs são armazenadas em arquivos de onda de número inteiro com uma resolução de 24 bits por amostra e 32 canais. A ordenação de BRIRs no arquivo é conforme mencionado na seguinte tabela:
Figure img0030
Figure img0031
Figure img0032
[138] Se não houver BRIR medida em uma das posições de alto-falante, o canal correspondente no arquivo de onda contém valores de zero. Os canais de LFE não são usados para o processamento binaural.
[139] Como uma etapa de pré-processamento, o dado conjunto de respostas de impulso de ambiente binaural (BRIRs) é transformado a partir de filtros de domínio do tempo em filtros de domínio de QMF de valor complexo. A implantação dos dados filtros de domínio do tempo no domínio de QMF de valor complexo é realizada de acordo com ISO/IEC FDIS 23003-1:2006, Anexo B. Os coeficientes de filtro de protótipo para a conversão de filtro são usados de acordo com ISO/IEC FDIS 23003-1:2006, Anexo B, Tabela B.1. A representação de domínio do tempo
Figure img0033
com
Figure img0034
processada para ganhar um filtro de domínio de QMF de valor complexo
Figure img0035
com.
[140] O bloco de processamento de áudio do módulo de renderizador binaural 800 obtém amostras de áudio de domínio do tempo 802 para canais de entrada a partir do decodificador de núcleo e gera um sinal de saída binaural 830 que consiste em = 2 canais.
[141] O processamento toma como entrada • os dados de áudio decodificados 802 a partir do decodificador de núcleo, • a representação de domínio de QMF complexo da parte de reflexão anterior do conjunto de BRIR 804, e • o conjunto de parâmetros dependentes de frequência 808, 810, 832 que é usado pelo reverberador de domínio de QMF 816a, 816b para gerar a reverberação posterior 826a, 826b. (a) Análise de QMF do sinal de áudio
[142] Como a primeira etapa de processamento, o módulo de renderizador binaural transforma = 2.048 amostras de domínio do tempo do sinal de entrada de domínio do tempo de canais (que sucedem do decodificador de núcleo)
Figure img0036
em uma representação de sinal de domínio de QMF de Nin canais 802 de dimensão = 32 intervalos de tempo de QMF (índice de intervalo de tempo) e K = 64 bandas de frequência (índices de banda k ).
[143] Uma análise de QMF como descrito em ISO/IEC 14496-3:2009, subcláusula 4.B.18.2 com as modificações mencionadas em ISO/IEC 144963:2009, subcláusula 8.6.4.2. é realizada em um quadro do sinal de domínio do tempo para ganhar um quadro do sinal de domínio de QMF
Figure img0037
com
Figure img0038
[144] (b) Convolução rápida do sinal de áudio de domínio de QMF e das BRIRs de domínio de QMF
[145] Em seguida, uma convolução rápida por banda 812 é realizada para processar o sinal de áudio de domínio de QMF 802 e as BRIRs de domínio de QMF 804. Uma análise de FFT pode ser realizada para cada banda de frequência de QMF para cada canal do sinal de entrada 802 e cada BRIR 804.
[146] Devido aos valores complexos no domínio de QMF, uma análise de FFT é realizada sobre a parte real da representação de sinal de domínio de QMF e uma análise de FFT sobre as partes imaginárias da representação de sinal de domínio de QMF. Os resultados são, então, combinados para formar o sinal de pseudodomínio de FFT de valor complexo por banda final
[147]
Figure img0039
[148] e as BRIRs de valor complexo por banda
[149]
Figure img0040
para o ouvido esquerdo
[150]
Figure img0041
para o ouvido direito.
[151] A duração da transformada FFT é determinada de acordo com a duração dos filtros de BRIR de domínio de QMF de valor complexo e a duração de quadro em intervalos de tempo de domínio de QMF de modo que
[152]
Figure img0042
[153] Os sinais de pseudodomínio de FFT de valor complexo são, então, multiplicados com os filtros de BRIR de pseudodomínio de FFT de valor complexo para formar os resultados de convolução rápida. Um vetor mconv é usado para sinalizar qual canal do sinal de entrada corresponde a qual par de BRIR no conjunto de dados de BRIR.
[154] Esta multiplicação é feita por banda para todas as bandas de frequência de QMF k comi
Figure img0043
. A banda máxima é determinada pela banda de QMF que representa uma frequência de 18 kHz ou a frequência de sinal máxima que está presente no sinal de áudio a partir do decodificador de núcleo
[155]
Figure img0044
[156] Os resultados de multiplicação a partir de cada canal de entrada de áudio com cada par de BRIR são somados em cada banda de frequência de QMF com resultando em um sinal de pseudodomínio de FFT de banda de 2 canais intermediário.
[157]
Figure img0045
são o resultado de pseudoconvolução de FFT
Figure img0046
na banda de frequência de domínio de QMF k .
[158] Em seguida, uma síntese de FFT por banda é realizada para transformar o resultado de convolução de volta para o domínio de QMF resultando em um sinal de domínio de QMF de banda de 2 canais intermediário com intervalos de tempo
Figure img0047
[159] Para cada quadro de sinal de entrada de domínio de QMF com L= 32 intervalos de tempo, um quadro de sinal de resultado de convolução com L = 32 intervalos de tempo é retornado. Os intervalos de tempo restantes são armazenados e um processamento de adição de sobreposição é realizado no(s) seguinte(s) quadro(s).
[160] (c) Geração de reverberação posterior
[161] Como um segundo canal intermediário 826a, 826b, um sinal de reverberação chamado de
Figure img0048
é gerado por um módulo de reverberador de domínio da frequência 816a, 816b. O reverberador de domínio da frequência 816a, 816b toma como entrada • uma mistura descendente de estéreo de domínio de QMF 822 de um quadro do sinal de entrada, • um conjunto de parâmetros que contém tempos de reverberação dependente de frequência 808 e valores de energia 810.
[162] O reverberador de domínio da frequência 816a, 816b retorna uma cauda posterior de reverberação de domínio de QMF de 2 canais.
[163] O número de banda máxima usada do conjunto de parâmetros dependentes de frequência é calculado dependendo da frequência máxima.
[164] Primeiramente, uma mistura descendente de estéreo de domínio de QMF 818 de um quadro do sinal de entrada ynh’hk é realizada para formar a entrada do reverberador por uma soma ponderada dos canais de sinal de entrada. Os ganhos de ponderação são contidos na matriz de mistura descendente . Os mesmos são de valor real e não negativos e a matriz de mistura descendente é de dimensão
Figure img0049
. O mesmo contém um valor diferente de zero, em que um canal do sinal de entrada é mapeado para um dentre os dois canais de saída.
[165] Os canais que representam posições de alto-falante no hemisfério esquerdo são mapeados para o canal de saída esquerdo e os canais que representam alto-falantes localizados no hemisfério direito são mapeados para o canal de saída direito. Os sinais desses canais são ponderados por um coeficiente de 1. Os canais que representam alto-falantes no plano mediano são mapeados para ambos os canais de saída do sinal binaural. Os sinais de entrada desses canais são ponderados por um coeficiente
[166]
Figure img0050
[167] Além disso, uma etapa de equalização de energia é realizada na mistura descendente. O mesmo adapta a energia por banda de um canal de mistura descendente para ser igual à soma da energia por banda dos canais de sinal de entrada que estão contidos nesse canal de mistura descendente. Essa equalização de energia é conduzida por uma multiplicação por banda com um coeficiente de valor real
[168]
Figure img0051
[169] O fator é limitado a um intervalo de [0.5, 2]. A constante numérica ε é introduzida para evitar uma divisão por zero. A mistura descendente também é limitada por banda à frequência fmax ; os valores em todas as bandas de frequência maiores são ajustados para zero.
[170] A Figura 13 representa esquematicamente o processamento na reverberador de domínio da frequência 816a, 816b do renderizador binaural 800, de acordo com uma modalidade da presente invenção.
[171] No reverberador de domínio da frequência, uma mistura descendente de mono da entrada de estéreo é calculada com o uso de um misturador de entrada 900. Isso é feito aplicando-se de forma incoerente um deslocamento de fase de 90° sobre o segundo canal de entrada.
[172] Esse sinal mono é, então, alimentado para um circuito de atraso de retroalimentação 902 em cada banda de frequência k, o qual cria uma sequência de decaimento de impulsos. O mesmo é seguido de elementos de descorrelação de FIR paralelos que distribuem a energia de sinal de uma maneira em decaimento nos intervalos entre os impulsos e criam incoerência entre os canais de saída. Uma densidade compactada de filtro de decaimento é aplicada para criar o decaimento de energia. As operações de fase compactada do filtro são restritas a quatro opções para implantar um elemento de descorrelação livre de multiplicador e disperso.
[173] Após o cálculo da reverberação, um módulo de coerência entre canais (ICC) 904 é incluído no módulo de reverberador para cada banda de frequência de QMF. Na etapa de correção de ICC, os ganhos direto dependentes de frequência gdirect e ganhos de mistura cruzada gcross são usados para adaptar o ICC.
[174] A quantidade de energia e os tempos de reverberação para as diferentes bandas de frequência são contidos no conjunto de parâmetros de entrada. Os valores são dados em uma série de pontos de frequência que são mapeados internamente para as 64 bandas de frequência de K = QMF.
[175] Dois casos do reverberador de domínio da frequência são usados para calcular o sinal intermediário final. O sinal é o primeiro canal de saída do primeiro caso do reverberador, e é o segundo canal de saída do segundo caso do reverberador. Os mesmos são combinados com o quadro de sinal de reverberação final que tem a dimensão de 2 canais, 64 bandas e 32 intervalos de tempo.
[176] A mistura descendente de estéreo 822 é ambas as vezes escalonada 821a,b de acordo com uma medição de correlação 820 do quadro de sinal de entrada para assegurar o escalonamento correto da saída de reverberador. O fator de escalonamento é definido como um valor no intervalo de
Figure img0052
que depende linearmente de um coeficiente de correlação ccorr entre 0 e 1 com
[177]
Figure img0053
[178]
Figure img0054
[179] em que
Figure img0055
significa o desvio padrão através de um intervalo de tempo ndo canal A , o operador
Figure img0056
denota o conjugado complexo e yV é a versão de média zero do sinal de domínio de QMF yV no quadro de sinal real.
[180] ccorr é calculado duas vezes: uma vez para todos os canaisA, B que são ativos no quadro de sinal real F e são incluídos no canal esquerdo da mistura descendente de estéreo e uma vez para todos os canaisA, Bque são ativos no quadro de sinal real F e que são incluídos no canal direito da mistura descendente de estéreo.
[181]
Figure img0057
é o número de canais de entrada que são misturados de DMX,act modo descendente em um canal de mistura descendente A (número de elementos de matriz na Ath fileira da matriz de mistura descendenteM que DMX é desigual a zero) e que são ativos no quadro atual.
[182] Os fatores de escalonamento são, então
[183]
Figure img0058
[184] Os fatores de escalonamento são suavizados sobre quadros de sinal de áudio por um filtro passa-baixa de 1a ordem resultando em fatores de escalonamento suavizados
Figure img0059
[185] Os fatores de escalonamento são inicializados no primeiro quadro de dados de entrada de áudio por uma análise de correlação de domínio do tempo com o mesmo meio.
[186] A entrada do primeiro caso de reverberador é escalonada com o fator de escalonamentoc%scale,1 e a entrada do segundo caso de reverberador é escalonada com o fator de escalonamentoc% l 2 . scale,2
[187] (d) Combinação de resultados de convolução e reverberação posterior
[188] Em seguida, o resultado de convolução 814, , e a saída de reverberador 826a, 826b, , para um quadro de entrada de áudio de domínio de QMF são combinados por meio de um processo de misturação 828 que adiciona por banda os dois sinais. Observe que as bandas superiores maiores do que são zero em devido ao fato de que a convolução é apenas conduzida nas bandas até .
[189] A saída de reverberação posterior é atrasada por uma quantidade de
Figure img0060
intervalos de tempo no processo de misturação.
[190] O atraso leva em conta o tempo de transição a partir de reflexões anteriores para reflexões posteriores nas BRIRs e um atraso inicial do reverberador de 20 intervalos de tempo de QMF, assim como um atraso de análise de 0,5 intervalos de tempo de QMF para a análise de QMF das BRIRs, para assegurar a inserção da reverberação posterior em um intervalo de tempo razoável. O sinal combinado em um intervalo de tempo n calculado por.
[191] (e) Síntese de QMF de sinal de domínio de QMF binaural
[192] Um quadro de 2 canais de 32 intervalos de tempo do sinal de saída de domínio de QMF é transformado em um quadro de sinal de domínio do tempo de 2 canais com duração L por meio da síntese de QMF de acordo com ISO/IEC 14496-3:2009, subcláusula 4.6.18.4.2., rendendo o sinal de saída de domínio do tempo final 830,
Figure img0061
[193] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é evidente que esses aspectos também representam uma descrição do método correspondente, em que um bloco ou dispositivo corresponde a uma etapa de método ou a um recurso de uma etapa de método. De maneira análoga, os aspectos descritos no contexto de uma etapa de método também representam uma descrição de um bloco ou item ou recurso de um aparelho correspondente. Parte ou a totalidade das etapas de método pode ser executada por (ou com o uso de) um aparelho de hardware, como, por exemplo, um microprocessador, um computador programável ou um circuito eletrônico. Em algumas modalidades, um ou mais dentre as etapas de método mais importantes podem ser executadas por tal aparelho.
[194] Dependendo de certos requisitos de implantação, as modalidades da invenção podem ser implantadas em hardware ou em software. A implantação pode ser realizada com o uso de um meio de armazenamento não transitório como um meio de armazenamento digital, por exemplo, um disquete, um DVD, um Blu-Ray, um CD, uma ROM, uma PROM e EPROM, uma EEPROM ou uma memória FLASH, que tem sinais de controle eletronicamente legíveis armazenados no mesmo, que cooperam (ou têm a capacidade de cooperar) com um sistema de computador programável de modo que o respectivo método seja realizado. Portanto, o meio de armazenamento digital pode ser legível por computador.
[195] Algumas modalidades de acordo com a invenção compreendem um suporte de dados que tem sinais de controle eletronicamente legíveis, que têm a capacidade de cooperar com um sistema de computador programável, de modo que um dos métodos descritos no presente documento seja realizado.
[196] De modo geral, as modalidades da presente invenção podem ser implantadas como um produto de programa de computador com um código de programa, em que o código de programa é operativo para realizar um dos métodos quando o produto de programa de computador for executado em um computador. O código de programa pode ser, por exemplo, armazenado em um suporte legível por máquina.
[197] Outras modalidades compreendem o programa de computador para realizar um dos métodos descritos no presente documento, armazenado em um suporte legível por máquina.
[198] Em outras palavras, uma modalidade do método da invenção é, portanto, um programa de computador que tem um código de programa para realizar um dos métodos descritos no presente documento, quando o programa de computador é executado em um computador.
[199] Uma modalidade adicional dos métodos da invenção é, portanto, um suporte de dados (ou um meio de armazenamento digital, ou um meio legível por computador) que compreende, gravado no mesmo, o programa de computador para realizar um dos métodos descritos no presente documento. O suporte de dados, o meio de armazenamento digital ou o meio gravado é tipicamente tangível e/ou não transitório.
[200] Uma modalidade adicional do método da invenção é, portanto, uma corrente de dados ou uma sequência de sinais que representa o programa de computador para realizar um dos métodos descritos no presente documento. A corrente de dados ou a sequência de sinais pode ser, por exemplo, configurada para ser transferida através de uma conexão de comunicação de dados, por exemplo, através da Internet.
[201] Uma modalidade adicional compreende um meio de processamento, por exemplo, um computador ou um dispositivo de lógica programável, configurado ou programado para executar um dos métodos descritos no presente documento.
[202] Uma modalidade adicional compreende um computador que tem instalado no mesmo o programa de computador para executar um dos métodos descritos no presente documento.
[203] Uma modalidade adicional de acordo com a invenção compreende um aparelho ou um sistema configurado para transferir (por exemplo, eletrônica ou opticamente) um programa de computador para realizar um dos métodos descritos no presente documento para um receptor. O receptor pode, por exemplo, ser um computador, um dispositivo móvel, um dispositivo de memória ou similares. O aparelho ou sistema pode, por exemplo, compreender um servidor de arquivo para transferir o programa de computador para o receptor.
[204] Em algumas modalidades, um dispositivo de lógica programável (por exemplo, um arranjo de porta programável em campo) pode ser usado para realizar parte ou a totalidade das funcionalidades dos métodos descritos no presente documento. Em algumas modalidades, um arranjo de porta programável em campo pode cooperar com um microprocessador a fim de realizar um dos métodos descritos no presente documento. De modo geral, os métodos são, de preferência, realizados por qualquer aparelho de hardware.
[205] As modalidades descritas acima são meramente ilustrativas para os princípios da presente invenção. Entende-se que modificações e variações das disposições e os detalhes descritos no presente documento se tornarão evidentes para os versados na técnica. Portanto, é previsto que a mesmas sejam limitadas apenas pelo escopo das reivindicações de patente iminente e não pelos detalhes específicos apresentados a título de descrição e explicação das modalidades no presente documento.
[206] Referências
[207] [1] T. Hidaka et al: “A new definition of boundary point between early reflections and late reverberation in room impulse responses”. Forum Acusticum, 2005.
[208] [2] Jot et al: “Analysis and synthesis of room reverberation based on a statistical time frequency model”.
[209] [3] J.S. Abel, P. Huang: “A Simple, Robust Measure of Reverberation Echo Density”. AES Convention, San Francisco, 2006.
[210] [4] R. Stewart, M. Sandler: “Statistical Measures of Early Reflections of Room Impulse Responses”. DAFx, 2007.
[211] [5] Reilly et al: “Using Auralisation for Creating Animated 3-D Sound Fields Across Multiple Speakers”. AES Convention, Nova Iorque, 1995.
[212] [6] Usher, J.: “An improved method to determine the onset timings of reflections in an acoustic impulse response”. Journal of the Acoustical Society of America, (2010, volume 127) band 4, páginas 172 a 177.
[213] [7] Masri, P.: „Computer Modelling of Sound for Transformation and Synthesis of Musical Signals“. PhD thesis, University of Bristol, 1996.

Claims (17)

1. Método para o processamento de um sinal de áudio (400, 802) de acordo com uma resposta de impulso de ambiente (300, 804), sendo que o método é caracterizado por compreender: processar separadamente (402, 404, 406, 422, 424, 812, 816a, 816b) o sinal de áudio (400, 802) com uma parte anterior (301, 302) e uma reverberação posterior (304) da resposta de impulso de ambiente (300, 804) ou com a reverberação sintética; e combinar (418, 432, 828) o sinal de áudio processado com a parte anterior (414, 428, 814) da resposta de impulso de ambiente (300, 804) e sinal de áudio (416, 430, 826a, 826b) processado com a reverberação posterior (304) da resposta de impulso de ambiente (300, 804) ou com a reverberação sintética, determinando uma transição a partir da parte anterior (301, 302) para a reverberação posterior (304) na resposta de impulso de ambiente (300, 804) como um momento quando uma medição de correlação alcança um limiar, em que a medição de correlação descreve em relação à resposta de impulso de ambiente (300, 804) uma similaridade de um decaimento em energia acústica que inclui um estado inicial do decaimento em energia acústica começando em um ponto no tempo, dito ponto no tempo após o estado inicial sobre uma faixa de frequência predefinida, em que o limiar é ajustado dependendo da medição de correlação para dito ponto no tempo, dito ponto no tempo sendo um momento de uma selecionada dentre as reflexões anteriores (302, 602) na parte anterior (301, 302) da resposta de impulso de ambiente (300, 804), e em que a uma selecionada dentre as reflexões anteriores é a primeira reflexão (602).
2. Método, de acordo com a reivindicação 1, caracterizado por a determinação da transição compreender: determinar (500) uma distribuição de energia acústica com base na resposta de impulso de ambiente (300, 804); e determinar (502) uma pluralidade das medições de correlação que indicam para uma pluralidade de porções da distribuição determinada uma correlação entre a energia acústica na respectiva porção da distribuição determinada e a energia acústica em um estado inicial.
3. Método, de acordo com a reivindicação 2, caracterizado por a determinação da distribuição compreender determinar uma distribuição de frequência de tempo da energia acústica, e uma porção da distribuição compreende um bloco de tempo de uma duração predefinida, sendo que o estado inicial é definido pelo primeiro dentre a pluralidade de blocos de tempo da distribuição de frequência de tempo.
4. Método, de acordo com a reivindicação 2 ou 3, caracterizado por a determinação da distribuição compreender calcular o alívio de decaimento de energia, EDR, a partir da resposta de impulso de ambiente (300, 804).
5. Método, de acordo com a reivindicação 4, caracterizado por o alívio de decaimento de energia ,EDR, ser calculado conforme exposto a seguir.
Figure img0062
em que E(t,w) = alívio de decaimento de energia, h(r) = resposta de impulso de ambiente (300, 804), o = 2πf.
6. Método, de acordo com qualquer uma das reivindicações 3 a 5, caracterizado por a resposta de impulso de ambiente (300, 804) ter uma duração eficaz predefinida, e em que a determinação da distribuição de frequência de tempo compreende calcular o espectro de FFT da resposta de impulso de ambiente (300, 804) com o uso de uma janela que tem uma duração que corresponde à duração eficaz da resposta de impulso de ambiente.
7. Método, de acordo com a reivindicação 6, caracterizado por a energia acústica no estado inicial ser determinada tomando-se a duração eficaz total da resposta de impulso de ambiente (300, 804) (300, 804), calculando-se o espectro de FFT e tomando-se o quadrado dos valores absolutos, e a energia acústica de um bloco de tempo é determinada mediante o deslocamento da janela pelo tempo associado ao bloco de tempo, a complementação com zeros as amostras em janela até a duração eficaz, o cálculo do FFT e a tomada do quadrado dos valores absolutos.
8. Método, de acordo com qualquer uma das reivindicações 1 a 7, caracterizado por a medição de correlação ser calculada conforme exposto a seguir:
Figure img0063
em que p(t) = medição de correlação, E(1, w) = alívio de decaimento de energia na frequência f, E(1, w) = valor médio sobre todas as frequências de um alívio de decaimento de energia inicial, E(t, w) = alívio de decaimento de energia na frequência f começando em um tempo t, E(t, w) = valor médio sobre todas as frequências do alívio de decaimento de energia começando no tempo t, o = 2πf.
9. Método, de acordo com qualquer uma das reivindicações 1 a 8, caracterizado por o limiar ser determinado com base em um valor constante e na medição de correlação para uma selecionada dentre as reflexões anteriores (302, 602).
10. Método, de acordo com a reivindicação 9, caracterizado por o valor constante ser 1/e, e em que o limiar é definido conforme exposto a seguir: p(t) = c • p(tF) em que p(tp) = medição de correlação para uma selecionada dentre as reflexões anteriores (302, 602), tF = índice de tempo em que a uma selecionada dentre as reflexões anteriores (302, 602) depois que o som direto (300) colide, c = o valor constante ser^, sendo que e é o número de Euler.
11. Unidade de processamento de sinal caracterizada por compreender uma entrada para recepção de um sinal de áudio (400, 802); um processador configurado para processar o sinal de áudio (400, 802) com uma parte anterior (301, 302) e uma reverberação posterior (304) da resposta de impulso de ambiente (300, 804), ou com uma reverberação sintética; e uma saída para combinação (418, 432, 828) do sinal de áudio processado com a parte anterior (414, 428, 814) da resposta de impulso ambiente (300, 804) e do sinal de áudio (416, 430, 826a, 826b) processado com a reverberação posterior (304) da resposta de impulso ambiente (300, 804) ou com a reverberação sintética, em que o processador é configurado para determinar uma transição da parte anterior (301, 302) para a reverberação posterior (304) na resposta de impulso ambiente (300, 804) como um momento quando uma medição de correlação alcança um limiar, em que a medição de correlação descreve em relação à resposta de impulso de ambiente (300, 804) uma similaridade de um decaimento em energia acústica que inclui um estado inicial do decaimento em energia acústica começando em um ponto no tempo, dito ponto no tempo após o estado inicial sobre uma faixa de frequência predefinida, em que o limiar é ajustado dependendo da medição de correlação para dito ponto no tempo, dito ponto no tempo sendo um momento de uma selecionada dentre as reflexões anteriores (302, 602) na parte anterior (301, 302) da resposta de impulso de ambiente (300, 804), e em que a uma selecionada dentre as reflexões anteriores é a primeira reflexão (602).
12. Unidade de processamento de sinal, de acordo com a reivindicação 11, caracterizada por compreender: um processador de parte anterior (402, 404, 422, 812) para o processamento do sinal de áudio recebido (400, 802) de acordo com a parte anterior (301, 302, 602) da resposta de impulso de ambiente (300, 804); e um processador de reverberação posterior (406, 424, 816a,816b) para o processamento do sinal de áudio recebido (400, 802) de acordo com a reverberação posterior (304) da resposta de impulso de ambiente (300, 804).
13. Codificador de áudio para a codificação de um sinal de áudio caracterizado por o codificador de áudio ser configurado para processar um sinal de áudio a ser codificado de acordo com uma resposta de impulso de ambiente (300, 804), de acordo com o método conforme definido em qualquer uma das reivindicações 1 a 10.
14. Codificador de áudio, de acordo com a reivindicação 13, caracterizado por o codificador de áudio compreender uma unidade de processamento de sinal conforme definido na reivindicação 11 ou 12.
15. Decodificador de áudio para a decodificação de um sinal de áudio codificado caracterizado por o decodificador de áudio ser configurado para processar um sinal de áudio decodificado (400, 802) de acordo com uma resposta de impulso de ambiente (300, 804), de acordo com um método conforme definido em qualquer uma das reivindicações 1 a 10.
16. Decodificador de áudio, de acordo com a reivindicação 15, caracterizado por o decodificador de áudio compreender uma unidade de processamento de sinal conforme definido na reivindicação 11 ou 12.
17. Renderizador binaural caracterizado por compreender uma unidade de processamento de sinal tal como descrito nas reivindicações 11 ou 12.
BR112016001249-6A 2013-07-22 2014-07-16 Método para o processamento de um sinal de áudio de acordo com uma resposta de impulso de ambiente, unidade de processamento de sinal, codificador de áudio, decodificador de áudio e renderizador binaural BR112016001249B1 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP13177362.4 2013-07-22
EP13177362 2013-07-22
EP13189230.9A EP2830043A3 (en) 2013-07-22 2013-10-18 Method for Processing an Audio Signal in accordance with a Room Impulse Response, Signal Processing Unit, Audio Encoder, Audio Decoder, and Binaural Renderer
EP13189230.9 2013-10-18
PCT/EP2014/065227 WO2015010983A1 (en) 2013-07-22 2014-07-16 Method for processing an audio signal in accordance with a room impulse response, signal processing unit, audio encoder, audio decoder, and binaural renderer

Publications (2)

Publication Number Publication Date
BR112016001249A2 BR112016001249A2 (pt) 2017-07-25
BR112016001249B1 true BR112016001249B1 (pt) 2022-03-15

Family

ID=48874134

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112016001249-6A BR112016001249B1 (pt) 2013-07-22 2014-07-16 Método para o processamento de um sinal de áudio de acordo com uma resposta de impulso de ambiente, unidade de processamento de sinal, codificador de áudio, decodificador de áudio e renderizador binaural

Country Status (20)

Country Link
US (6) US10433097B2 (pt)
EP (4) EP2830043A3 (pt)
JP (1) JP6205493B2 (pt)
KR (1) KR101838623B1 (pt)
CN (2) CN105580070B (pt)
AR (1) AR096995A1 (pt)
AU (1) AU2014295254B2 (pt)
BR (1) BR112016001249B1 (pt)
CA (1) CA2918855C (pt)
ES (2) ES2933375T3 (pt)
FI (1) FI3594939T3 (pt)
MX (1) MX359218B (pt)
MY (1) MY176181A (pt)
PL (2) PL3594939T3 (pt)
PT (2) PT3025327T (pt)
RU (1) RU2643867C2 (pt)
SG (1) SG11201600367RA (pt)
TW (1) TWI549119B (pt)
WO (1) WO2015010983A1 (pt)
ZA (1) ZA201601114B (pt)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014112793A1 (ko) 2013-01-15 2014-07-24 한국전자통신연구원 채널 신호를 처리하는 부호화/복호화 장치 및 방법
CN105009207B (zh) 2013-01-15 2018-09-25 韩国电子通信研究院 处理信道信号的编码/解码装置及方法
CN108806704B (zh) 2013-04-19 2023-06-06 韩国电子通信研究院 多信道音频信号处理装置及方法
CN104982042B (zh) 2013-04-19 2018-06-08 韩国电子通信研究院 多信道音频信号处理装置及方法
US9319819B2 (en) 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
US9584938B2 (en) * 2015-01-19 2017-02-28 Sennheiser Electronic Gmbh & Co. Kg Method of determining acoustical characteristics of a room or venue having n sound sources
HUE056176T2 (hu) 2015-02-12 2022-02-28 Dolby Laboratories Licensing Corp Fejhallgató virtualizálás
AU2016311335B2 (en) 2015-08-25 2021-02-18 Dolby International Ab Audio encoding and decoding using presentation transform parameters
US9786298B1 (en) 2016-04-08 2017-10-10 Source Digital, Inc. Audio fingerprinting based on audio energy characteristics
US10187740B2 (en) * 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
JP6977030B2 (ja) * 2016-10-28 2021-12-08 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 複数のオーディオソースの再生のためのバイノーラルレンダリング装置および方法
US11089425B2 (en) 2017-06-27 2021-08-10 Lg Electronics Inc. Audio playback method and audio playback apparatus in six degrees of freedom environment
JP6886890B2 (ja) * 2017-08-08 2021-06-16 株式会社竹中工務店 減衰時間分析方法、装置、及びプログラム
US10388268B2 (en) 2017-12-08 2019-08-20 Nokia Technologies Oy Apparatus and method for processing volumetric audio
WO2019121980A1 (en) 2017-12-19 2019-06-27 Dolby International Ab Methods and apparatus systems for unified speech and audio decoding improvements
CN111107481B (zh) * 2018-10-26 2021-06-22 华为技术有限公司 一种音频渲染方法及装置
CN109846477B (zh) * 2019-01-29 2021-08-06 北京工业大学 一种基于频带注意力残差网络的脑电分类方法
CN111123202B (zh) * 2020-01-06 2022-01-11 北京大学 一种室内早期反射声定位方法及系统
CN111179958A (zh) * 2020-01-08 2020-05-19 厦门亿联网络技术股份有限公司 一种语音晚期混响抑制方法及系统
JP7447533B2 (ja) 2020-02-19 2024-03-12 ヤマハ株式会社 音信号処理方法および音信号処理装置
JP7396459B2 (ja) * 2020-03-09 2023-12-12 日本電信電話株式会社 音信号ダウンミックス方法、音信号符号化方法、音信号ダウンミックス装置、音信号符号化装置、プログラム及び記録媒体
CN112146745B (zh) * 2020-09-09 2023-01-03 中国船舶重工集团公司第七一五研究所 一种水池混响时间的精确测量方法
WO2022103290A1 (en) 2020-11-12 2022-05-19 "Stc"-Innovations Limited" Method for automatic quality evaluation of speech signals using neural networks for selecting a channel in multimicrophone systems
AT523644B1 (de) * 2020-12-01 2021-10-15 Atmoky Gmbh Verfahren für die Erzeugung eines Konvertierungsfilters für ein Konvertieren eines multidimensionalen Ausgangs-Audiosignal in ein zweidimensionales Hör-Audiosignal
CN112652290B (zh) * 2020-12-14 2023-01-20 北京达佳互联信息技术有限公司 产生混响音频信号的方法及音频处理模型的训练方法
CN113375788B (zh) * 2021-05-31 2022-05-20 哈尔滨工程大学 一种基于矩阵填充的水声传感器网络环境数据采集方法
US11705148B2 (en) * 2021-06-11 2023-07-18 Microsoft Technology Licensing, Llc Adaptive coefficients and samples elimination for circular convolution
CN116160955B (zh) * 2023-04-25 2023-08-29 科大讯飞(苏州)科技有限公司 一种车辆主动声浪增强方法、装置、存储介质及设备

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5371799A (en) * 1993-06-01 1994-12-06 Qsound Labs, Inc. Stereo headphone sound source localization system
CA2325482C (en) * 1998-03-25 2009-12-15 Lake Technology Limited Audio signal processing method and apparatus
US6188769B1 (en) * 1998-11-13 2001-02-13 Creative Technology Ltd. Environmental reverberation processor
US7107110B2 (en) * 2001-03-05 2006-09-12 Microsoft Corporation Audio buffers with audio effects
BRPI0516971A (pt) * 2004-10-26 2008-09-30 Richard S Burwen sistema para gerar eletronicamente uma forma de onda de reverberação artificial a partir de uma forma de onda de entrada e produto de programa de computador
US7715575B1 (en) * 2005-02-28 2010-05-11 Texas Instruments Incorporated Room impulse response
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
KR100873639B1 (ko) * 2007-01-23 2008-12-12 삼성전자주식회사 헤드폰에서 출력되는 음상을 외재화하는 장치 및 방법.
KR100899836B1 (ko) * 2007-08-24 2009-05-27 광주과학기술원 실내 충격응답 모델링 방법 및 장치
JP4769238B2 (ja) * 2007-08-24 2011-09-07 日本電信電話株式会社 信号分離装置、信号分離方法、プログラム及び記録媒体
WO2010054360A1 (en) * 2008-11-10 2010-05-14 Rensselaer Polytechnic Institute Spatially enveloping reverberation in sound fixing, processing, and room-acoustic simulations using coded sequences
TWI557723B (zh) * 2010-02-18 2016-11-11 杜比實驗室特許公司 解碼方法及系統
EP2389016B1 (en) * 2010-05-18 2013-07-10 Harman Becker Automotive Systems GmbH Individualization of sound signals
KR101217544B1 (ko) * 2010-12-07 2013-01-02 래드손(주) 음질 향상 효과를 가지는 오디오 신호를 생성하는 오디오 장치 및 방법
EP2656640A2 (en) * 2010-12-22 2013-10-30 Genaudio, Inc. Audio spatialization and environment simulation
TR201815799T4 (tr) 2011-01-05 2018-11-21 Anheuser Busch Inbev Sa Bir audio sistemi ve onun operasyonunun yöntemi.
EP2541542A1 (en) * 2011-06-27 2013-01-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a measure for a perceived level of reverberation, audio processor and method for processing a signal
KR101174111B1 (ko) * 2012-02-16 2012-09-03 래드손(주) 오디오 신호의 디지털 노이즈를 저감시키는 장치 및 방법
CN102592606B (zh) * 2012-03-23 2013-07-31 福建师范大学福清分校 一种补偿小空间听音声环境的均衡信号处理方法
CN102928067B (zh) * 2012-10-16 2014-12-17 华南理工大学 一种用于测量房间声学参数的系统及方法
CN104919820B (zh) * 2013-01-17 2017-04-26 皇家飞利浦有限公司 双耳音频处理
US9369818B2 (en) * 2013-05-29 2016-06-14 Qualcomm Incorporated Filtering with binaural room impulse responses with content analysis and weighting

Also Published As

Publication number Publication date
US20220159405A1 (en) 2022-05-19
TW201523585A (zh) 2015-06-16
EP3594939A1 (en) 2020-01-15
EP4125087A1 (en) 2023-02-01
KR101838623B1 (ko) 2018-03-14
US20210289311A1 (en) 2021-09-16
ZA201601114B (en) 2017-11-29
BR112016001249A2 (pt) 2017-07-25
AU2014295254B2 (en) 2017-01-19
CN105580070A (zh) 2016-05-11
US20200322750A1 (en) 2020-10-08
RU2016105519A (ru) 2017-08-25
EP3594939B1 (en) 2022-11-02
PT3594939T (pt) 2022-12-07
FI3594939T3 (fi) 2023-01-31
US10972858B2 (en) 2021-04-06
EP2830043A2 (en) 2015-01-28
EP2830043A3 (en) 2015-02-18
SG11201600367RA (en) 2016-02-26
AU2014295254A1 (en) 2016-03-10
MX359218B (es) 2018-09-19
WO2015010983A1 (en) 2015-01-29
US11265672B2 (en) 2022-03-01
CA2918855A1 (en) 2015-01-29
RU2643867C2 (ru) 2018-02-06
AR096995A1 (es) 2016-02-10
CN110648651A (zh) 2020-01-03
JP2016532149A (ja) 2016-10-13
JP6205493B2 (ja) 2017-09-27
MY176181A (en) 2020-07-24
PL3594939T3 (pl) 2023-03-06
MX2016000849A (es) 2016-04-27
EP3025327A1 (en) 2016-06-01
US20190387353A1 (en) 2019-12-19
ES2933375T3 (es) 2023-02-06
US11856388B2 (en) 2023-12-26
ES2758757T3 (es) 2020-05-06
US20240129687A1 (en) 2024-04-18
US10721582B2 (en) 2020-07-21
PT3025327T (pt) 2020-01-06
US10433097B2 (en) 2019-10-01
CN110648651B (zh) 2023-08-25
CN105580070B (zh) 2019-10-29
KR20160039201A (ko) 2016-04-08
TWI549119B (zh) 2016-09-11
CA2918855C (en) 2018-07-31
PL3025327T3 (pl) 2020-04-30
US20160142854A1 (en) 2016-05-19
EP3025327B1 (en) 2019-10-02

Similar Documents

Publication Publication Date Title
BR112016001249B1 (pt) Método para o processamento de um sinal de áudio de acordo com uma resposta de impulso de ambiente, unidade de processamento de sinal, codificador de áudio, decodificador de áudio e renderizador binaural
JP7241447B2 (ja) オーディオ信号を処理するための方法、信号処理ユニット、バイノーラルレンダラ、オーディオエンコーダおよびオーディオデコーダ

Legal Events

Date Code Title Description
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B350 Update of information on the portal [chapter 15.35 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 16/07/2014, OBSERVADAS AS CONDICOES LEGAIS.