BR112020025552A2 - Dispositivo e método de comparação para um sinal de áudio multicanal, codificador multicanal e decodificador para sinais de áudio multicanal - Google Patents

Dispositivo e método de comparação para um sinal de áudio multicanal, codificador multicanal e decodificador para sinais de áudio multicanal Download PDF

Info

Publication number
BR112020025552A2
BR112020025552A2 BR112020025552-1A BR112020025552A BR112020025552A2 BR 112020025552 A2 BR112020025552 A2 BR 112020025552A2 BR 112020025552 A BR112020025552 A BR 112020025552A BR 112020025552 A2 BR112020025552 A2 BR 112020025552A2
Authority
BR
Brazil
Prior art keywords
itd
pair
parameter
channels
comparison
Prior art date
Application number
BR112020025552-1A
Other languages
English (en)
Inventor
Jan BÜTHE
Eleni FOTOPOULOU
Srikanth KORSE
Pallavi MABEN
Markus Multrus
Franz Reutelhuber
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Publication of BR112020025552A2 publication Critical patent/BR112020025552A2/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

na codificação de áudio multicanal, é obtida eficiência computacional aprimorada computando-se parâmetros de comparação para compensação de itd entre quaisquer dois canais no domínio de frequência para um codificador de áudio paramétrico. isso pode mitigar os efeitos negativos nas estimativas de parâmetro de codificador.

Description

Relatório Descritivo da Patente de Invenção “DISPOSITIVO E MÉTODO DE COMPARAÇÃO PARA UM SINAL DE ÁUDIO MULTICANAL, CODIFICADOR MULTICANAL E DECODIFICADOR PARA SINAIS DE ÁUDIO MULTICANAL”
[001] O presente pedido refere-se à codificação de áudio multicanal paramétrico.
[002] O método mais moderno para codificação paramétrica com perdas de sinais estéreo em baixas taxas de bits tem por base estéreo paramétrico, conforme padronizado no MPEG-4 Parte 3 [1]. A ideia geral é reduzir o número de canais de um sistema multicanal calculando-se um sinal de mistura descendente de dois canais de entrada após a extração de parâmetros estéreo/espaciais que são enviados como informações secundárias ao decodificador. Esses parâmetros estéreo/espaciais podem geralmente compreender diferença de nível entre canais 𝐼𝐿𝐷, diferença de fase entre canais 𝐼𝑃𝐷, e coerência entre canais 𝐼𝐶𝐶, que podem ser computados em sub- bandas e que capturam a imagem espacial até certo ponto.
[003] No entanto, esse método é incapaz de compensar ou sintetizar diferenças temporais entre canais (𝐼𝑇𝐷𝑠) que é, por exemplo, desejável para fazer a mistura descendente ou reproduzir a fala gravada com uma configuração de microfone AB ou para sintetizar cenas renderizadas binauralmente. A síntese de 𝐼𝑇𝐷 foi abordada na codificação de indicação binaural (BCC) [2], que normalmente usa parâmetros 𝐼𝐿𝐷 e 𝐼𝐶𝐶, enquanto 𝐼𝑇𝐷𝑠 são estimados e o alinhamento do canal é realizado no domínio da frequência.
[004] Embora existam estimadores de 𝐼𝑇𝐷 no domínio de tempo, geralmente é preferível que uma estimativa de 𝐼𝑇𝐷 aplique uma transformada tempo-frequência, que permite a filtragem espectral da função de correlação cruzada e também é computacionalmente eficiente. Por razões de complexidade, é desejável usar as mesmas transformadas que também são usadas para extrair parâmetros estéreo/espaciais e, possivelmente, para fazer mistura descendente de canais, o que também é feito na abordagem de BCC.
[005] Isso, no entanto, tem uma desvantagem: a estimativa precisa dos parâmetros estéreo é idealmente realizada nos canais alinhados. Mas se os canais estiverem alinhados no domínio da frequência, por exemplo, por uma mudança circular no domínio da frequência, isso pode causar um deslocamento nas janelas de análise, o que pode afetar negativamente as estimativas dos parâmetros. No caso de BCC, isso afeta principalmente a medição de 𝐼𝐶𝐶, em que os deslocamentos de janela crescentes eventualmente empurram o valor de 𝐼𝐶𝐶 para zero, mesmo se os sinais de entrada forem real e totalmente coerentes.
[006] Assim, é um objetivo fornecer um conceito para computação de parâmetro em codificação de áudio multicanal que tenha capacidade de compensar diferenças de tempo entre canais, evitando efeitos negativos nas estimativas de parâmetros espaciais.
[007] Esse objeto é alcançado pela matéria das reivindicações independentes envolvidas.
[008] O presente pedido tem por base a constatação de que na codificação de áudio multicanal, uma eficiência computacional melhorada pode ser alcançada computando-se pelo menos um parâmetro de comparação para compensação de 𝐼𝑇𝐷 entre quaisquer dois canais no domínio da frequência a ser usado por um codificador de áudio paramétrico. O dito pelo menos um parâmetro de comparação pode ser usado pelo codificador paramétrico para mitigar os efeitos negativos mencionados acima nas estimativas dos parâmetros espaciais.
[009] Uma modalidade pode compreender um codificador de áudio paramétrico que visa representar conteúdo estéreo ou geralmente espacial por pelo menos um sinal de mistura descendente e parâmetros estéreo ou espaciais adicionais. Entre esses parâmetros estéreo/espaciais podem ser 𝐼𝑇𝐷𝑠, as quais podem ser estimadas e compensadas no domínio de frequência, antes de computar os parâmetros estéreo/espaciais restantes. Esse procedimento pode tender outros parâmetros estéreo/espaciais, um problema que, de outra forma, teria que ser resolvido de uma forma dispendiosa por recalcular a transformada de frequência em tempo. Na dita modalidade, esse problema pode ser bastante mitigado pela aplicação de um esquema de correção computacionalmente barato que pode usar o valor de 𝐼𝑇𝐷 e certos dados da transformada subjacente.
[010] Uma modalidade se refere a um codificador de áudio paramétrico com perdas que pode ter por base uma abordagem de transformação intermediária/secundária ponderada, pode usar parâmetros estéreo/espaciais de 𝐼𝑃𝐷, 𝐼𝑇𝐷, bem como dois fatores de ganho e pode operar no domínio de frequência. Outras modalidades podem usar uma transformação diferente e podem usar parâmetros espaciais diferentes, conforme apropriado.
[011] Em uma modalidade, o codificador de áudio paramétrico pode ter capacidade de compensar e sintetizar 𝐼𝑇𝐷s no domínio de frequência. Pode apresentar um esquema de correção de ganho computacionalmente eficiente que atenua os efeitos negativos do deslocamento de janela acima mencionado. Também é sugerido um esquema de correção para o codificador BCC.
[012] Implementações vantajosas do presente pedido são o assunto das reivindicações dependentes. Modalidades preferenciais do presente pedido são descritas abaixo em relação às Figuras, dentre as quais: A Figura 1 mostra um diagrama de blocos de um dispositivo de comparação para um codificador paramétrico de acordo com uma modalidade do presente pedido; A Figura 2 mostra um diagrama de blocos de um codificador paramétrico de acordo com uma modalidade do presente pedido. A Figura 3 mostra um diagrama de blocos de um decodificador paramétrico de acordo com uma modalidade do presente pedido.
[013] A Figura 1 mostra um dispositivo de comparação 100 para um sinal de áudio multicanal. Conforme mostrado, pode compreender uma entrada para sinais de áudio para um par de canais estéreo, a saber, um sinal do canal de áudio esquerdo 𝑙(𝜏) e um sinal do canal de áudio direito 𝑟(𝜏). Outras modalidades podem, é claro, compreender uma pluralidade de canais para capturar as propriedades espaciais de fontes de som.
[014] Antes de transformar os sinais de áudio do domínio do tempo 𝑙(𝜏), 𝑟(𝜏) para o domínio de frequência, funções de janela de sobreposição idênticas 11, 21 𝑤(𝜏)
podem ser aplicadas aos sinais de canal de entrada esquerdo e direito, 𝑙(𝜏), 𝑟(𝜏) respectivamente. Além disso, em modalidades, uma certa quantidade de preenchimento de zero pode ser adicionada, o que permite mudanças no domínio de frequência. Subsequentemente, os sinais de áudio em janela podem ser fornecidos aos blocos 12, 22 correspondentes da transformada discreta de Fourier (DFT) para realizar as transformadas de tempo para frequência correspondentes. Isso pode render compartimentos de frequência de tempo 𝐿𝑡,𝑘 e 𝑅𝑡,𝑘 , 𝑘 = 0, … , 𝐾 − 1 como transformadas de frequência dos sinais de áudio para o par de canais.
[015] As ditas transformadas de frequência 𝐿𝑡,𝑘 e 𝑅𝑡,𝑘 , podem ser fornecidas a um bloco de detecção e compensação de ITD 20. Este último pode ser configurado para derivar, para representar 𝐼𝑇𝐷 entre os sinais de áudio para o par de canais, um parâmetro de ITD, aqui 𝐼𝑇𝐷𝑡 , com uso das transformadas de frequência 𝐿𝑡,𝑘 e 𝑅𝑡,𝑘 dos sinais de áudio do par de canais nas ditas janelas de análise 𝑤(𝜏). Outras modalidades podem usar diferentes abordagens para derivar o parâmetro de ITD que também pode ser determinado antes dos blocos DFT no domínio de tempo.
[016] A derivação do parâmetro de ITD para computar uma 𝐼𝑇𝐷 pode envolver a computação de uma função de correlação automática ou cruzada - possivelmente ponderada. Convencionalmente, isso pode ser computado a partir dos compartimentos de tempo-frequência 𝐿𝑡,𝑘 e 𝑅𝑡,𝑘 aplicando-se a transformada discreta ∗ inversa de Fourier (IDFT) ao termo (𝐿𝑡,𝑘 𝑅𝑡,𝑘 𝜔𝑡,𝑘 )𝑘 .
[017] A maneira adequada de compensar a 𝐼𝑇𝐷 medida seria realizar um alinhamento de canal no domínio do tempo e então aplicar o mesmo tempo à transformada de frequência novamente ao canal deslocado [ou canais deslocados] para obter compartimentos de frequência de tempo de 𝐼𝑇𝐷 compensados. No entanto, para economizar complexidade, este procedimento pode ser aproximado realizando- se uma mudança circular no domínio de frequência. Correspondentemente, a compensação de 𝐼𝑇𝐷 pode ser realizada pelo bloco de detecção e compensação de 𝐼𝑇𝐷 20 no domínio da frequência, por exemplo, realizando-se as mudanças circulares por blocos de mudança circular 13 e 23, respectivamente, para produzir 𝜋 𝐿𝑡,𝑘,𝑐𝑜𝑚𝑝 ← 𝑒 −𝑖𝐾𝐼𝑇𝐷𝑡𝑘 𝐿𝑡,𝑘 (1) e 𝜋 𝑅𝑡,𝑘,𝑐𝑜𝑚𝑝 ← 𝑒 𝑖𝐾𝐼𝑇𝐷𝑡𝑘 𝑅𝑡,𝑘 (2), em que 𝐼𝑇𝐷𝑡 pode denotar a 𝐼𝑇𝐷 para um quadro 𝑡 nas amostras.
[018] Em uma modalidade, isso pode avançar o canal de atraso e pode atrasar o canal de atraso por amostras de 𝐼𝑇𝐷𝑡 /2. No entanto, em outra modalidade - se o atraso for crítico - pode ser benéfico apenas avançar o canal de atraso por amostras de 𝐼𝑇𝐷𝑡 , o que não aumenta o atraso do sistema.
[019] Como resultado, o bloco de detecção e compensação de 𝐼𝑇𝐷 20 pode compensar a 𝐼𝑇𝐷 para o par de canais no domínio da frequência por mudança circular [ou mudanças circulares] com uso do parâmetro de 𝐼𝑇𝐷 𝐼𝑇𝐷𝑡 para gerar um par de transformadas de frequência compensadas de 𝐼𝑇𝐷 𝐿𝑡,𝑘,𝑐𝑜𝑚𝑝 , 𝑅𝑡,𝑘,𝑐𝑜𝑚𝑝 em sua saída.
Além disso, o bloco de detecção e compensação de 𝐼𝑇𝐷 20 pode emitir o parâmetro derivado de 𝐼𝑇𝐷, a saber 𝐼𝑇𝐷𝑡 , por exemplo, para transmissão por um codificador paramétrico.
[020] Conforme mostrado na Figura 1, o bloco de computação de comparação e parâmetro espacial 30 pode receber o parâmetro de 𝐼𝑇𝐷 𝐼𝑇𝐷𝑡 e o par de 𝐼𝑇𝐷 transformadas de frequência compensadas 𝐿𝑡,𝑘,𝑐𝑜𝑚𝑝 , 𝑅𝑡,𝑘,𝑐𝑜𝑚𝑝 como seus sinais de entrada. O bloco de comparação e computação de parâmetro espacial 30 pode usar alguns ou todos os seus sinais de entrada para extrair parâmetros estéreo/espaciais do sinal de áudio multicanal, como diferença entre fases 𝐼𝑃𝐷.
[021] Além disso, o bloco de comparação e computação de parâmetro espacial 30 pode gerar - com base no parâmetro de 𝐼𝑇𝐷 𝐼𝑇𝐷𝑡 e no par de transformadas de frequência compensadas de 𝐼𝑇𝐷 𝐿𝑡,𝑘,𝑐𝑜𝑚𝑝 , 𝑅𝑡,𝑘,𝑐𝑜𝑚𝑝 - pelo menos um parâmetro de comparação, aqui dois fatores de ganho 𝑔𝑡,𝑏 e 𝑟𝑡,𝑏,𝑐𝑜𝑟𝑟 , para um codificador paramétrico. Outras modalidades podem, adicional ou alternativamente, usar as transformadas de frequência 𝐿𝑡,𝑘 , 𝑅𝑡,𝑘 e/ou os parâmetros espaciais/estéreo extraídos em comparação e bloco de computação de parâmetro espacial 30 para gerar pelo menos um parâmetro de comparação.
[022] O pelo menos um parâmetro de comparação pode servir como parte de um esquema de correção computacionalmente eficiente para mitigar os efeitos negativos do deslocamento acima mencionado nas janelas de análise 𝑤(𝜏) nas estimativas de parâmetro espacial/estéreo para o codificador paramétrico, dito deslocamento causado pelo alinhamento dos canais pelas mudanças circulares no domínio DFT dentro do bloco de detecção e compensação de 𝐼𝑇𝐷 20. Em uma modalidade, pelo menos um parâmetro de comparação pode ser computado para restaurar os sinais de áudio do par de canais em um decodificador, por exemplo, de um sinal de mistura descendente.
[023] A Figura 2 mostra uma modalidade de tal codificador paramétrico 200 para sinais de áudio estéreo em que o dispositivo de comparação 100 da Figura 1 pode ser usado para fornecer o parâmetro de 𝐼𝑇𝐷 𝐼𝑇𝐷𝑡 , o par de transformadas de frequência compensadas de 𝐼𝑇𝐷 𝐿𝑡,𝑘,𝑐𝑜𝑚𝑝 , 𝑅𝑡,𝑘,𝑐𝑜𝑚𝑝 e os parâmetros de comparação 𝑟𝑡,𝑏,𝑐𝑜𝑟𝑟 e 𝑔𝑡,𝑏 .
[024] O codificador paramétrico 200 pode gerar um sinal de mistura descendente no 𝐷𝑀𝑋𝑡,𝑘 bloco de mistura descendente 40 para os sinais de canal de entrada esquerdo e direito 𝑙(𝜏), 𝑟(𝜏) com uso das transformadas de frequência compensadas de 𝐼𝑇𝐷 𝐿𝑡,𝑘,𝑐𝑜𝑚𝑝 , 𝑅𝑡,𝑘,𝑐𝑜𝑚𝑝 como entrada. Outras modalidades podem, adicional ou alternativamente, usar as transformadas de frequência 𝐿𝑡,𝑘 , 𝑅𝑡,𝑘 para gerar o sinal de mistura descendente 𝐷𝑀𝑋𝑡,𝑘 .
[025] O codificador paramétrico 200 pode computar parâmetros estéreo - como, por exemplo, 𝐼𝑃𝐷 - em uma base de quadro em comparação e bloco de computação de parâmetro espacial 30. Outras modalidades podem determinar parâmetros estéreo/espaciais diferentes ou adicionais. O procedimento de codificação da modalidade do codificador paramétrico 200 na Figura 2 pode seguir aproximadamente as seguintes etapas, que são descritas em detalhes abaixo.
1. Tempo para transformada de frequência de sinais de entrada com uso de DFTs em janela e blocos DFT 11, 12, 21, 22
2. Estimativa e compensação de 𝐼𝑇𝐷 no domínio de frequência no bloco de detecção e compensação de 𝐼𝑇𝐷 20
3. Extração de parâmetro estéreo e computação de parâmetro de comparação em comparação e bloco de computação de parâmetro espacial 30
4. Fazer mistura descendente no bloco de mistura descendente 40
5. Transformada de frequência para tempo seguida por janelamento e adição de sobreposição no bloco IDFT 50
[026] A modalidade do codificador de áudio paramétrico 200 na Figura 2 pode ter por base uma transformação intermediária/secundária ponderada dos canais de entrada no domínio de frequência com uso das transformadas de frequência compensadas de 𝐼𝑇𝐷 𝐿𝑡,𝑘,𝑐𝑜𝑚𝑝 , 𝑅𝑡,𝑘,𝑐𝑜𝑚𝑝 bem como a 𝐼𝑇𝐷 como entrada. Pode ainda computar parâmetros estéreo/espaciais, como 𝐼𝑃𝐷, bem como dois fatores de ganho que capturam a imagem estéreo. Isso pode mitigar os efeitos negativos do deslocamento da janela acima mencionado.
[027] Para extração de parâmetro espacial em comparação e bloco de computação de parâmetro espacial 30, os compartimentos de frequência de tempo compensados de 𝐼𝑇𝐷 𝐿𝑡,𝑘,𝑐𝑜𝑚𝑝 e 𝑅𝑡,𝑘,𝑐𝑜𝑚𝑝 podem ser agrupados em sub-bandas, e para cada sub-banda a diferença entre fases 𝐼𝑃𝐷 e os dois fatores de ganho podem ser computados. Deixe 𝐼𝑏 denotar os índices de compartimentos de frequência em sub-banda 𝑏. Então, o 𝐼𝑃𝐷 pode ser computado como ∗ 𝐼𝑃𝐷𝑡,𝑏 = arg(∑𝑘∈𝐼𝑏 𝐿𝑡,𝑘,𝑐𝑜𝑚𝑝 𝑅𝑡,𝑘,𝑐𝑜𝑚𝑝 ) (3).
[028] Os dois fatores de ganho mencionados acima podem estar relacionados a transformadas intermediárias/secundárias compensadas por fase do par de transformadas de frequência compensadas de 𝐼𝑇𝐷 𝐿𝑡,𝑘,𝑐𝑜𝑚𝑝 e 𝑅𝑡,𝑘,𝑐𝑜𝑚𝑝 dadas pelas equações (4) e (5) como 𝑀𝑡,𝑘 = 𝐿𝑡,𝑘,𝑐𝑜𝑚𝑝 + 𝑒 𝑖𝐼𝑃𝐷𝑡,𝑏 𝑅𝑡,𝑘,𝑐𝑜𝑚𝑝 (4) e 𝑆𝑡,𝑘 = 𝐿𝑡,𝑘,𝑐𝑜𝑚𝑝 − 𝑒 𝑖𝐼𝑃𝐷𝑡,𝑏 𝑅𝑡,𝑘,𝑐𝑜𝑚𝑝 (5) para 𝑘 ∈ 𝐼𝑏 .
[029] O primeiro fator de ganho 𝑔𝑡,𝑏 dos ditos fatores de ganho pode ser considerado como o ganho de predição ideal para uma predição em banda da transformada de sinal secundário 𝑆𝑡 a partir da transformada de sinal intermediário 𝑀𝑡 na equação (6): 𝑆𝑡,𝑘 = 𝑔𝑡,𝑏 𝑀𝑡,𝑘 + 𝜌𝑡,𝑘 (6) de modo que a energia do residual de predição 𝜌𝑡,𝑘 na equação (6) conforme dada pela equação (7) como 2 ∑𝑘∈𝐼𝑏 |𝜌𝑡,𝑘 | (7) seja mínima. Esse primeiro fator de ganho 𝑔𝑡,𝑏 pode ser dito como ganho secundário.
[030] O segundo fator de ganho 𝑟𝑡,𝑏 descreve uma razão da energia do residual de predição 𝜌𝑡,𝑘 em relação à energia da transformada de sinal intermediário 𝑀𝑡,𝑘 dada pela equação (8) como 2 1/2 ∑𝑘∈𝐼 |𝜌𝑡,𝑘 | 𝑏 𝑟𝑡,𝑏 = ( 2 ) (8) ∑𝑘∈𝐼 |𝑀𝑡,𝑘 | 𝑏 e pode ser dito como ganho residual. O ganho residual 𝑟𝑡,𝑏 pode ser usado no decodificador, como a modalidade do decodificador na Figura 3 para formar uma substituição adequada para o residual de predição 𝜌𝑡,𝑘 da transformada intermediária/secundária.
[031] Na modalidade do codificador mostrada na Figura 2, ambos os fatores de ganho 𝑔𝑡,𝑏 e 𝑟𝑡,𝑏 podem ser computados como parâmetros de comparação em comparação e bloco de computação de parâmetro espacial 30 com uso das energias 𝐸𝐿,𝑡,𝑏 e 𝐸𝑅,𝑡,𝑏 das transformadas de frequência compensadas de 𝐼𝑇𝐷 𝐿𝑡,𝑘,𝑐𝑜𝑚𝑝 e 𝑅𝑡,𝑘,𝑐𝑜𝑚𝑝 dadas nas equações (9) como 2 2 𝐸𝐿,𝑡,𝑏 = ∑𝑘∈𝐼𝑏 |𝐿𝑡,𝑘,𝑐𝑜𝑚𝑝 | and 𝐸𝑅,𝑡,𝑏 = ∑𝑘∈𝐼𝑏 |𝑅𝑡,𝑘,𝑐𝑜𝑚𝑝 | (9) e o valor absoluto de seu produto interno ∗ 𝑋𝐿/𝑅,𝑡,𝑏 = |∑𝑘∈𝐼𝑏 𝐿𝑡,𝑘,𝑐𝑜𝑚𝑝 𝑅𝑡,𝑘,𝑐𝑜𝑚𝑝 | (10) dado na equação (10).
[032] Com base nas ditas energias 𝐸𝐿,𝑡,𝑏 e 𝐸𝑅,𝑡,𝑏 junto com o produto interno 𝑋𝐿/𝑅,𝑡,𝑏 , o fator de ganho secundário 𝑔𝑡,𝑏 pode ser computado com uso da equação
(11) como 𝐸𝐿,𝑡,𝑏 −𝐸𝑅,𝑡,𝑏 𝑔𝑡,𝑏 = 𝐸 (11). 𝐿,𝑡,𝑏 +𝐸𝑅,𝑡,𝑏 +2𝑋𝐿/𝑅,𝑡,𝑏
[033] Além disso, o fator de ganho residual 𝑟𝑡,𝑏 pode ser computado com base nas ditas energias 𝐸𝐿,𝑡,𝑏 e 𝐸𝑅,𝑡,𝑏 juntamente com o produto interno 𝑋𝐿/𝑅,𝑡,𝑏 e o fator de ganho secundário 𝑔𝑡,𝑏 com uso da equação (12) como 1/2 (1−𝑔𝑡,𝑏 )𝐸𝐿,𝑡,𝑏 +(1+𝑔𝑡,𝑏 )𝐸𝑅,𝑡,𝑏 −2 𝑋𝐿/𝑅,𝑡,𝑏 𝑟𝑡,𝑏 = ( ) (12). 𝐸𝐿,𝑡,𝑏 +𝐸𝑅,𝑡,𝑏 +2𝑋𝐿/𝑅,𝑡,𝑏
[034] Em outras modalidades, outras abordagens e/ou equações podem ser usadas para computar o fator de ganho secundário 𝑔𝑡,𝑏 e o fator de ganho residual 𝑟𝑡,𝑏 e/ou diferentes parâmetros de comparação, conforme apropriado.
[035] Conforme mencionado antes, a compensação de ITD no domínio da frequência normalmente economiza complexidade, mas - sem outras medidas - apresenta uma desvantagem. Idealmente, para fala anecoica limpa gravada com um microfone AB configurado, o sinal do canal esquerdo 𝑙(𝜏) é substancialmente uma versão atrasada (por atraso 𝑑) e escalonada (por ganho 𝑐) do canal direito 𝑟(𝜏). Essa situação pode ser expressa pela seguinte equação (13) em que 𝑙(𝜏) = 𝑐 𝑟(𝜏 − 𝑑) (13).
[036] Após a compensação de ITD adequada dos sinais de áudio do canal de entrada desenrolados 𝑙(𝜏) e 𝑟(𝜏), uma estimativa para o fator de ganho secundário 𝑔𝑡,𝑏 seria dada na equação (14) como 𝑐−1 𝑔𝑡,𝑏 = 𝑐+1 (14) com um fator de ganho residual de desaparecimento 𝑟𝑡,𝑏 dado como 𝑟𝑡,𝑏 = 0 (15).
[037] No entanto, se o alinhamento do canal for realizado no domínio de frequência, como na modalidade na Figura 2, por bloco de detecção e compensação de ITD 20 com uso de blocos de mudança circular 13 e 23, respectivamente, as janelas de análise, as DFT correspondentes 𝑤(𝜏) também são giradas. Assim, após compensar 𝐼𝑇𝐷s no domínio da frequência, a transformada de frequência compensada de 𝐼𝑇𝐷 𝑅𝑡,𝑘,𝑐𝑜𝑚𝑝 para o canal direito pode ser determinada na forma de compartimentos de tempo-frequência pela DFT de 𝑤(𝜏)𝑟(𝜏) (16), enquanto a transformada de frequência compensada de 𝐼𝑇𝐷 𝐿𝑡,𝑘,𝑐𝑜𝑚𝑝 para o canal esquerdo pode ser determinada na forma de compartimentos de frequência de tempo como a DFT de 𝑤(𝜏 + 𝐼𝑇𝐷𝑡 )𝑟(𝜏) (17), em que 𝑤 é a função de janela de análise de DFT.
[038] Foi observado que tal alinhamento de canal no domínio da frequência afeta principalmente o fator de ganho de predição residual 𝑟𝑡,𝑏 , que cresce com o aumento 𝐼𝑇𝐷𝑡 . Sem quaisquer outras medidas, o alinhamento do canal no domínio de frequência, assim, adicionaria ambiência adicional a um sinal de áudio de saída em um decodificador, conforme mostrado na Figura 3. Esta ambiência adicional é indesejada, especialmente quando o sinal de áudio a ser codificado contém uma fala limpa, uma vez que a ambiência artificial prejudica a inteligibilidade da fala.
[039] Consequentemente, o efeito descrito acima pode ser mitigado corrigindo- se o fator de ganho residual (predição) 𝑟𝑡,𝑏 na presença de 𝐼𝑇𝐷𝑠 diferentes de zero com uso de um parâmetro de comparação adicional.
[040] Em uma modalidade, isso pode ser feito calculando-se um deslocamento de ganho para o ganho residual 𝑟𝑡,𝑏 , que visa combinar um sinal residual esperado 𝑒(𝜏) quando o sinal é coerente e temporalmente plano. Nesse caso, espera-se um ganho de previsão global 𝑔̂ dado pela equação (18) como 𝑐+1 𝑔̂ = 𝑐−1 (18) e um desaparecimento global de 𝐼𝑃̂ 𝐷 dado por 𝐼𝑃̂ 𝐷 = 0. Consequentemente, o sinal residual esperado 𝑒(𝜏) pode ser determinado com uso da equação (19) como 2𝑐 𝑒(𝜏) = 1+𝑐 (𝑤(𝜏) − 𝑤(𝜏 + 𝐼𝑇𝐷𝑡 ))𝑟(𝜏) (19).
[041] Em uma modalidade, o parâmetro de comparação adicional além do fator de ganho secundário 𝑔𝑡,𝑏 e fator de ganho residual 𝑟𝑡,𝑏 pode ser computado com base no sinal residual esperado 𝑒(𝜏) em comparação e bloco de computação de parâmetro espacial 30 usando o parâmetro de 𝐼𝑇𝐷 𝐼𝑇𝐷𝑡 e uma função igualando ou aproximando uma função de autocorrelação 𝑊𝑋 (𝑛) da função de janela de análise 𝑤 dado na equação (20) como 𝑊𝑋 (𝑛) = ∑𝜏 𝑤(𝜏)𝑤(𝜏 + 𝑛) (20).
[042] Se 𝑀𝑟 denota o valor médio de curto prazo da 𝑟 2 (𝜏) energia do sinal residual esperado 𝑒(𝜏) pode ser computado aproximadamente pela equação (21) como 8𝑐 2 (𝑊𝑋 (0) − 𝑊𝑋 (𝐼𝑇𝐷𝑡 ))𝑀𝑟 (21). (1+𝑐)2
[043] Com o sinal intermediário em janela dado pela equação (22) como 𝑚𝑡 (𝜏) = (𝑤𝑡 (𝜏) + 𝑐 𝑤𝑡 (𝜏 + 𝐼𝑇𝐷𝑡 ))𝑟(𝜏) (22), a energia desse sinal intermediário em janela 𝑚𝑡 (𝜏) pode ser aproximada pela equação (23) como [(1 + 𝑐 2 )𝑊𝑋 (0) + 2 𝑐 𝑊𝑋 (𝐼𝑇𝐷𝑡 )]𝑀𝑟 (23).
[044] Em uma modalidade, a função acima mencionada usada na computação do parâmetro de comparação em comparação e bloco de computação de parâmetro ̂𝑋 (𝑛) da função de espacial 30 é igual ou se aproxima de uma versão normalizada 𝑊 autocorrelação 𝑊𝑋 (𝑛) da janela de análise, conforme dada na equação (23a) como ̂𝑋 (𝑛) = 𝑊𝑋 (𝑛)/𝑊𝑋 (0) (23a).
𝑊
[045] ̂𝑋 (𝑛), o dito Com base nessa função de autocorrelação normalizada 𝑊 parâmetro de comparação adicional 𝑟̂𝑡 pode ser computado com uso da equação (24) como 2𝑐 ̂ (𝐼𝑇𝐷𝑡 ) 1−𝑊 𝑟̂𝑡 = 𝑐+1 √2 1+𝑐 2+2 𝑐𝑋 𝑊 ̂ (24) 𝑋 (𝐼𝑇𝐷𝑡 )
[046] para fornecer um parâmetro de correção estimado para o ganho residual 𝑟𝑡,𝑏 . Em uma modalidade, o parâmetro de comparação 𝑟̂𝑡 pode ser usado como uma estimativa para os ganhos residuais locais 𝑟𝑡,𝑏 em sub-bandas 𝑏. Em outra modalidade, a correção dos ganhos residuais 𝑟𝑡,𝑏 pode ser afetada com uso do parâmetro de comparação 𝑟̂𝑡 como um deslocamento. Isto é, os valores do ganho residual 𝑟𝑡,𝑏 podem ser substituídos por um ganho residual corrigido 𝑟𝑡,𝑏,𝑐𝑜𝑟𝑟 conforme dado na equação (25) como 𝑟𝑡,𝑏,𝑐𝑜𝑟𝑟 ← max{0, 𝑟𝑡,𝑏 − 𝑟̂𝑡 } (25).
[047] Assim, em uma modalidade, um outro parâmetro de comparação computado em comparação e bloco de computação de parâmetro espacial 30 pode compreender o ganho residual corrigido 𝑟𝑡,𝑏,𝑐𝑜𝑟𝑟 que corresponde ao ganho residual 𝑟𝑡,𝑏 corrigido pelo parâmetro de correção de ganho residual 𝑟̂𝑡 conforme dado na equação (24) na forma de deslocamento definido na equação (25).
[048] Assim, uma outra modalidade se refere à codificação de áudio paramétrica com uso de DFT em janela e [um subconjunto de] parâmetros de 𝐼𝑃𝐷 de acordo com a equação (3), ganho secundário 𝑔𝑡,𝑏 de acordo com a equação (11), ganho residual 𝑟𝑡,𝑏 de acordo com a equação (12) e 𝐼𝑇𝐷𝑠, em que o ganho residual 𝑟𝑡,𝑏 é ajustado de acordo com a equação (25).
[049] Em uma avaliação empírica, as estimativas de ganho residual 𝑟̂𝑡 podem ser testadas com diferentes escolhas para o sinal de áudio do canal direito 𝑟(𝜏) na equação (13). Para sinais de entrada de ruído branco 𝑟(𝜏), que satisfazem a suposição de planura temporal, as estimativas de ganho residual 𝑟̂𝑡 são muito próximas da média dos ganhos residuais 𝑟𝑡,𝑏 medidos em sub-bandas, como pode ser visto na tabela 1 abaixo. 𝐼𝑇𝐷\ c 1 2 4 8 16 32 ms 0,0893 0,0793 0,0569 0,0351 0,0196 0,0104 (0,0885) (0,0785) (0,0565) (0,0349) (0,0195) (0,0104) ms 0,1650 0,1460 0,1045 0,0640 0,0357 0,0189 (0,1631) (0,1458) (0,1039) (0,0640) (0,0357) (0,0189) ms 0,2348 0,2073 0,1472 0,0896 0,0498 0,0263 (0,2327) (0,2062) (0,1473) (0,0904) (0,0504) (0,0267) ms 0,3005 0,2644 0,1862 0,1125 0,0621 0,0327 (0,2992) (0,2627) (0,1885) (0,1151) (0,0641) (0,0339) TABELA 1: MÉDIA DOS GANHOS RESIDUAIS MEDIDOS 𝒓𝒕,𝒃 PARA
RUÍDO BRANCO PANORAMIZADO COM 𝑰𝑻𝑫 E ESTIMATIVAS DE GANHO RESIDUAL 𝒓̂𝒕 (INDICADO EM SUPORTES).
[050] Para sinais de fala 𝑟(𝜏), a suposição de planura temporal é frequentemente violada, o que normalmente aumenta a média dos ganhos residuais 𝑟𝑡,𝑏 (consulte a tabela 2 abaixo em comparação com a tabela 1 acima). O método de ajuste ou correção de ganho residual de acordo com a equação (25) pode, portanto, ser considerado bastante conservador. No entanto, ainda pode remover a maior parte do ambiente indesejado para gravações de fala limpas.
𝐼𝑇𝐷\ c 1 2 4 ms 0,1055 0,1022 0,0874 (0,0885) (0,0785) (0,0565) ms 0,1782 0,1634 0,1283 (0,1631) (0,1458) (0,1039) ms 0,2435 0,2191 0,1657 (0,2327) (0,2062) (0,1473) ms 0,3050 0,2720 0,2014 (0,2992) (0,2627) (0,1885) TABELA 2: MÉDIA DOS GANHOS RESIDUAIS MEDIDOS 𝒓𝒕,𝒃 PARA
FALA MONO PANORAMIZADA COM 𝑰𝑻𝑫 E ESTIMATIVAS DE GANHO RESIDUAL 𝒓̂𝒕 (INDICADO EM SUPORTES).
[051] ̂𝑋 dada na equação (23a) pode A função de autocorrelação normalizada 𝑊 ser considerada independente do índice de quadro 𝑡 no caso de uma única janela de ̂𝑋 pode análise 𝑤 ser usada. Além disso, a função de autocorrelação normalizada 𝑊 ser considerada como variando muito lentamente para funções de janela de análise ̂𝑋 pode ser interpolado com precisão a partir de uma pequena típicas 𝑤. Portanto, 𝑊 tabela de valores, o que torna esse esquema de correção muito eficiente em termos de complexidade.
[052] Assim, em modalidades, a função para a determinação das estimativas de ganho residual ou deslocamento de correção de ganho residual 𝑟̂𝑡 como um parâmetro de comparação no bloco 30 pode ser obtida por interpolação da versão normalizada ̂𝑋 da função de autocorrelação da janela de análise armazenada em uma tabela de
𝑊 consulta. Em outra modalidade, outras abordagens para uma interpolação da função ̂𝑋 podem ser usadas conforme apropriado. de autocorrelação normalizada 𝑊
[053] Para BCC, conforme descrito em [2], um problema semelhante pode surgir ao estimar a coerência entre canais 𝐼𝐶𝐶 em sub-bandas. Em uma modalidade, o correspondente 𝐼𝐶𝐶𝑡,𝑏 pode ser estimado pela equação (26) com uso das energias 𝐸𝐿,𝑡,𝑏 e 𝐸𝑅,𝑡,𝑏 da equação (9) e o produto interno da equação (10) como 𝑋𝐿/𝑅,𝑡,𝑏 𝐼𝐶𝐶𝑡,𝑏 = (26). √𝐸𝐿,𝑡,𝑏 ⋅𝐸𝑅,𝑡,𝑏
[054] Por definição, o 𝐼𝐶𝐶 é medido após a compensação de 𝐼𝑇𝐷s. No entanto, as funções de janela não correspondentes 𝑤 podem influenciar a 𝐼𝐶𝐶 medição. Na configuração de fala anecoica limpa acima mencionada descrita pela equação (13), o 𝐼𝐶𝐶 seria 1 se computado em canais de entrada alinhados corretamente.
[055] No entanto, o deslocamento - causado pela rotação das funções das janelas de análise 𝑤(𝜏) no domínio da frequência ao compensar uma 𝐼𝑇𝐷 de 𝐼𝑇𝐷𝑡 no domínio da frequência por mudança circular [ou mudanças circulares] - pode tender a medição da 𝐼𝐶𝐶 em direção a 𝐼𝐶̂ 𝐶𝑡 como dado na equação (27) como 𝐼𝐶̂ 𝐶𝑡 = 𝑊 ̂𝑋 (𝐼𝑇𝐷𝑡 ) (27).
[056] Em uma modalidade, a tendência da 𝐼𝐶𝐶 pode ser corrigida de uma maneira semelhante em comparação com a correção do ganho residual 𝑟𝑡,𝑏 na equação (25), a saber, fazendo-se a substituição conforme dado na equação (28) como 𝐼𝐶𝐶𝑏,𝑡 ← 1 + min{𝐼𝐶𝐶𝑏,𝑡 − 𝐼𝐶̂ 𝐶𝑡 , 0} (28).
[057] Assim, uma outra modalidade se refere à codificação de áudio paramétrica com uso de DFT em janela e [um subconjunto de] parâmetros de 𝐼𝑃𝐷 de acordo com a equação (3), 𝐼𝐿𝐷, 𝐼𝐶𝐶 de acordo com a equação (26) e 𝐼𝑇𝐷𝑠, em que 𝐼𝐶𝐶 é ajustado de acordo com a equação (28).
[058] Na modalidade do codificador paramétrico 200 mostrado na Figura 2, o bloco de mistura descendente 40 pode reduzir o número de canais do sistema multicanal, aqui estéreo, computando-se um sinal de mistura descendente 𝐷𝑀𝑋𝑡,𝑘 dado pela equação (29) no domínio de frequência. Em uma modalidade, o sinal de mistura descendente 𝐷𝑀𝑋𝑡,𝑘 pode ser computado com uso das transformadas de frequência compensadas de 𝐼𝑇𝐷 𝐿𝑡,𝑘,𝑐𝑜𝑚𝑝 e 𝑅𝑡,𝑘,𝑐𝑜𝑚𝑝 de acordo com 𝑒 −𝑖𝛽 𝐿𝑡,𝑘,𝑐𝑜𝑚𝑝 +𝑒 𝑖(𝐼𝑃𝐷𝑡,𝑏 −𝛽) 𝑅𝑡,𝑘,𝑐𝑜𝑚𝑝 𝐷𝑀𝑋𝑡,𝑘 = (29). √2
[059] Na equação (29), 𝛽 pode ser um parâmetro de ajuste de fase absoluto real computado a partir dos parâmetros estéreo/espaciais. Em outras modalidades, o esquema de codificação mostrado na Figura 2 também pode funcionar com qualquer outro método de mistura descendente. Outras modalidades podem usar as transformadas de frequência 𝐿𝑡,𝑘 e 𝑅𝑡,𝑘 e, opcionalmente, outros parâmetros para determinar o sinal de mistura descendente 𝐷𝑀𝑋𝑡,𝑘 .
[060] Na modalidade do codificador da Figura 2, um bloco de transformada de Fourier discreta inversa (IDFT) 50 pode receber o sinal de mistura descendente de domínio de frequência 𝐷𝑀𝑋𝑡,𝑘 do bloco de mistura descendente 40. O bloco de IDFT 50 pode transformar compartimentos de tempo-frequência de mistura descendente 𝐷𝑀𝑋𝑡,𝑘 , 𝑘 = 0, … , 𝐾 − 1, do domínio de frequência para o domínio de tempo para produzir sinal de mistura descendente de domínio de tempo 𝑑𝑚𝑥(𝜏). Em modalidades, uma janela de síntese 𝑤𝑆 (𝜏) pode ser aplicada e adicionada ao sinal de mistura descendente de domínio de tempo 𝑑𝑚𝑥(𝜏).
[061] Além disso, como na modalidade na Figura 2, um codificador de núcleo 60 pode receber sinal de mistura descendente de domínio 𝑑𝑚𝑥(𝜏) para codificar o sinal de áudio de canal único de acordo com MPEG-4 Parte 3 [1] ou qualquer outro algoritmo de codificação de áudio adequado, conforme apropriado. Na modalidade da Figura 2, o sinal de mistura descendente de domínio de tempo codificado por núcleo 𝑑𝑚𝑥(𝜏) pode ser combinado com o parâmetro de 𝐼𝑇𝐷 𝐼𝑇𝐷𝑡 , o ganho secundário 𝑔𝑡,𝑏 e o ganho residual corrigido 𝑟𝑡,𝑏,𝑐𝑜𝑟𝑟 adequadamente processado e/ou codificado adicionalmente para transmissão para um decodificador.
[062] A Figura 3 mostra uma modalidade do decodificador multicanal. O decodificador pode receber um sinal combinado que compreende o sinal de entrada mono/mistura descendente 𝑑𝑚𝑥(𝜏) no domínio do tempo e parâmetros de comparação e/ou espaciais como informações secundárias em uma base de quadro. O decodificador conforme mostrado na Figura 3 pode executar as seguintes etapas, que são descritas em detalhes abaixo.
1. Transformada de tempo para frequência da entrada com uso de DFTs em janela no bloco DFT 80
2. Predição de residual ausente no domínio de frequência no bloco de mistura ascendente e restauração espacial 90
3. Mistura ascendente no domínio da frequência em mistura ascendente e bloco de restauração espacial 90
4. Síntese de𝐼𝑇𝐷 no domínio da frequência no bloco de síntese de 𝐼𝑇𝐷 100
5. Transformada de domínio de frequência para tempo, janelamento e sobreposição adicionados em blocos de IDFT 112, 122 e blocos de janela 111, 121
[063] A transformada de tempo para frequência do sinal de entrada do sinal mono/mistura descendente 𝑑𝑚𝑥(𝜏) pode ser feita de forma semelhante aos sinais de áudio de entrada do codificador na Figura 2. Em certas modalidades, uma quantidade adequada de preenchimento de zero pode ser adicionada para uma restauração de 𝐼𝑇𝐷 no domínio de frequência. Esse procedimento pode produzir uma transformada de frequência de sinal de mistura descendente na forma de compartimentos de tempo- frequência 𝐷𝑀𝑋𝑡,𝑘 , 𝑘 = 0, … , 𝐾 − 1.
[064] Para restaurar as propriedades espaciais do sinal de mistura descendente 𝐷𝑀𝑋𝑡,𝑘 , um segundo sinal, independente do sinal de mistura descendente transmitido 𝐷𝑀𝑋𝑡,𝑘 pode ser necessário. Tal sinal pode, por exemplo, ser (re)construído no bloco de mistura ascendente e restauração espacial 90 com uso do ganho residual corrigido 𝑟𝑡,𝑏,𝑐𝑜𝑟𝑟 como parâmetro de comparação - transmitido por um codificador, como o codificador na Figura 2 - e compartimentos de tempo-frequência com retardo de tempo do sinal de mistura descendente conforme 𝐷𝑀𝑋𝑡,𝑘 dado na equação (30):
∑𝑘∈𝐼 |𝐷𝑀𝑋𝑡,𝑘 | 𝑏 𝜌̂𝑡,𝑘 = 𝑟𝑡,𝑏,𝑐𝑜𝑟𝑟 √ 2 𝐷𝑀𝑋𝑡−𝑑𝑏,𝑘 (30) ∑𝑘∈𝐼 |𝐷𝑀𝑋𝑡−𝑑 ,𝑘 | 𝑏 𝑏 para 𝑘 ∈ 𝐼𝑏 .
[065] Em outras modalidades, diferentes abordagens e equações podem ser usadas para restaurar as propriedades espaciais do sinal de mistura descendente 𝐷𝑀𝑋𝑡,𝑘 com base no transmitido pelo menos um parâmetro de comparação.
[066] Além disso, o bloco de mistura ascendente e restauração espacial 90 pode realizar mistura ascendente aplicando-se o inverso à transformada intermediária/secundária no codificador com uso do sinal de mistura descendente 𝐷𝑀𝑋𝑡,𝑘 e o ganho secundário 𝑔𝑡,𝑏 conforme transmitido pelo codificador, bem como o sinal residual reconstruído 𝜌̂𝑡,𝑘 . Isso pode render transformadas de frequência compensadas decodificadas de 𝐼𝑇𝐷 𝐿̂𝑡,𝑘 e 𝑅̂𝑡,𝑘 dadas pelas equações (31) e (32) como 𝑒 𝑖𝛽 (𝐷𝑀𝑋 ̂ 𝑡,𝑘 ) 𝑡,𝑘 (1+𝑔𝑡,𝑏 )+𝜌 𝐿̂𝑡,𝑘 = (31) √2 e 𝑒 𝑖(𝛽−𝐼𝑃𝐷𝑏 ) (𝐷𝑀𝑋𝑡,𝑘 (1−𝑔𝑡,𝑏 )−𝜌 ̂ 𝑡,𝑘 ) 𝑅̂𝑡,𝑘 = (32) √2 Para 𝑘 ∈ 𝐼𝑏 , em que 𝛽 é o mesmo parâmetro de rotação de fase absoluta como no procedimento de mistura descendente na equação (29).
[067] Além disso, como mostrado na Figura 3, a transformada de frequência compensada decodificada de 𝐼𝑇𝐷 𝐿̂𝑡,𝑘 e 𝑅̂𝑡,𝑘 pode ser recebida pelo 𝐼𝑇𝐷 bloco de síntese/descompensação 100. O último pode aplicar o 𝐼𝑇𝐷 parâmetro 𝐼𝑇𝐷𝑡 no domínio da frequência por rotação 𝐿̂𝑡,𝑘 e 𝑅̂𝑡,𝑘 conforme dado nas equações (33) e (34) para produzir transformadas de frequência decodificadas descompensadas de 𝐼𝑇𝐷 𝐿̂𝑡,𝑘,𝑑𝑒𝑐𝑜𝑚𝑝 e 𝑅̂𝑡,𝑘,𝑑𝑒𝑐𝑜𝑚𝑝 : 𝜋 𝐿̂𝑡,𝑘,𝑑𝑒𝑐𝑜𝑚𝑝 ← 𝑒 𝑖𝐾𝐼𝑇𝐷𝑡𝑘 𝐿̂𝑡,𝑘 (33) e 𝜋 𝑅̂𝑡,𝑘,𝑑𝑒𝑐𝑜𝑚𝑝 ← 𝑒 −𝑖𝐾𝐼𝑇𝐷𝑡𝑘 𝑅̂𝑡,𝑘 , (34).
[068] Na Figura 3, a transformada de frequência para domínio de tempo das transformadas de frequência decodificadas descompensadas de 𝐼𝑇𝐷 na forma de compartimentos de frequência de tempo 𝐿̂𝑡,𝑘,𝑑𝑒𝑐𝑜𝑚𝑝 e 𝑅̂𝑡,𝑘,𝑑𝑒𝑐𝑜𝑚𝑝 , 𝑘 = 0, … , 𝐾 − 1 pode ser realizada por blocos de IDFT 112 e 122, respectivamente. Os sinais de domínio de tempo resultantes podem ser subsequentemente colocados em janela por blocos de janela 111 e 121, respectivamente, e adicionados aos sinais de áudio de saída de domínio de tempo reconstruídos 𝑙̂(𝜏) e 𝑟̂ (𝜏) dos canais de áudio esquerdo e direito.
[069] As modalidades descritas acima são apenas ilustrativas para os princípios da presente invenção. Fica entendido que as modificações e variações das disposições e os detalhes descritos no presente documento serão evidentes para outros indivíduos versados na técnica. Portanto, pretende-se que sejam limitadas somente pelo escopo das reivindicações da patente iminentes e não pelos detalhes específicos apresentados a título de descrição e explicação das modalidades no presente documento.
REFERÊNCIAS
[1] MPEG-4 High Efficiency Advanced Audio Coding (HE-AAC) v2
[2] Jürgen Herre, FROM JOINT STEREO TO SPATIAL AUDIO CODING - RECENT PROGRESS AND STANDARDIZATION, Proc. of the 7th Int. Conference on digital Audio Effects (DAFX-04), Nápoles, Itália, 5 a 8 de outubro de 2004
[3] Christoph Tourney e Christof Faller, Improved Time Delay Analysis/Synthesis for Parametric Stereo Audio Coding, AES Convention Paper 6753, 2006
[4] Christof Faller e Frank Baumgarte, Binaural Cue Coding Part II: Schemes and Applications, IEEE Transactions on Speech and Audio Processing, volume 11, número 6, novembro de 2003

Claims (15)

REIVINDICAÇÕES
1. Dispositivo de comparação para um sinal de áudio multicanal caracterizado por ser configurado para: derivar, para uma diferença de tempo entre canais (𝐼𝑇𝐷) entre os sinais de áudio para pelo menos um par de canais, pelo menos um parâmetro de 𝐼𝑇𝐷 (𝐼𝑇𝐷𝑡 ) dos sinais de áudio do pelo menos um par de canais em uma janela de análise (𝑤(𝜏)), compensar o 𝐼𝑇𝐷para o pelo menos um par de canais no domínio de frequência por deslocamento circular com o uso do pelo menos um parâmetro de 𝐼𝑇𝐷 para gerar pelo menos um par de transformadas de frequência compensadas de 𝐼𝑇𝐷 (𝐿𝑡,𝑘,𝑐𝑜𝑚𝑝 ; 𝑅𝑡,𝑘,𝑐𝑜𝑚𝑝 ), computar, com base em pelo menos um parâmetro de 𝐼𝑇𝐷 e pelo menos um par de transformadas de frequência compensadas de 𝐼𝑇𝐷, pelo menos um parâmetro de comparação (𝑟̂𝑡 , 𝐼𝐶̂ 𝐶𝑡 ).
2. Dispositivo de comparação, de acordo com a reivindicação 1, caracterizado por ser adicionalmente configurado para usar transformadas de frequência (𝐿𝑡,𝑘 ; 𝑅𝑡,𝑘 ) dos sinais de áudio de pelo menos um par de canais na janela de análise (𝑤(𝜏)) para derivar pelo menos um parâmetro de 𝐼𝑇𝐷(𝐼𝑇𝐷𝑡 ).
3. Dispositivo de comparação, de acordo com a reivindicação 1 ou 2, caracterizado por ser adicionalmente configurado para: computar o pelo menos um parâmetro de comparação com o uso de uma função que iguala ou aproxima uma função de autocorrelação ( 𝑊𝑋 (𝑛) = ∑𝜏 𝑤(𝜏) 𝑤(𝜏 + 𝑛)) da janela de análise e o pelo menos um parâmetro de 𝐼𝑇𝐷.
4. Dispositivo de comparação, de acordo com a reivindicação 3, caracterizado por a função se igualar ou se aproximar de uma versão normalizada da função ̂𝑋 (𝑛) = 𝑊𝑋 (𝑛)⁄ 𝑊𝑋 (0)) da janela de análise. de autocorrelação (𝑊
5. Dispositivo de comparação, de acordo com a reivindicação 4, caracterizado por ser adicionalmente configurado para: obter a função por interpolação da versão normalizada da função de autocorrelação da janela de análise armazenada em uma tabela de consulta.
6. Dispositivo de comparação, de acordo com qualquer uma das reivindicações 1 a 5, caracterizado por o pelo menos um parâmetro de comparação compreender pelo menos um ganho secundário (𝑔𝑡,𝑏 ) de pelo menos um par de transformadas médias/secundárias (𝑀𝑡,𝑘 ; 𝑆𝑡,𝑘 ) do pelo menos um par de transformadas de frequência compensadas de 𝐼𝑇𝐷 (𝐿𝑡,𝑘,𝑐𝑜𝑚𝑝 ; 𝑅𝑡,𝑘,𝑐𝑜𝑚𝑝 ), sendo que o pelo menos um ganho secundário é um ganho de predição (𝑆𝑡,𝑘 = 𝑔𝑡,𝑏 𝑀𝑡,𝑘 + 𝜌𝑡,𝑘 ) de uma transformada secundária (𝑆𝑡,𝑘 ) de uma transformada média (𝑀𝑡,𝑘 ) de pelo menos um par de transformadas médias/secundárias.
7. Dispositivo de comparação, de acordo com a reivindicação 6, caracterizado por o pelo menos um parâmetro de comparação compreender pelo menos um ganho residual corrigido (𝑟𝑡,𝑏,𝑐𝑜𝑟𝑟 ) que corresponde a pelo menos um ganho residual (𝑟𝑡,𝑏 ) corrigido por um parâmetro de correção de ganho residual (𝑟̂𝑡 ), sendo que o pelo menos um ganho residual (𝑟𝑡,𝑏 ) é uma função de uma energia de um resíduo (𝜌𝑡,𝑘 ) em uma previsão da transformada secundária (𝑆𝑡,𝑘 ) da transformada média (𝑀𝑡,𝑘 ) em 2 1⁄2 ∑𝑘∈𝐼 |𝜌𝑡,𝑘 | relação a uma energia da transformada média (𝑟𝑡,𝑏 = ( 𝑏 2 ) ). ∑𝑘∈𝐼 |𝑀𝑡,𝑘 | 𝑏
8. Dispositivo de comparação, de acordo com a reivindicação 7, caracterizado por ser adicionalmente configurado para: computar o pelo menos um ganho secundário e o pelo menos um ganho residual com o uso das energias e o produto interno do pelo menos um par de transformadas de frequência compensadas de 𝐼𝑇𝐷 (𝐿𝑡,𝑘,𝑐𝑜𝑚𝑝 ; 𝑅𝑡,𝑘,𝑐𝑜𝑚𝑝 ).
9. Dispositivo de comparação, de acordo com qualquer uma das reivindicações 7 a 8, caracterizado por ser adicionalmente configurado para: corrigir o pelo menos um ganho residual por um deslocamento que corresponde ao parâmetro de correção de ganho residual 𝑟̂𝑡 computado como 𝑟̂𝑡 = 2𝑐 ̂ 𝑋 (𝐼𝑇𝐷𝑡 ) 1−𝑊 𝑐+1 √2 , em que 𝑐 é um ganho de escala entre os sinais de áudio do pelo ̂ 𝑋 (𝐼𝑇𝐷𝑡 ) 1+𝑐 2 +2𝑐𝑊
̂𝑋 (𝑛) é uma função que aproxima uma versão normalizada menos um par de canais e 𝑊 da função de autocorrelação da janela de análise.
10. Dispositivo de comparação, de acordo com qualquer uma das reivindicações 1 a 9, caracterizado por o pelo menos um parâmetro de comparação compreende pelo menos um parâmetro de correção (𝐼𝐶̂ 𝐶𝑡 ) de coerência entre canais (𝐼𝐶𝐶) para corrigir uma estimativa (𝐼𝐶𝐶𝑏,𝑡 ) do 𝐼𝐶𝐶 - determinado no domínio de frequência - do pelo menos um par de sinais de áudio com base no pelo menos um parâmetro de 𝐼𝑇𝐷.
11. Dispositivo de comparação, de acordo com qualquer uma das reivindicações 1 a 10, caracterizado por ser adicionalmente configurado para: gerar pelo menos um sinal de mistura descendente (downmix) para os sinais de áudio do pelo menos um par de canais, em que pelo menos um parâmetro de comparação (𝑟̂𝑡 , 𝐼𝐶̂ 𝐶𝑡 ) é computado para restaurar os sinais de áudio do pelo menos um par de canais do pelo menos um sinal de mistura descendente.
12. Dispositivo de comparação, de acordo com qualquer uma das reivindicações 1 a 11, caracterizado por ser adicionalmente configurado para: gerar o pelo menos um sinal de mistura descendente com base no pelo menos um par de transformadas de frequência compensadas de 𝐼𝑇𝐷.
13. Codificador multicanal caracterizado por compreender o dispositivo de comparação, de acordo com a reivindicação 11 ou 12, configurado adicionalmente para: codificar o pelo menos um sinal de mistura descendente, o pelo menos um parâmetro de 𝐼𝑇𝐷 e o pelo menos um parâmetro de comparação para transmissão para um decodificador.
14. Decodificador para sinais de áudio multicanal caracterizado por ser configurado para: decodificar pelo menos um sinal de mistura descendente, pelo menos um parâmetro de diferença de tempo entre canais (𝐼𝑇𝐷) e pelo menos um parâmetro de comparação (𝑟̂𝑡 , 𝐼𝐶̂ 𝐶𝑡 ) recebido de um codificador,
misturar de forma ascendente (upmix) o pelo menos um sinal de mistura descendente para restaurar os sinais de áudio de pelo menos um par de canais de pelo menos um sinal de mistura descendente com o uso do pelo menos um parâmetro de comparação para gerar pelo menos um par de transformadas de frequência compensadas decodificadas de 𝐼𝑇𝐷 (𝐿̂𝑡,𝑘 ; 𝑅̂𝑡,𝑘 ), descompensar o 𝐼𝑇𝐷 para o pelo menos um par de transformadas de frequência compensadas (𝐿̂𝑡,𝑘 ; 𝑅̂𝑡,𝑘 ) de 𝐼𝑇𝐷 decodificado do pelo menos um par de canais no domínio de frequência por deslocamento circular com o uso do pelo menos um parâmetro de 𝐼𝑇𝐷 para gerar pelo menos um par de transformadas de frequência decodificadas de 𝐼𝑇𝐷 descompensado para reconstruir o 𝐼𝑇𝐷 dos sinais de áudio do pelo menos um par de canais no domínio de tempo, realizar transformada de frequência inversa do pelo menos um par de transformadas de frequência decodificadas de 𝐼𝑇𝐷 descompensado para gerar pelo menos um par de sinais áudio decodificados do pelo menos um par de canais.
15. Método de comparação para um sinal de áudio multicanal, caracterizado por compreender: derivar, para uma diferença de tempo entre canais (𝐼𝑇𝐷) entre os sinais de áudio para pelo menos um par de canais, pelo menos um parâmetro de 𝐼𝑇𝐷 (𝐼𝑇𝐷𝑡 ) dos sinais de áudio do pelo menos um par de canais em uma janela de análise (𝑤(𝜏)), compensar o 𝐼𝑇𝐷para o pelo menos um par de canais no domínio de frequência por deslocamento circular com o uso do pelo menos um parâmetro de 𝐼𝑇𝐷 para gerar pelo menos um par de transformadas de frequência compensadas de 𝐼𝑇𝐷 (𝐿𝑡,𝑘,𝑐𝑜𝑚𝑝 ; 𝑅𝑡,𝑘,𝑐𝑜𝑚𝑝 ), computar, com base em pelo menos um parâmetro de 𝐼𝑇𝐷 e pelo menos um par de transformadas de frequência compensadas de 𝐼𝑇𝐷, pelo menos um parâmetro de comparação (𝑟̂𝑡 , 𝐼𝐶̂ 𝐶𝑡 ).
BR112020025552-1A 2018-06-22 2019-06-19 Dispositivo e método de comparação para um sinal de áudio multicanal, codificador multicanal e decodificador para sinais de áudio multicanal BR112020025552A2 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18179373.8A EP3588495A1 (en) 2018-06-22 2018-06-22 Multichannel audio coding
EP18179373.8 2018-06-22
PCT/EP2019/066228 WO2019243434A1 (en) 2018-06-22 2019-06-19 Multichannel audio coding

Publications (1)

Publication Number Publication Date
BR112020025552A2 true BR112020025552A2 (pt) 2021-03-16

Family

ID=62750879

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112020025552-1A BR112020025552A2 (pt) 2018-06-22 2019-06-19 Dispositivo e método de comparação para um sinal de áudio multicanal, codificador multicanal e decodificador para sinais de áudio multicanal

Country Status (13)

Country Link
US (2) US11978459B2 (pt)
EP (2) EP3588495A1 (pt)
JP (2) JP7174081B2 (pt)
CN (1) CN112424861B (pt)
AR (1) AR115600A1 (pt)
AU (1) AU2019291054B2 (pt)
BR (1) BR112020025552A2 (pt)
CA (1) CA3103875C (pt)
MX (1) MX2020013856A (pt)
SG (1) SG11202012655QA (pt)
TW (1) TWI726337B (pt)
WO (1) WO2019243434A1 (pt)
ZA (1) ZA202100230B (pt)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3588495A1 (en) 2018-06-22 2020-01-01 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Multichannel audio coding
JP7380838B2 (ja) * 2020-03-09 2023-11-15 日本電信電話株式会社 音信号符号化方法、音信号復号方法、音信号符号化装置、音信号復号装置、プログラム及び記録媒体
JP2023549038A (ja) * 2020-10-09 2023-11-22 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン パラメータ変換を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム
US11818353B2 (en) * 2021-05-13 2023-11-14 Qualcomm Incorporated Reduced complexity transforms for high bit-depth video coding

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5789689A (en) * 1997-01-17 1998-08-04 Doidic; Michel Tube modeling programmable digital guitar amplification system
KR20050021484A (ko) * 2002-07-16 2005-03-07 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 코딩
US7809579B2 (en) * 2003-12-19 2010-10-05 Telefonaktiebolaget Lm Ericsson (Publ) Fidelity-optimized variable frame length encoding
SE0402650D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
PL1866911T3 (pl) 2005-03-30 2010-12-31 Koninl Philips Electronics Nv Skalowalne, wielokanałowe kodowanie dźwięku
WO2007080211A1 (en) * 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
CN101556799B (zh) * 2009-05-14 2013-08-28 华为技术有限公司 一种音频解码方法和音频解码器
EP3035330B1 (en) * 2011-02-02 2019-11-20 Telefonaktiebolaget LM Ericsson (publ) Determining the inter-channel time difference of a multi-channel audio signal
AU2011357816B2 (en) * 2011-02-03 2016-06-16 Telefonaktiebolaget L M Ericsson (Publ) Determining the inter-channel time difference of a multi-channel audio signal
KR101580240B1 (ko) * 2012-02-17 2016-01-04 후아웨이 테크놀러지 컴퍼니 리미티드 다채널 오디오 신호를 인코딩하는 파라메트릭 인코더
WO2013149671A1 (en) * 2012-04-05 2013-10-10 Huawei Technologies Co., Ltd. Multi-channel audio encoder and method for encoding a multi-channel audio signal
TWI546799B (zh) * 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
MY195412A (en) * 2013-07-22 2023-01-19 Fraunhofer Ges Forschung Multi-Channel Audio Decoder, Multi-Channel Audio Encoder, Methods, Computer Program and Encoded Audio Representation Using a Decorrelation of Rendered Audio Signals
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
EP3293734B1 (en) * 2013-09-12 2019-05-15 Dolby International AB Decoding of multichannel audio content
EP3067889A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for signal-adaptive transform kernel switching in audio coding
EP3067887A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
CA3011915C (en) 2016-01-22 2021-07-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for estimating an inter-channel time difference
EP3208800A1 (en) * 2016-02-17 2017-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for stereo filing in multichannel coding
EP3582219B1 (en) 2016-03-09 2021-05-05 Telefonaktiebolaget LM Ericsson (publ) A method and apparatus for increasing stability of an inter-channel time difference parameter
FI3539125T3 (fi) * 2016-11-08 2023-03-21 Fraunhofer Ges Forschung Laite ja menetelmä monikanavasignaalin koodaamiseksi ja dekoodaamiseksi käyttäen sivuvahvistusta ja jäännösvahvistusta
EP3588495A1 (en) 2018-06-22 2020-01-01 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Multichannel audio coding

Also Published As

Publication number Publication date
AR115600A1 (es) 2021-02-03
ZA202100230B (en) 2022-07-27
TWI726337B (zh) 2021-05-01
AU2019291054A1 (en) 2021-02-18
US20210098007A1 (en) 2021-04-01
CN112424861A (zh) 2021-02-26
EP3811357A1 (en) 2021-04-28
TW202016923A (zh) 2020-05-01
AU2019291054B2 (en) 2022-04-07
JP2021528693A (ja) 2021-10-21
KR20210021554A (ko) 2021-02-26
CA3103875C (en) 2023-09-05
WO2019243434A1 (en) 2019-12-26
MX2020013856A (es) 2021-03-25
JP2023017913A (ja) 2023-02-07
JP7174081B2 (ja) 2022-11-17
US11978459B2 (en) 2024-05-07
CN112424861B (zh) 2024-04-16
US20240112685A1 (en) 2024-04-04
SG11202012655QA (en) 2021-01-28
CA3103875A1 (en) 2019-12-26
EP3588495A1 (en) 2020-01-01

Similar Documents

Publication Publication Date Title
JP7161564B2 (ja) チャネル間時間差を推定する装置及び方法
BR112020025552A2 (pt) Dispositivo e método de comparação para um sinal de áudio multicanal, codificador multicanal e decodificador para sinais de áudio multicanal
US10311881B2 (en) Determining the inter-channel time difference of a multi-channel audio signal
US20170134875A1 (en) Parametric stereo upmix apparatus, a parametric stereo decoder, a parametric stereo downmix apparatus, a parametric stereo encoder
US11664034B2 (en) Optimized coding and decoding of spatialization information for the parametric coding and decoding of a multichannel audio signal
BR112017018441B1 (pt) Codificador de áudio para codificação de um sinal multicanal e decodificador de áudio para decodificação de um sinal de áudio codificado
BR112012025863B1 (pt) sistema decodificador e método de decodificação para codificação estéreo por predição complexa baseada em mdct
CN108369810B (zh) 用于对多声道音频信号进行编码的自适应声道缩减处理
BRPI1005299B1 (pt) aparelho e método para realizar o upmmix em um sinal de áudio downmix
JP2023017913A5 (pt)
BR112015002794B1 (pt) Aparelho e método para adaptar informações de áudio na codificação de objeto de áudio espacial
Wu et al. Parametric stereo coding scheme with a new downmix method and whole band inter channel time/phase differences
Lang et al. Novel low complexity coherence estimation and synthesis algorithms for parametric stereo coding
RU2778832C2 (ru) Многоканальное кодирование аудио
KR102670634B1 (ko) 멀티 채널 오디오 코딩
JP2017058696A (ja) インターチャネル差分推定方法及び空間オーディオ符号化装置
BR122020007937B1 (pt) Sistema decodificador para prover um sinal estéreo por codificação estéreo de predição complexa e método de decodificação para realizar uma mistura ascendente de um sinal estéreo de entrada por codificação estéreo de predição complexa para um sinal estéreo de saída

Legal Events

Date Code Title Description
B350 Update of information on the portal [chapter 15.35 patent gazette]