BR112021007807A2 - analisador, avaliador de similaridade, codificador e decodificador de áudio, conversor de formato, renderizador, métodos e representação de áudio - Google Patents

analisador, avaliador de similaridade, codificador e decodificador de áudio, conversor de formato, renderizador, métodos e representação de áudio Download PDF

Info

Publication number
BR112021007807A2
BR112021007807A2 BR112021007807-0A BR112021007807A BR112021007807A2 BR 112021007807 A2 BR112021007807 A2 BR 112021007807A2 BR 112021007807 A BR112021007807 A BR 112021007807A BR 112021007807 A2 BR112021007807 A2 BR 112021007807A2
Authority
BR
Brazil
Prior art keywords
audio
sound intensity
signals
directional sound
encoded
Prior art date
Application number
BR112021007807-0A
Other languages
English (en)
Inventor
Jürgen Herre
Pablo Manuel Delgado
Sascha DICK
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Publication of BR112021007807A2 publication Critical patent/BR112021007807A2/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/22Arrangements for obtaining desired frequency or directional characteristics for obtaining desired frequency characteristic only 
    • H04R1/26Spatial arrangements of separate transducers responsive to two or more frequency ranges
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Otolaryngology (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

analisador, avaliador de similaridade, codificador e decodificador de áudio, conversor de formato, renderizador, métodos e representação de áudio. trata-se um analisador de áudio configurado para obter representações de domínio espectral de dois ou mais sinais de áudio de entrada. adicionalmente, o analisador de áudio é configurado para obter informações direcionais associadas a bandas espectrais das representações de domínio espectral e para obter informações de intensidade sonora associadas a diferentes direções como um resultado de análise. as contribuições para as informações de intensidade sonora são determinadas em dependência das informações direcionais.

Description

Relatório Descritivo da Patente de Invenção para “ANALISADOR, AVALIADOR DE SIMILARIDADE, CODIFICADOR E DECODIFICADOR DE ÁUDIO, CONVERSOR DE FORMATO, RENDERIZADOR, MÉTODOS E REPRESENTAÇÃO DE ÁUDIO”
DESCRIÇÃO CAMPO DA TÉCNICA
[001] As modalidades de acordo com a invenção são relacionadas a um processamento de áudio com base em mapa de intensidade sonora direcional.
ANTECEDENTES DA INVENÇÃO
[002] Desde o surgimento de codificadores de áudio perceptual, surgiu um interesse considerável em desenvolver algoritmos que possam prever a qualidade de áudio dos sinais codificados sem depender de testes de audição subjetivos extensos para poupar tempo e recursos. Os algoritmos que realizam uma denominada avaliação objetiva de qualidade em sinais codificados de modo monoaural, como PEAQ [3] ou POLQA [4], são amplamente difundidos. No entanto, seu desempenho para sinais codificados com técnicas de áudio espacial ainda é considerado insatisfatório [5]. Além disso, técnicas de conservação de não forma de onda, como extensão de largura de banda (BWE), são também conhecidas por fazer com que esses algoritmos superestimem a perda de qualidade [6], uma vez que muitos dos recursos extraídos para análise assumem condições de conservação de forma de onda. As técnicas de áudio espacial e BWE são predominantemente usadas em codificação de áudio com taxa de bit baixa (em torno de 32 kbps por canal).
[003] Considera-se que o conteúdo de áudio espacial de mais de dois canais pode ser renderizado para uma representação binaural dos sinais que entram no ouvido esquerdo e no direto através do uso de conjuntos de Funções de Transferência Relacionadas à Cabeça (HRTFs) e/ou Respostas de Impulso de Ambiente Binaural (BRIR) [5, 7]. A maioria das extensões propostas para avaliação objetiva binaural de qualidade tem como base pistas auditivas binaurais bem conhecidas relacionadas à percepção humana de localização de som e largura de fonte auditiva percebida como Diferenças de Nível Interaurais (ILD), Diferenças de Tempo Interaurais (ITD) e
Correlação Cruzada Interaural (IACC) entre os sinais que entram no ouvido esquerdo e no direito [1, 5, 8, 9]. No contexto de avaliação de qualidade objetiva, os recursos são extraídos com base nessas pistas espaciais de sinais de teste e referência e uma medição de distância entre os dois é usada como um índice de distorção. A consideração dessas pistas espaciais e suas distorções percebidas relacionadas permitiu o progresso considerável no contexto de projeto de algoritmo que codifica áudio espacial [7]. No entanto, no caso de uso de predição da qualidade geral de codificação de áudio espacial, a interação dessas distorções de pista entre si e com distorções monaurais/timbrais (especialmente em casos de conservação de não forma de onda) renderiza um cenário complexo [10] com resultados variados quando se usa os recursos para prever uma única pontuação de qualidade determinada por testes de qualidade subjetivos como MUSHRA [11]. Outros modelos alternativos também foram propostos [2], nos quais a saída de um modelo binaural é adicionalmente processada por um algoritmo de agrupamento para identificar o número de fontes participantes na imagem auditiva instantânea e, portanto, é também uma abstração dos modelos de distorção de pista auditiva clássicos. Todavia, o modelo em [2] é o mais focado em fontes em movimento no espaço e seu desempenho é também limitado pela capacidade de precisão e rastreamento do algoritmo de agrupamento associado. O número de recursos adicionados para produzir esse modelo útil é também significativo.
[004] Os sistemas de medição de qualidade de áudio objetivos também devem empregar quanto menos recursos de sinal extraídos mutualmente independentes e mais relevantes forem possíveis para evitar o risco de sobreajuste em vista da quantidade limitada de dados de realidade prática para mapear distorções de recursos para pontuações de qualidade fornecidos por testes de audição [3].
[005] Uma das características de distorção mais evidentes relatada em testes de audição para sinais espacialmente codificados de áudio em taxas de bit é descrita como um colapso da imagem estéreo voltada para a posição central e a diafonia de canal [12].
[006] Portanto, se deseja adquirir um conceito que forneça uma análise de áudio, codificação de áudio e decodificação de áudio aprimorada, eficiente e de alta precisão.
[007] Isso é alcançado pela matéria das reivindicações independentes do presente pedido.
[008] As modalidades adicionais de acordo com a invenção são definidas pela matéria das reivindicações dependentes do presente pedido.
SUMÁRIO DA INVENÇÃO
[009] Uma modalidade de acordo com esta invenção está relacionada a um analisador de áudio, por exemplo, um analisador de sinal de áudio. O analisador de áudio é configurado para obter representações de domínio espectral de dois ou mais sinais de áudio de entrada. Assim, o analisador de áudio é, por exemplo, configurado para determinar ou receber as representações de domínio espectral. De acordo com uma modalidade, o analisador de áudio é configurado para obter as representações de domínio espectral ao decompor os dois ou mais sinais de áudio de entrada em blocos de tempo-frequência. Adicionalmente, o analisador de áudio é configurado para obter informações direcionais associadas a bandas espectrais das representações de domínio espectral. As informações direcionais representam, por exemplo, diferentes direções (ou posições) de componentes de áudio contidos nos dois ou mais sinais de áudio de entrada. De acordo com uma modalidade, as informações direcionais podem ser entendidas como um índice de movimentação, que descreve, por exemplo, uma localização de fonte em um campo sonoro criado pelos dois ou mais sinais de áudio de entrada em um processamento binaural. Além disso, o analisador de áudio é configurado para obter informações de intensidade sonora associadas a diferentes direções como um resultado de análise, em que as contribuições para as informações de intensidade sonora são determinadas em dependência das informações direcionais. Em outras palavras, o analisador de áudio é, por exemplo, configurado para obter as informações de intensidade sonora associadas a diferentes direções de movimentação ou índices de movimentação ou para uma pluralidade de diferentes faixas de direção avaliadas como um resultado de análise. De acordo com uma modalidade, as diferentes direções, por exemplo, direções de movimentação, índices de movimentação e/ou faixas de direção, podem ser obtidas a partir das informações direcionais. As informações de intensidade sonora compreendem, por exemplo, um mapa de intensidade sonora direcional ou informações de nível ou informações de energia. As contribuições para as informações de intensidade sonora são, por exemplo, contribuições de bandas espectrais das representações de domínio espectral para as informações de intensidade sonora. De acordo com uma modalidade, as contribuições para as informações de intensidade sonora são contribuições para valores das informações de intensidade sonora associadas às diferentes direções.
[010] Essa modalidade é baseada na ideia de que é vantajoso determinar as informações de intensidade sonora em dependência das informações direcionais obtidas a partir dos dois ou mais sinais de áudio de entrada. Isso permite obter informações sobre a intensidade sonora de diferentes fontes em uma mixagem de áudio estéreo realizada pelos dois ou mais sinais de áudio. Assim, com o analisador de áudio uma percepção dos dois ou mais sinais de áudio pode ser analisada muito eficientemente ao obter as informações de intensidade sonora associadas a diferentes direções como um resultado de análise. De acordo com uma modalidade, as informações de intensidade sonora podem compreender ou representar um mapa de intensidade sonora direcional, que dá, por exemplo, informações sobre uma intensidade sonora de uma combinação dos dois ou mais sinais em diferentes direções ou informações sobre uma intensidade sonora de pelo menos um sinal de tempo comum dos dois ou mais sinais de áudio de entrada, ponderados em todas as bandas de ERB (ERB = largura de banda retangular equivalente).
[011] De acordo com uma modalidade, o analisador de áudio é configurado para obter uma pluralidade de representações ponderadas de domínio espectral (por exemplo, domínio de tempo-frequência) (por exemplo, “sinais direcionais”) com base nas representações de domínio espectral (por exemplo, domínio de tempo-frequência) dos dois ou mais sinais de áudio de entrada. Os valores das uma ou mais representações de domínio espectral são ponderados em dependência das diferentes direções (por exemplo, direção de movimentação) (por exemplo, representada por fatores de ponderação) dos componentes de áudio (por exemplo, de compartimentos espectrais ou bandas espectrais) (por exemplo, notas de instrumentos ou cantor) nos dois ou mais sinais de áudio de entrada para obter a pluralidade de representações ponderadas de domínio espectral (por exemplo, “sinais direcionais”). O analisador de áudio é configurado para obter informações de intensidade sonora (por exemplo, valores de intensidade sonora para uma pluralidade de diferentes direções; por exemplo, um “mapa de intensidade sonora direcional”) associadas às diferentes direções (por exemplo, direções de movimentação) com base nas representações ponderadas de domínio espectral (por exemplo, “sinais direcionais”) como o resultado de análise.
[012] Isso significa, por exemplo, que o analisador de áudio analisa em qual direção das diferentes direções dos componentes de áudio os valores das uma ou mais representações de domínio espectral influenciam as informações de intensidade sonora. Cada Compartimento espectral é, por exemplo, associado a uma certa direção, em que as informações de intensidade sonora associadas a uma certa direção podem ser determinadas pelo analisador de áudio com base em mais que o compartimento espectral associado a essa direção. A ponderação pode ser realizada para cada compartimento ou cada banda espectral das uma ou mais representações de domínio espectral. De acordo com uma modalidade, os valores de um compartimento de frequência ou um grupo de frequência são exibidos pela ponderação para uma das diferentes direções. Por exemplo, os mesmos são ponderados para a direção que estão associados a e/ou para direções vizinhas. A direção é, por exemplo, associada a uma direção na qual o compartimento de frequência ou grupo de frequência influencia as informações de intensidade sonora. Os valores que desviam daquela direção são, por exemplo, ponderados como menos importantes. Assim, a pluralidade de representações ponderadas de domínio espectral pode fornecer uma indicação de compartimentos espectrais ou bandas espectrais que influenciam as informações de intensidade sonora nas diferentes direções. De acordo com uma modalidade, a pluralidade de representações ponderadas de domínio espectral pode representar pelo menos parcialmente as contribuições para as informações de intensidade sonora.
[013] De acordo com uma modalidade, o analisador de áudio é configurado para decompor (por exemplo, transformar) os dois ou mais sinais de áudio de entrada em um domínio de transformada de Fourier de tempo curto (STFT) (por exemplo, com o uso de uma janela de Hann) para obter dois ou mais sinais de áudio transformados. Os dois ou mais sinais de áudio transformados podem representar as representações de domínio espectral (por exemplo, o domínio de tempo-frequência) dos dois ou mais sinais de áudio de entrada.
[014] De acordo com uma modalidade, o analisador de áudio é configurado para agrupar compartimentos espectrais dos dois ou mais sinais de áudio transformados em bandas espectrais dos dois ou mais sinais de áudio transformados (por exemplo, de modo que as larguras de banda dos grupos ou bandas espectrais aumentem com a frequência crescente) (por exemplo, com base em uma seletividade de frequência da cóclea humana). Adicionalmente, o analisador de áudio é configurado para ponderar as bandas espectrais (por exemplo, compartimentos espectrais dentro das bandas espectrais) com o uso de diferentes pesos, com base em um modelo de ouvido externo e ouvido médio, para obter as uma ou mais representações de domínio espectral dos dois ou mais sinais de áudio de entrada. Com o agrupamento especial dos compartimentos espectrais em bandas espectrais e com a ponderação das bandas espectrais os dois ou mais sinais de áudio de entrada são preparados de modo que uma percepção de intensidade sonora dos dois ou mais sinais de áudio de entrada por um usuário, que ouve os ditos sinais, possa ser estimada ou determinada muito precisa e eficientemente pelo analisador de áudio em termos de determinação das informações de intensidade sonora. Com esse recurso, os sinais de áudio de transformada respectivamente as representações de domínio espectral dos dois ou mais sinais de áudio de entrada são adaptadas ao ouvido humano, para aprimorar conteúdo de informações das informações de intensidade sonora obtidas pelo analisador de áudio.
[015] De acordo com uma modalidade, os dois ou mais sinais de áudio de entrada são associados a diferentes direções ou diferentes posições de alto-falante (por exemplo, L (esquerda), R (direita)). As diferentes direções ou diferentes posições de alto-falante podem representar diferentes canais para uma cena de áudio estéreo e/ou multicanal. Os dois ou mais sinais de áudio de entrada podem ser distinguidos entre si por índices, que podem, por exemplo, ser representados por letras do alfabeto (por exemplo, L (esquerda), R (direita), M (média)) ou, por exemplo, por um número inteiro positivo que indica o número do canal dos dois ou mais sinais de áudio de entrada. Assim, os índices podem indicar as diferentes direções ou posições de alto-falante, com as quais o dois ou mais sinal de áudio de entrada são associados a (por exemplo, indicam um posição, onde os sinais de entrada se originam em um espaço de audição). De acordo com uma modalidade, as diferentes direções (a seguir, por exemplo, primeiras diferentes direções) dos dois ou mais sinais de áudio de entrada não estão relacionadas às diferentes direções (a seguir, por exemplo, segundas diferentes direções) com as quais as informações de intensidade sonora, obtidas pelo analisador de áudio, estão associadas. Assim, uma direção das primeiras diferentes direções pode representar um canal de um sinal dos dois ou mais sinais de áudio de entrada e uma direção das segundas diferentes direções pode representar uma direção de um componente de áudio de um sinal dos dois ou mais sinais de áudio de entrada. As segundas diferentes direções podem ser posicionadas entre as primeiras direções. Adicional ou alternativamente, as segundas diferentes direções podem ser posicionadas fora das primeiras direções e/ou nas primeiras direções.
[016] De acordo com uma modalidade, o analisador de áudio é configurado para determinar uma ponderação dependente de direção (por exemplo, com base em direções de movimentação) por compartimento espectral (por exemplo, e também por etapa de tempo/quadro) e para uma pluralidade de direções predeterminadas (direções desejadas de movimentação). As direções predeterminadas representam,
por exemplo, direções equidistantes, que podem ser associadas a direções/índices de movimentação predeterminados. Alternativamente, as direções predeterminadas são, por exemplo, determinadas com o uso das informações direcionais associadas a bandas espectrais das representações de domínio espectral, obtidas pelo analisador de áudio. De acordo com uma modalidade, as informações direcionais podem compreender as direções predeterminadas. A ponderação dependente de direção é, por exemplo, aplicada às uma ou mais representações de domínio espectral dos dois ou mais sinais de áudio de entrada pelo analisador de áudio. Com a ponderação dependente de direção, um valor de um compartimento espectral é, por exemplo, associado a uma ou mais direções da pluralidade de direções predeterminadas. Essa ponderação dependente de direção é, por exemplo, com base na ideia de que cada compartimento espectral das representações de domínio espectral dos dois ou mais sinais de áudio de entrada contribuem para as informações de intensidade sonora em uma ou mais diferentes direções da pluralidade de direções predeterminadas. Cada compartimento espectral contribui, por exemplo, principalmente para uma direção e apenas em uma pequena quantidade para direções vizinhas, através do que é vantajoso ponderar um valor de um compartimento espectral diferentemente para diferentes direções.
[017] De acordo com uma modalidade, o analisador de áudio é configurado para determinar uma ponderação dependente de direção com o uso de uma função gaussiana, de modo que a ponderação dependente de direção diminui com o desvio crescente entre respectivos valores de direção extraídos (por exemplo, associados ao compartimento de tempo-frequência em consideração) e respectivos valores de direção predeterminados. Os respectivos valores de direção extraídos podem representar direções de componentes de áudio nos dois ou mais sinais de áudio de entrada. Uma intervalo para os respectivos valores de direção extraídos pode se situar entre uma direção totalmente à esquerda e uma direção totalmente à direita, em que as direções esquerda e direita são em relação a um usuário que percebe os dois ou mais sinais de áudio de entrada (por exemplo, voltado para os alto-falantes). De acordo com uma modalidade, o analisador de áudio pode determinar cada valor de direção extraído como um valor de direção predeterminada ou valores de direção equidistante como valores de direção predeterminados. Assim, por exemplo, um ou mais compartimentos espectrais que correspondem a uma direção extraída são ponderados em direções predeterminadas vizinhas a essa direção extraída de acordo com a função gaussiana de forma menos importante que na direção predeterminada que corresponde ao valor de direção extraída. Quanto maior for a distância de uma direção predeterminada para uma direção extraída, mais a ponderação dos compartimentos espectrais ou de bandas espectrais diminui, de modo que, por exemplo, um compartimento espectral tem quase ou nenhuma influência em uma percepção de intensidade sonora em um local longe da direção extraída correspondente.
[018] De acordo com uma modalidade, o analisador de áudio é configurado para determinar valores de índice de movimentação como os valores de direção extraídos. Os valores de índice de movimentação indicarão, por exemplo, exclusivamente uma direção de componentes de tempo-frequência (isto é, os compartimentos espectrais) de fontes em uma mixagem estéreo criada pelos dois ou mais sinais de áudio de entrada.
[019] De acordo com uma modalidade, o analisador de áudio é configurado para determinar os valores de direção extraídos em dependência de valores de domínio espectral dos sinais de áudio de entrada (por exemplo, valores das representações de domínio espectral dos sinais de áudio de entrada). Os valores de direção extraídos são, por exemplo, determinados com base em uma avaliação de uma movimentação de amplitude de componentes de sinal (por exemplo, em compartimentos de tempo e frequência) entre os sinais de áudio de entrada, ou com base em uma relação entre amplitudes de valores de domínio espectral correspondentes dos sinais de áudio de entrada. De acordo com uma modalidade, os valores de direção extraídos definem uma medição de similaridade entre os valores de domínio espectral dos sinais de áudio de entrada.
[020] De acordo com uma modalidade, o analisador de áudio é configurado para obter a ponderação dependente de direção ΘΨ0,𝑗 (𝑚, 𝑘) associada a uma direção predeterminada (por exemplo, representada pelo índice Ψ0,𝑗 ), um tempo (ou período de tempo) designado com um índice de tempo m e um compartimento espectral designado por um índice de compartimento espectral k de acordo com ΘΨ0,𝑗 (𝑚, 𝑘) = 1 − (Ψ(𝑚,𝑘)−Ψ0,𝑗 )2 𝑒 2𝜉 , em que 𝜉 é um valor predeterminado (que controla, por exemplo, uma largura de uma janela gaussiana). Ψ(𝑚, 𝑘) designa os valores de direção extraídos associados a um tempo (ou período de tempo) designado com um índice de tempo m e um compartimento espectral designado por um índice de compartimento espectral k e Ψ0,𝑗 é um valor de direção que designa (ou é associado a) uma direção predeterminada (por exemplo, que tem índice de direção j). A ponderação dependente de direção é baseada na ideia de que os valores espectrais ou compartimentos espectrais ou bandas espectrais com um valor de direção extraída (por exemplo, um índice de movimentação) que é igual a Ψ0,j (por exemplo, igual a direção predeterminada) passam a ponderação dependente de direção valores espectrais e não modificados ou compartimentos espectrais ou bandas espectrais com um valor de direção extraída (por exemplo, um índice de movimentação) que desvia de Ψ0,j são ponderados. De acordo com uma modalidade, os valores espectrais ou compartimentos espectrais ou bandas espectrais com um valor de direção extraída próximos a Ψ0,j são ponderados e passados e o resto dos valores são rejeitados (por exemplo, não processados adicionalmente).
[021] De acordo com uma modalidade, o analisador de áudio é configurado para aplicar a ponderação dependente de direção às uma ou mais representações de domínio espectral dos dois ou mais sinais de áudio de entrada, a fim de obter as representações ponderadas de domínio espectral (por exemplo, “sinais direcionais”). Assim, as representações ponderadas de domínio espectral compreendem, por exemplo, compartimentos espectrais (isto é, componentes de tempo-frequência) das uma ou mais representações de domínio espectral dos dois ou mais sinais de áudio de entrada que correspondem às uma ou mais direções predeterminadas dentro, por exemplo, de um valor de tolerância (por exemplo, também compartimentos espectrais associados a diferentes direções predeterminadas vizinhos a uma direção predeterminada selecionada). De acordo com uma modalidade, para cada direção predeterminada uma representação ponderada de domínio espectral pode ser realizada pela ponderação dependente de direção (por exemplo, a representação ponderada de domínio espectral pode compreender valores espectrais ponderados dependentes de direção, compartimentos espectrais ou bandas espectrais associados à direção predeterminada e/ou associados a uma direção em uma proximidade da direção predeterminada pelo tempo). Alternativamente, para cada representação de domínio espectral (por exemplo, dos dois ou mais sinais de áudio de entrada) uma representação ponderada de domínio espectral é obtida, que representa, por exemplo, a representação de domínio espectral ponderada correspondente para todas as direções predeterminadas.
[022] De acordo com uma modalidade, o analisador de áudio é configurado para obter as representações ponderadas de domínio espectral, de modo que os componentes de sinal que têm associada uma primeira direção predeterminada (por exemplo, uma primeiro direção de movimentação) sejam enfatizados em relação a componentes de sinal que têm associadas outras direções (que são diferentes da primeira direção predeterminada e que são, por exemplo, atenuados de acordo com a função gaussiana) em uma primeira representação ponderada de domínio espectral e de modo que os componentes de sinal que têm associada uma segunda direção predeterminada (que é diferente da primeira direção predeterminada) (por exemplo, uma segunda direção de movimentação) são enfatizados em relação a componentes de sinal que têm associadas outras direções (que são diferentes da segunda direção predeterminada, e que são, por exemplo, atenuados de acordo com a função gaussiana) em uma segunda representação ponderada de domínio espectral. Assim, por exemplo, para cada direção predeterminada, uma representação ponderada de domínio espectral para cada sinal dos dois ou mais sinais de áudio de entrada pode ser determinada.
[023] De acordo com uma modalidade, o analisador de áudio é configurado para obter as representações ponderadas de domínio espectral 𝑌𝑖,𝑏,Ψ0,𝑗 (𝑚, 𝑘) associadas a um sinal de áudio de entrada ou combinação de sinais de áudio de entrada designado pelo índice i, uma banda espectral designada pelo índice b, uma direção designada pelo índice Ψ0,𝑗 , um tempo (ou período de tempo) designado com um índice de tempo m e um compartimento espectral designado por um índice de compartimento espectral k, de acordo com 𝑌𝑖,𝑏,Ψ0,𝑗 (𝑚, 𝑘) = 𝑋𝑖,𝑏 (𝑚, 𝑘)ΘΨ0,𝑗 (𝑚, 𝑘)., 𝑋𝑖,𝑏 (𝑚, 𝑘) designa uma representação de domínio espectral associada a um sinal de áudio de entrada ou combinação de sinais de áudio de entrada designada pelo índice i (por exemplo, i=L ou i=R ou i=DM; em que L=esquerda, R=direita e DM=mixagem de redução), uma banda espectral designada pelo índice b, um tempo (ou período de tempo) designado com um índice de tempo m e um compartimento espectral designado por um índice de compartimento espectral k e ΘΨ0,𝑗 (𝑚, 𝑘) designa a ponderação dependente de direção (por exemplo, uma função de ponderação como uma função gaussiana) associada a uma direção designada pelo índice Ψ0,𝑗 , um tempo (ou período de tempo) designado com um índice de tempo m e um compartimento espectral designado por um índice de compartimento espectral k. Assim, as representações ponderadas de domínio espectral podem ser determinadas, por exemplo, pela ponderação da representação de domínio espectral associada a um sinal de áudio de entrada ou uma combinação de sinais de áudio de entrada pela ponderação dependente de direção.
[024] De acordo com uma modalidade, o analisador de áudio é configurado para determinar uma média em uma pluralidade de valores de intensidade sonora de banda (por exemplo, associados a diferentes bandas de frequência, mas na mesma direção, por exemplo, associados a uma direção predeterminada e/ou direções em uma proximidade da direção predeterminada), a fim de obter um valor de intensidade sonora combinado (por exemplo, associado a uma determinada direção ou direção de movimentação, isto é, a direção predeterminada). O valor de intensidade sonora combinado pode representar as informações de intensidade sonora obtidas pelo analisador de áudio como o resultado de análise. Alternativamente, as informações de intensidade sonora obtidas pelo analisador de áudio como o resultado de análise podem compreender o valor de intensidade sonora combinado. Assim, as informações de intensidade sonora podem compreender valores de intensidade sonora combinados associados a diferentes direções predeterminadas, dentre os quais um mapa de intensidade sonora direcional pode ser obtido.
[025] De acordo com uma modalidade, o analisador de áudio é configurado para obter valores de intensidade sonora de banda para uma pluralidade de bandas espectrais (por exemplo, bandas de ERB) com base em uma representação de domínio espectral ponderada combinada que representa uma pluralidade de sinais de áudio de entrada (por exemplo, uma combinação dos dois ou mais sinais de áudio de entrada) (por exemplo, em que a representação espectral combinada ponderada pode combinar as representações ponderadas de domínio espectral associadas aos sinais de áudio de entrada). Adicionalmente, o analisador de áudio é configurado para obter, como o resultado de análise, uma pluralidade de valores de intensidade sonora combinados (que abrangem uma pluralidade de bandas espectrais; por exemplo, na forma de um único valor em escala) com base nos valores de intensidade sonora de banda obtidos para uma pluralidade de diferentes direções (ou direções de movimentação). Assim, por exemplo, o analisador de áudio é configurado para ponderar todos os valores de intensidade sonora de banda associados à mesma direção para obter um valor de intensidade sonora combinado associado a essa direção (por exemplo, que resulta em uma pluralidade de valores de intensidade sonora combinados). O analisador de áudio é, por exemplo, configurado para obter para cada direção predeterminada um valor de intensidade sonora combinado.
[026] De acordo com uma modalidade, o analisador de áudio é configurado para computar uma média de valores espectrais quadrados da representação de domínio espectral combinada ponderada sobre valores espectrais de uma banda de frequência (ou sobre compartimentos espectrais de uma banda de frequência), e para aplicar uma exponenciação que tem um exponente entre 0 e 1/2 (e preferencialmente menor que ou igual a 1/3 ou ¼) à média de valores espectrais quadrados, a fim de determinar os valores de intensidade sonora de banda (associados a uma respectiva banda de frequência).
[027] De acordo com uma modalidade, o analisador de áudio é configurado para obter os valores de intensidade sonora de banda 𝐿𝑏,Ψ0,𝑗 (𝑚) associados a uma banda espectral designada com índice b, uma direção designada com índice Ψ0,𝑗 , um tempo (ou período de tempo) designado com um índice de tempo m de acordo com 1 0.25 𝐿𝑏,Ψ0,𝑗 (𝑚) = (𝐾 ∑𝑘∈𝑏 𝑌𝐷𝑀,𝑏,Ψ0,𝑗 (𝑚, 𝑘)2 ) . O fator Kb designa um número de 𝑏 compartimentos espectrais em uma banda de frequência que tem índice de banda de frequência b. A variável k é uma variável de atribuição e designa compartimentos espectrais na banda de frequência que tem índice de banda de frequência b, em que b designa uma banda espectral. 𝑌𝐷𝑀,𝑏,Ψ0,𝑗 (𝑚, 𝑘) designa uma representação de domínio espectral combinada ponderada associada a uma banda espectral designada com índice b, uma direção designada por índice Ψ0,𝑗 , um tempo (ou período de tempo) designado com um índice de tempo m e um compartimento espectral designado por um índice de compartimento espectral k.
[028] De acordo com uma modalidade, o analisador de áudio é configurado para obter uma pluralidade de valores de intensidade sonora combinados L(m,Ψ0,𝑗 ) associados a uma direção designada com índice Ψ0,𝑗 e um tempo (ou período de tempo) designado com um índice de tempo m de acordo com 𝐿(𝑚, Ψ0,𝑗 ) = 1 ∑∀𝑏 𝐿𝑏,Ψ0,𝑗 (𝑚) . O fator B designa um número total de bandas espectrais b e
𝐵 𝐿𝑏,Ψ0,𝑗 (𝑚) designa valores de intensidade sonora de banda associadas a uma banda espectral designada com índice b, uma direção designada com índice Ψ0,𝑗 e um tempo (ou período de tempo) designado com um índice de tempo m.
[029] De acordo com uma modalidade, o analisador de áudio é configurado para alocar contribuições de intensidade sonora para compartimentos de histograma associados a diferentes direções (por exemplo, segundas diferentes direções, conforme descrito acima; por exemplo, direções predeterminadas) em dependência das informações direcionais, a fim de obter o resultado de análise. As contribuições de intensidade sonora são, por exemplo, representadas pela pluralidade de valores de intensidade sonora combinados ou pela pluralidade de valores de intensidade sonora de banda. Assim, por exemplo, o resultado de análise compreende um mapa de intensidade sonora direcional, definido pelos compartimentos de histograma. Cada compartimento de histograma é, por exemplo, associado a uma das direções predeterminadas.
[030] De acordo com uma modalidade, o analisador de áudio é configurado para obter informações de intensidade sonora associadas a compartimentos espectrais com base nas representações de domínio espectral (por exemplo, para obter uma intensidade sonora combinada por bloco de T/F). O analisador de áudio é configurado para adicionar uma contribuição de intensidade sonora a um ou mais compartimentos de histograma com base em informações de intensidade sonora associadas a um determinado compartimento espectral. Uma contribuição de intensidade sonora associada a um determinado compartimento espectral é, por exemplo, adicionada a diferentes compartimentos de histograma com uma ponderação diferente (por exemplo, dependendo da direção que corresponde ao compartimento de histograma). Uma seleção, cuja contribuição de intensidade sonora é feita para os um ou mais compartimentos de histograma (isto é, adicionada), é baseada em uma determinação das informações direcionais (isto é, do valor de direção extraída) para um determinado compartimento espectral. De acordo com uma modalidade, cada compartimento de histograma pode representar um bloco de tempo-direção. Assim, um compartimento de histograma é, por exemplo, associado a uma intensidade sonora dos dois ou mais sinais de áudio de entrada combinados em um certo período de tempo e direção. Para a determinação das informações direcionais para um determinado compartimento espectral, por exemplo, as informações de nível para compartimentos espectrais correspondentes das representações de domínio espectral dos dois ou mais sinais de áudio de entrada são analisadas.
[031] De acordo com uma modalidade, o analisador de áudio é configurado para adicionar contribuições de intensidade sonora a uma pluralidade de compartimentos de histograma com base em informações de intensidade sonora associadas a um determinado compartimento espectral, de modo que uma maior contribuição (por exemplo, contribuição principal) é adicionada a um compartimento de histograma associado a uma direção que corresponde às informações direcionais associadas ao determinado compartimento espectral (isto é, do valor de direção extraída), e de modo que contribuições reduzidas (por exemplo, comparativamente menores que a maior contribuição ou contribuição principal) são adicionadas a um ou mais compartimentos de histograma associados a direções adicionais (por exemplo, em uma vizinhança da direção que corresponde às informações direcionais associadas ao determinado compartimento espectral). Conforme descrito acima, cada compartimento de histograma pode representar um bloco de tempo-direção. De acordo com uma modalidade, uma pluralidade de compartimentos de histograma pode definir um mapa de intensidade sonora direcional, em que o mapa de intensidade sonora direcional define, por exemplo, intensidade sonora para diferentes direções pelo tempo para uma combinação dos dois ou mais sinais de áudio de entrada.
[032] De acordo com uma modalidade, o analisador de áudio é configurado para obter informações direcionais com base em um conteúdo de áudio dos dois ou mais sinais de áudio de entrada. As informações direcionais compreendem, por exemplo, direções de componentes ou fontes no conteúdo de áudio dos dois ou mais sinais de áudio de entrada. Em outras palavras, as informações direcionais podem compreender direções de movimentação ou índices de movimentação de fontes na mixagem estéreo dos dois ou mais sinais de áudio de entrada.
[033] De acordo com uma modalidade, o analisador de áudio é configurado para obter informações direcionais com base em uma análise de uma movimentação de amplitude de conteúdo de áudio. Adicional ou alternativamente, o analisador de áudio é configurado para obter informações direcionais com base em uma análise de uma relação de fase e/ou um atraso de tempo e/ou correlação entre conteúdos de áudio de dois ou mais sinais de áudio de entrada. Adicional ou alternativamente, o analisador de áudio é configurado para obter informações direcionais com base em uma identificação de fontes ampliadas (por exemplo, descorrelacionadas e/ou movimentadas). A análise da movimentação de amplitude do conteúdo de áudio pode compreender uma análise de uma correlação de nível entre compartimentos espectrais correspondentes das representações de domínio espectral dos dois ou mais sinais de áudio de entrada (por exemplo, compartimentos espectrais correspondentes com o mesmo nível podem ser associados a uma direção em uma metade de dois alto-falantes que transmitem um de dois sinais de áudio de entrada cada). De modo similar, a análise da relação de fase e/ou do atraso de tempo e/ou da correlação entre conteúdos de áudio pode ser realizada. Assim, por exemplo, a relação de fase e/ou o atraso de tempo e/ou a correlação entre conteúdos de áudio é analisada quanto a compartimentos espectrais correspondentes das representações de domínio espectral dos dois ou mais sinais de áudio de entrada. Adicional ou alternativamente, além das comparações de diferença de nível/tempo intercanal, há um método adicional (por exemplo, terceiro) para estimativa de informações direcionais. Esse método consiste na correspondência das informações espectrais de um som de entrada com “respostas/filtros de espectral de modelo” pré-medidos de Funções de Transferência Relacionadas à Cabeça (HRF) em diferentes direções.
[034] Por exemplo: em um certo bloco de tempo/frequência, o envelope espectral do sinal entrante em 35 graus dos canais esquerdo e direito pode corresponder intimamente ao formato dos filtros lineares para os ouvidos esquerdo e direito medidos em um ângulo de 35 graus. Então, um algoritmo de otimização ou procedimento de correspondência padrão atribuirá a direção de chagada do som como sendo 35°. Mais informações podem ser encontradas aqui: https://iem.kug.ac.at/fileadmin/media/iem/projects/2011/baumgartner_robert.pdf (consulte, por exemplo, Capítulo 2). Esse método tem a vantagem de permitir estimar a direção de entrada de fontes sonoras elevadas (plano sagital) além das fontes horizontais. Esse método é baseado, por exemplo, em comparações em nível espectral.
[035] De acordo com uma modalidade, o analisador de áudio é configurado para difundir informações de intensidade sonora para uma pluralidade de direções (por exemplo, além de uma direção indicada pelas informações direcionais) de acordo com uma regra de difusão (por exemplo, um regra de difusão gaussiana, ou uma regra de difusão distinta limitada). Isso significa, por exemplo, que as informações de intensidade sonora que correspondem a um certo compartimento espectral, associado a certas informações direcionais, também podem contribuir para direções vizinhas (da certa direção do compartimento espectral) de acordo com a regra de difusão. De acordo com uma modalidade, a regra de difusão pode compreender ou corresponder a uma ponderação dependente de direção, em que a ponderação dependente de direção nesse caso, por exemplo, define contribuições diferentemente ponderadas das informações de intensidade sonora de um certo compartimento espectral para a pluralidade de direções.
[036] Uma modalidade de acordo com essa invenção está relacionada a um avaliador de similaridade de áudio, que é configurado para obter primeiras informações de intensidade sonora (por exemplo, um mapa de intensidade sonora direcional; por exemplo, um ou mais valores de intensidade sonora combinados) associadas a diferentes (por exemplo, movimentação) direções com base em um primeiro conjunto de dois ou mais sinais de áudio de entrada. O avaliador de similaridade de áudio é configurado para comparar as primeiras informações de intensidade sonora com segundas (por exemplo, correspondentes) informações de intensidade sonora (por exemplo, informações de intensidade sonora de referência, mapa de intensidade sonora direcional diferente e/ou valor de intensidade sonora combinado de referência) associadas às diferentes (por exemplo, movimentação) direções e com um conjunto de dois ou mais sinais de áudio de referência, a fim de obter informações de similaridade (por exemplo, uma “Variável de Saída de Modelo” (MOV); por exemplo, um único valor de escalonamento) que descreve uma similaridade entre o primeiro conjunto de dois ou mais sinais de áudio de entrada e o conjunto de dois ou mais sinais de áudio de referência (ou que representam, por exemplo, uma qualidade do primeiro conjunto de dois ou mais sinais de áudio de entrada quando comparados com o conjunto de dois ou mais sinais de áudio de referência).
[037] Essa modalidade é baseada na ideia de que isso é eficiente e aprimora a precisão de uma indicação de qualidade de áudio (por exemplo, as informações de similaridade), para comparar informações de intensidade sonora direcional (por exemplo, as primeiras informações de intensidade sonora) de dois ou mais sinais de áudio de entrada com informações de intensidade sonora direcional (por exemplo, as segundas informações de intensidade sonora) de dois ou mais sinais de áudio de referência. O uso de informações de intensidade sonora associadas a diferentes direções é especialmente vantajoso a respeito das mixagens estéreos ou mixagens multicanal, devido ao fato de que as diferentes direções podem ser associadas, por exemplo, a direções (isto é, direções de movimentação, índices de movimentação) de fontes (isto é, componentes de áudio) nas mixagens. Assim, efetivamente a degradação de qualidade de uma combinação processada dos dois ou mais sinais de áudio de entrada pode ser medida. Uma outra vantagem é que o processamento de áudio de conservação de não forma de onda como extensão de largura de banda (BWE) influencia minimamente ou não influencia as informações de similaridade, uma vez que as informações de intensidade sonora para a imagem estéreo ou imagem multicanal são, por exemplo, determinadas em um domínio de Transformada de Fourier de Tempo Curto (STFT). Além disso, as informações de similaridade com base em informações de intensidade sonora podem ser facilmente complementadas com informações de similaridade monaurais/timbrais para aprimorar um predição perceptual para os dois ou mais sinais de áudio de entrada. Assim, apenas as informações de similaridade adicionais para descritores de qualidade monaural são, por exemplo, usadas, as quais podem reduzir um número de recursos de sinal independentes e relevantes usados por um sistema de medição de qualidade de áudio objetiva a respeito de sistemas conhecidos apenas com o uso de descritores de qualidade monaural. O uso de menos recursos para o mesmo desempenho reduzirá o risco de sobreajuste e indica sua relevância perceptual superior.
[038] De acordo com uma modalidade, o avaliador de similaridade de áudio é configurado para obter as primeiras informações de intensidade sonora (por exemplo, um mapa de intensidade sonora direcional) de modo que as primeiras informações de intensidade sonora (por exemplo, um vetor que compreende valores de intensidade sonora combinados para uma pluralidade de direções predeterminadas) compreende uma pluralidade de valores de intensidade sonora combinados associados ao primeiro conjunto de dois ou mais sinais de áudio de entrada e associados a respectivas direções predeterminadas, em que os valores de intensidade sonora combinados das primeiras informações de intensidade sonora descrevem a intensidade sonora de componentes de sinal do primeiro conjunto de dois ou mais sinais de áudio de entrada associados às respectivas direções predeterminadas (em que, por exemplo, cada valor de intensidade sonora combinado é associado a uma direção diferente). Assim, por exemplo, cada valor de intensidade sonora combinado pode ser representado por um vetor que define, por exemplo, uma alteração de intensidade sonora ao longo do tempo para uma certa direção. Isso significa, por exemplo, que num valor de intensidade sonora combinado pode compreender um ou mais valores de intensidade sonora associados a consecutivos períodos de tempo. As direções predeterminadas podem ser representadas por direções de movimentação/índices de movimentação dos componentes de sinal do primeiro conjunto de dois ou mais sinais de áudio de entrada. Assim, por exemplo, as direções predeterminadas podem ser predefinidas por técnicas de movimentação de maior amplitude usadas para um posicionamento de sinais direcionais em uma mixagem estéreo ou multicanal representada pelo primeiro conjunto de dois ou mais sinais de áudio de entrada.
[039] De acordo com uma modalidade, o avaliador de similaridade de áudio é configurado para obter as primeiras informações de intensidade sonora (por exemplo, mapa de intensidade sonora direcional) de modo que as primeiras informações de intensidade sonora são associadas a combinações de uma pluralidade de representações ponderadas de domínio espectral (por exemplo, de cada sinal de áudio) do primeiro conjunto de dois ou mais sinais de áudio de entrada associados a respectivas direções predeterminadas (por exemplo, cada valor de intensidade sonora combinado e/ou representação ponderada de domínio espectral é associado a uma direção predeterminada diferente). Isso significa, por exemplo, que para cada sinal de áudio de entrada pelo menos uma representação ponderada de domínio espectral é calculada e que, então, todas as representações ponderadas de domínio espectral associadas à mesma direção predeterminada são combinadas. Assim, as primeiras informações de intensidade sonora representam, por exemplo, valores de intensidade sonora associados a múltiplos compartimentos espectrais associados à mesma direção predeterminada. Pelo menos alguns dos múltiplos compartimentos espectrais são, por exemplo, ponderados diferentemente que outros compartimentos dos múltiplos compartimentos espectrais.
[040] De acordo com uma modalidade, o avaliador de similaridade de áudio é configurado para determinar uma diferença entre as segundas informações de intensidade sonora e as primeiras informações de intensidade sonora para obter informações de intensidade sonora residuais. De acordo com uma modalidade, as informações de intensidade sonora residuais podem representar as informações de similaridade ou as informações de similaridade podem ser determinadas com base nas informações de intensidade sonora residuais. As informações de intensidade sonora residuais são, por exemplo, entendidas como uma medição de distância entre as segundas informações de intensidade sonora e as primeiras informações de intensidade sonora. Assim, as informações de intensidade sonora residuais podem ser entendidas como uma distância de intensidade sonora direcional (por exemplo, DirLoudDist). Com esse recurso muito eficientemente uma qualidade dos dois ou mais sinais de áudio de entrada associada às primeiras informações de intensidade sonora pode ser determinada.
[041] De acordo com uma modalidade, o avaliador de similaridade de áudio é configurado para determinar um valor (por exemplo, um único valor de escalonamento) que quantifica a diferença em uma pluralidade de direções (e opcionalmente também ao longo do tempo, por exemplo, por uma pluralidade de quadros). O avaliador de similaridade de áudio é, por exemplo, configurado para determinar uma média de uma magnitude das informações de intensidade sonora residuais em todas as direções (por exemplo, direções de movimentação) e ao longo do tempo como o valor que quantifica a diferença. Por meio disso, um único número chamado de Variável de Saída de Modelo (MOV) é, por exemplo, determinado, em que o MOV define uma similaridade do primeiro conjunto de dois ou mais sinais de áudio de entrada em relação ao conjunto de dois ou mais sinais de áudio de referência.
[042] De acordo com uma modalidade, o avaliador de similaridade de áudio é configurado para obter as primeiras informações de intensidade sonora e/ou as segundas informações de intensidade sonora (por exemplo, como mapas de intensidade sonora direcional) com o uso de um analisador de áudio de acordo com uma das modalidades descritas aqui.
[043] De acordo com uma modalidade, o avaliador de similaridade de áudio é configurado para obter um componente de direção (por exemplo, informações de direção) usado para obter as informações de intensidade sonora associadas a diferentes direções (por exemplo, um ou mais mapas de intensidade sonora direcional) com o uso de metadados que representam informações de posição de alto- falantes associadas aos sinais de áudio de entrada. As diferentes direções não são necessariamente associadas ao componente de direção. De acordo com uma modalidade, o componente de direção é associado aos dois ou mais sinais de áudio de entrada. Assim, o componente de direção pode representar um identificador de alto-falante ou um identificador de canal dedicado, por exemplo, para diferentes direções ou posições de um alto-falante. Ao contrário, as diferentes direções, com as quais as informações de intensidade sonora são associadas, podem representar direções ou posições de componentes de áudio em uma cena de áudio realizada pelos dois ou mais sinais de áudio de entrada. Alternativamente, as diferentes direções podem representar direções ou posições igualmente espaçadas em um intervalo de posição (por exemplo, [-1; 1], em que -1 representa sinais movimentados completamente para a esquerda e +1 representa sinais movimentados completamente para a direita) em que a cena de áudio realizada pelos dois ou mais sinais de áudio de entrada pode se desenrolar. De acordo com uma modalidade, as diferentes direções podem ser associadas às direções predeterminadas descritas no presente documento. O componente de direção é, por exemplo, associado a pontos limítrofes do intervalo de posição.
[044] Uma modalidade de acordo com esta invenção está relacionada a um codificador de áudio para codificar um conteúdo de áudio de entrada que compreende um ou mais sinais de áudio de entrada (preferencialmente uma pluralidade de sinais de áudio de entrada). O codificador de áudio é configurado para fornecer um ou mais sinais de áudio codificados (por exemplo, quantizados e, então, codificados sem perda de erro) (por exemplo, representações de domínio espectral codificadas) com base em um ou mais sinais de áudio de entrada (por exemplo, sinal esquerdo e sinal direito), ou um ou mais sinais derivados disso (por exemplo, sinal médio ou sinal de mixagem de redução e sinal lateral ou sinal de diferença). Adicionalmente, o codificador de áudio é configurado para adaptar parâmetros de codificação (por exemplo, para o fornecimento dos um ou mais sinais de áudio codificados; por exemplo, parâmetros de quantização) em dependência de um ou mais mapas de intensidade sonora direcional que representam informações de intensidade sonora associadas a uma pluralidade de diferentes direções (por exemplo, direções de movimentação) dos um ou mais sinais a serem codificados (por exemplo, em dependência de contribuições de mapas individuais de intensidade sonora direcional dos um ou mais sinais a serem quantizados para um mapa geral de intensidade sonora direcional, por exemplo, associado a múltiplos sinais de áudio de entrada (por exemplo, com cada sinal dos um ou mais sinais de áudio de entrada))
[045] O conteúdo de áudio que compreende um sinal de áudio de entrada pode ser associado a uma cena de áudio monaural, um conteúdo de áudio que compreende dois sinais de áudio de entrada pode ser associado a uma cena de áudio estéreo e um conteúdo de áudio que compreende três ou mais sinais de áudio de entrada pode ser associado a uma cena de áudio multicanal. De acordo com uma modalidade, o codificador de áudio fornece para cada sinal de áudio de entrada um sinal de áudio codificado separado como sinal de saída ou fornece um sinal de saída combinado que compreende dois ou mais sinais de áudio codificados de dois ou mais sinais de áudio de entrada.
[046] Os mapas de intensidade sonora direcional (isto é, DirLoudMap), do qual a adaptação dos parâmetros de codificação depende, pode variar para diferentes conteúdos de áudio. Assim, para uma cena de áudio monaural, o mapa de intensidade sonora direcional, por exemplo, compreende apenas um valor de intensidade sonora de direção (com base apenas no sinal de áudio de entrada) que desvia de zero e compreende, por exemplo, para todos outros valores de intensidade sonora de direções, que são iguais a zero. Para uma cena de áudio estéreo, o mapa de intensidade sonora direcional representa, por exemplo, informações de intensidade sonora associadas a ambos os sinais de áudio de entrada, em que as diferentes direções são, por exemplo, associadas a posições ou direções de componentes de áudio dos dois sinais de áudio de entrada. No caso de três ou mais sinais de áudio de entrada, a adaptação dos parâmetros de codificação depende, por exemplo, de três ou mais mapas de intensidade sonora direcional, em que cada mapa de intensidade sonora direcional corresponde às informações de intensidade sonora associadas a dois dos três sinais de áudio de entrada (por exemplo, um primeiro DirLoudMap pode corresponder a um primeiro e um segundo sinal de áudio de entrada; um segundo DirLoudMap pode corresponder ao primeiro e um terceiro sinal de áudio de entrada; e um terceiro DirLoudMap pode corresponder ao segundo e ao terceiro sinal de áudio de entrada). Conforme descrito a respeito da cena de áudio estéreo, as diferentes direções para os mapas de intensidade sonora direcional são no caso de cena de áudio multicanal, por exemplo, associadas a posições ou direções de componentes de áudio dos múltiplos sinais de áudio de entrada.
[047] As modalidades desse codificador de áudio são baseadas na ideia de que isso é eficiente e aprimora a precisão da codificação, para depender de uma adaptação de parâmetros de codificação em um ou mais mapas de intensidade sonora direcional. Os parâmetros de codificação são, por exemplo, adaptados em dependência de uma diferença do mapa de intensidade sonora direcional associado aos um ou mais sinais de áudio de entrada e um mapa de intensidade sonora direcional associado a um ou mais sinais de áudio de referência. De acordo com uma modalidade, os mapas de intensidade sonora direcional gerais, de uma combinação de todos os sinais de áudio de entrada e de uma combinação de todos os sinais de áudio de referência, são comparados ou alternativamente os mapas de intensidade sonora direcional de individual ou sinais pareados são comparados com um mapa geral de intensidade sonora direcional de todos os sinais de áudio de entrada (por exemplo, mais que uma diferença pode ser determinada). A diferença entre os DirLoudMaps pode representar uma medição de qualidade para a codificação. Assim, os parâmetros de codificação são, por exemplo, adaptados de modo que a diferença seja minimizada, para assegurar uma codificação de alta qualidade do conteúdo de áudio ou os parâmetros de codificação são adaptados de modo que apenas os sinais do conteúdo de áudio, que correspondem a uma diferença sob um certo limite, são codificados, para reduzir uma complexidade da codificação. Alternativamente, os parâmetros de codificação são, por exemplo, adaptados em dependência de uma razão (por exemplo, contribuições) de DirLoudMaps de sinais individuais ou de DirLoudMaps de pares de sinais para um DirLoudMap geral (por exemplo, um DirLoudMap associado a uma combinação de todos os sinais de áudio de entrada). Essa razão pode similarmente à diferença indicar uma similaridade entre sinais individuais ou pares de sinais do conteúdo de áudio ou entre sinais individuais e uma combinação de todos os sinais do conteúdo de áudio ou pares de sinais e uma combinação de todos os sinais do conteúdo de áudio, resultando em uma codificação de alta qualidade e/ou uma redução de uma complexidade da codificação.
[048] De acordo com uma modalidade, o codificador de áudio é configurado para adaptar uma distribuição de bit entre os um ou mais sinais e/ou parâmetros a serem codificados (ou, por exemplo, entre dois ou mais sinais e/ou parâmetros a serem codificados) (por exemplo, entre um sinal residual e um sinal de mixagem de redução, ou entre um sinal de canal esquerdo e um sinal de canal direito, ou entre dois ou mais sinais fornecidos por uma codificação conjunta de múltiplos sinais, ou entre um sinal e parâmetros fornecidos por uma codificação conjunta de múltiplos sinais) em dependência de contribuições de mapas individuais de intensidade sonora direcional dos um ou mais sinais e/ou parâmetros a serem codificados para um mapa geral de intensidade sonora direcional. A adaptação da distribuição de bit é, por exemplo, entendida como uma adaptação dos parâmetros de codificação pelo codificador de áudio. A distribuição de bit também pode ser entendida como uma distribuição de taxa de bit. A distribuição de bit é, por exemplo, adaptada pelo controle de uma precisão de quantização dos um ou mais sinais de áudio de entrada do codificador de áudio. De acordo com uma modalidade, uma alta contribuição pode indicar uma alta relevância do sinal de áudio de entrada correspondente ou par de sinais de áudio de entrada para uma percepção de alta qualidade de uma cena de áudio criada pelo conteúdo de áudio. Assim, por exemplo, o codificador de áudio pode ser configurado para fornecer muitos bits para os sinais com uma alta contribuição e poucos ou nenhum bit para sinais com uma baixa contribuição. Assim, uma codificação eficiente e de alta qualidade pode ser alcançada.
[049] De acordo com uma modalidade, o codificador de áudio é configurado para desativar a codificação de um determinado dos sinais a serem codificados (por exemplo, de um sinal residual), quando contribuições de um mapa de intensidade sonora direcional individual do determinado dos sinais a serem codificados (por exemplo, do sinal residual) para um mapa geral de intensidade sonora direcional estão abaixo de um limite (por exemplo, predeterminado). A codificação é, por exemplo, desativada se uma razão média ou uma razão em uma direção de contribuição relativa máxima estiver abaixo do limite. Alternativa ou adicionalmente, as contribuições de mapas de intensidade sonora direcional de pares de sinais (por exemplo, mapas individuais de intensidade sonora direcional de pares de sinais (por exemplo, como pares de sinais uma combinação de dois sinais pode ser entendida; por exemplo, como pares de sinais uma combinação de sinais associadas a diferentes canais e/ou sinais residuais e/ou sinais de mixagem de redução pode ser entendida.)) para o mapa geral de intensidade sonora direcional pode ser usada pelo codificador para desativar a codificação de um determinado dos sinais (por exemplo, para três sinais a serem codificados: conforme descrito acima três mapas de intensidade sonora direcional de pares de sinais podem ser analisados em relação ao mapa geral de intensidade sonora direcional; assim, o codificador pode ser configurado para determinar o par de sinais com a maior contribuição para o mapa geral de intensidade sonora direcional e codificar apenas esses dois sinais e desativar a codificação para o sinal remanescente). A desativação de uma codificação de um sinal é, por exemplo, entendida como uma adaptação de parâmetros de codificação. Assim, os sinais não altamente relevantes para uma percepção do conteúdo de áudio por um ouvinte não precisam ser codificados, o que resulta em uma codificação muito eficiente. De acordo com uma modalidade, o limite pode ser definido como menor que ou igual a 5%, 10%, 15%, 20% ou 50% das informações de intensidade sonora do mapa geral de intensidade sonora direcional.
[050] De acordo com uma modalidade, o codificador de áudio é configurado para adaptar uma precisão de quantização dos um ou mais sinais a serem codificados (por exemplo, entre um sinal residual e um sinal de mixagem de redução) em dependência de contribuições de mapas individuais de intensidade sonora direcional dos (respectivos) um ou mais sinais a serem codificados para um mapa geral de intensidade sonora direcional. Alternativa ou adicionalmente, similarmente à desativação descrita acima, as contribuições de mapas de intensidade sonora direcional de pares de sinais para o mapa geral de intensidade sonora direcional podem ser usadas pelo codificador para adaptar uma precisão de quantização dos um ou mais sinais a serem codificados. A adaptação da precisão de quantização pode ser entendida como um exemplo para adaptar os parâmetros de codificação pelo codificador de áudio.
[051] De acordo com uma modalidade, o codificador de áudio é configurado para quantizar as representações de domínio espectral dos um ou mais sinais de áudio de entrada (por exemplo, sinal esquerdo e sinal direito; por exemplo, os um ou mais sinais de áudio de entrada são, por exemplo, correspondentes a uma pluralidade de diferentes canais. Assim, o codificador de áudio recebe, por exemplo, uma entrada multicanal), ou dos um ou mais sinais derivados do mesmo (por exemplo, sinal médio ou sinal de mixagem de redução e sinal lateral ou sinal de diferença) com o uso de um ou mais parâmetros de quantização (por exemplo, fatores ou parâmetros de escala que descrevem quais precisões de quantização ou etapa de quantização devem ser aplicadas a quais compartimentos espectrais ou bandas de frequência dos um ou mais sinais a serem quantizados) (em que os parâmetros de quantização descrevem, por exemplo, uma alocação de bits para diferentes sinais a serem quantizados e/ou a diferentes bandas de frequência), para obter um ou mais representações quantizadas de domínio espectral. O codificador de áudio é configurado para ajustar os um ou mais parâmetros de quantização (por exemplo, a fim de adaptar uma distribuição de bit entre os um ou mais sinais a serem codificados) em dependência de um ou mais mapas de intensidade sonora direcional que representam informações de intensidade sonora associadas a uma pluralidade de diferentes direções (por exemplo, direções de movimentação) dos um ou mais sinais a serem quantizados, para adaptar o fornecimento dos um ou mais sinais de áudio codificados (por exemplo, em dependência de contribuições de mapas individuais de intensidade sonora direcional dos um ou mais sinais a serem quantizados para um mapa geral de intensidade sonora direcional, por exemplo, associado a múltiplos sinais de áudio de entrada (por exemplo, com cada sinal dos um ou mais sinais de áudio de entrada)). Adicionalmente, o codificador de áudio é configurado para codificar as uma ou mais representações de domínio espectral quantizadas, a fim de obter os um ou mais sinais de áudio codificados.
[052] De acordo com uma modalidade, o codificador de áudio é configurado para ajustar os um ou mais parâmetros de quantização em dependência de contribuições de mapas individuais de intensidade sonora direcional dos um ou mais sinais a serem quantizados para um mapa geral de intensidade sonora direcional.
[053] De acordo com uma modalidade, o codificador de áudio é configurado para determinar um mapa geral de intensidade sonora direcional com base nos sinais de áudio de entrada, de modo que o mapa geral de intensidade sonora direcional representa informações de intensidade sonora associadas às diferentes direções (por exemplo, de componentes de áudio; por exemplo, direções de movimentação) de uma cena de áudio representada (ou a ser representada, por exemplo, após uma renderização de lado de decodificador) pelos sinais de áudio de entrada (possivelmente em combinação com conhecimento ou informações laterais a respeito de posições de alto-falantes e/ou conhecimento ou informações laterais que descrevem posições de objetos de áudio). O mapa geral de intensidade sonora direcional representa, por exemplo, informações de intensidade sonora associadas a (por exemplo, uma combinação de) todos os sinais de áudio de entrada.
[054] De acordo com uma modalidade, os um ou mais sinais a serem quantizados são associados (por exemplo, de uma maneira fixa não dependente de sina) com diferentes direções (por exemplo, primeiras diferentes direções) ou são associadas a diferentes alto-falantes (por exemplo, em diferentes posições de alto- falante predefinidas) ou são associadas a diferentes objetos de áudio (por exemplo, com objetos de áudio a serem renderizados em diferentes posições, por exemplo, de acordo com informações de renderização de objeto; por exemplo, um índice de movimentação).
[055] De acordo com uma modalidade, os sinais a serem quantizados compreendem componentes (por exemplo, um sinal médio e um sinal lateral de uma codificação estéreo de lado médio) de uma codificação de múltiplos sinais conjunta de dois ou mais sinais de áudio de entrada.
[056] De acordo com uma modalidade, o codificador de áudio é configurado para estimar uma contribuição de um sinal residual da codificação de múltiplos sinais conjunta para o mapa geral de intensidade sonora direcional, e para ajustar os um ou mais parâmetros de quantização em dependência do mesmo. A contribuição estimada é, por exemplo, representada por uma contribuição de um mapa de intensidade sonora direcional do sinal residual para o mapa geral de intensidade sonora direcional.
[057] De acordo com uma modalidade, o codificador de áudio é configurado para adaptar uma distribuição de bit entre os um ou mais sinais e/ou parâmetros a serem codificados individualmente para diferentes compartimentos espectrais ou individualmente para diferentes bandas de frequência. Adicional ou alternativamente, o codificador de áudio é configurado para adaptar uma precisão de quantização dos um ou mais sinais a serem codificados individualmente para diferentes compartimentos espectrais ou individualmente para diferentes bandas de frequência. Com a adaptação da precisão de quantização, o codificador de áudio é, por exemplo, configurado para adaptar também a distribuição de bit. Assim, o codificador de áudio é, por exemplo, configurado para adaptar a distribuição de bit entre os um ou mais sinais de áudio de entrada do conteúdo de áudio a ser codificado pelo codificador de áudio. Adicional ou alternativamente, a distribuição de bit entre parâmetros a serem codificados é adaptada. A adaptação da distribuição de bit pode ser realizada pelo codificador de áudio individualmente para diferentes compartimentos espectrais ou individualmente para diferentes bandas de frequência. De acordo com uma modalidade, também é possível que a distribuição de bit entre os sinais e os parâmetros seja adaptada. Em outras palavras, cada sinal dos um ou mais sinais a serem codificados pelo codificador de áudio pode compreender uma distribuição de bit individual para diferentes compartimentos espectrais e/ou diferentes bandas de frequência (por exemplo, do sinal correspondente) e essa distribuição de bit individual para cada um dos um ou mais sinais a serem codificados pode ser adaptada pelo codificador de áudio.
[058] De acordo com uma modalidade, o codificador de áudio é configurado para adaptar uma distribuição de bit entre os um ou mais sinais e/ou parâmetros a serem codificados (por exemplo, individualmente por compartimento espectral ou por banda de frequência) em dependência de uma avaliação de um mascaramento espacial entre dois ou mais sinais a serem codificados. Adicionalmente, o codificador de áudio é configurado para avaliar o mascaramento espacial com base nos mapas de intensidade sonora direcional associados aos dois ou mais sinais a serem codificados.
Isso é, por exemplo, baseado na ideia de que os mapas de intensidade sonora direcional são espacial e/ou temporalmente resolvidos. Assim, por exemplo, apenas poucos ou nenhum bit são gastos para sinais mascarados e mais bits (por exemplo, mais que para os sinais mascarados) são gastos para a codificação de sinais ou componentes de sinal relevantes (por exemplo, sinais ou componentes de sinal não mascarados por outros sinais ou componentes de sinal). De acordo com uma modalidade, o mascaramento espacial depende, por exemplo, de um nível associado a compartimentos espectrais e/ou bandas de frequência dos dois ou mais sinais a serem codificados, em uma distância espacial entre os compartimentos espectrais e/ou bandas de frequência e/ou em uma distância temporal entre os compartimentos espectrais e/ou bandas de frequência). Os mapas de intensidade sonora direcional podem fornecer diretamente informações de intensidade sonora para compartimentos espectrais e/ou bandas de frequência individuais para sinais individuais ou uma combinação de sinais (por exemplo, pares de sinal), que resultam em uma análise eficiente de mascaramento espacial pelo codificador.
[059] De acordo com uma modalidade, o codificador de áudio é configurado para avaliar um efeito de mascaramento de uma contribuição de intensidade sonora associada a uma primeira direção de um primeiro sinal a ser codificado sobre uma contribuição de intensidade sonora associada a uma segunda direção (que é diferente da primeira direção) de um segundo sinal a ser codificado (em que, por exemplo, um efeito de mascaramento reduz com a diferença crescente dos ângulos). O efeito de mascaramento define, por exemplo, uma relevância do mascaramento espacial. Isso significa, por exemplo, que para contribuições de intensidade sonora associadas a um efeito de mascaramento menor que um limite, mais bits são gastos que para sinais (por exemplo, sinais espacialmente mascarados) associados a um efeito de mascaramento maior que o limite. De acordo com uma modalidade, o limite pode ser definido como 20%, 50%, 60%, 70% ou 75% de mascaramento de um mascaramento total. Isso significa, por exemplo, que um efeito de mascaramento de compartimentos espectrais ou bandas de frequência vizinhos é avaliado dependendo das informações de intensidade sonora de mapas de intensidade sonora direcional.
[060] De acordo com uma modalidade, o codificador de áudio compreende um analisador de áudio de acordo com uma das modalidades descritas na presente invenção, em que as informações de intensidade sonora (por exemplo, “mapa de intensidade sonora direcional”) associadas a diferentes direções formam o mapa de intensidade sonora direcional.
[061] De acordo com uma modalidade, o codificador de áudio é configurado para adaptar um ruído introduzido pelo codificador (por exemplo, um ruído de quantização) em dependência dos um ou mais mapas de intensidade sonora direcional. Assim, por exemplo, os um ou mais mapas de intensidade sonora direcional dos um ou mais sinais a serem codificados podem ser comparados pelo codificador com um ou mais mapas de intensidade sonora direcional de um ou mais sinais de referência. Com base nessa comparação, o codificador de áudio é, por exemplo, configurado para avaliar diferenças que indicam um ruído introduzido. O ruído pode ser adaptado por uma adaptação de uma quantização realizada pelo codificador de áudio.
[062] De acordo com uma modalidade, o codificador de áudio é configurado para usar um desvio entre um mapa de intensidade sonora direcional, que é associado a um determinado sinal de áudio de entrada não codificado (ou com um determinado par de sinais de áudio de entrada não codificado), e um mapa de intensidade sonora direcional alcançável por uma versão codificada do determinado sinal de áudio de entrada (ou do determinado par de sinais de áudio de entrada), como um critério (por exemplo, critério-alvo) para a adaptação do fornecimento do determinado sinal de áudio codificado (ou do determinado par de sinais de áudio codificado). Os exemplos a seguir apenas são descritos para um determinado sinal de áudio de entrada não codificado, mas fica claro que também são aplicáveis para um determinado par de sinais de áudio de entrada não codificado. O mapa de intensidade sonora direcional associado ao determinado sinal de áudio de entrada não codificado pode ser associado ou pode representar um mapa de intensidade sonora direcional diferente. Assim, um desvio entre o mapa de intensidade sonora direcional diferente e o mapa de intensidade sonora direcional da versão codificada do determinado sinal de áudio de entrada pode indicar ruído introduzido pelo codificador. Para reduzir o ruído, o codificador de áudio pode ser configurado para adaptar parâmetros de codificação para reduzir o desvio a fim de fornecer um sinal de áudio codificado de alta qualidade. Isso é, por exemplo, realizado por um circuito de retroalimentação que controla cada vez que ocorre desvio. Assim, os parâmetros de codificação são adaptados até que o desvio esteja abaixo de um limite predefinido. De acordo com uma modalidade, o limite pode ser definido conforme 5%, 10%, 15%, 20% ou 25% de desvio. Alternativamente, a adaptação pelo codificador é realizada com o uso de um rede neural (por exemplo, ao alcançar um circuito de alimentação direta). Com a rede neural, o mapa de intensidade sonora direcional para a versão codificada do determinado sinal de áudio de entrada pode ser estimado sem determinar diretamente o mesmo pelo codificador de áudio ou pelo analisador de áudio. Assim, uma codificação de áudio de precisão alta e muito rápida pode ser realizada.
[063] De acordo com uma modalidade, o codificador de áudio é configurado para ativar e desativar uma ferramenta de codificação conjunta (que, por exemplo, codifica juntamente dois ou mais dos sinais de áudio de entrada ou sinais derivados dos mesmos) (por exemplo, para tomar uma decisão de ligar/desligar M/S (sinal médio/lateral)) em dependência de um ou mais mapas de intensidade sonora direcional que representam informações de intensidade sonora associadas a uma pluralidade de diferentes direções dos um ou mais sinais a serem codificados. Para ativar ou desativar a ferramenta de codificação conjunta, o codificador de áudio pode ser configurado para determinar uma contribuição de um mapa de intensidade sonora direcional de cada sinal ou de cada par de sinais candidatos para um mapa geral de intensidade sonora direcional de uma cena geral. De acordo com uma modalidade, uma contribuição maior que um limite (por exemplo, uma contribuição de pelo menos 10% ou pelo menos 20% ou pelo menos 30% ou pelo menos 50% indica se uma codificação conjunta de sinais de áudio de entrada é razoável. Por exemplo, o limite pode ser comparativamente baixo para esse caso de uso (por exemplo, menor que em outros casos de uso) para filtrar principalmente pares irrelevantes. Com base nos mapas de intensidade sonora direcional, o codificador de áudio pode verificar de uma codificação conjunta de sinais resulta em uma codificação de alta resolução de bit de visualização mais eficiente e/ou de visualização.
[064] De acordo com uma modalidade, o codificador de áudio é configurado para determinar um ou mais parâmetros de uma ferramenta de codificação conjunta (que, por exemplo, codifica juntamente dois ou mais dos sinais de áudio de entrada ou sinais derivados dos mesmos) em dependência de um ou mais mapas de intensidade sonora direcional, que representam informações de intensidade sonora associadas a uma pluralidade de diferentes direções dos um ou mais sinais a serem codificados (por exemplo, para controlar uma suavização de frequência dependente de fatores de predição; por exemplo, para definir parâmetros de uma ferramenta de codificação conjunta de “estéreo de intensidade”). Os um ou mais mapas de informações de intensidade sonora direcional compreendem, por exemplo, informações sobre intensidade sonora em direções e períodos de tempo predeterminados. Assim, por exemplo, o codificador de áudio é configurado para determinar os um ou mais parâmetros para um período de tempo atual com base em informações de intensidade sonora de períodos de tempo anteriores. Com base nos mapas de intensidade sonora direcional, efeitos de mascaramento podem ser analisados muito eficientemente e pode ser indicados pelos um ou mais parâmetros, através do que, os fatores de predição dependentes de frequência podem ser determinados com base nos um ou mais parâmetros, de modo que valores de amostra previstos estão próximos a valores de amostra originais (associadas ao sinal a ser codificado). Assim, é possível que o codificador determine fatores de predição dependentes de frequência que representam uma aproximação de um limite de mascaramento em vez do sinal a ser codificado. Adicionalmente, os mapas de intensidade sonora direcional são, por exemplo, baseados em um modelo psicoacústico, através do que, uma determinação dos fatores de predição dependentes de frequência com base nos um ou mais parâmetros é aprimorada e pode ser resultar em uma predição altamente precisa.
Alternativamente, os parâmetros da ferramenta de codificação conjunta definem, por exemplo, quais sinais ou pares de sinais devem ser codificados juntamente pelo codificador de áudio. O codificador de áudio é, por exemplo, configurado para basear a determinação dos um ou mais parâmetros em contribuições de cada mapa de intensidade sonora direcional associadas a um sinal ou um par de sinais a ser codificado, de sinais a serem codificados, para um mapa geral de intensidade sonora direcional. Assim, por exemplo, os um ou mais parâmetros indicam sinais individuais e/ou pares de sinais com a contribuição mais alta ou uma contribuição igual a ou maior que um limite (consulte, por exemplo, a definição de limite acima). Com base nos um ou mais parâmetros o codificador de áudio é, por exemplo, configurado para codificar juntamente os sinais indicados pelos um ou mais parâmetros. Alternativamente, por exemplo, os pares de sinais que têm um alta proximidade/similaridade no respectivo mapa de intensidade sonora direcional podem ser indicados pelos um ou mais parâmetros da ferramenta de codificação conjunta. Os pares de sinais escolhidos são, por exemplo, juntamente representados por uma mixagem de redução. Assim, os bits necessários para a codificação são minimizados ou reduzidos, uma vez que o sinal de mixagem de redução ou um sinal residual dos sinais a serem codificados juntamente é muito pequeno.
[065] De acordo com uma modalidade, o codificador de áudio é configurado para determinar ou estimar uma influência de uma variação de um ou mais parâmetros de controle que controlam o fornecimento dos um ou mais sinais de áudio codificados a um mapa de intensidade sonora direcional de um ou mais sinais codificados, e para ajustar os um ou mais parâmetros de controle em dependência das determinação ou a estimativa da influência. A influência de o parâmetros de controle sobre o mapa de intensidade sonora direcional de um ou mais sinais codificados pode compreender uma medida para ruído induzido (por exemplo, os parâmetros de controle relacionados a uma posição de quantização podem ser ajustados) pela codificação do codificador de áudio, uma medida para distorções de áudio e/ou uma medida para uma queda na qualidade de uma percepção de um ouvinte. De acordo com uma modalidade, os parâmetros de controle podem ser representados pelos parâmetros de codificação ou os parâmetros de codificação podem compreender os parâmetros de controle.
[066] De acordo com uma modalidade, o codificador de áudio é configurado para obter um componente de direção (por exemplo, informações de direção) usado para obter os um ou mais mapas de intensidade sonora direcional com o uso de metadados que representam informações de posição de alto-falantes associadas aos sinais de áudio de entrada (esse conceito também pode ser usado nos outros codificadores de áudio). O componente de direção é, por exemplo, representado pelas primeiras diferentes direções descritas na presente invenção que são, por exemplo, associadas a diferentes canais ou alto-falantes associados aos sinais de áudio de entrada. De acordo com uma modalidade, com base no componente de direção, os um ou mais mapas de intensidade sonora direcional obtidos podem ser associados a um sinal de áudio de entrada e/ou a um par de sinais dos sinais de áudio de entrada com o mesmo componente de direção. Assim, por exemplo, um mapa de intensidade sonora direcional pode ter o índice L e um sinal de áudio de entrada pode ter o índice L, em que o L indica um canal esquerdo ou um sinal para um alto-falante esquerdo. Alternativamente, o componente de direção pode ser representado por um vetor, como (1, 3), que indica uma combinação de sinais de áudio de entrada de um primeiro canal e um terceiro canal. Assim, o mapa de intensidade sonora direcional com o índice (1, 3) pode ser associado a esse par de sinais. De acordo com uma modalidade, cada canal pode ser associado a um alto-falante diferente.
[067] Uma modalidade de acordo com esta invenção está relacionada a um codificador de áudio para codificar um conteúdo de áudio de entrada que compreende um ou mais sinais de áudio de entrada (preferencialmente uma pluralidade de sinais de áudio de entrada). O codificador de áudio é configurado para fornecer um ou mais sinais de áudio codificado (por exemplo, quantizados e, então, codificados sem perda de erro) (por exemplo, representações codificadas de domínio espectral) com base em dois ou mais sinais de áudio de entrada (por exemplo, sinal esquerdo e sinal direito), ou com base em dois ou mais sinais derivados dos mesmos, com o uso de uma codificação conjunta de dois ou mais sinais a serem codificados juntamente (por exemplo, com o uso de um sinal médio ou sinal de mixagem de redução e um sinal lateral ou sinal de diferença). Adicionalmente, o codificador de áudio é configurado para selecionar sinais a serem codificados juntamente dentre uma pluralidade de sinais candidatos ou dentre uma pluralidade de pares de sinais candidatos (por exemplo, dentre os dois ou mais sinais de áudio de entrada ou dentre os dois ou mais sinais derivados dos mesmos) em dependência de mapas de intensidade sonora direcional que representam informações de intensidade sonora associadas a uma pluralidade de diferentes direções (por exemplo, direções de movimentação) dos sinais candidatos ou dos pares de sinais candidatos (por exemplo, em dependência de contribuições de mapas individuais de intensidade sonora direcional dos sinais candidatos a um mapa geral de intensidade sonora direcional, por exemplo, associadas a múltiplos sinais de áudio de entrada (por exemplo, com cada sinal dos um ou mais sinais de áudio de entrada), ou em dependência de contribuições de mapas de intensidade sonora direcional de pares de sinais candidatos a um mapa geral de intensidade sonora direcional (por exemplo, associado a todos os sinais de áudio de entrada)).
[068] De acordo com uma modalidade, o codificador de áudio pode ser configurado para ativar e desativar a codificação conjunta. Assim, por exemplo, se o conteúdo de áudio compreende apenas um sinal de áudio de entrada, então, a codificação conjunta é desativada e a mesma é apenas ativada se o conteúdo de áudio compreender dois ou mais sinais de áudio de entrada. Assim, é possível codificar com o codificador de áudio um conteúdo de áudio monaural, um conteúdo de áudio estéreo e/ou um conteúdo de áudio que compreende três ou mais sinais de áudio de entrada (isto é, um conteúdo de áudio de multicanal). De acordo com uma modalidade, o codificador de áudio fornece para cada sinal de áudio de entrada um sinal de áudio codificado separado como sinal de saída (por exemplo, adequado para conteúdo de áudio que compreende apenas um único sinal de áudio de entrada) ou fornece um sinal de saída combinado (por exemplo, sinais codificado juntamente) que compreende dois ou mais sinais de áudio codificados de dois ou mais sinais de áudio de entrada.
[069] As modalidades desse codificador de áudio são baseadas na ideia de que o mesmo é eficiente e aprimora a precisão da codificação para basear a codificação conjunta em mapas de intensidade sonora direcional. O uso de mapas de intensidade sonora direcional é vantajoso, devido ao fato de que os mesmos podem indicar uma percepção do conteúdo de áudio por um ouvinte e aprimora, assim, a qualidade de áudio do conteúdo de áudio codificado, especialmente, no contexto com uma codificação conjunta. É, por exemplo, possível otimizar a escolha de pares de sinais a serem codificados juntamente ao analisar mapas de intensidade sonora direcional. A análise de mapas de intensidade sonora direcional gera, por exemplo, informações sobre sinais ou pares de sinais, que podem ser negligenciados (por exemplo, sinais, que têm apenas pouca influência sobre uma percepção de um ouvinte), resultando em uma pequena quantidade de bits necessária para o conteúdo de áudio codificado (por exemplo, que compreende dois ou mais sinais codificados) pelo codificador de áudio. Isso significa, por exemplo, que os sinais com uma baixa contribuição de seu respectivo mapa de intensidade sonora direcional para o mapa geral de intensidade sonora direcional podem ser negligenciados. Alternativamente, a análise pode indicar sinais que têm uma alta similaridade (por exemplo, sinais com mapas de intensidade sonora direcional similares), através do que, por exemplo, sinais residuais otimizados podem ser obtidos pela codificação conjunta.
[070] De acordo com uma modalidade, o codificador de áudio é configurado para selecionar sinais a serem codificados juntamente dentre uma pluralidade de sinais candidatos ou dentre uma pluralidade de pares de sinais candidatos em dependência de contribuições de mapas individuais de intensidade sonora direcional dos sinais candidatos a um mapa geral de intensidade sonora direcional ou em dependência de contribuições de mapas de intensidade sonora direcional dos pares de sinais candidatos a um mapa geral de intensidade sonora direcional (por exemplo,
associadas a múltiplos sinais de áudio de entrada (por exemplo, com cada sinal dos um ou mais sinais de áudio de entrada))(ou associadas a uma cena geral (áudio), por exemplo, representadas por sinais de áudio de entrada). O mapa geral de intensidade sonora direcional representa, por exemplo, informações de intensidade sonora associadas às diferentes direções (por exemplo, de componentes de áudio) de uma cena de áudio representada (ou a ser representada, por exemplo, após uma renderização de lado de decodificador) pelos sinais de áudio de entrada (possivelmente, em combinação com conhecimento ou informações laterais relacionadas a posições de alto-falantes e/ou conhecimento ou informações laterais que descrevem posições de objetos de áudio).
[071] De acordo com uma modalidade, o codificador de áudio é configurado para determinar uma contribuição de pares de sinais candidatos para o mapa geral de intensidade sonora direcional. Adicionalmente, o codificador de áudio é configurado para escolher um ou mais pares de sinais candidatos que têm uma contribuição mais alta para o mapa geral de intensidade sonora direcional para uma codificação conjunta ou o codificador de áudio é configurado para escolher um ou mais pares de sinais candidatos que têm uma contribuição para o mapa geral de intensidade sonora direcional que é maior que um limite predeterminado (por exemplo, uma contribuição de pelo menos 60%, 70%, 80% ou 90%) para uma codificação conjunta. Em relação à contribuição mais lata, é possível que apenas um par de sinais candidatos tenha a contribuição mais alta, mas também é possível que mais de um par de sinais candidatos tenham a mesma contribuição, o que representa a contribuição mais alta, ou mais de um par de sinais candidatos tenham contribuições similares dentro de pequenas variações da contribuição mais alta. Assim o codificador de áudio é, por exemplo, configurado para selecionar mais de um sinal ou par de sinais para a codificação conjunta. Com os recursos descritos nesta modalidade, é possível encontrar pares de sinais relevantes para uma codificação conjunta aprimorada e descartar sinais ou pares de sinais, que não influenciam uma percepção do conteúdo de áudio codificado por um ouvinte em uma alta quantidade.
[072] De acordo com uma modalidade, o codificador de áudio é configurado para determinar mapas individuais de intensidade sonora direcional de dois ou mais sinais candidatos (por exemplo, mapas de intensidade sonora direcional associados a pares de sinais). Adicionalmente, o codificador de áudio é configurado para comparar os mapas individuais de intensidade sonora direcional dos dois ou mais sinais candidatos e selecionar dois ou mais dos sinais candidatos para uma codificação conjunta em dependência de um resultado da comparação (por exemplo, de modo que os sinais candidatos (por exemplo, pares de sinais, tripleto de sinal, quádruplos de sinal, etc.), cujos mapas de intensidade sonora individuais compreendem uma similaridade máxima ou uma similaridade que é maior que um limite de similaridade, sejam selecionados para uma codificação conjunta). Assim, por exemplo, apenas poucos ou nenhum bit é gasto para um sinal residual (por exemplo, um canal de lado em relação a um canal médio) mantendo uma alta qualidade do conteúdo de áudio codificado.
[073] De acordo com uma modalidade, o codificador de áudio é configurado para determinar um mapa geral de intensidade sonora direcional com o uso de uma mixagem de redução dos sinais de áudio de entrada e/ou com o uso de uma binauralização dos sinais de áudio de entrada. A mixagem de redução ou a binauralização contempla, por exemplo, as direções (por exemplo, associações com canais ou alto-falante para os respectivos sinais de áudio de entrada). O mapa geral de intensidade sonora direcional pode ser associado a informações de intensidade sonora correspondentes a uma cena de áudio criada por todos os sinais de áudio de entrada.
[074] Uma modalidade de acordo com esta invenção está relacionada a um codificador de áudio para codificar um conteúdo de áudio de entrada que compreende um ou mais sinais de áudio de entrada (preferencialmente uma pluralidade de sinais de áudio de entrada). O codificador de áudio é configurado para fornecer um ou mais sinais de áudio codificado (por exemplo, quantizados e, então, codificados sem perda de erro) (por exemplo, representações codificadas de domínio espectral) com base em dois ou mais sinais de áudio de entrada (por exemplo, sinal esquerdo e sinal direito) ou com base em dois ou mais sinais derivados dos mesmos. Adicionalmente, o codificador de áudio é configurado para determinar um mapa geral de intensidade sonora direcional (por exemplo, um mapa de intensidade sonora direcional alvo de uma cena) com base nas sinais de áudio de entrada, e/ou determinar um ou mais mapas individuais de intensidade sonora direcional associados a sinais de áudio de entrada individuais (ou associados a dois ou mais sinais de áudio de entrada, como pares de sinais). Adicionalmente, o codificador de áudio é configurado para codificar o mapa geral de intensidade sonora direcional e/ou um ou mais mapas individuais de intensidade sonora direcional como informações laterais.
[075] Assim, por exemplo, se o conteúdo de áudio compreender apenas um sinal de áudio de entrada, o codificador de áudio é configurado para codificar apenas esse sinal juntamente com o mapa de intensidade sonora direcional individual correspondente. Se o conteúdo de áudio compreende dois ou mais sinais de áudio de entrada, o codificador de áudio é, por exemplo, configurado para codificar individualmente todos ou pelo menos alguns sinais (por exemplo, um sinal individual e um par de sinais de três sinais de áudio de entrada) juntamente com o respectivo mapa de intensidade sonora direcional (por exemplo, com mapas individuais de intensidade sonora direcional de sinais codificados individuais e/ou com mapas de intensidade sonora direcional correspondentes a pares de sinais ou outras combinações de mais de dois sinais e/ou com mapas de intensidade sonora direcional gerais associados a todos os sinais de áudio de entrada). De acordo com uma modalidade, o codificador de áudio é configurado para codificar todos ou pelo menos alguns sinais resultando em um sinal de áudio codificado, por exemplo, juntamente com o mapa geral de intensidade sonora direcional como saída (por exemplo, um sinal de saída combinado (por exemplo, sinais codificado juntamente) que compreende, por exemplo, dois ou mais sinais de áudio codificados de dois ou mais sinais de áudio de entrada). Assim, é possível codificar com o codificador de áudio um conteúdo de áudio monaural, um conteúdo de áudio estéreo e/ou um conteúdo de áudio que compreende três ou mais sinais de áudio de entrada (isto é, um conteúdo de áudio de multicanal).
[076] As modalidades desse codificador de áudio são baseadas na ideia de que é vantajoso determinar e codificar um ou mais mapas de intensidade sonora direcional, devido ao fato de que os mesmos podem indicar uma percepção do conteúdo de áudio por um ouvinte e aprimoram, assim, a qualidade de áudio do conteúdo de áudio codificado. De acordo com uma modalidade, os um ou mais mapas de intensidade sonora direcional podem ser usados pelo codificador para aprimorar a codificação, por exemplo, ao adaptar parâmetros de codificação com base nos um ou mais mapas de intensidade sonora direcional. Assim, a codificação dos um ou mais mapas de intensidade sonora direcional é especialmente vantajosa, uma vez que os mesmos podem representar informações relacionadas a uma influência da codificação. Com os um ou mais mapas de intensidade sonora direcional como informações laterais no conteúdo de áudio codificado fornecidas pelo codificador de áudio, a decodificação muito precisa pode ser alcançada, uma vez que as informações relacionadas à codificação são fornecidas (por exemplo, em um fluxo de dados) pelo codificador de áudio.
[077] De acordo com uma modalidade, o codificador de áudio é configurado para determinar o mapa geral de intensidade sonora direcional com base nas sinais de áudio de entrada de modo que o mapa geral de intensidade sonora direcional represente informações de intensidade sonora associadas às diferentes direções (por exemplo, de componentes de áudio) de uma cena de áudio representada (ou a ser representada, por exemplo, após uma renderização de lado de decodificador) pelos sinais de áudio de entrada (possivelmente, em combinação com conhecimento ou informações laterais relacionados às posições de alto-falantes e/ou conhecimento ou informações laterais que descrevem posições de objetos de áudio). As diferentes direções da cena de áudio representam, por exemplo, as segundas diferentes direções descritas na presente invenção.
[078] De acordo com uma modalidade, o codificador de áudio é configurado para codificar o mapa geral de intensidade sonora direcional na forma de um conjunto de valores associados a diferentes direções (por exemplo, de escalonamento) (e,
preferencialmente, com uma pluralidade de compartimentos de frequência ou bandas de frequência). Se o mapa geral de intensidade sonora direcional for codificado na forma de um conjunto de valores, um valor associado a uma certa direção pode compreender informações de intensidade sonora de uma pluralidade de compartimentos de frequência ou bandas de frequência.
Alternativamente, o codificador de áudio é configurado para codificar o mapa geral de intensidade sonora direcional com o uso de um valor de posição central (por exemplo, que descreve um ângulo ou um índice de movimentação no qual um máximo do mapa geral de intensidade sonora direcional ocorre para um determinado compartimento de frequência ou banda de frequência) e informações de coeficiente angular (por exemplo, um ou mais valores de escalonamento que descrevem coeficientes angulares dos valores do mapa geral de intensidade sonora direcional na direção angular ou índice de direção de movimentação). A codificação do mapa geral de intensidade sonora direcional com o uso do valor de posição central e das informações de coeficiente angular pode ser realizada para determinados compartimentos de frequência ou bandas de frequência diferentes.
Assim, por exemplo, o mapa geral de intensidade sonora direcional pode compreender informações da valor de posição central e as informações de coeficiente angular para mais de compartimento de frequência ou banda de frequência.
Alternativamente, o codificador de áudio é configurado para codificar o mapa geral de intensidade sonora direcional na forma de uma representação polinomial ou o codificador de áudio é configurado para codificar o mapa geral de intensidade sonora direcional na forma de uma representação de coluna.
A codificação de o mapa geral de intensidade sonora direcional na forma de uma representação polinomial ou de uma representação de coluna é uma codificação econômica.
Embora esses recursos sejam descritos em relação ao mapa geral de intensidade sonora direcional, essa codificação também pode ser realizada para mapas individuais de intensidade sonora direcional (por exemplo, de sinais individuais, de pares de sinais e/ou de grupos de três ou mais sinais). Assim, com esses recursos, os mapas de intensidade sonora direcional são codificados muito eficientemente, e informações nas quais a codificação é baseada são fornecidas.
[079] De acordo com uma modalidade, o codificador de áudio é configurado para codificar (por exemplo, e transmitir ou incluir em uma representação de áudio codificada) um (por exemplo, apenas um) sinal de mixagem de redução obtido com base em uma pluralidade de sinais de áudio de entrada e em um mapa geral de intensidade sonora direcional. Alternativamente, o codificador de áudio é configurado para codificar (por exemplo, e transmitir ou incluir em uma representação de áudio codificada) uma pluralidade de sinais (por exemplo, os sinais de áudio de entrada ou sinais derivados dos mesmos), e codificar (por exemplo, e transmitir ou incluir na representação de áudio codificada) mapas individuais de intensidade sonora direcional de uma pluralidade de sinais que são codificados (por exemplo, mapas de intensidade sonora direcional de sinais individuais e/ou de pares de sinais e/ou de grupos de três ou mais sinais). Alternativamente, o codificador de áudio é configurado para codificar (por exemplo, e transmitir ou incluir em uma representação de áudio codificada) um mapa geral de intensidade sonora direcional, uma pluralidade de sinais (por exemplo, os sinais de áudio de entrada ou sinais derivados dos mesmos) e parâmetros que descrevem contribuições dos sinais (por exemplo, relativas) que são codificadas para o mapa geral de intensidade sonora direcional. De acordo com uma modalidade, os parâmetros que descrevem contribuições podem ser representado por valores de escalonamento. Assim, é possível por um decodificador de áudio receber a representação de áudio codificada (por exemplo, um conteúdo de áudio ou um fluxo de dados que compreende os sinais codificados, o mapa geral de intensidade sonora direcional e os parâmetros) para reconstruir mapas individuais de intensidade sonora direcional dos sinais com base no mapa geral de intensidade sonora direcional e nos parâmetros que descrevem contribuições dos sinais.
[080] Uma modalidade de acordo com esta invenção está relacionada a um decodificador de áudio para decodificar um conteúdo de áudio codificado. O decodificador de áudio é configurado para receber uma representação codificada de um ou mais sinais de áudio e fornecer uma representação decodificada dos um ou mais sinais de áudio (por exemplo, com o uso de uma decodificação do tipo AAC ou com o uso de uma decodificação de valores espectrais codificados por entropia). Adicionalmente, o decodificador de áudio é configurado para receber informações de mapa de intensidade sonora direcional codificado e decodificar as informações de mapa de intensidade sonora direcional codificado para obter um ou mais mapas de intensidade sonora direcional (por exemplo, decodificados). Adicionalmente, o decodificador de áudio é configurado para reconstruir uma cena de áudio com o uso da representação decodificada dos um ou mais sinais de áudio e com o uso de os um ou mais mapas de intensidade sonora direcional. O conteúdo de áudio pode compreender a representação codificada dos um ou mais sinais de áudio e as informações de mapa de intensidade sonora direcional codificado. As informações de mapa de intensidade sonora direcional codificado podem compreender mapas de intensidade sonora direcional de sinais individuais, de pares de sinais e/ou de grupos de três ou mais sinais.
[081] A modalidade desse decodificador de áudio é baseada na ideia de que é vantajoso determinar e decodificar um ou mais mapas de intensidade sonora direcional devido ao fato de que os mesmos podem indicar uma percepção do conteúdo de áudio por um ouvinte e aprimorar, assim, a qualidade de áudio do conteúdo de áudio decodificado. O decodificador de áudio é, por exemplo, configurado para determinar um sinal de predição de alta qualidade com base nos um ou mais mapas de intensidade sonora direcional, através do que, uma decodificação residual (ou uma decodificação conjunta) pode ser aprimorada. De acordo com uma modalidade, os mapas de intensidade sonora direcional definem informações de intensidade sonora para diferentes direções na cena de áudio ao longo do tempo. Informações de intensidade sonora para uma certa direção em um certo ponto de tempo ou em um certo período de tempo podem compreender informações de intensidade sonora de diferentes sinais de áudio ou um sinal de áudio em, por exemplo, diferentes compartimentos de frequência ou bandas de frequência. Assim, por exemplo, o fornecimento da representação decodificada dos um ou mais sinais de áudio pelo decodificador de áudio pode ser aprimorado, por exemplo, ao adaptar a decodificação da representação codificada dos um ou mais sinais de áudio com base nos mapas de intensidade sonora direcional decodificados. Assim, a cena de áudio reconstruída é otimizada, uma vez que a representação decodificada dos um ou mais sinais de áudio pode alcançar um desvio mínimo para sinais de áudio originais com base em uma análise dos um ou mais mapas de intensidade sonora direcional, resultando em uma cena de áudio de alta qualidade. De acordo com uma modalidade, o decodificador de áudio pode ser configurado para usar os um ou mais mapas de intensidade sonora direcional para uma adaptação de parâmetros de decodificação para fornecer eficientemente e com alta precisão a representação decodificada dos um ou mais sinais de áudio.
[082] De acordo com uma modalidade, o decodificador de áudio é configurado para obter sinais de saída de modo que um ou mais mapas de intensidade sonora direcional associados aos sinais de saída se aproximem ou se igualem a um ou mais mapas de intensidade sonora direcional alvo. Os um ou mais mapas de intensidade sonora direcional alvo são baseados nos um ou mais mapas de intensidade sonora direcional decodificados ou são iguais aos um ou mais mapas de intensidade sonora direcional decodificados. O decodificador de áudio é, por exemplo, configurado para usar um escalonamento ou combinação apropriado dos um ou mais sinais decodificados de áudio para obter os sinais de saída. Os mapas de intensidade sonora direcional alvo são, por exemplo, entendidos como mapas de intensidade sonora direcional de referência. De acordo com uma modalidade, os mapas de intensidade sonora direcional alvo podem representar informações de intensidade sonora de um ou mais sinais de áudio antes de uma codificação e decodificação dos sinais de áudio. Alternativamente, os mapas de intensidade sonora direcional alvo podem representar informações de intensidade sonora associadas à representação codificada dos um ou mais sinais de áudio (por exemplo, um ou mais mapas de intensidade sonora direcional decodificados). O decodificador de áudio recebe, por exemplo, parâmetros de codificação usados para a codificação para fornecer o conteúdo de áudio codificado. O decodificador de áudio é, por exemplo, configurado para determinar parâmetros de decodificação com base nos parâmetros de codificação para escalonar os um ou mais mapas de intensidade sonora direcional decodificados para determinar os um ou mais mapas de intensidade sonora direcional alvo. Também é possível que o decodificador de áudio compreenda um analisador de áudio, que é configurado para determinar os mapas de intensidade sonora direcional alvo com base nos mapas de intensidade sonora direcional decodificados e os um ou mais sinais decodificados de áudio, em que, por exemplo, os mapas de intensidade sonora direcional decodificados são escalonados com base nos um ou mais sinais decodificados de áudio. Uma vez que os um ou mais mapas de intensidade sonora direcional alvo podem ser associados a uma cena de áudio ideal ou otimizada realizada pelos sinais de áudio, é vantajoso minimizar um desvio entre os um ou mais mapas de intensidade sonora direcional associados a sinais de saída e os um ou mais mapas de intensidade sonora direcional alvo. De acordo com uma modalidade, esse desvio pode ser minimizado pelo decodificador de áudio ao adaptar parâmetros de decodificação ou adaptar parâmetros relacionados à reconstrução da cena de áudio. Assim, com esse recurso, uma qualidade dos sinais de saída é controlado, por exemplo, por um circuito de retroalimentação, ao analisar os um ou mais mapas de intensidade sonora direcional associados aos sinais de saída. O decodificador de áudio é, por exemplo, configurado para determinar os um ou mais mapas de intensidade sonora direcional dos sinais de saída (por exemplo, o decodificador de áudio compreende um analisador de áudio descrito na presente invenção para determinar os mapas de intensidade sonora direcional). Assim, o decodificador de áudio fornece sinais de saída, que são associados a mapas de intensidade sonora direcional, que se aproximam ou se igualam aos mapas de intensidade sonora direcional alvo.
[083] De acordo com uma modalidade, o decodificador de áudio é configurado para receber um (por exemplo, apenas um) sinal de mixagem de redução codificado (por exemplo, obtido com base em uma pluralidade de sinais de áudio de entrada) e um mapa geral de intensidade sonora direcional; ou uma pluralidade de sinais de áudio codificados (por exemplo, os sinais de áudio de entrada de um codificador ou sinais derivados dos mesmos), e mapas individuais de intensidade sonora direcional da pluralidade de sinais codificados; ou um mapa geral de intensidade sonora direcional, uma pluralidade de sinais de áudio codificados (por exemplo, os sinais de áudio de entrada recebidos por um codificador de áudio, ou sinais derivados dos mesmos) e parâmetros que descrevem contribuições dos sinais de áudio codificados (por exemplo, relativas) para o mapa geral de intensidade sonora direcional. O decodificador de áudio é configurado para fornecer os sinais de saída com base nos mesmos.
[084] Uma modalidade de acordo com esta invenção está relacionada a um conversor de formato para converter um formato de um conteúdo de áudio, que representa uma cena de áudio (por exemplo, uma cena de áudio espacial), de um primeiro formato para um segundo formato. O primeiro formato pode, por exemplo, compreender um primeiro número de canais ou sinais de áudio de entrada e informações laterais ou um informações laterais espaciais adaptadas para o primeiro número de canais ou sinais de áudio de entrada, e em que o segundo formato pode, por exemplo, compreender um segundo número de canais ou sinais de saída de áudio, que pode ser diferente do primeiro número de canais ou sinais de áudio de entrada, e informações laterais ou informações laterais espaciais adaptadas para o segundo número de canais ou sinais de saída de áudio. Adicionalmente, o conversor de formato é configurado para fornecer uma representação do conteúdo de áudio no segundo formato com base nas representação do conteúdo de áudio no primeiro formato. Adicionalmente, o conversor de formato é configurado para ajustar uma complexidade da conversão de formato (por exemplo, ao pular um ou mais dos sinais de áudio de entrada do primeiro formato, o que contribui para o mapa de intensidade sonora direcional abaixo de um limite no processo de conversão de formato) em dependência de contribuições de sinais de áudio de entrada do primeiro formato (por exemplo, um ou mais sinais de áudio, um ou mais sinais de mixagem de redução, um ou mais sinais residuais, etc.) para um mapa geral de intensidade sonora direcional da cena de áudio
(em que o mapa geral de intensidade sonora direcional pode, por exemplo, ser descrito por informações laterais do primeiro formato recebidas pelo conversor de formato). Assim, por exemplo, as contribuições de mapas individuais de intensidade sonora direcional associadas a sinais individuais de áudio de entrada para o mapa geral de intensidade sonora direcional da cena de áudio são analisadas em relação ao ajuste de complexidade da conversão de formato. Alternativamente, esse ajuste pode ser realizado pelo conversor de formato em dependência de contribuições de mapas de intensidade sonora direcional correspondentes a combinações de sinais de áudio de entrada (por exemplo, pares de sinais, um sinal médio, um sinal lateral, sinal de mixagem de redução, um sinal residual, um sinal de diferença e/ou grupos de três ou mais sinais) para o mapa geral de intensidade sonora direcional da cena de áudio.
[085] As modalidades do conversor de formato são baseados na ideia de que é vantajoso converter um formato do conteúdo de áudio com base em um ou mais mapas de intensidade sonora direcional devido ao fato de que os mesmos podem indicar uma percepção do conteúdo de áudio por um ouvinte e assim, uma alta qualidade do conteúdo de áudio em um segundo formato é realizada e a complexidade da conversão de formato é reduzida em dependência dos mapas de intensidade sonora direcional. Com as contribuições, é possível obter informações de sinais relevantes para uma percepção de áudio de alta qualidade do conteúdo de áudio convertido no formato. Assim, o conteúdo de áudio no segundo formato, por exemplo, compreende menos sinais (por exemplo, apenas os sinais relevantes de acordo com os mapas de intensidade sonora direcional) que o conteúdo de áudio no primeiro formato com quase a mesma qualidade de áudio.
[086] De acordo com uma modalidade, o conversor de formato é configurado para receber informações de mapa de intensidade sonora direcional, e obter o mapa geral de intensidade sonora direcional (por exemplo, da cena de áudio decodificada; por exemplo, do conteúdo de áudio no primeiro formato) e/ou um ou mais mapas de intensidade sonora direcional com base nos mesmos. As informações de mapa de intensidade sonora direcional (isto são um ou mais mapas de intensidade sonora direcional associados a sinais individuais do conteúdo de áudio ou associadas a pares de sinais ou uma combinação de três ou mais sinais do conteúdo de áudio) podem representar o conteúdo de áudio no primeiro formato, podem ser parte do conteúdo de áudio no primeiro formato ou podem ser determinadas pelo conversor de formato com base no conteúdo de áudio no primeiro formato (por exemplo, por um analisador de áudio descrito na presente invenção; por exemplo, o conversor de formato compreende o analisador de áudio). De acordo com uma modalidade, o conversor de formato também é configurado para determinar informações de mapa de intensidade sonora direcional do conteúdo de áudio no segundo formato. Assim, por exemplo, os mapas de intensidade sonora direcional antes e depois da conversão de formato podem ser comparados para reduzir um degradação de qualidade percebida devido à conversão de formato. Isso é, por exemplo, realizado ao minimizar um desvio entre o mapa de intensidade sonora direcional antes e depois da conversão de formato.
[087] De acordo com uma modalidade, o conversor de formato é configurado para derivar o mapa geral de intensidade sonora direcional (por exemplo, da cena de áudio decodificada) dos um ou mais mapas de intensidade sonora direcional (por exemplo, decodificados) (por exemplo, associados a sinais no primeiro formato).
[088] De acordo com uma modalidade, o conversor de formato é configurado para computar ou estimar uma contribuição de um determinado sinal de áudio de entrada (por exemplo, de um sinal no primeiro formato) para o mapa geral de intensidade sonora direcional da cena de áudio. O conversor de formato é configurado para decidir se considera o determinado sinal de áudio de entrada na conversão de formato em dependência de um computação ou estimativa da contribuição (por exemplo, ao comparar a contribuição computada ou estimada com um valor limítrofe absoluto ou relativo predeterminado). Se a contribuição estiver, por exemplo, no ou acima do valor limítrofe absoluto ou relativo, o sinal correspondente pode ser visto como relevante e, assim, o conversor de formato pode ser configurado para decidir se considera esse sinal. Isso pode ser entendido como um ajuste de complexidade pelo conversor de formato, uma vez que nem todos os sinais no primeiro formato são convertidos necessariamente no segundo formato. O valor limítrofe predeterminado pode representar uma contribuição de pelo menos 2% ou de pelo menos 5% ou de pelo menos 10% ou de pelo menos 20% ou de pelo menos 30%. Isso significa, por exemplo, excluir canais inaudíveis e/ou irrelevantes (ou canais quase inaudíveis e/ou irrelevantes), isto é, o limite deve ser menor (por exemplo, quando em comparação a outros casos de uso), por exemplo, 5%, 10%,20%,30%.
[089] Uma modalidade de acordo com esta invenção está relacionada a um decodificador de áudio para decodificar um conteúdo de áudio codificado. O decodificador de áudio é configurado para receber uma representação codificada de um ou mais sinais de áudio e fornecer uma representação decodificada dos um ou mais sinais de áudio (por exemplo, com o uso de uma decodificação do tipo AAC ou com o uso de uma decodificação de valores espectrais codificados por entropia). Adicionalmente, o decodificador de áudio é configurado para reconstruir uma cena de áudio com o uso da representação decodificada dos um ou mais sinais de áudio e ajustar uma complexidade de decodificação em dependência de contribuições de sinais codificados (por exemplo, um ou mais sinais de áudio, um ou mais sinais de mixagem de redução, um ou mais sinais residuais, etc.) para um mapa geral de intensidade sonora direcional de uma cena de áudio decodificada.
[090] As modalidades desse decodificador de áudio são baseadas na ideia de que é vantajoso a complexidade de decodificação com base em um ou mais mapas de intensidade sonora direcional, devido ao fato de que os mesmos podem indicar uma percepção do conteúdo de áudio por um ouvinte e, assim, realizam ao mesmo tempo uma redução da complexidade de codificação e um aprimoramento da qualidade de áudio de decodificador do conteúdo de áudio. Assim, por exemplo, o decodificador de áudio é configurado para decidir, com base nas contribuições, quais sinais codificados do conteúdo de áudio devem ser decodificados e usados para a reconstrução da cena de áudio pelo decodificador de áudio. Isso significa, por exemplo, que a representação codificada de um ou mais sinais de áudio compreende menos sinais de áudio (por exemplo, apenas os sinais de áudio relevantes de acordo com os mapas de intensidade sonora direcional) que a representação decodificada dos um ou mais sinais de áudio com quase a mesma qualidade de áudio.
[091] De acordo com uma modalidade, o decodificador de áudio é configurado para receber informações de mapa de intensidade sonora direcional codificado e decodificador as informações de mapa de intensidade sonora direcional codificado para obter o mapa geral de intensidade sonora direcional (por exemplo, da cena de áudio decodificada ou, por exemplo, como mapa de intensidade sonora direcional alvo da cena de áudio decodificada) e/ou um ou mais mapas de intensidade sonora direcional (decodificados). De acordo com uma modalidade, o conversor de formato é configurado para determinar ou receber informações de mapa de intensidade sonora direcional do conteúdo de áudio codificado (por exemplo, recebido) e do conteúdo de áudio decodificado (por exemplo, determinado). Assim, por exemplo, os mapas de intensidade sonora direcional antes e depois da decodificação podem ser comparados para reduzir um degradação de qualidade percebida devido à decodificação e/ou uma codificação anterior (por exemplo, realizada por um codificador de áudio descrito na presente invenção). Isso é, por exemplo, realizado ao minimizar um desvio entre o mapa de intensidade sonora direcional antes e depois da conversão de formato.
[092] De acordo com uma modalidade, o decodificador de áudio é configurado para derivar o mapa geral de intensidade sonora direcional (por exemplo, da cena de áudio decodificada ou, por exemplo, como mapa de intensidade sonora direcional alvo da cena de áudio decodificada) dos um ou mais mapas de intensidade sonora direcional (por exemplo, decodificados).
[093] De acordo com uma modalidade, o decodificador de áudio é configurado para computar ou estimar uma contribuição de um determinado codificado sinal para o mapa geral de intensidade sonora direcional da cena de áudio decodificada. Alternativamente, o decodificador de áudio é configurado para computar uma contribuição de um determinado codificado sinal para o mapa geral de intensidade sonora direcional de um codificado cena de áudio. O decodificador de áudio é configurado para decidir se decodifica o determinado sinal codificado em dependência de uma computação ou estimativa da contribuição (por exemplo, ao comparar a contribuição computada ou estimada com um valor limítrofe absoluto ou relativo predeterminado). O valor limítrofe predeterminado pode representar uma contribuição de pelo menos 60%, 70%, 80% ou 90%. Para reter boa qualidade, os limites devem ser menores, ainda para casos em que a potência computacional é muito limitada (por exemplo, dispositivo móvel), pode ir até essa faixa, por exemplo, 10%, 20%, 40%, 60%. Em outras palavras, em algumas modalidades preferenciais, o valor limítrofe predeterminado deve representar uma contribuição de pelo menos 5% ou de pelo menos 10% ou de pelo menos 20% ou de pelo menos 40% ou de pelo menos 60%.
[094] Uma modalidade de acordo com esta invenção está relacionada a um renderizador (por exemplo, um renderizador binaural ou um renderizador de soundbar ou um renderizador de alto-falante) para renderizar um conteúdo de áudio. De acordo com uma modalidade, um renderizador para distribuir um conteúdo de áudio representado com o uso de um primeiro número de canais de áudio de entrada e informações laterais que descrevem características espaciais desejadas, como uma disposição de objetos de áudio ou uma relação entre canais de áudio, em uma representação que compreende um determinado número de canais que é independente do primeiro número de canais de áudio de entrada (por exemplo, maior que o primeiro número de canais de áudio de entrada ou menor que o primeiro número de canais de áudio de entrada). O renderizador é configurado para reconstruir uma cena de áudio com base em um ou mais sinais de áudio de entrada (ou, por exemplo, com base em dois ou mais sinais de áudio de entrada). Adicionalmente, o renderizador é configurado para ajustar uma complexidade de renderização (por exemplo, ao pular um ou mais dos sinais de áudio de entrada, o que contribui para o mapa de intensidade sonora direcional abaixo de um limite no processo de renderização) em dependência de contribuições dos sinais de áudio de entrada (por exemplo, de um ou mais sinais de áudio, de um ou mais sinais de mixagem de redução, de um ou mais sinais residuais, etc.) para um mapa geral de intensidade sonora direcional de uma cena de áudio renderizada. O mapa geral de intensidade sonora direcional pode, por exemplo,
ser descrito por informações laterais recebidas pelo renderizador.
[095] De acordo com uma modalidade, o renderizador é configurado para obter (por exemplo, receber ou determinar por si só) informações de mapa de intensidade sonora direcional, e obter o mapa geral de intensidade sonora direcional (por exemplo, da cena de áudio decodificada) e/ou um ou mais mapas de intensidade sonora direcional com base no mesmo.
[096] De acordo com uma modalidade, o renderizador é configurado para derivar o mapa geral de intensidade sonora direcional (por exemplo, da cena de áudio decodificada) dos um ou mais (ou dois ou mais) mapas de intensidade sonora direcional (por exemplo, decodificados ou autoderivados).
[097] De acordo com uma modalidade, o renderizador é configurado para computar ou estimar uma contribuição de um determinado sinal de áudio de entrada para o mapa geral de intensidade sonora direcional da cena de áudio. Adicionalmente, o renderizador é configurado para decidir se considera o determinado sinal de áudio de entrada na renderização em dependência de um computação ou estimativa da contribuição (por exemplo, ao comparar a contribuição computada ou estimada com um valor limítrofe absoluto ou relativo predeterminado).
[098] Uma modalidade de acordo com esta invenção está relacionada a um método para analisar um sinal de áudio. O método compreende obter uma pluralidade de representações de domínio espectral ponderado (por exemplo, domínio de tempo- frequência) (por exemplo, “sinais direcionais”) com base em uma ou mais representações de domínio espectral (por exemplo, domínio de tempo-frequência) de dois ou mais sinais de áudio de entrada. Os valores das uma ou mais representações de domínio espectral são ponderados em dependência de diferentes direções (por exemplo, direções de movimentação)(por exemplo, representadas por fatores de ponderação) de componentes de áudio (por exemplo, de compartimentos espectrais ou bandas espectrais)(por exemplo, notas de instrumentos ou cantor) em dois ou mais sinais de áudio de entrada, para obter a pluralidade de representações ponderadas de domínio espectral (por exemplo, “sinais direcionais”). Adicionalmente, o método compreende obter informações de intensidade sonora (por exemplo, um ou mais “mapas de intensidade sonora direcional”) associados às diferentes direções (por exemplo, direções de movimentação) com base na pluralidade de representações ponderadas de domínio espectral (por exemplo, “sinais direcionais”) como um resultado de análise.
[099] Uma modalidade de acordo com esta invenção está relacionada a um método para avaliar uma similaridade de sinais de áudio. O método compreende obter as primeiras informações de intensidade sonora (por exemplo, um mapa de intensidade sonora direcional; por exemplo, valores de intensidade sonora combinados) associadas a diferentes direções (por exemplo, movimentação) com base em um primeiro conjunto de dois ou mais sinais de áudio de entrada. Adicionalmente, o método compreende comparar as primeiras informações de intensidade sonora com as segundas informações de intensidade sonora (por exemplo, correspondentes) (por exemplo, informações de intensidade sonora de referência; por exemplo, um mapa de intensidade sonora direcional diferente; por exemplo, valores de intensidade sonora combinados de referência) associadas às diferentes direções de movimentação e com um conjunto de dois ou mais sinais de áudio de referência, a fim de obter informações de similaridade (por exemplo, uma “Variável de Saída de Modelo” (MOV)) que descrevem uma similaridade entre o primeiro conjunto de dois ou mais sinais de áudio de entrada e o conjunto de dois ou mais sinais de áudio de referência (ou que representam, por exemplo, uma qualidade do primeiro conjunto de dois ou mais sinais de áudio de entrada quando em comparação ao conjunto de dois ou mais sinais de áudio de referência).
[0100] Uma modalidade de acordo com esta invenção está relacionada a um método para codificar um conteúdo de áudio de entrada que compreende um ou mais sinais de áudio de entrada (preferencialmente, uma pluralidade de sinais de áudio de entrada). O método compreende fornecer um ou mais sinais de áudio codificados (por exemplo, quantizados e, então, codificados sem perda de erro) (por exemplo, representações de domínio espectral codificadas) com base em um ou mais sinais de áudio de entrada (por exemplo, sinal esquerdo e sinal direito) ou um ou mais sinais derivados dos mesmos (por exemplo, sinal médio ou sinal de mixagem de redução e sinal lateral ou sinal de diferença). Adicionalmente, o método compreende adaptar o fornecimento dos um ou mais sinais de áudio codificados em dependência de um ou mais mapas de intensidade sonora direcional que representam informações de intensidade sonora associadas a uma pluralidade de diferentes direções (por exemplo, direções de movimentação) dos um ou mais sinais a serem codificados. A adaptação do fornecimento dos um ou mais sinais de áudio codificados é, por exemplo, realizada em dependência de contribuições de mapas individuais de intensidade sonora direcional (por exemplo, associadas a um individual sinal, a um par de sinais ou a um grupo de três ou mais sinais) dos um ou mais sinais a serem quantizados para um mapa geral de intensidade sonora direcional, por exemplo, associados a múltiplos sinais de áudio de entrada (por exemplo, a cada sinal dos um ou mais sinais de áudio de entrada)).
[0101] Uma modalidade de acordo com esta invenção está relacionada a um método para codificar um conteúdo de áudio de entrada que compreende um ou mais sinais de áudio de entrada (preferencialmente, uma pluralidade de sinais de áudio de entrada). O método compreende fornecer um ou mais sinais de áudio codificado (por exemplo, quantizados e, então, codificados sem perda de erro) (por exemplo, representações de domínio espectral codificadas) com base em dois ou mais sinais de áudio de entrada (por exemplo, sinal esquerdo e sinal direito) ou com base em dois ou mais sinais derivados dos mesmos, com o uso de uma codificação conjunta de dois ou mais sinais a serem codificados juntamente (por exemplo, com o uso de um sinal médio ou sinal de mixagem de redução e um sinal lateral ou sinal de diferença). Adicionalmente, o método compreende selecionar sinais a serem codificados juntamente dentre uma pluralidade de sinais candidatos ou dentre uma pluralidade de pares de sinais candidatos (por exemplo, dentre os dois ou mais sinais de áudio de entrada ou dentre os dois ou mais sinais derivados dos mesmos) em dependência de mapas de intensidade sonora direcional que representam informações de intensidade sonora associadas a uma pluralidade de diferentes direções (por exemplo, direções de movimentação) dos sinais candidatos ou dos pares de sinais candidatos. De acordo com uma modalidade, os sinais a serem codificados juntamente são selecionados em dependência de contribuições de mapas individuais de intensidade sonora direcional dos sinais candidatos para um mapa geral de intensidade sonora direcional, por exemplo, associadas a múltiplos sinais de áudio de entrada (por exemplo, com cada sinal dos um ou mais sinais de áudio de entrada) ou em dependência de contribuições de mapas de intensidade sonora direcional de pares de sinais candidatos para um mapa geral de intensidade sonora direcional.
[0102] Uma modalidade de acordo com esta invenção está relacionada a um método para codificar um conteúdo de áudio de entrada que compreende um ou mais sinais de áudio de entrada (preferencialmente, uma pluralidade de sinais de áudio de entrada). O método compreende fornecer um ou mais sinais de áudio codificados (por exemplo, quantizados e, então, codificado sem perda de erro) (por exemplo, representações de domínio espectral codificadas) com base em dois ou mais sinais de áudio de entrada (por exemplo, sinal esquerdo e sinal direito) ou com base em dois ou mais sinais derivados dos mesmos. Adicionalmente, o método compreende determinar um mapa geral de intensidade sonora direcional (por exemplo, um mapa de intensidade sonora direcional alvo de uma cena) com base nas sinais de áudio de entrada, e/ou determinar um ou mais mapas individuais de intensidade sonora direcional associados a sinais individuais de áudio de entrada (e/ou determinar um ou mais mapas de intensidade sonora direcional associados a pares de sinais de áudio de entrada). Adicionalmente, o método compreende codificar o mapa geral de intensidade sonora direcional e/ou um ou mais mapas individuais de intensidade sonora direcional como informações laterais.
[0103] Uma modalidade de acordo com esta invenção está relacionada a um método para decodificar um conteúdo de áudio codificado. O método compreende receber uma representação codificada de um ou mais sinais de áudio e fornecer uma representação decodificada dos um ou mais sinais de áudio (por exemplo, com o uso de uma decodificação do tipo AAC ou com o uso de uma decodificação de valores espectrais codificados por entropia). Adicionalmente, o método compreende receber informações de mapa de intensidade sonora direcional codificado e decodificar as informações de mapa de intensidade sonora direcional codificado para obter um ou mais mapas de intensidade sonora direcional (por exemplo, decodificados). Adicionalmente, o método compreende reconstruir uma cena de áudio com o uso da representação decodificada dos um ou mais sinais de áudio e com o uso dos um ou mais mapas de intensidade sonora direcional.
[0104] Uma modalidade de acordo com esta invenção está relacionada a um método para converter um formato de um conteúdo de áudio, o que representa uma cena de áudio (por exemplo, uma cena de áudio espacial) de um primeiro formato para um segundo formato. O primeiro formato pode, por exemplo, compreender um primeiro número de canais ou sinais de áudio de entrada e informações laterais ou um informações laterais espaciais adaptadas para o primeiro número de canais ou sinais de áudio de entrada, e em que o segundo formato pode, por exemplo, compreender um segundo número de canais ou sinais de saída de áudio, que pode ser diferente do primeiro número de canais ou sinais de áudio de entrada, e informações laterais ou informações laterais espaciais adaptadas para o segundo número de canais ou sinais de saída de áudio. O método compreende fornecer uma representação do conteúdo de áudio no segundo formato com base na representação do conteúdo de áudio no primeiro formato e ajustar uma complexidade da conversão de formato (por exemplo, ao pular um ou mais dos sinais de áudio de entrada do primeiro formato, o que contribui para o mapa de intensidade sonora direcional abaixo de um limite no processo de conversão de formato) em dependência de contribuições de sinais de áudio de entrada do primeiro formato (por exemplo, um ou mais sinais de áudio, um ou mais sinais de mixagem de redução, um ou mais sinais residuais, etc.) para um mapa geral de intensidade sonora direcional da cena de áudio. O mapa geral de intensidade sonora direcional pode, por exemplo, ser descrito por informações laterais do conteúdo de áudio no primeiro formato recebidas pelo conversor de formato.
[0105] Uma modalidade de acordo com esta invenção está relacionada ao método compreendendo receber uma representação codificada de um ou mais sinais de áudio e fornecer uma representação decodificada dos um ou mais sinais de áudio (por exemplo, com o uso de uma decodificação do tipo AAC ou com o uso de um decodificação de valores espectrais codificados por entropia). O método compreende reconstruir uma cena de áudio com o uso da representação decodificada dos um ou mais sinais de áudio. Adicionalmente, o método compreende ajustar uma complexidade de decodificação em dependência de contribuições de sinais codificados (por exemplo, um ou mais sinais de áudio, um ou mais sinais de mixagem de redução, um ou mais sinais residuais, etc.) para um mapa geral de intensidade sonora direcional de uma cena de áudio decodificada.
[0106] Uma modalidade de acordo com esta invenção está relacionada a um método para renderizar um conteúdo de áudio. De acordo com uma modalidade, esta invenção está relacionada a um método para mixagem de um conteúdo de áudio representado com o uso de um primeiro número de canais de áudio de entrada e informações laterais que descrevem características espaciais desejadas, como uma disposição de objetos de áudio ou uma relação entre canais de áudios em uma representação que compreende um número de canais que é maior que o primeiro número de canais de áudio de entrada. O método compreende reconstruir uma cena de áudio com base em um ou mais sinais de áudio de entrada (ou com base em dois ou mais sinais de áudio de entrada). Adicionalmente, o método compreende ajustar uma complexidade de renderização (por exemplo, ao pular um ou mais dos sinais de áudio de entrada, o que contribui para o mapa de intensidade sonora direcional abaixo de um limite no processo de renderização) em dependência de contribuições dos sinais de áudio de entrada (por exemplo, um ou mais sinais de áudio, um ou mais sinais de mixagem de redução, um ou mais sinais residuais, etc.) para um mapa geral de intensidade sonora direcional de uma cena de áudio renderizada. O mapa geral de intensidade sonora direcional pode, por exemplo, ser descrito por informações laterais recebidas pelo renderizador.
[0107] Uma modalidade de acordo com esta invenção está relacionada a um programa de computador que tem um código de programa para realizar, quando executado em um computador, um método descrito na presente invenção.
[0108] Uma modalidade de acordo com esta invenção está relacionada a uma representação de áudio codificada (por exemplo, um fluxo de áudio ou um fluxo de dados) que compreende uma representação codificada de um ou mais sinais de áudio e informações de mapa de intensidade sonora direcional codificado.
[0109] Os métodos conforme descrito acima são baseados nas mesmas considerações conforme o analisador de áudio, o avaliador de similaridade de áudio, o codificador de áudio, o decodificador de áudio, o conversor de formato e/ou o renderizador descrito acima. Os métodos podem, a propósito, ser concluídos com todos os recursos e funcionalidades, que também são descritos em relação ao analisador de áudio, ao avaliador de similaridade de áudio, ao codificador de áudio, ao decodificador de áudio, ao conversor de formato e/ou ao renderizador.
BREVE DESCRIÇÃO DOS DESENHOS
[0110] Os desenhos não estão necessariamente em escala, em vez disso, a ênfase é, em geral, colocada na ilustração dos princípios da invenção. Na descrição a seguir, várias modalidades da invenção são descritas com referência aos desenhos a seguir, nos quais: A Figura 1 mostra um diagrama de blocos de um analisador de áudio de acordo com uma modalidade da presente invenção; A Figura 2 mostra um diagrama de blocos detalhado de um analisador de áudio de acordo com uma modalidade da presente invenção; A Figura 3a mostra um diagrama de blocos de um analisador de áudio com o uso de uma primeira abordagem de índice de movimentação de acordo com uma modalidade da presente invenção; A Figura 3b mostra um diagrama de blocos de um analisador de áudio com o uso de uma segunda abordagem de índice de movimentação de acordo com uma modalidade da presente invenção;
A Figura 4a mostra um diagrama de blocos de um analisador de áudio com o uso de uma primeira abordagem de histograma de acordo com uma modalidade da presente invenção; A Figura 4b mostra um diagrama de blocos de um analisador de áudio com o uso de uma segunda abordagem de histograma de acordo com uma modalidade da presente invenção; A Figura 5 mostra diagramas esquemáticos de representações de domínio espectral a serem analisados por um analisador de áudio e resultados de uma análise direcional, um cálculo de intensidade sonora por compartimento de frequência e um cálculo de intensidade sonora por direção por um analisador de áudio de acordo com uma modalidade da presente invenção; A Figura 6 mostra histograma esquemáticos de dois sinais para uma análise direcional por um analisador de áudio de acordo com uma modalidade da presente invenção; A Figura 7a mostra matrizes com um fator de escalonamento, diferente de zero, por bloco de tempo/frequência associado a uma direção, para um escalonamento realizado por um analisador de áudio de acordo com uma modalidade da presente invenção; A Figura 7b mostra matrizes com múltiplos fatores de escalonamento, diferentes de zero, por bloco de tempo/frequência associado a uma direção, para um escalonamento realizado por um analisador de áudio de acordo com uma modalidade da presente invenção; A Figura 7c mostra uma vista esquemática de um placa de circuito impresso com um primeiro caminho condutor e um segundo caminho condutor após o processamento de acordo com uma modalidade da presente invenção; A Figura 8 mostra um diagrama de blocos de um avaliador de similaridade de áudio de acordo com uma modalidade da presente invenção; A Figura 9 mostra um diagrama de blocos de um avaliador de similaridade de áudio para analisar um sinal estéreo de acordo com uma modalidade da presente invenção; A Figura 10a mostra uma plotagem colorida de um mapa de intensidade sonora direcional diferente útil por um avaliador de similaridade de áudio de acordo com uma modalidade da presente invenção; A Figura 10b mostra uma plotagem colorida de um mapa de intensidade sonora direcional a ser analisado por um avaliador de similaridade de áudio de acordo com uma modalidade da presente invenção; A Figura 10c mostra uma plotagem colorida de um mapa de intensidade sonora direcional de diferença determinado por um avaliador de similaridade de áudio de acordo com uma modalidade da presente invenção; A Figura 11 mostra um diagrama de blocos de um codificador de áudio de acordo com uma modalidade da presente invenção; A Figura 12 mostra um diagrama de blocos de um codificador de áudio configurado para adaptar parâmetros de quantização de acordo com uma modalidade da presente invenção; A Figura 13 mostra um diagrama de blocos de um codificador de áudio configurado para selecionar sinais a serem codificados de acordo com uma modalidade da presente invenção; A Figura 14 mostra uma figura esquemática que ilustra uma determinação de contribuições de mapas individuais de intensidade sonora direcional dos sinais candidatos para um mapa geral de intensidade sonora direcional realizada por um codificador de áudio de acordo com uma modalidade da presente invenção; A Figura 15 mostra um diagrama de blocos de um codificador de áudio configurado para codificar informações de intensidade sonora direcional como informações laterais de acordo com uma modalidade da presente invenção; A Figura 16 mostra um diagrama de blocos de um decodificador de áudio de acordo com uma modalidade da presente invenção; A Figura 17 mostra um diagrama de blocos de um decodificador de áudio configurado para adaptar parâmetros de decodificação de acordo com uma modalidade da presente invenção; A Figura 18 mostra um diagrama de blocos de um conversor de formato de acordo com uma modalidade da presente invenção; A Figura 19 mostra um diagrama de blocos de um decodificador de áudio configurado para ajustar uma complexidade de decodificação de acordo com uma modalidade da presente invenção; A Figura 20 mostra um diagrama de blocos de um renderizador de acordo com uma modalidade da presente invenção; A Figura 21 mostra um diagrama de blocos de um método para analisar um sinal de áudio de acordo com uma modalidade da presente invenção; A Figura 22 mostra um diagrama de blocos de um método para avaliar uma similaridade de sinais de áudio de acordo com uma modalidade da presente invenção; A Figura 23 mostra um diagrama de blocos de um método para codificação um conteúdo de áudio de entrada que compreende um ou mais sinais de áudio de entrada de acordo com uma modalidade da presente invenção; A Figura 24 mostra um diagrama de blocos de um método para codificar juntamente sinais de áudio de acordo com uma modalidade da presente invenção; A Figura 25 mostra um diagrama de blocos de um método para codificar um ou mais mapas de intensidade sonora direcional como informações laterais de acordo com uma modalidade da presente invenção; A Figura 26 mostra um diagrama de blocos de um método para decodificar um conteúdo de áudio codificado de acordo com uma modalidade da presente invenção; A Figura 27 mostra um diagrama de blocos de um método para converter um formato de um conteúdo de áudio que representa uma cena de áudio de um primeiro formato para um segundo formato de acordo com uma modalidade da presente invenção; A Figura 28 mostra um diagrama de blocos de um método para decodificar um conteúdo de áudio codificado e ajustar uma complexidade de decodificação de acordo com uma modalidade da presente invenção; e A Figura 29 mostra um diagrama de blocos de um método para renderizar um conteúdo de áudio de acordo com uma modalidade da presente invenção.
DESCRIÇÃO DETALHADA DAS MODALIDADES
[0111] Elementos iguais ou equivalentes são elementos com funcionalidade igual ou equivalente. Os mesmos são denotados na descrição a seguir por números de referência iguais ou equivalentes mesmo se ocorrer me diferentes figuras.
[0112] Na descrição a seguir, uma pluralidade de detalhes é apresentada para fornecer uma explicação mais completa de modalidades da presente invenção. Entretanto, será evidente para um indivíduo versado na técnica que as modalidades da presente invenção podem ser praticadas sem esses detalhes específicos. Em outros exemplos, estruturas e dispositivos bem conhecidos são mostrados em forma de diagrama de blocos em vez de em detalhes a fim de evitar obscurecer as modalidades da presente invenção. Além disso, recursos das diferentes modalidades descritas doravante podem ser combinados entre si, a mesmos que observado especificamente de outra forma.
[0113] A Figura 1 mostra um diagrama de blocos de um analisador de áudio 100, que é configurado para obter uma representação de domínio espectral 110 1 de um primeiro sinal de áudio de entrada, por exemplo, X L,b(m,k), e uma representação de domínio espectral 1102 de um segundo sinal de áudio de entrada, por exemplo, XR,b(m,k). Assim, por exemplo, o analisador de áudio 100 recebe as representações de domínio espectral 1101, 1102 como a entrada 110 a ser analisada. Isso significa, por exemplo, que o primeiro sinal de áudio de entrada e o segundo sinal de áudio de entrada são convertidos nas representações de domínio espectral 110 1, 1102 por um dispositivo ou aparelho externo e, então, fornecidos para o analisador de áudio 100. Alternativamente, as representações de domínio espectral 110 1, 1102 podem ser determinadas pelo analisador de áudio 100 conforme será descrito em relação à Figura 2. De acordo com uma modalidade, as representações de domínio espectral 110 podem ser representadas por 𝑋𝑖,𝑏 (𝑚, 𝑘),, por exemplo, para i={L;R;DM} ou para i 𝜖 [1;I].
[0114] De acordo com uma modalidade, as representações de domínio espectral 1101, 1102 são alimentadas na determinação de informações direcionais 120 para obter informações direcionais 122, por exemplo, Ψ(m, k), associadas a bandas espectrais (por exemplo, compartimentos espectrais k em um período de tempo m) das representações de domínio espectral 1101, 1102. As informações de direção 122 representam, por exemplo, diferentes direções de componentes de áudio contidos nos dois ou mais sinais de áudio de entrada. Assim, as informações direcionais 122 podem ser associadas a uma direção a partir da qual um ouvinte ouvirá um componente contido nos dois sinais de áudio de entrada. De acordo com uma modalidade, as informações de direção pode representar índices de movimentação. Assim, por exemplo, as informações direcionais 122 compreendem um primeiro direção que indica um cantor em uma sala de audição e direções adicionais correspondentes a diferentes instrumentos musicais de uma banda em uma cena de áudio. As informações direcionais 122 são, por exemplo, determinadas pelo analisador de áudio 100 ao analisar razões de nível entre as representações de domínio espectral 110 1, 1102 para todos os compartimentos de frequência ou grupo de frequências (por exemplo, para todos os compartimentos espectrais k ou bandas espectrais b). O exemplos para a determinação de informações direcionais 120 são descritos em relação à Figura 5 à Figura 7b.
[0115] De acordo com uma modalidade o analisador de áudio 100 é configurado para obter as informações direcionais 122 com base em uma análise de uma movimentação de amplitude de conteúdo de áudio; e/ou com base em uma análise de uma relação de fase e/ou um atraso de tempo e/ou correlação entre conteúdos de áudio de dois ou mais sinais de áudio de entrada; e/ou com base em uma identificação de fontes ampliadas (por exemplo, decorrelacionadas e/ou movimentadas). O conteúdo de áudio pode compreender os sinais de áudio de entrada e/ou as representações de domínio espectral 110 dos sinais de áudio de entrada.
[0116] Com base nas informações direcionais 122 e nas representações de domínio espectral 1101, 1102, o analisador de áudio 100 é configurado para determinar contribuições 132 (por exemplo, 𝑌𝐿,𝑏,Ψ0,𝑗 (𝑚, 𝑘) e 𝑌𝑅,𝑏,Ψ0,𝑗 (𝑚, 𝑘)) para informações de intensidade sonora 142. De acordo com uma modalidade, as primeiras contribuições 1321 associadas a uma representação de domínio espectral 1101 do primeiro sinal de áudio de entrada são determinadas por uma determinação de contribuições 130 em dependência das informações direcionais 122 e as segundas contribuições 132 2 associadas à representação de domínio espectral 1102 do segundo sinal de áudio de entrada são determinadas pela determinação de contribuições 130 em dependência das informações direcionais 122. De acordo com uma modalidade, as informações direcionais 122 compreendem diferentes direções (por exemplo, valores de direção extraídos Ψ(m, k)). As contribuições 132 compreendem, por exemplo, informações de intensidade sonora para direções predeterminadas Ψ0,𝑗 dependendo das informações direcionais 122. De acordo com uma modalidade, as contribuições 132 definem informações de nível de bandas espectrais, cuja direção Ψ (m, k) (correspondente às informações direcionais 122) se iguala a direções predeterminadas Ψ0,𝑗 e/ou informações de nível escalonado de bandas espectrais, cuja direção Ψ (m, k) é vizinha de uma direção predeterminada Ψ0,𝑗 .
[0117] De acordo com uma modalidade, os valores de direção extraídos são determinados em dependência de valores Ψ(m, k) de domínio espectral (por exemplo, 𝑋𝐿,𝑏 (𝑚0 , 𝑘0 ) as X1 (m,k) e 𝑋𝑅,𝑏 (𝑚0 , 𝑘0 ) como X2 (m,k) na notação de [13]] dos sinais de áudio de entrada.
[0118] Para obter as informações de intensidade sonora 142 (por exemplo, L(m, Ψ0,𝑗 ) para uma pluralidade de diferentes faixas de direção avaliadas Ψ0,𝑗 (j 𝜖 [1;J] para J direções predeterminadas)) associada a diferentes direções Ψ0,𝑗 (por exemplo, direções predeterminadas) como um resultado de análise pelo analisador de áudio 100, o analisador de áudio 100 é configurado para combinar as contribuições 132 1 (por exemplo, 𝑌𝐿,𝑏,Ψ0,𝑗 (𝑚, 𝑘)) correspondentes à representação de domínio espectral 1101 do primeiro sinal de áudio de entrada e as contribuições 132 2 (por exemplo, 𝑌𝑅,𝑏,Ψ0,𝑗 (𝑚, 𝑘)) correspondentes à representação de domínio espectral 1102 do segundo sinal de áudio de entrada para receber um sinal combinado como informações de intensidade sonora142 de, por exemplo, dois ou mais canais (por exemplo, um primeiro canal é associado ao primeiro sinal de áudio de entrada e representado pelo índice L e um segundo canal é associado ao segundo sinal de áudio de entrada e representado pelo índice R). Assim, informações de intensidade sonora 142 são obtidas, que definem um intensidade sonora ao longo do tempo e para cada uma das diferentes direções Ψ0,𝑗 . Isso é, por exemplo, realizado pela unidade de determinação de informações de intensidade sonora 140.
[0119] A Figura 2 mostra um analisador de áudio 100, que pode compreender recursos e/ou funcionalidades conforme descrito em relação ao analisador de áudio 100 na Figura 1. De acordo com uma modalidade, o analisador de áudio 100 recebe um primeiro sinal de áudio de entrada xL 1121 e um segundo sinal de áudio de entrada xR 1122. O índice L é associado à esquerda e o índice R é associado à direita. Os índices pode ser associados a um alto-falante (por exemplo, com um posicionamento de alto-falante). De acordo com uma modalidade, os índices podem ser representados por números que indicam um canal associado ao sinal de áudio de entrada.
[0120] De acordo com uma modalidade, o primeiro sinal de áudio de entrada 112 1 e/ou o segundo sinal de áudio de entrada 1122 pode representar um sinal de domínio de tempo que pode ser convertido por um domínio de tempo em conversão de domínio espectral 114 para receber uma representação de domínio espectral 110 do respectivo sinal de áudio de entrada. Em outras palavras, a conversão de domínio de tempo em domínio espectral 114 pode decompor os dois ou mais sinais de áudio de entrada 1121, 1122 (por exemplo, xL, xR, xi) em um domínio de transformada de Fourier de tempo curto (STFT) para obter dois ou mais sinais de áudio transformados 115 1, 1152 (por exemplo, X’L, X’R, X’i). Se o primeiro sinal de áudio de entrada 1121 e/ou o segundo sinal de áudio de entrada 1122 representarem uma representação de domínio espectral 110, a conversão de domínio de tempo em domínio espectral 114 pode ser pulada.
[0121] Opcionalmente, os sinais de áudio de entrada 112 ou os sinais de áudio transformados 115 são processados por um processamento de modelo de ouvido 116 para obter as representações de domínio espectral 110 do respectivo sinal de áudio de entrada 1121 e 1122. Os compartimentos espectrais do sinal a serem processados, por exemplo, 112 ou 115, são agrupados em bandas espectrais, por exemplo, com base em um modelo para uma percepção de bandas espectrais por um ouvido humano e, então, as bandas espectrais podem ser ponderadas, com base em um modelo de ouvido externo e/ou de ouvido médio. Assim, com o processamento de modelo de ouvido 116, uma representação de domínio espectral otimizada 110 dos sinais de áudio de entrada 112 pode ser determinada.
[0122] De acordo com uma modalidade, a representação de domínio espectral 1101 do primeiro sinal de áudio de entrada 1121, por exemplo, XL,b(m,k), é associada a informações de nível do primeiro sinal de áudio de entrada 112 1 (por exemplo, indicadas pelo índice L) e a diferentes bandas espectrais (por exemplo, indicadas pelo índice b). Por banda espectral b, a representação de domínio espectral 110 1 representa, por exemplo, informações de nível para períodos de tempo m e para todos os compartimentos espectrais k da respectiva banda espectral b.
[0123] De acordo com uma modalidade, a representação de domínio espectral 1102 do segundo sinal de áudio de entrada 1122, por exemplo, XR,b(m,k), é associada a informações de nível do segundo sinal de áudio de entrada 112 2 (por exemplo, indicadas pelo índice R) e a diferentes bandas espectrais (por exemplo, indicadas pelo índice b). Por banda espectral b, a representação de domínio espectral 110 2 representa, por exemplo, informações de nível para períodos de tempo m e para todos os compartimentos espectrais k da respectiva banda espectral b.
[0124] Com base na representação de domínio espectral 1101 do primeiro sinal de áudio de entrada 112 e na representação de domínio espectral 110 2 do segundo sinal de áudio de entrada, uma determinação de informações de direção 120 pode ser realizada pelo analisador de áudio 100. Com uma análise de direção 124, informações de direção de movimentação 125, por exemplo, Ψ(m, k), podem ser determinadas. As informações de direção de movimentação 125 representam, por exemplo, índices de movimentação correspondentes a componentes de sinal (por exemplo, componentes de sinal do primeiro sinal de áudio de entrada 112 1 e o segundo sinal de áudio de entrada 1122 movimentado para uma certa direção). De acordo com uma modalidade, os sinais de áudio de entrada 112 são associados a diferentes direções indicadas, por exemplo, pelo índice L para esquerda e pelo índice R para direita. Um índice de movimentação define, por exemplo, uma direção entre dois ou mais sinais de áudio de entrada 112 ou uma direção na direção de um sinal de áudio de entrada 112. Assim, por exemplo, em um caso de sinal de dois canais conforme mostrado na Figura 2, as informações de direção de movimentação 125 podem compreender índices de movimentação correspondentes a componentes de sinal completamente movimentados para a esquerda ou para a direita ou para uma direção em algum lugar entre os mesmos.
[0125] De acordo com uma modalidade, com base nas informações de direção de movimentação 125, o analisador de áudio 100 é configurado para realizar uma determinação de fator de escalonamento 126 para determinar uma ponderação dependente de direção 127, por exemplo, ΘΨ0,𝑗 (𝑚, 𝑘) para j 𝜖 [1;i]. A ponderação dependente de direção 127 define, por exemplo, um fator de escalonamento dependendo de direções Ψ(m, k) extraídas das informações de direção de movimentação 125. A ponderação dependente de direção 127 é determinada para uma pluralidade de direções predeterminadas Ψ0,𝑗 . De acordo com uma modalidade, a ponderação dependente de direção 127 define funções para cada direção predeterminada. As funções dependem, por exemplo, de direções Ψ(m, k) extraídas das informações de direção de movimentação 125. O fator de escalonamento depende, por exemplo, de uma distância entre as direções Ψ(m, k) extraídas das informações de direção de movimentação 125 e uma direção predeterminada Ψ0,𝑗 . Os fatores de escalonamento, isto é, a ponderação dependente de direção 127, podem ser determinados por compartimento espectral e/ou por etapa de tempo/período de tempo.
[0126] De acordo com uma modalidade, a ponderação dependente de direção 127 usa uma função gaussiana, de modo que a ponderação dependente de direção diminua com um desvio crescente entre os respectivos valores de direção extraídos Ψ(m, k) e os respectivos valores de direção predeterminados Ψ0,𝑗 .
[0127] De acordo com uma modalidade, o analisador de áudio 100 é configurado para obter a ponderação dependente de direção 127 ΘΨ0,𝑗 (𝑚, 𝑘) associada a uma direção predeterminada (por exemplo, representada pelo índice Ψ0,𝑗 ), um tempo (ou período de tempo) designado com um índice de tempo m, e um compartimento espectral designado por um índice de compartimento espectral k de acordo com 1 − (Ψ(𝑚,𝑘)−Ψ0,𝑗 )2 ΘΨ0,𝑗 (𝑚, 𝑘) = 𝑒 2𝜉 , em que 𝜉 é um valor predeterminado (que controla, por exemplo, uma largura de uma janela gaussiana); em que Ψ(𝑚, 𝑘) designa os valores de direção extraídos associados a um tempo (ou período de tempo) designado com um índice de tempo m, e um compartimento espectral designado por um índice de compartimento espectral k; e em que Ψ0,𝑗 é um valor de direção (por exemplo, predeterminado) que designa (ou é associado a) uma direção predeterminada (por exemplo, que tem índice de direção j).
[0128] De acordo com uma modalidade, o analisador de áudio 100 é configurado para determinar, ao usar a determinação de informações direcionais120, informações direcionais que compreendem as informações de direção de movimentação 125 e/ou a ponderação dependente de direção 127. Essas informações de direção são, por exemplo, obtidas com base em um conteúdo de áudio dos dois ou mais sinais de áudio de entrada 112.
[0129] De acordo com uma modalidade, o analisador de áudio 100 compreende um escalonador 134 e/ou um combinador 136 para uma determinação de contribuições 130. Com o escalonador 134, a ponderação dependente de direção 127 é aplicada às uma ou mais representações de domínio espectral 110 dos dois ou mais sinais de áudio de entrada 112, a fim de obter representações ponderadas de domínio espectral 135 (por exemplo, 𝑌𝑖,𝑏,Ψ0,𝑗 (𝑚, 𝑘), 𝑌𝐷𝑀,𝑏,Ψ0,𝑗 (𝑚, 𝑘), para diferentes Ψ0 (j 𝜖 [1;J] ou j={L;R;DM})). Em outras palavras, a representação de domínio espectral 110 1 do primeiro sinal de áudio de entrada e a representação de domínio espectral 110 2 do segundo sinal de áudio de entrada são ponderadas individualmente para cada direção predeterminada Ψ0,𝑗 . Assim, por exemplo, a representação ponderada de domínio espectral 1351, por exemplo, Y𝐿,𝑏,Ψ0,1 (m, k), do primeiro sinal de áudio de entrada pode compreender apenas componentes de sinal do primeiro sinal de áudio de entrada 112 correspondentes à direção predeterminada Ψ0,1 ou componentes de sinal adicionalmente ponderados (por exemplo, reduzidos) do primeiro sinal de áudio de entrada 1121 associados a direções vizinhas predeterminadas. Assim, os valores das uma ou mais representações de domínio espectral 110 (por exemplo, 𝑋𝑖,𝑏 (𝑚, 𝑘)) são ponderados em dependência das diferentes direções (por exemplo, direções de movimentação Ψ0,𝑗 )(por exemplo, representadas por fatores de ponderação Ψ(m, k)) dos componentes de áudio
[0130] De acordo com uma modalidade, a determinação de fator de escalonamento 126 é configurada para determinar a ponderação dependente de direção 127 de modo que componentes de sinal por direção predeterminada, cujos valores de direção extraídos Ψ(m, k) desviam da direção predeterminada Ψ0,𝑗 , sejam ponderados de modo que os mesmos tenham menos influência que componentes de sinal, cujos valores de direção extraídos Ψ(m, k) se igualam à direção predeterminada Ψ0,𝑗 . Em outras palavras, na ponderação dependente de direção 127 para uma primeira direção predeterminada Ψ0,1 , os componentes de sinal associados à primeira direção predeterminada Ψ0,1 são enfatizados em relação aos componentes de sinal associados a outras direções em uma primeira representação ponderada de domínio espectral Y𝐿,𝑏,Ψ0,1 (m, k)correspondente à primeira direção predeterminada Ψ0,1.
[0131] De acordo com uma modalidade, o analisador de áudio 100 é configurado para obter as representações ponderadas de domínio espectral 135 𝑌𝑖,𝑏,Ψ0,𝑗 (𝑚, 𝑘) associadas a um sinal de áudio de entrada (por exemplo, com 110 1 para i=1 ou 1102 para i=2) ou uma combinação de sinais de áudio de entrada (por exemplo, com uma combinação dos dois sinais de áudio de entrada 1101 e 1102 para i=1,2) designado por índice i, uma banda espectral designado por índice b, uma direção designada por índice (por exemplo, predeterminada) Ψ0,𝑗 , um tempo (ou período de tempo)
designado com um índice de tempo m, e um compartimento espectral designado por um índice de compartimento espectral k de acordo com 𝑌𝑖,𝑏,Ψ0,𝑗 (𝑚, 𝑘) = 𝑋𝑖,𝑏 (𝑚, 𝑘)ΘΨ0,𝑗 (𝑚, 𝑘), em que 𝑋𝑖,𝑏 (𝑚, 𝑘) designa uma representação de domínio espectral 110 associada a um sinal de áudio de entrada 112 ou combinação de sinais de áudio de entrada 112 designado por índice i (por exemplo, i=L ou i=R ou i=DM ou I é representado por um número, indicando um canal), uma banda espectral designada por índice b, um tempo (ou período de tempo) designado com um índice de tempo m, e um compartimento espectral designado por um índice de compartimento espectral k; e em que ΘΨ0,𝑗 (𝑚, 𝑘) designa a ponderação dependente de direção 127 associada a uma direção designada por índice (por exemplo, uma predeterminada) Ψ0,𝑗 , um tempo (ou período de tempo) designado com um índice de tempo m, e um compartimento espectral designado por um índice de compartimento espectral k.
[0132] Funcionalidades adicionais ou alternativas do escalonador 134 são descritas em relação à Figura 6 à Figura 7b.
[0133] De acordo com uma modalidade, as representações ponderadas de domínio espectral 1351 do primeiro sinal de áudio de entrada e as representações ponderadas de domínio espectral 1352 do segundo sinal de áudio de entrada são combinadas pelo combinador 136 para obter uma representação de domínio espectral combinada ponderada 137 𝑌𝐷𝑀,𝑏,Ψ0,𝑗 (𝑚, 𝑘). Assim, com o combinador 136, as representações ponderadas de domínio espectral 135 de todos os canais (no caso da Figura 2 do primeiro sinal de áudio de entrada 1121 e do segundo sinal de áudio de entrada 1122) correspondentes a uma direção predeterminada Ψ0,𝑗 são combinadas em um sinal. Isso é, por exemplo, realizado para todas as direções predeterminadas Ψ0,𝑗 (for j 𝜖 [1;i]). De acordo com uma modalidade, a representação de domínio espectral combinada ponderada 137 é associada a diferentes bandas de frequência b.
[0134] Com base na representação de domínio espectral combinada ponderada 137, a determinação de informações de intensidade sonora 140 é realizada para obter como resultado de análise informações de intensidade sonora 142. De acordo com uma modalidade, a determinação de informações de intensidade sonora 140 compreende uma determinação de intensidade sonora em bandas 144 e uma determinação de intensidade sonora em todas as bandas 146. De acordo com uma modalidade, a determinação de intensidade sonora em bandas 144 é configurada para determinar, para cada banda espectral b, com base nas representações de domínio espectral combinadas ponderadas 137, os valores de intensidade sonora de banda
145. Em outras palavras, a determinação de intensidade sonora em bandas 144 determina uma intensidade sonora em cada banda espectral em dependência das direções predeterminadas Ψ0,𝑗 . Assim, os valores obtidos de intensidade sonora de banda 145 não dependem mais de compartimentos espectrais k únicos.
[0135] De acordo com uma modalidade, o analisador de áudio é configurado para computar uma média de valores espectrais quadrados das representações de domínio espectral combinadas ponderadas 137 (por exemplo, 𝑌𝐷𝑀,𝑏,Ψ0,𝑗 (𝑚, 𝑘)) sobre valores espectrais de uma banda de frequência (ou sobre compartimentos espectrais (k) de uma banda de frequência (b)), e aplicar uma exponenciação que tem um expoente entre 0 e 1/2 (e, preferencialmente, menor que 1/3 ou ¼) à média de valores espectrais quadrados, a fim de determinar os valores de intensidade sonora de banda 145 (por exemplo, 𝐿𝑏,Ψ0,𝑗 (𝑚)) (por exemplo, associados a uma respectiva banda de frequência (b)).
[0136] De acordo com uma modalidade, o analisador de áudio é configurado para obter os valores de intensidade sonora de banda 145 𝐿𝑏,Ψ0,𝑗 (𝑚) associados a uma banda espectral designada com índice b, uma direção designada com índice Ψ0,𝑗 , um tempo (ou período de tempo) designado com um índice de tempo m de acordo com 1 0.25 𝐿𝑏,Ψ0,𝑗 (𝑚) = ( ∑𝑘∈𝑏 𝑌𝐷𝑀,𝑏,Ψ0,𝑗 (𝑚, 𝑘)2 ) , em que Kb designa um número de 𝐾𝑏 compartimentos espectrais em uma banda de frequência que tem índice de banda de frequência b; em que k é uma variável de atribuição e designa compartimentos espectrais na banda de frequência que tem índice de banda de frequência b; em que b designa uma banda espectral; e em que 𝑌𝐷𝑀,𝑏,Ψ0,𝑗 (𝑚, 𝑘) designa uma representação de domínio espectral combinada ponderada 137 associada a uma banda espectral designada com índice b, uma direção designada por índice Ψ0,𝑗 , um tempo (ou período de tempo) designado com um índice de tempo m e um compartimento espectral designado por um índice de compartimento espectral k.
[0137] Na determinação de informações de intensidade sonora em todas as bandas 146, os valores de intensidade sonora de banda 145 são, por exemplo, ponderados em todas as bandas espectrais para fornecer as informações de intensidade sonora 142 dependentes da direção predeterminada e de pelo menos um período de tempo m. De acordo com uma modalidade, as informações de intensidade sonora 142 podem representar uma intensidade sonora geral causada pelos sinais de áudio de entrada 112 em diferentes direções em uma sala de audição. De acordo com uma modalidade, as informações de intensidade sonora 142 podem ser associadas a valores de intensidade sonora combinados associados a diferentes direções determinadas ou predeterminadas Ψ0,𝑗 .
[0138] O analisador de áudio de acordo com uma das reivindicações 1 a 17, em que o analisador de áudio é configurado para obter uma pluralidade de valores de intensidade sonora combinados L(m,Ψ0,𝑗 ) associados a uma direção designada com índice Ψ0,𝑗 e um tempo (ou período de tempo) designado com um índice de tempo m 1 de acordo com 𝐿(𝑚, Ψ0,𝑗 ) = 𝐵 ∑∀𝑏 𝐿𝑏,Ψ0,𝑗 (𝑚) , em que B designa um número total de bandas espectrais b e em que 𝐿𝑏,Ψ0,𝑗 (𝑚) designa valores de intensidade sonora de banda 145 associados a uma banda espectral designada com índice b, uma direção designada com índice Ψ0,𝑗 e um tempo [ou período de tempo] designado com um índice de tempo m.
[0139] Na Figura 1 e na Figura 2, o analisador de áudio 100 é configurado para analisar representações de domínio espectral 110 de dois sinais de áudio de entrada, mas o analisador de áudio 100 também é configurado para analisar mais de duas representações de domínio espectral 110.
[0140] A Figura 3a à Figura 4b mostram diferentes implementações de um analisador de áudio 100. O analisador de áudio mostrado nas Figuras 1 a 4b não é restrito aos recursos e funcionalidades mostrados para uma implementação, mas também pode compreender recursos e funcionalidades de outras implementações do analisador de áudio mostrados nas diferentes figuras 1 a 4b.
[0141] A Figura 3a e a Figura 3b mostram duas diferentes abordagens pelo analisador de áudio 100 para determinar informações de intensidade sonora 142 com base em uma determinação de um índice de movimentação.
[0142] O analisador de áudio 100 mostrado na Figura 3a é similar ou igual ao analisador de áudio 100 mostrado na Figura 2. Dois ou mais sinais de entrada 112 são transformados em sinais de tempo/frequência 110 por uma decomposição de tempo/frequência 113. De acordo com uma modalidade, a decomposição de tempo/frequência 113 pode compreender uma conversão de domínio de tempo em domínio espectral e/ou um processamento de modelo de ouvido.
[0143] Com base nos sinais de tempo/frequência, uma determinação de informações direcionais120 é realizada. A determinação de informações direcionais120 compreende, por exemplo, uma análise direcional 124 e uma determinação de funções de janela 126. Em uma unidade de determinação de contribuições 130, os sinais direcionais 132 são obtidos, por exemplo, ao dividir os sinais de tempo/frequência 110 em sinais direcionais ao aplicar funções de janela dependente de direção 127 aos sinais de tempo/frequência 110. Com base nos sinais direcionais 132, um cálculo de intensidade sonora 140 é realizado para obter as informações de intensidade sonora 142 como um resultado de análise. As informações de intensidade sonora 142 podem compreender um mapa de intensidade sonora direcional.
[0144] O analisador de áudio 100 na Figura 3b difere do analisador de áudio 100 na Figura 3a no cálculo de intensidade sonora 140. De acordo com a Figura 3b, o cálculo de intensidade sonora 140 é realizado antes de os sinais direcionais dos sinais de tempo/frequência 110 serem calculados. Assim, por exemplo, de acordo com a Figura 3b, os valores de intensidade sonora de banda 141 são calculados diretamente com base nos sinais de tempo/frequência 110. Ao aplicar a função de janela dependente de direção 127 aos valores de intensidade sonora de banda 141, as informações de intensidade sonora direcional 142 podem ser obtidas como o resultado de análise.
[0145] A Figura 4a e a Figura 4b mostram um analisador de áudio 100 que é, de acordo com uma modalidade, configurado para determinar informações de intensidade sonora 142 com o uso de uma abordagem de histograma. De acordo com uma modalidade, o analisador de áudio 100 é configurado para usar uma decomposição de tempo/frequência 113 para determinar sinais de tempo/frequência 110 com base em dois ou mais sinais de entrada 112.
[0146] De acordo com uma modalidade, com base nos sinais de tempo/frequência 110, um cálculo de intensidade sonora 140 é realizado para obter um valor de intensidade sonora combinado 145 por bloco de tempo/frequência. O valor de intensidade sonora combinado 145 não é associado a quaisquer informações direcionais. O valor de intensidade sonora combinado é, por exemplo, associado a uma intensidade sonora resultante de um sobreposição dos sinais de entrada 112 em um bloco de tempo/frequência.
[0147] Adicionalmente, o analisador de áudio 100 é configurado para realizar um análise direcional 124 dos sinais de tempo/frequência 110 para obter informações direcionais 122. De acordo com a Figura 4a, as informações direcionais 122 compreendem um ou mais vetores de direção com valores de razão que indicam blocos de tempo/frequência com a mesma razão de nível entre os dois ou mais sinais de entrada 112. Essa análise direcional 124 é, por exemplo, realizada conforme descrito em relação à Figura 5 ou à Figura 6.
[0148] O analisador de áudio 100 na Figura 4b difere do analisador de áudio 100 mostrado na Figura 4a de modo que, após a análise direcional 124, opcionalmente, um borrão direcional 126 dos valores de direção 122 1 seja realizado. Com o borrão direcional 126, além disso, os blocos de tempo/frequência associados a direções vizinhas a uma direção predeterminada podem ser associados à direção predeterminada, em que informações de direção 122 2 obtidas podem compreender adicionalmente, para esses blocos de tempo/frequência, um fator de escalonamento para minimizar a influência na direção predeterminada.
[0149] Na Figura 4a e na Figura 4b, o analisador de áudio 100 é configurado para acumular 146 os valores de intensidade sonora combinados 145 nos compartimentos direcionais de histograma com base nas informações direcionais 122 associadas a blocos de tempo/frequência.
[0150] Mais detalhes em relação ao analisador de áudio 100 na Figura 3a e na Figura 3b são descritos posteriormente no capítulo “Etapas genéricas para computar um mapa de intensidade sonora direcional” e no capítulo “Modalidades de diferentes formas de calcular os mapas de intensidade sonora com o uso de funções de critérios generalizadas”.
[0151] A Figura 5 mostra uma representação de domínio espectral 1101 de um primeiro sinal de áudio de entrada e uma representação de domínio espectral 110 2 de um segundo sinal de áudio de entrada a serem analisadas por um analisador de áudio descrito na presente invenção. Uma análise direcional 124 das representações de domínio espectral 110 resulta em informações direcionais 122. De acordo com uma modalidade, as informações direcionais 122 representam um vetor de direção com valores de razão entre a representação de domínio espectral 110 1 do primeiro sinal de áudio de entrada e a representação de domínio espectral 110 2 do segundo sinal de áudio de entrada. Assim, por exemplo, blocos de frequência, por exemplo, blocos de tempo/frequência, das representações de domínio espectral 110 com a mesma razão de nível são associados à mesma direção 125.
[0152] De acordo com uma modalidade, o cálculo de intensidade sonora 140 resulta em valores de intensidade sonora combinados 145, por exemplo, por bloco de tempo/frequência. Os valores de intensidade sonora combinados 145 são, por exemplo, associados a uma combinação do primeiro sinal de áudio de entrada e do segundo sinal de áudio de entrada (por exemplo, uma combinação dos dois ou mais sinais de áudio de entrada).
[0153] Com base nas informações direcionais 122 e nos valores de intensidade sonora combinados 145, os valores de intensidade sonora combinados 145 podem ser acumulados 146 em compartimentos de histograma dependentes de direção e tempo. Assim, por exemplo, todos os valores de intensidade sonora combinados 145 associados a uma certa direção são somados. De acordo com as informações direcionais 122, as direções são associadas a blocos de tempo/frequência. Com o acúmulo 146, resulta em um histograma de intensidade sonora direcional que pode representar informações de intensidade sonora 142 como um resultado de análise de um analisador de áudio descrito na presente invenção.
[0154] Também é possível que os blocos de tempo/frequência correspondentes à mesma direção e/ou direções vizinhas e, um período de tempo diferente ou vizinho (por exemplo, em um período de tempo anterior ou subsequente) possam ser associados à direção na etapa de tempo ou período de tempo atual. Isso significa, por exemplo, que as informações direcionais 122 compreendem informações de direção por bloco de frequência (ou compartimento de frequência) dependente de tempo. Assim, por exemplo, as informações direcionais 122 são obtidas para múltiplos períodos de tempo ou para todos os períodos de tempo.
[0155] Mais detalhes em relação à abordagem de histograma mostrada na Figura 5 serão descritos no capítulo “Modalidades de diferentes formas de calcular os mapas de intensidade sonora com o uso de funções de critério generalizadas opção 2.
[0156] A Figura 6 mostra uma determinação de contribuições 130 com base em informações de direção de movimentação realizadas por um analisador de áudio descrito na presente invenção. A Figura 6a mostra uma representação de domínio espectral de um primeiro sinal de áudio de entrada e a Figura 6b mostra uma representação de domínio espectral de um segundo sinal de áudio de entrada. De acordo com a Figura 6a1 à Figura 6a3.1 e com a Figura 6b1 à Figura 6b3.1, os compartimentos espectrais ou bandas espectrais correspondentes à mesma direção de movimentação são selecionados para calcular informações de intensidade sonora nessa direção de movimentação. A Figura 6a3.2 e a Figura 6b3.2 mostram um processo de alternativo, em que não apenas compartimentos de frequência ou bandas de frequência correspondentes à direção de movimentação são considerados, mas também outros compartimentos de frequência ou grupos de frequência, que são ponderados ou escalonados para ter menos influência. Mais detalhes em relação à Figura 6 são descritos em um capítulo “Recuperação de sinais direcionais com janelamento/função de seleção derivada de um índice de movimentação”.
[0157] De acordo com uma modalidade, as informações direcionais 122 podem compreender fatores de escalonamento associados a uma direção 121 e blocos de tempo/frequência 123 conforme mostrado na Figura 7a e/ou na Figura 7b. De acordo com uma modalidade, na Figura 7a e na Figura 7b, os blocos de tempo/frequência 123 são apenas mostrados para um etapa de tempo ou período de tempo. A Figura 7a mostra fator de escalonamentos, em que apenas blocos de tempo/frequência 123 são considerados, o que contribui para uma certa direção 121 (por exemplo, predeterminada) 121, conforme, por exemplo, descrito em relação à Figura 6a1 à Figura 6a3.1 e à Figura 6b1 à Figura 6b3.1. Alternativamente, na Figura 7b, ademais, direções vizinhas são consideradas, mas escalonadas para reduzir uma influência do respectivo bloco de tempo/frequência 123 sobre as direções vizinhas. De acordo com a Figura 7b, um bloco de tempo/frequência 123 é escalonado de modo que sua influência seja reduzida com desvio crescente da direção associada. Em vez disso, na Figura 6a3.2 e na Figura 6b3.2, todos os blocos de tempo/frequência correspondentes a uma direção de movimentação diferente são escalonados igualmente. Diferentes escalonamentos ou ponderações são possíveis. Dependendo do escalonamento, uma precisão do resultado de análise do analisador de áudio pode ser aprimorada.
[0158] A Figura 8 mostra uma modalidade de um avaliador de similaridade de áudio 200. O avaliador de similaridade de áudio 200 é configurado para obter primeiras informações de intensidade sonora 1421 (por exemplo, L1(m, Ψ0,𝑗 )) e segundas informações de intensidade sonora 1422 (por exemplo, L2(m, Ψ0,𝑗 )). As primeiras informações de intensidade sonora 1421 são associadas a diferentes direções (por exemplo, direções de movimentação predeterminadas Ψ0,𝑗 ) com base em um primeiro conjunto de dois ou mais sinais de áudio de entrada 112a (por exemplo, x L, xR ou xi para iϵ[1;n]), e as segundas informações de intensidade sonora 142 2 são associadas a diferentes direções com base em um segundo conjunto de dois ou mais sinais de áudio de entrada, que pode ser representado pelo conjunto de sinais de áudio de referência 112b (por exemplo, x2,R, x2,L, x2,i para iϵ[1;n]). O primeiro conjunto de sinais de áudio de entrada 112a e o conjunto de sinais de áudio de referência 112b podem compreender n sinais de áudio, em que n representa um número inteiro maior que ou igual a 2. Cada sinal de áudio do primeiro conjunto de sinais de áudio de entrada 112a e do conjunto de sinais de áudio de referência 112b pode ser associado a diferentes alto-falantes posicionados em diferentes posições em um espaço de audição. As primeiras informações de intensidade sonora 142 1 e as segundas informações de intensidade sonora 1422 podem representar uma distribuição de intensidade sonora no espaço de audição (por exemplo, em ou entre as posições de alto-falante). De acordo com uma modalidade, as primeiras informações de intensidade sonora 142 1 e as segundas informações de intensidade sonora 142 2 compreendem valores de intensidade sonora para posições ou direções distintas no espaço de audição. As diferentes direções podem ser associadas a direções de movimentação dos sinais de áudio dedicadas a um conjunto de sinais de áudio 112a ou 112b, dependendo de qual conjunto corresponde às informações de intensidade sonora a ser calculada.
[0159] As primeiras informações de intensidade sonora 142 1 e as segundas informações de intensidade sonora 1422 podem ser determinadas por uma determinação de informações de intensidade sonora 100, que pode ser realizada pelo avaliador de similaridade de áudio 200. De acordo com uma modalidade, a determinação de informações de intensidade sonora 100 pode ser realizada por um analisador de áudio. Assim, por exemplo, o avaliador de similaridade de áudio 200 pode compreender um analisador de áudio ou receber as primeiras informações de intensidade sonora 1421 e/ou as segundas informações de intensidade sonora 142 2 de um analisador de áudio externo. De acordo com uma modalidade, o analisador de áudio pode compreender recursos e/ou funcionalidades conforme descrito em relação a um analisador de áudio na Figura 1 à Figura 4b. Alternativamente, apenas as primeiras informações de intensidade sonora 142 1 são determinadas pela determinação de informações de intensidade sonora 100 e as segundas informações de intensidade sonora 1422 são recebidas ou obtidas pelo avaliador de similaridade de áudio 200 a partir de um banco de dados com informações de intensidade sonora de referência. De acordo com uma modalidade, o banco de dados pode compreender mapas de informações de intensidade sonora de referência para diferentes configurações de alto-falante e/ou configurações de alto-falante e/ou diferentes conjuntos de sinais de áudio de referência 112b.
[0160] De acordo com uma modalidade, o conjunto de sinais de áudio de referência 112b pode representar um conjunto de sinais de áudio ideal para uma percepção de áudio otimizada por um ouvinte no espaço de audição.
[0161] De acordo com uma modalidade, as primeiras informações de intensidade sonora 1421 (por exemplo, um vetor que compreende L1(m,Ψ0,1 ) a L1(m,Ψ0,𝐽 )) e/ou as segundas informações de intensidade sonora 142 2 (por exemplo, um vetor que compreende L2(m,Ψ0,1 ) a L2(m,Ψ0,𝐽 )) podem compreender uma pluralidade de valores de intensidade sonora combinados associadas aos respectivos sinais de áudio de entrada (por exemplo, os sinais de áudio de entrada correspondentes ao primeiro conjunto de sinais de áudio de entrada 112a ou os sinais de áudio de referência correspondentes ao conjunto de sinais de áudio de referência 112b (e associados a respectivas direções predeterminadas)). As respectivas direções predeterminadas podem representar índices de movimentação. Uma vez que cada sinal de áudio de entrada é, por exemplo, associado a um alto-falante, as respectivas direções predeterminadas podem ser entendidas como posições igualmente espaçadas entre os respectivos alto-falantes (por exemplo, entre alto-falantes vizinhos e/ou outros pares de alto-falantes). Em outras palavras, o avaliador de similaridade de áudio 200 é configurado para obter um componente de direção (por exemplo, uma primeira direção descrita na presente invenção) usado para obter as informações de intensidade sonora 1421 e/ou 1422 com diferentes direções (por exemplo, segundas direções descritas na presente invenção) com o uso de metadados que representam informações de posição de alto-falantes associadas aos sinais de áudio de entrada. Os valores de intensidade sonora combinados das primeiras informações de intensidade sonora 1421 e/ou das segundas informações de intensidade sonora 142 2 descrevem a intensidade sonora de componentes de sinal do respectivo conjunto de sinais de áudio de entrada 112a e 112b associado às respectivas direções predeterminadas. As primeiras informações de intensidade sonora 142 1 e/ou as segundas informações de intensidade sonora 1422 são associadas a combinações de uma pluralidade de representações ponderadas de domínio espectral associada à respectiva direção predeterminada.
[0162] O avaliador de similaridade de áudio 200 é configurado para comparar as primeiras informações de intensidade sonora 142 1 com as segundas informações de intensidade sonora 1422 a fim de obter informações de similaridade 210 que descrevem uma similaridade entre o primeiro conjunto de dois ou mais sinais de áudio de entrada 112a e o conjunto de dois ou mais sinais de áudio de referência 112b. Isso pode ser realizado por uma unidade de comparação de informações de intensidade sonora 220. As informações de similaridade 210 podem indicar uma qualidade do primeiro conjunto de sinais de áudio de entrada 112a. Para aprimorar adicionalmente a predição de uma percepção do primeiro conjunto de sinais de áudio de entrada 112a com base nas informações de similaridade 210, apenas um subconbjunto de bandas de frequência nas primeiras informações de intensidade sonora 142 1 e/ou nas segundas informações de intensidade sonora 142 2 pode ser considerado. De acordo com uma modalidade, as primeiras informações de intensidade sonora 1421 e/ou as segundas informações de intensidade sonora 142 2 são apenas determinadas para bandas de frequência com frequência de 1,5 kHz e mais. Assim, as informações de intensidade sonora 1421 e 1422 comparadas podem ser otimizadas base na sensibilidade do sistema auditivo humano. Assim, a unidade de comparação de informações de intensidade sonora 220 é configurada para comparar informações de intensidade sonora 1421 e 1422, que compreendem apenas valores de intensidade sonora de bandas de frequência relevantes. As bandas de frequência relevantes podem ser associadas a bandas de frequência correspondentes a uma sensibilidade (por exemplo, ouvido humano) maior que um limite predeterminado para diferenças de nível predeterminadas.
[0163] Para obter as informações de similaridade 210, por exemplo, uma diferença entre as segundas informações de intensidade sonora 142 2 e as primeiras informações de intensidade sonora 1421 é calculada.
[0164] Essa diferença pode representar informações de intensidade sonora residuais e já pode definir as informações de similaridade 210. Alternativamente, as informações de intensidade sonora residuais são processadas adicionalmente para obter as informações de similaridade 210. De acordo com uma modalidade, o avaliador de similaridade de áudio 200 é configurado para determinar um valor que quantifica a diferença em uma pluralidade de direções. Esse valor pode ser um único valor de escalonamento que representa as informações de similaridade 210. Para receber o valor de escalonamento, a unidade de comparação de informações de intensidade sonora 220 pode ser configurada para calcular a diferença para partes ou uma duração completa do primeiro conjunto de sinais de áudio de entrada 112a e/ou do conjunto de sinais de áudio de referência 112b e, então, calcular a média das informações de intensidade sonora residuais obtidas em todas as direções de movimentação (por exemplo, as diferentes direções às quais as primeiras informações de intensidade sonora 1421 e/ou as segundas informações de intensidade sonora 1422 são associadas) e tempo de produção de uma única variável de saída de modelo denominada numerada (MOV).
[0165] A Figura 9 mostra uma modalidade de um avaliador de similaridade de áudio 200 para calcular informações de similaridade 210 com base em um sinal de entrada estéreo de referência 112b e um sinal estéreo a ser analisado 112a (por exemplo, nesse caso, um sinal em teste (SUT)). De acordo com uma modalidade, o avaliador de similaridade de áudio 200 pode compreender recursos e/ou funcionalidades conforme descrito em relação ao avaliador de similaridade de áudio na Figura 8. Os dois sinais estéreos 112a e 112b podem ser processados por um modelo de ouvido periférico 116 para obter representações de domínio espectral 110a e 110b dos sinais estéreos de áudio de entrada 112a e 112b.
[0166] De acordo com uma modalidade, em uma próxima etapa, os componentes de áudio dos sinais estéreos 112a e 112b podem ser analisados quanto às suas informações direcionais. Diferentes direções de movimentação 125 podem ser predeterminadas e podem ser combinadas com uma largura de janela 128 para obter uma ponderação dependente de direção 127 1 a 1277. Com base na ponderação dependente de direção 127 e na representação de domínio espectral 110a e/ou 110b do respectivo sinal de entrada estéreo 112a e/ou 112b, uma decomposição direcional de índice de movimentação 130 pode ser realizada para obter contribuições 132a e/ou 132b. De acordo com uma modalidade, as contribuições 132a e/ou 132b são, então, por exemplo, processadas por um cálculo de intensidade sonora 144 para obter intensidade sonora 145a e/ou 145b por banda de frequência e direção de movimentação. De acordo com uma modalidade, uma média de frequência semelhante à ERB 146 (ERB = largura de banda retangular equivalente) é realizada nos sinais de intensidade sonora 145b e/ou 145a para obter mapas de intensidade sonora direcional 142a e/ou 142b para uma comparação de informações de intensidade sonora 220. A comparação de informações de intensidade sonora 220 é, por exemplo, configurada para calcular uma medição de distância com base nos dois mapas de intensidade sonora direcional 142a e 142b. A medição de distância pode representar um mapa de intensidade sonora direcional que compreende diferenças entre os dois mapas de intensidade sonora direcional 142a e 142b. De acordo com uma modalidade, uma única variável de saída de modelo denominada numerada MOV pode ser obtida como as informações de similaridade 210 ao calcular a média da medição de distância em todas as direções de movimentação e tempo.
[0167] A Figura 10c mostra uma medição de distância conforme descrito na Figura 9 ou informações de similaridade conforme descrito na Figura 8 representadas por um mapa de intensidade sonora direcional 210 que mostra diferenças de intensidade sonora entre os mapas de intensidade sonora direcional 142b mostrado na Figura 10a e 142a mostrado na Figura 10b. Os mapas de intensidade sonora direcional mostrados na Figura 10a à Figura 10c representam, por exemplo, valores de intensidade sonora ao longo do tempo e direções de movimentação. O mapa de intensidade sonora direcional mostrado na Figura 10a pode representar valores de intensidade sonora correspondentes a um sinal de entrada de valor de referência. Esse mapa de intensidade sonora direcional pode ser calculado conforme descrito na Figura 9 ou por um analisador de áudio conforme descrito na Figura 1 à Figura 4b ou, alternativamente, pode ser retirado dentre uma base de dados. O mapa de intensidade sonora direcional mostrado na Figura 10b corresponde, por exemplo, a um sinal estéreo em teste, e pode representar informações de intensidade sonora determinadas por um analisador de áudio conforme explicado nas Figuras 1 a 4b e na Figura 8 ou 9.
[0168] A Figura 11 mostra um codificador de áudio 300 para codificar 310 um conteúdo de áudio de entrada 112 que compreende um ou mais sinais de áudio de entrada (por exemplo, xi). O conteúdo de áudio de entrada 112 compreende, preferencialmente, uma pluralidade de sinais de áudio de entrada, como sinais estéreos ou sinais de múltiplos canais. O codificador de áudio 300 é configurado para fornecer um ou mais sinais de áudio codificados 320 com base nos um ou mais sinais de áudio de entrada 112 ou com base em um ou mais sinais 110 derivados dos um ou mais sinais de áudio de entrada 112 por um processamento opcional 330. Assim, os um ou mais sinais de áudio de entrada 112 ou os um ou mais sinais 110 derivados dos mesmos são codificados 310 pelo codificador de áudio 300. O processamento 330 pode compreender um processamento médio/lateral, um processamento de mixagem de redução/diferença, uma conversão de domínio de tempo em domínio espectral e/ou um processamento de modelo de ouvido. A codificação 310 compreende, por exemplo, uma quantização e, então, uma codificação sem perda de erro.
[0169] O codificador de áudio 300 é configurado para adaptar 340 parâmetros de codificação em dependência de um ou mais mapas de intensidade sonora direcional 142 (por exemplo, Li(m,Ψ0,𝑗 ) para uma pluralidade de diferentes Ψ0 ), que representa informações de intensidade sonora associadas a uma pluralidade de diferentes direções (por exemplo, direções predeterminadas ou direções dos um ou mais sinais 112 a serem codificados). De acordo com uma modalidade, os parâmetros de codificação compreendem parâmetros de quantização e/ou outros parâmetros de codificação, como uma distribuição de bit e/ou parâmetros relacionados a uma desabilitação/habilitação da codificação 310.
[0170] De acordo com uma modalidade, o codificador de áudio 300 é configurado para realizar uma determinação de informações de intensidade sonora 100 para obter o mapa de intensidade sonora direcional 142 com base no sinal de áudio de entrada 112 ou com base no sinal de áudio de entrada processado 110. Assim, por exemplo, o codificador de áudio 300 pode compreender um analisador de áudio 100 conforme descrito em relação à Figura 1 à Figura 4b. Alternativamente, o codificador de áudio 300 pode receber o mapa de intensidade sonora direcional 142 de um analisador de áudio externo que realiza a determinação de informações de intensidade sonora 100. De acordo com uma modalidade, o codificador de áudio 300 pode obter mais de um mapa de intensidade sonora direcional 142 relacionados aos sinais de áudio de entrada 112 e/ou aos sinais de áudio de entrada processados 110.
[0171] De acordo com uma modalidade, o codificador de áudio 300 pode receber apenas um sinal de áudio de entrada 112. Nesse caso, o mapa de intensidade sonora direcional 142 compreende, por exemplo, valores de intensidade sonora para apenas um direção. De acordo com uma modalidade, o mapa de intensidade sonora direcional 142 pode compreender valores de intensidade sonora que se igualam a zero para direções que diferem de uma direção associada ao sinal de áudio de entrada 112. No caso de apenas um sinal de áudio de entrada 112, o codificador de áudio 300 pode decidir com base no mapa de intensidade sonora direcional 142 se a adaptação 340 dos parâmetros de codificação deve ser realizada. Assim, por exemplo, a adaptação 340 dos parâmetros de codificação pode compreender uma configuração dos parâmetros de codificação para padronizar parâmetros de codificação para sinais mono.
[0172] Se o codificador de áudio 300 receber um sinal estéreo ou um sinal de múltiplos canais como o sinal de áudio de entrada 112, o mapa de intensidade sonora direcional 142 pode compreender valores de intensidade sonora para diferentes direções (por exemplo, que diferem de zero). No caso de um sinal de áudio de entrada estéreo, o codificador de áudio 300 obtém, por exemplo, um mapa de intensidade sonora direcional 142 associado aos dois sinais de áudio de entrada 112. No caso de um sinal de áudio de entrada de múltiplos canais 112, o codificador de áudio 300 obtém, por exemplo, um ou mais mapas de intensidade sonora direcional 142 com base nos sinais de áudio de entrada 112. Se um sinal de múltiplos canais 112 for codificado pelo codificador de áudio 300, por exemplo, um mapa geral de intensidade sonora direcional 142, com base em todos os sinais de canal e/ou mapas de intensidade sonora direcional, e/ou um ou mais mapas de intensidade sonora direcional 142, com base em pares de sinais do sinal de áudio de entrada de múltiplos canais 112, podem ser obtidos pela determinação de informações de intensidade sonora 100. Assim, por exemplo, o codificador de áudio 300 pode ser configurado para realizar a adaptação 340 dos parâmetros de codificação em dependência de contribuições de mapas individuais de intensidade sonora direcional 142, por exemplo, de pares de sinais, de um sinal médio, de um sinal lateral, de um sinal de mixagem de redução, de um sinal de diferença e/ou de grupos de três ou mais sinais para um mapa geral de intensidade sonora direcional 142, por exemplo, associado a múltiplos sinais de áudio de entrada, por exemplo, associados a todos os sinais do sinal de áudio de entrada de múltiplos canais 112 ou um sinal de múltiplos canais de áudio de entrada processado 110.
[0173] A determinação de informações de intensidade sonora 100 conforme descrita em relação à figura 11 é exemplificativa e pode ser realizada idêntica ou similarmente por todos os codificadores ou decodificadores de áudio a seguir.
[0174] A Figura 12 mostra uma modalidade de um codificador de áudio 300, que pode compreender recursos e/ou funcionalidades conforme descrito em relação ao codificador de áudio na Figura 11. De acordo com uma modalidade, a codificação 310 pode compreender uma quantização por um quantizador 312 e um codificação por uma unidade de codificação 314, como, por exemplo, uma codificação por entropia. Assim, por exemplo, a adaptação de parâmetros de codificação 340 pode compreender uma adaptação de parâmetros de quantização 342 e uma adaptação de parâmetros de codificação 344. O codificador de áudio 300 é configurado para codificar 310 um conteúdo de áudio de entrada 112, que compreende, por exemplo, dois ou mais sinais de áudio de entrada, para fornecer um conteúdo de áudio codificado 320, que compreende, por exemplo, os dois ou mais sinais de áudio de entrada codificados. Essa codificação 310 depende, por exemplo, de um mapa de intensidade sonora direcional 142 ou de uma pluralidade de mapas de intensidade sonora direcional 142 (por exemplo, Li(m,Ψ0,𝑗 )), que é baseado no conteúdo de áudio de entrada 112 e/ou em uma versão codificada 320 do conteúdo de áudio de entrada
112.
[0175] De acordo com uma modalidade, o conteúdo de áudio de entrada 112 pode ser codificado diretamente 310 ou processado 330 opcionalmente antes. Conforme já descrito acima, o codificador de áudio 300 pode ser configurado para determinar uma representação de domínio espectral 110 de um ou mais sinais de áudio de entrada do conteúdo de áudio de entrada 112 pelo processamento 330. Alternativamente, o processamento 330 pode compreender etapas de processamento adicionais para derivar um ou mais sinais do conteúdo de áudio de entrada 112, que podem se submeter a uma conversão de domínio de tempo em domínio espectral para receber as representações de domínio espectral 110. De acordo com uma modalidade, os sinais derivados pelo processamento 330 podem compreender, por exemplo, um sinal médio ou sinal de mixagem de redução e sinal lateral ou sinal de diferença.
[0176] De acordo com uma modalidade, os sinais do conteúdo de áudio de entrada 112 ou as representações de domínio espectral 110 podem se submeter a uma quantização pelo quantizador 312. O quantizador 312 usa, por exemplo, um ou mais parâmetros de quantização para obter uma ou mais representações de domínio espectral quantizadas 313. Essas uma ou mais representações de domínio espectral quantizadas 313 podem ser codificadas pela unidade de codificação 314, a fim de obter os um ou mais sinais de áudio codificados do conteúdo de áudio codificado 320.
[0177] Para otimizar a codificação 310 pelo codificador de áudio 300, o codificador de áudio 300 pode ser configurado para adaptar 342 parâmetros de quantização. Os parâmetros de quantização compreende, por exemplo, fatores de escala ou parâmetros que descrevem quais precisões de quantização ou etapas de quantização devem ser aplicadas a quais compartimentos espectrais de bandas de frequência dos um ou mais sinais a serem quantizados. De acordo com uma modalidade, os parâmetros de quantização descrevem, por exemplo, uma alocação de bits para diferentes sinais a serem quantizados e/ou para diferentes bandas de frequência. A adaptação 342 dos parâmetros de quantização pode ser entendida como uma adaptação de uma precisão de quantização e/ou uma adaptação de ruído introduzido pelo codificador 300 e/ou como uma adaptação de uma distribuição de bit entre os um ou mais sinais 112/110 e/ou parâmetros a serem codificados pelo codificador de áudio
300. Em outras palavras, o codificador de áudio 300 é configurado para ajustar os um ou mais parâmetros de quantização a fim de adaptar a distribuição de bit, adaptar a precisão de quantização e/ou adaptar o ruído. Adicionalmente, os parâmetros de quantização e/ou os parâmetros de codificação podem ser codificados 310 pelo codificador de áudio.
[0178] De acordo com uma modalidade, a adaptação 340 de parâmetros de codificação, como a adaptação 342 dos parâmetros de quantização e a adaptação 344 dos parâmetros de codificação pode ser realizada em dependência dos um ou mais mapas de intensidade sonora direcional 142, que representam informações de intensidade sonora associadas à pluralidade de diferentes direções, direções de movimentação, dos um ou mais sinais 112/110 a serem quantizados. Para ser mais preciso, a adaptação 340 pode ser realizada em dependência de contribuições de mapas individuais de intensidade sonora direcional 142 dos um ou mais sinais a serem codificados para um mapa geral de intensidade sonora direcional 142. Isso pode ser realizado conforme descrito em relação à Figura 11. Assim, por exemplo, uma adaptação de uma determinação de bit, uma adaptação de um precisão de quantização e/ou uma adaptação do ruído pode ser realizada em dependência de contribuições de mapas individuais de intensidade sonora direcional dos um ou mais sinais 112/110 a serem codificados para um mapa geral de intensidade sonora direcional. Isso é, por exemplo, realizado por um ajuste dos um ou mais parâmetros de quantização pela adaptação 342.
[0179] De acordo com uma modalidade, o codificador de áudio 300 é configurado para determinar o mapa geral de intensidade sonora direcional com base nas sinais de áudio de entrada 112, ou as representações de domínio espectral 110, de modo que o mapa geral de intensidade sonora direcional represente informações de intensidade sonora associadas a diferentes direções, por exemplo, de componentes de áudio, de uma cena de áudio representada pelo conteúdo de áudio de entrada 112. Alternativamente, o mapa geral de intensidade sonora direcional pode representar informações de intensidade sonora associadas a diferentes direções de uma cena de áudio a ser representada, por exemplo, após uma renderização de lado de decodificador. De acordo com uma modalidade, as diferentes direções podem ser obtidas por um determinação de informações de intensidade sonora 100 possivelmente em combinação com conhecimento ou informações laterais relacionados a posições de alto-falantes e/ou conhecimento ou informações laterais que descrevem posições de objetos de áudio. Esse conhecimento ou informações laterais pode ser obtido com base nos um ou mais sinais 112/110 a serem quantizados, uma vez que esses sinais 112/110 são, por exemplo, associados de uma maneira fixa não dependente de sinal com diferentes direções ou com diferentes alto- falantes ou com diferentes objetos de áudio. Um sinal é, por exemplo, associado a um certo sinal que pode ser interpretado como uma direção dentre as diferentes direções (por exemplo, das primeiras direções descritas na presente invenção). De acordo com uma modalidade, os objetos de áudio dos um ou mais sinais são movimentados para diferentes direções ou renderizados em diferentes direções, que podem ser obtidas pela determinação de informações de intensidade sonora 100 como informações de renderização de objeto. Esse conhecimento ou informações laterais podem ser obtidos pela determinação de informações de intensidade sonora 100 para grupos de dois ou mais sinais de áudio de entrada do conteúdo de áudio de entrada 112 ou para as representações de domínio espectral 110.
[0180] De acordo com uma modalidade, os sinais 112/110 a serem quantizados podem compreender componentes, por exemplo, um sinal médio e um sinal lateral de uma codificação estéreo de lado médio, de uma codificação de múltiplos sinais conjunta de dois ou mais sinais de áudio de entrada 112. Assim, o codificador de áudio 300 é configurado para estimular as contribuições supracitadas de mapas de intensidade sonora direcional 142 de um ou mais sinais residuais da codificação de múltiplos sinais conjunta para o mapa geral de intensidade sonora direcional 142, e ajustar os um ou mais parâmetros de codificação 340 em dependência dos mesmos.
[0181] De acordo com uma modalidade, o codificador de áudio 300 é configurado para adaptar a distribuição de bit entre os um ou mais sinais 112/110 e/ou parâmetros a serem codificados e/ou adaptar a precisão de quantização dos um ou mais sinais 112/110 a serem codificados e/ou adaptar o ruído introduzido pelo codificador 300, individualmente para diferentes compartimentos espectrais ou individualmente para diferentes bandas de frequência. Isso significa, por exemplo, que a adaptação 342 dos parâmetros de quantização é realizada de modo que a codificação 310 seja aprimorada para compartimentos espectrais individuais ou diferentes bandas de frequência individuais.
[0182] De acordo com uma modalidade, o codificador de áudio 300 é configurado para adaptar a distribuição de bit entre os um ou mais sinais 112/110 e/ou os parâmetros a serem codificados em dependência de um avaliação de um mascaramento espacial entre dois ou mais sinais a serem codificados. O codificador de áudio é, por exemplo, configurado para avaliar o mascaramento espacial com base nas mapas de intensidade sonora direcional 142 associados aos dois ou mais sinais
112/110 a serem codificados. Adicional ou alternativamente, o codificador de áudio é configurado para avaliar o mascaramento espacial ou um efeito de mascaramento de uma contribuição de intensidade sonora associadas a uma primeira direção de um primeiro sinal a ser codificado em uma contribuição de intensidade sonora associada a uma segunda direção, que é diferente da primeira direção, de um segundo sinal a ser codificado. De acordo com uma modalidade, a contribuição de intensidade sonora associada à primeira direção pode, por exemplo, representar informações de intensidade sonora de um objeto de áudio ou componente de áudio dos sinais do conteúdo de áudio de entrada e a contribuição de intensidade sonora associada à segunda direção pode representar, por exemplo, informações de intensidade sonora associadas a um outro objeto de áudio ou componente de áudio dos sinais do conteúdo de áudio de entrada. Dependendo das informações de intensidade sonora da contribuição de intensidade sonora associadas à primeira direção e a contribuição de intensidade sonora associadas à segunda direção, e, dependendo da distância entre a primeira direção e a segunda direção, o efeito de mascaramento ou o mascaramento espacial pode ser avaliado. De acordo com uma modalidade, o efeito de mascaramento reduz com uma diferença crescente dos ângulos entre a primeira direção e a segunda direção. Similarmente, um mascaramento temporal pode ser avaliado.
[0183] De acordo com uma modalidade, a adaptação 342 dos parâmetros de quantização pode ser realizada pelo codificador de áudio 300 a fim de adaptar o ruído introduzido pelo codificador 300 com base em um mapa de intensidade sonora direcional alcançável por uma versão codificada 320 do conteúdo de áudio de entrada
112. Assim, o codificador de áudio 300 é, por exemplo, configurado para usar um desvio entre um mapa de intensidade sonora direcional 142, que é associado a um determinado sinal de áudio de entrada não codificado 112/110 (ou dois ou mais sinais de áudio de entrada), e um mapa de intensidade sonora direcional alcançável por uma versão codificada 320 do determinado sinal de áudio de entrada 112/110 (ou dois ou mais sinais de áudio de entrada), como um critério para uma adaptação do fornecimento do determinado sinal de áudio codificado ou sinais de áudio do conteúdo de áudio codificado 320. Esse desvio pode representar uma qualidade da codificação 310 do codificador 300. Assim, o codificador 300 pode ser configurado para adaptar 340 os parâmetros de codificação de modo que o desvio esteja abaixo de um certo limite. Assim, o circuito de retroalimentação 322 é realizado para aprimorar a codificação 310 pelo codificador de áudio 300 com base em mapas de intensidade sonora direcional 142 do conteúdo de áudio codificado 320 e mapas de intensidade sonora direcional 142 do conteúdo de áudio de entrada não codificado 112 ou das representações de domínio espectral não codificadas 110. De acordo com uma modalidade, no circuito de retroalimentação 322, o conteúdo de áudio codificado 320 é decodificado para realizar uma determinação de informações de intensidade sonora 100 com base em sinais decodificados de áudio. Alternativamente, também é possível que os mapas de intensidade sonora direcional 142 do conteúdo de áudio codificado 320 sejam alcançados por uma alimentação direta realizada por uma rede neuronal (por exemplo, prevista).
[0184] De acordo com uma modalidade, o codificador de áudio é configurado para ajustar os um ou mais parâmetros de quantização pela adaptação 342 para adaptar um fornecimento dos um ou mais sinais de áudio codificados do conteúdo de áudio codificado 320.
[0185] De acordo com uma modalidade, a adaptação 340 de parâmetros de codificação pode ser realizada a fim de desabilitar ou habilitar a codificação 310 e/ou ativar e desativar uma ferramenta de codificação conjunta, que é, por exemplo, usada pela unidade de codificação 314. Isso é, por exemplo, realizado pela adaptação 344 dos parâmetros de codificação. De acordo com uma modalidade, a adaptação 344 dos parâmetros de codificação pode depender das mesmas considerações que a adaptação 342 dos parâmetros de quantização. Assim, de acordo com uma modalidade, o codificador de áudio 300 é configurado para desabilitar a codificação 310 de um determinado um dos sinais a ser codificado, por exemplo, de um sinal residual, quando contribuições de um mapa de intensidade sonora direcional individual 142 do determinado um dos sinais a ser codificado (ou, por exemplo, quando contribuições de um mapa de intensidade sonora direcional 142 de um par de sinais a ser codificado ou de um grupo de três ou mais sinais a ser codificado) para um mapa de intensidade sonora de direção geral estão abaixo de um limite. Assim, o codificador de áudio 300 é configurado para codificar de modo eficaz 310 apenas informações relevantes.
[0186] De acordo com uma modalidade, a ferramenta de codificação conjunta da unidade de codificação 314 é, por exemplo, configurada para codificar juntamente dois ou mais dos sinais de áudio de entrada 112 ou sinais 110 derivados dos mesmos, por exemplo, para tomar uma decisão de ligar/desligar M/S (sinal médio/lateral). A adaptação 344 dos parâmetros de codificação pode ser realizada de modo que a ferramenta de codificação conjunta seja ativada ou desativada em dependência de um ou mais mapas de intensidade sonora direcional 142, que representam informações de intensidade sonora associadas a uma pluralidade de diferentes direções dos um ou mais sinais 112/110 a serem codificados. Alternativa ou adicionalmente, o codificador de áudio 300 pode ser configurado para determinar um ou mais parâmetros de uma ferramenta de codificação conjunta como parâmetros de codificação em dependência dos um ou mais mapas de intensidade sonora direcional
142. Assim, com a adaptação 344 dos parâmetros de codificação, por exemplo, uma suavização de fatores de predição dependentes de frequência pode ser controlada, por exemplo, para definir parâmetros de uma ferramenta de codificação conjunta “estéreo de intensidade”.
[0187] De acordo com uma modalidade, os parâmetros de quantização e/ou os parâmetros de codificação podem ser entendidos como parâmetros de controle, que podem controlar o fornecimento dos um ou mais sinais de áudio codificados 320. Assim, o codificador de áudio 300 é configurado para determinar ou estimar uma influência de uma variação dos um ou mais parâmetros de controle sobre um mapa de intensidade sonora direcional 142 de um ou mais sinais codificados 320, e ajustar os um ou mais parâmetros de controle em dependência da determinação ou estimativa da influência. Isso pode ser realizado pelo circuito de retroalimentação 322 e/ou por uma alimentação direta conforme descrito acima.
[0188] A Figura 13 mostra um codificador de áudio 300 para codificação 310 um conteúdo de áudio de entrada 112 que compreende um ou mais sinais de áudio de entrada 1121, 1122. Preferencialmente, conforme mostrado na Figura 13, o conteúdo de áudio de entrada 112 compreende uma pluralidade de sinais de áudio de entrada, como dois ou mais sinais de áudio de entrada 112 1, 1122. De acordo com uma modalidade, o conteúdo de áudio de entrada 112 pode compreender sinais de domínio de tempo ou sinais de domínio espectral. Opcionalmente, os sinais do conteúdo de áudio de entrada 112 podem ser processados 330 pelo codificador de áudio 300 para determinar sinais candidatos, como o primeiro sinal candidatos 1101 e/ou o segundo sinal candidato 1102. O processamento 330 pode compreender, por exemplo, uma conversão de domínio de tempo em domínio espectral, se os sinais de áudio de entrada 112 forem sinais de domínio de tempo.
[0189] O codificador de áudio 300 é configurado para selecionar 350 sinais a serem codificados juntamente 310 dentre uma pluralidade de sinais candidatos 110 ou dentre uma pluralidade de pares de sinais candidatos 110 em dependência de mapas de intensidade sonora direcional 142. Os mapas de intensidade sonora direcional 142 representam informações de intensidade sonora associadas a uma pluralidade de diferentes direções, por exemplo, direções de movimentação, dos sinais candidatos 110 ou dos pares de sinais candidatos 110 e/ou direções predeterminadas.
[0190] De acordo com uma modalidade, os mapas de intensidade sonora direcional 142 podem ser calculados pela determinação de informações de intensidade sonora 100 conforme descrito na presente invenção. Assim, a determinação de informações de intensidade sonora 100 pode ser implementada conforme descrito em relação ao codificador de áudio 300 descrito na Figura 11 ou na Figura 12. Os mapas de intensidade sonora direcional 142 são baseados nos sinais candidatos 110, em que os sinais candidatos representam os sinais de áudio de entrada do conteúdo de áudio de entrada 112 se nenhum processamento 330 for aplicado pelo codificador de áudio 300.
[0191] Se o conteúdo de áudio de entrada 112 compreender apenas um sinal de áudio de entrada, esse sinal é selecionado pela seleção de sinal 350 a ser codificado pelo codificador de áudio 300, por exemplo, com o uso de uma codificação de entropia para fornecer um sinal de áudio codificado como o conteúdo de áudio codificado 320. Nesse caso, por exemplo, o codificador de áudio é configurado para desabilitar a codificação conjunta 310 e comutar uma codificação de apenas um sinal.
[0192] Se o conteúdo de áudio de entrada 112 compreender dois sinais de áudio de entrada 1121 e 1122, que podem ser descritos como X1 e X2, ambos os sinais 1121 e 1122 são selecionados 350 pelo codificador de áudio 300 para a codificação conjunta 310 para fornecer um ou mais sinais codificados no conteúdo de áudio codificado 320. Assim, o conteúdo de áudio codificado 320 compreende opcionalmente um sinal médio e um sinal lateral ou um sinal de mixagem de redução e um sinal de diferença ou apenas um desses quatro sinais.
[0193] Se o conteúdo de áudio de entrada 112 compreender três ou mais sinais de áudio de entrada, a seleção de sinal 350 é baseada nos mapas de intensidade sonora direcional 142 dos sinais candidatos 110. De acordo com uma modalidade, o codificador de áudio 300 é configurado para usar a seleção de sinal 350 para seleciona um par de sinais dentre a pluralidade de sinais candidatos 110, para o qual, de acordo com os mapas de intensidade sonora direcional 142, uma codificação de áudio eficiente e uma saída de áudio de alta qualidade podem ser realizadas. Alternativa ou adicionalmente, também é possível que a seleção de sinal 350 selecione três ou mais sinais dos sinais candidatos 110 a serem codificados juntamente 310. Alternativa ou adicionalmente, é possível que o codificador de áudio 300 use a seleção de sinal 350 para selecionar mais de um par de sinais ou grupo de sinais para uma codificação conjunta 310. A seleção 350 dos sinais 352 a serem codificados pode depender de contribuições de mapas individuais de intensidade sonora direcional 142 de uma combinação de dois ou mais sinais para um mapa geral de intensidade sonora direcional. De acordo com uma modalidade, o mapa geral de intensidade sonora direcional é associado a múltiplos sinais de áudio de entrada selecionados ou a cada sinal do conteúdo de áudio de entrada 112. Como essa seleção de sinal 350 pode ser realizada pelo codificador de áudio 300 descrito de modo exemplificativo na Figura 14 para um conteúdo de áudio de entrada 112 que compreende três sinais de áudio de entrada.
[0194] Assim, o codificador de áudio 300 é configurado para fornecer um ou mais sinais de áudio codificados, por exemplo, quantizados e, então, codificados sem perda de erro, por exemplo, representações de domínio espectral codificadas, com base em dois ou mais sinais de áudio de entrada 1121, 1122 ou com base em dois ou mais sinais 1101, 1102 derivados dos mesmos, com o uso da codificação conjunta 310 de dois ou mais sinais 352 a serem codificados juntamente.
[0195] De acordo com uma modalidade, o codificador de áudio 300 é, por exemplo, configurado para determinar mapas individuais de intensidade sonora direcional 142 de dois ou mais sinais candidatos, e comparar os mapas individuais de intensidade sonora direcional 142 dos dois ou mais sinais candidatos. Adicionalmente, o codificador de áudio é, por exemplo, configurado para selecionar dois ou mais dos sinais candidatos para uma codificação conjunta em dependência de um resultado da comparação, por exemplo, de modo que os sinais candidatos, cujos mapas de intensidade sonora individuais compreendem uma similaridade máxima ou uma similaridade que é maior que um limite de similaridade sejam selecionados para uma codificação conjunta. Com essa seleção otimizada, uma codificação muito eficiente pode ser realizada uma vez que a alta similaridade dos sinais a serem codificados juntamente pode resultar em uma codificação com o uso de apenas poucos bits. Isso significa, por exemplo, que um sinal de mixagem de redução ou um sinal residual do par candidato escolhido pode ser codificado juntamente de modo eficaz.
[0196] A Figura 14 mostra uma modalidade de uma seleção de sinal 350, que pode ser realizada por qualquer codificador de áudio 300 descrito na presente invenção, como o codificador de áudio 300 na Figura 13. O codificador de áudio pode ser configurado para usar a seleção de sinal 350 conforme mostrado na Figura 14 ou aplicar a seleção de sinal descrita 350 a mais de três sinais de áudio de entrada, selecionar sinais a serem codificados juntamente dentre uma pluralidade de sinais candidatos ou dentre uma pluralidade de pares de sinais candidatos em dependência de contribuições de mapas individuais de intensidade sonora direcional dos sinais candidatos para um mapa geral de intensidade sonora direcional 142b, ou em dependência de contribuições de mapas de intensidade sonora direcional 142a 1 a 142a3 dos pares de sinais candidatos para o mapa geral de intensidade sonora direcional 142b conforme mostrado na Figura 14.
[0197] De acordo com a Figura 14, para cada possível par de sinais, um mapa de intensidade sonora direcional 142a1 a 142a3 é, por exemplo, recebido pela seleção de sinal 350 e o mapa geral de intensidade sonora direcional 142b associado a todos os três sinais do conteúdo de áudio de entrada é recebido pela unidade de seleção de sinal 350. Os mapas de intensidade sonora direcional 142, por exemplo, os mapas de intensidade sonora direcional dos pares de sinais 142a 1 a 142a3 e o mapa geral de intensidade sonora direcional 142b podem ser recebidos de um analisador de áudio ou pode ser determinado pelo codificador de áudio e fornecido para a seleção de sinal
350. De acordo com uma modalidade, o mapa geral de intensidade sonora direcional 142b pode representar uma cena de áudio geral, por exemplo, representada pelo conteúdo de áudio de entrada, por exemplo, antes de um processamento pelo codificador de áudio. De acordo com uma modalidade, o mapa geral de intensidade sonora direcional 142b representa informações de intensidade sonora associadas à diferentes direções, por exemplo, de componentes de áudio, de uma cena de áudio representada ou a ser representada, por exemplo, após uma renderização de lado de decodificador pelos sinais de áudio de entrada 1121 a 1123. O mapa geral de intensidade sonora direcional é, por exemplo, representado como DirLoudMap (1, 2, 3). De acordo com uma modalidade, o mapa geral de intensidade sonora direcional 142b é determinado pelo codificador de áudio com o uso de uma mixagem de redução dos sinais de áudio de entrada 1121 a 1123 ou com o uso de uma binauralização dos sinais de áudio de entrada 1121 a 1123.
[0198] A Figura 14 mostra uma seleção de sinal 350 para três canais CH1 a CH3, respectivamente, associados a um primeiro sinal de áudio de entrada 112 1, a um segundo sinal de áudio de entrada 1122 ou ao terceiro sinal de áudio de entrada 1123. Um primeiro mapa de intensidade sonora direcional 142a1, por exemplo, DirLoudMap (1, 2) é baseado no primeiro sinal de áudio de entrada 112 1 e no segundo sinal de áudio de entrada 1122, um segundo mapa de intensidade sonora direcional 142a 2, por exemplo, DirLoudMap (2, 3) é baseado no segundo sinal de áudio de entrada 112 2 e no terceiro sinal de áudio de entrada 1123, e o terceiro mapa de intensidade sonora direcional 142a3, por exemplo, DirLoudMap (1, 3) é baseado no primeiro sinal de áudio de entrada 1121 e no terceiro sinal de áudio de entrada 1123.
[0199] De acordo com uma modalidade, cada mapa de intensidade sonora direcional 142 representa informações de intensidade sonora associadas a diferentes direções. As diferentes direções são indicadas na Figura 14 pela linha entre L e R, em que L é associado a uma movimentação de componentes de áudio para um lado esquerdo, e em que o R é associado a uma movimentação de componentes de áudio para um lado direito. Assim, as diferentes direções compreendem o lado esquerdo e o lado direito e as direções ou ângulos entre os lados esquerdo e direito. Os mapas de intensidade sonora direcional 142 mostrados na Figura 14 são representados como diagramas, mas, alternativamente, também é possível que os mapas de intensidade sonora direcional 142 possam ser representados por um histograma de intensidade sonora direcional conforme mostrado na Figura 5, ou por uma matriz conforme na Figura 10a à Figura 10c. Fica claro que apenas as informações associadas aos mapas de intensidade sonora direcional 142 são relevantes para a seleção de sinal 350 e que a representação gráfica é apenas para um aprimoramento de entendimento.
[0200] De acordo com uma modalidade, a seleção de sinal 350 é realizada de modo que uma contribuição de pares de sinais candidatos para o mapa geral de intensidade sonora direcional 142b seja determinada. Uma relação entre o mapa geral de intensidade sonora direcional 142b e os mapas de intensidade sonora direcional
142a1 a 142a3 dos pares de sinais candidatos pode ser descrita pela fórmula DirLoudMap (1,2,3) = a*DirLoudMap (1,2,3) + b*DirLoudMap (2,3) + c*DirLoudMap (1,3).
[0201] A contribuição conforme determinado pelo codificador de áudio com o uso da seleção de sinal pode ser representada pelos fatores a, b e c.
[0202] De acordo com uma modalidade, o codificador de áudio é configurado para escolher um ou mais pares de sinais candidatos 1121 a 1123 que tem uma contribuição mais alta para o mapa geral de intensidade sonora direcional 142b para uma codificação conjunta. Isso significa, por exemplo, que o par de sinais candidatos é escolhido pela seleção de sinal 350, que é associado ao fator mais alto dos fatores a, b e c.
[0203] Alternativamente, o codificador de áudio é configurado para escolher um ou mais pares de sinais candidatos 1121 a 1123 que tem uma contribuição para o mapa geral de intensidade sonora direcional 142b, que é maior que um limite predeterminado para uma codificação conjunta. Isso significa, por exemplo, que um limite predeterminado é escolhido e que cada fator a, b, c é comparado ao limite predeterminado para selecionar cada par de sinais associado a um fator maior que o limite predeterminado.
[0204] De acordo com uma modalidade, as contribuições podem estar em uma faixa de 0% a 100%, o que significa, por exemplo, para os fatores a, b e c uma faixa de 0 a 1. Uma contribuição de 100% é, por exemplo, associada a um mapa de intensidade sonora direcional 142a que se iguala exatamente ao mapa geral de intensidade sonora direcional 142b. De acordo com uma modalidade, o limite predeterminado depende de como muitos sinais de áudio de entrada são incluídos no conteúdo de áudio de entrada. De acordo com uma modalidade, o limite predeterminado pode ser definido como uma contribuição de pelo menos 35% ou de pelo menos 50% ou de pelo menos 60% ou de pelo menos 75%.
[0205] De acordo com uma modalidade, o limite predeterminado depende de como muitos sinais devem ser selecionados pela seleção de sinal 350 para a codificação conjunta. Se, por exemplo, pelo menos dois pares de sinais devem ser selecionados, dois pares de sinais podem ser selecionados, que são associados a mapas de intensidade sonora direcional 142a que tem a contribuição mais alta para o mapa geral de intensidade sonora direcional 142b. Isso significa, por exemplo, que o par de sinais com a contribuição mais alta e com a segunda contribuição mais alta é selecionado
350.
[0206] É vantajoso ter como base a seleção dos sinais a serem codificados pelo codificador de áudio em mapas de intensidade sonora direcional 142, uma vez que uma comparação de mapas de intensidade sonora direcional pode indicar uma qualidade de uma percepção dos sinais de áudio codificados por um ouvinte. De acordo com uma modalidade, a seleção de sinal 350 é realizada pelo codificador de áudio de modo que o par de sinais ou os pares de sinais sejam selecionados, para os quais seu mapa de intensidade sonora direcional 142a é mais similar ao mapa geral de intensidade sonora direcional 142b. Isso pode resultar em uma percepção similar do par candidato ou pares candidatos selecionados em comparação a uma percepção de todos os sinais de áudio de entrada. Assim, a qualidade do conteúdo de áudio codificado pode ser aprimorada.
[0207] A Figura 15 mostra uma modalidade de um codificador de áudio 300 para codificação 310 um conteúdo de áudio de entrada 112 que compreende um ou mais sinais de áudio de entrada. Preferencialmente, dois ou mais sinais de áudio de entrada são codificados 310 pelo codificador de áudio 300. O codificador de áudio 300 é configurado para fornecer um ou mais sinais de áudio codificados 320 com base em dois ou mais sinais de áudio de entrada 112 ou com base em dois ou mais sinais 110 derivados dos mesmos. O sinal 110 pode ser derivado do sinal de áudio de entrada 112 por um processamento opcional 330. De acordo com uma modalidade, o processamento opcional 330 pode compreender recursos e/ou funcionalidades conforme descrito em relação a outros codificadores de áudio 300 descritos na presente invenção. Com a codificação 310, os sinais a serem codificados são, por exemplo, quantizados e, então, codificados sem perda de erro.
[0208] O codificador de áudio 300 é configurado para determinar 100 um mapa geral de intensidade sonora direcional com base nos sinais de áudio de entrada 112 e/ou determinar 100 um ou mais mapas individuais de intensidade sonora direcional 142 associados a sinais individuais de áudio de entrada 112. O mapa geral de intensidade sonora direcional pode ser representado por L(m,ϕ0,j) e os mapas individuais de intensidade sonora direcional pode ser representado por L i(m,ϕ0,j). De acordo com uma modalidade, o mapa de intensidade sonora de direção geral pode representar um mapa de intensidade sonora direcional alvo de uma cena. Em outras palavras, o mapa geral de intensidade sonora direcional pode ser associado a um mapa de intensidade sonora direcional desejado para uma combinação dos sinais de áudio codificados. Adicional ou alternativamente, é possível que os mapas de intensidade sonora direcional Li(m,ϕ0,j) de pares de sinais ou de grupos de três ou mais sinais podem ser determinados 100 pelo codificador de áudio 300.
[0209] O codificador de áudio 300 é configurado para codificar 310 o mapa geral de intensidade sonora direcional 142 e/ou um ou mais mapas individuais de intensidade sonora direcional 142 e/ou um ou mais mapas de intensidade sonora direcional de pares de sinais ou grupos de três ou mais sinais de áudio de entrada 112 como informações laterais. Assim, o conteúdo de áudio codificado 320 compreende os sinais de áudio codificados e os mapas de intensidade sonora direcional codificados. De acordo com uma modalidade, o codificação 310 pode depender de um ou mais mapas de intensidade sonora direcional 142, através do que, também é vantajoso codificar esses mapas de intensidade sonora direcional 142 para habilitar uma decodificação de alta qualidade do conteúdo de áudio codificado 320. Com os mapas de intensidade sonora direcional 142 como informações laterais codificadas, uma característica de qualidade originalmente pretendida (por exemplo, a ser alcançável pela codificação 310 e/ou por um decodificador de áudio) é fornecida pelo conteúdo de áudio codificado 320.
[0210] De acordo com uma modalidade, o codificador de áudio 300 é configurado para determinar 100 o mapa geral de intensidade sonora direcional L(m,ϕ0,j) com base nas sinais de áudio de entrada 112 de modo que o mapa geral de intensidade sonora direcional represente informações de intensidade sonora associadas às diferentes direções, por exemplo, de componentes de áudio, de uma cena de áudio representada pelos sinais de áudio de entrada 112. Alternativamente, o mapa geral de intensidade sonora direcional L(m,ϕ0,j) representa informações de intensidade sonora associadas às diferentes direções, por exemplo, de componentes de áudio, de uma cena de áudio a ser representada, por exemplo, após uma renderização de lado de decodificador pelos sinais de áudio de entrada. A determinação de informações de intensidade sonora 100 pode ser realizada pelo codificador de áudio 300 opcionalmente em combinação com conhecimento ou informações laterais relacionados a posições de alto-falantes e/ou conhecimento ou informações laterais que descrevem posições de objetos de áudio nos sinais de áudio de entrada 112.
[0211] De acordo com uma modalidade, a determinação de informações de intensidade sonora 100 pode ser implementada conforme descrito com outros codificadores de áudio 300 descritos na presente invenção.
[0212] O codificador de áudio 300 é, por exemplo, configurado para codificar 310 o mapa geral de intensidade sonora direcional L(m,ϕ0,j) na forma de um conjunto de valores, por exemplo, valores de escalonamento, associado a diferentes direções. De acordo com uma modalidade, os valores são associados adicionalmente a uma pluralidade de compartimentos de frequência de bandas de frequência. Cada valor ou valores em direções distintas do mapa geral de intensidade sonora direcional pode ser codificado. Isso significa, por exemplo, que cada valor de uma matriz colorida conforme mostrado na Figura 10a à Figura 10c ou valores de diferentes compartimentos de histograma conforme mostrado na Figura 5 ou valores de uma curva de mapa de intensidade sonora direcional conforme mostrado na Figura 14 para direções distintas são codificados.
[0213] Alternativamente, o codificador de áudio 300 é, por exemplo, configurado para codificar o mapa geral de intensidade sonora direcional L(m,ϕ0,j) com o uso de um valor de posição central e informações de coeficiente angular. O valor de posição central descreve, por exemplo, um ângulo ou uma direção na qual um máximo do mapa geral de intensidade sonora direcional para uma determinada banda de frequência ou compartimento de frequência ou para uma pluralidade de compartimentos de frequência ou bandas de frequência está localizado. As informações de coeficiente angular representam, por exemplo, um ou mais valores de escalonamento que descrevem coeficientes angulares dos valores do mapa geral de intensidade sonora direcional na direção angular. Os valores de escalonamento das informações de coeficiente angular são, por exemplo, valores do mapa geral de intensidade sonora direcional para direções vizinhas ao valor de posição central. O valor de posição central pode representar um valor de escalonamento de informações de intensidade sonora e/ou um valor de escalonamento de uma direção correspondente ao valor de intensidade sonora.
[0214] Alternativamente, o codificador de áudio é, por exemplo, configurado para codificar o mapa geral de intensidade sonora direcional L(m,ϕ0,j) na forma de uma representação polinomial ou na forma de uma representação de coluna.
[0215] De acordo com uma modalidade, as possibilidades de codificação descritas acima 310 para o mapa geral de intensidade sonora direcional L(m,ϕ0,j) também podem ser aplicadas para os mapas individuais de intensidade sonora direcional Li(m,ϕ0,j) e/ou para mapas de intensidade sonora direcional associados a pares de sinais ou grupos de três ou mais sinais.
[0216] De acordo com uma modalidade, o codificador de áudio 300 é configurado para codificar um sinal de mixagem de redução obtido com base em uma pluralidade de sinais de áudio de entrada 112 e um mapa geral de intensidade sonora direcional L(m,ϕ0,j). Opcionalmente, uma contribuição de um mapa de intensidade sonora direcional associada ao sinal de mixagem de redução para o mapa geral de intensidade sonora direcional também é, por exemplo, codificada como informações laterais.
[0217] Alternativamente, o codificador de áudio 300 é, por exemplo, configurado para codificar 310 uma pluralidade de sinais, por exemplo, os sinais de áudio de entrada 112 ou os sinais 110 derivados dos mesmos, e codificar 310 mapas de intensidade sonora individuais Li(m,ϕ0,j) da pluralidade de sinais 112/110 que são codificados 310 (por exemplo, de sinais individuais, de pares de sinais ou de grupos de três ou mais sinais). A pluralidade de sinais codificados e os mapas individuais de intensidade sonora direcional codificados são, por exemplo, transmitidos em uma representação de áudio codificada 320, ou incluídos em uma representação de áudio codificada 320.
[0218] De acordo com uma modalidade alternativa, o codificador de áudio 300 é configurado para codificar 310 o mapa geral de intensidade sonora direcional L(m,ϕ0,j), uma pluralidade de sinais, por exemplo, os sinais de áudio de entrada 112 ou os sinais 110 derivados dos mesmos, e parâmetros que descrevem contribuições, por exemplo, contribuições relativas dos sinais, que são codificadas para o mapa geral de intensidade sonora direcional. De acordo com uma modalidade, os parâmetros podem ser representados pelos parâmetros a, b e c conforme descrito na Figura 14. Assim, por exemplo, o codificador de áudio 300 é configurado para codificar 310 todas as informações nas quais a codificação 310 tem como base fornecer, por exemplo, informações para uma decodificação de alta qualidade do conteúdo de áudio codificado 320 fornecido.
[0219] De acordo com uma modalidade, um codificador de áudio pode compreender ou combinar recursos e/ou funcionalidades individuais conforme descrito em relação a um ou mais dos codificadores de áudio 300 descritos na Figura 11 à Figura 15.
[0220] A Figura 16 mostra uma modalidade de um decodificador de áudio 400 para decodificar 410 um conteúdo de áudio codificado 420. O conteúdo de áudio codificado 420 pode compreender representações codificadas 422 de um ou mais sinais de áudio e informações de mapa de intensidade sonora direcional codificadas 424.
[0221] O decodificador de áudio 400 é configurado para receber a representação codificada 422 de um ou mais sinais de áudio e fornecer uma representação decodificada 412 dos um ou mais sinais de áudio. Adicionalmente, o decodificador de áudio 400 é configurado para receber as informações de mapa de intensidade sonora direcional codificadas 424 e decodificar 410 as informações de mapa de intensidade sonora direcional codificadas 424 para obter um ou mais mapas de intensidade sonora direcional decodificados 414. Os mapas de intensidade sonora direcional decodificados 414 podem compreender recursos e/ou funcionalidades conforme descrito em relação aos mapas de intensidade sonora direcional 142 descrito acima.
[0222] De acordo com uma modalidade, a decodificação 410 pode ser realizada pelo decodificador de áudio 400 com o uso de uma decodificação do tipo AAC ou com o uso de uma decodificação de valores espectrais codificados por entropia, ou com o uso de um decodificação de valores de intensidade sonora codificados por entropia.
[0223] O decodificador de áudio 400 é configurado para reconstruir 430 uma cena de áudio com o uso da representação decodificada 412 dos um ou mais sinais de áudio e com o uso de os um ou mais mapas de intensidade sonora direcional 414. Com base na reconstrução 430, um conteúdo de áudio decodificado 432, como uma representação de múltiplos canais, pode ser determinado pelo decodificador de áudio
400.
[0224] De acordo com uma modalidade, o mapa de intensidade sonora direcional 414 pode representar um mapa de intensidade sonora direcional alvo a ser alcançado pelo conteúdo de áudio decodificado 432. Assim, com o mapa de intensidade sonora direcional 414, a reconstrução da cena de áudio 430 pode ser otimizada para resultar em uma percepção de alta qualidade de um ouvinte do conteúdo de áudio decodificado 432. Isso tem como base a ideia de que o mapa de intensidade sonora direcional 414 pode indicar uma percepção desejada para o ouvinte.
[0225] A Figura 17 mostra o codificador 400 de Figura 16 com o recurso opcional de uma adaptação 440 de parâmetros de decodificação. De acordo com uma modalidade, o conteúdo de áudio decodificado pode compreender sinais de saída 432, que representam, por exemplo, sinais de domínio de tempo ou sinais de domínio espectral. O decodificador de áudio 400 é, por exemplo, configurado para obter os sinais de saída 432, de modo que um ou mais mapas de intensidade sonora direcional associados aos sinais de saída 432 se aproximem ou se igualem a um ou mais mapas de intensidade sonora direcional alvo. Os um ou mais mapas de intensidade sonora direcional alvo têm como base os um ou mais mapas de intensidade sonora direcional decodificados 414, ou são iguais aos um ou mais mapas de intensidade sonora direcional decodificados 414. Opcionalmente, o decodificador de áudio 400 é configurado para usar um escalonamento apropriado ou uma combinação dos um ou mais mapas de intensidade sonora direcional decodificados 414 para determinar o mapa de intensidade sonora direcional alvo ou mapas.
[0226] De acordo com uma modalidade, os um ou mais mapas de intensidade sonora direcional associados aos sinais de saída 432 podem ser determinados pelo decodificador de áudio 400. O decodificador de áudio 400 compreende, por exemplo, um analisador de áudio para determinar os um ou mais mapas de intensidade sonora direcional associados aos sinais de saída 432, ou é configurado para receber de um analisador de áudio externo 100 os um ou mais mapas de intensidade sonora direcional associados aos sinais de saída 432.
[0227] De acordo com uma modalidade, o decodificador de áudio 400 é configurado para comparar os um ou mais mapas de intensidade sonora direcional associados aos sinais de saída 432 e os mapas de intensidade sonora direcional decodificados 414; ou comparar os um ou mais mapas de intensidade sonora direcional associados aos sinais de saída 432 com um mapa de intensidade sonora direcional derivado do mapa de intensidade sonora direcional decodificado 414, e adaptar 440 os parâmetros de decodificação ou a reconstrução 430 com base nessa comparação. De acordo com uma modalidade, o decodificador de áudio 400 é configurado para adaptar 440 os parâmetros de decodificação ou adaptar a reconstrução 430 de modo que um desvio entre os um ou mais mapas de intensidade sonora direcional associados aos sinais de saída 432 e os um ou mais mapas de intensidade sonora direcional alvo estejam abaixo de um limite predeterminado. Isso pode representar um circuito de retroalimentação, através do que, a decodificação 410 e/ou a reconstrução 430 é adaptada de modo que os um ou mais mapas de intensidade sonora direcional associados aos sinais de saída 432 se aproximem dos um ou mais mapas de intensidade sonora direcional alvo em pelo menos 75% ou em pelo menos 80%, ou em pelo menos 85% ou em pelo menos 90% ou em pelo menos 95%.
[0228] De acordo com uma modalidade, o decodificador de áudio 400 é configurado para receber um sinal de mixagem de redução codificado como a representação codificada 422 dos um ou mais sinais de áudio e um mapa geral de intensidade sonora direcional como as informações de mapa de intensidade sonora direcional codificadas 424. O sinal de mixagem de redução codificado é, por exemplo, obtido com base em uma pluralidade de sinais de áudio de entrada. Alternativamente, o decodificador de áudio 400 é configurado para receber uma pluralidade de sinais de áudio codificados como a representação codificada 422 dos um ou mais sinais de áudio e mapas individuais de intensidade sonora direcional da pluralidade de sinais codificados como as informações de mapa de intensidade sonora direcional codificadas 424. O sinal de áudio codificado representa, por exemplo, sinais de áudio de entrada codificado por um codificador ou sinais derivados dos sinais de áudio de entrada codificado pelo codificador. Alternativamente, o decodificador de áudio 400 é configurado para receber um mapa geral de intensidade sonora direcional como as informações de mapa de intensidade sonora direcional codificadas 424, uma pluralidade de sinais de áudio codificados como a representação codificada 422 dos um ou mais sinais de áudio, e, adicionalmente, parâmetros que descrevem contribuições dos sinais de áudio codificados para o mapa geral de intensidade sonora direcional. Assim, o conteúdo de áudio codificado 420 pode compreender adicionalmente os parâmetros, e o decodificador de áudio 400 pode ser configurado para usar esses parâmetros para aprimorar a adaptação 440 dos parâmetros de decodificação, e/ou aprimorar a reconstrução 430 da cena de áudio.
[0229] O decodificador de áudio 400 é configurado para fornecer os sinais de saída 432 com base em um dos conteúdos de áudio codificado 420 mencionados acima.
[0230] A Figura 18 mostra uma modalidade de um conversor de formato 500 para converter 510 um formato de um conteúdo de áudio 520, que representa uma cena de áudio. O conversor de formato 500 recebe, por exemplo, o conteúdo de áudio 520 no primeiro formato e converte 510 o conteúdo de áudio 520 no conteúdo de áudio 530 no segundo formato. Em outras palavras, o conversor de formato 500 é configurado para fornecer a representação 530 do conteúdo de áudio no segundo formato com base nas representação 520 do conteúdo de áudio no primeiro formato. De acordo com uma modalidade, o conteúdo de áudio 520 e/ou o conteúdo de áudio 530 podem representar uma cena de áudio espacial.
[0231] O primeiro formato pode, por exemplo, compreender um primeiro número de canais ou sinais de áudio de entrada e informações laterais ou informações laterais espaciais adaptadas ao primeiro número de canais ou sinais de áudio de entrada. O segundo formato pode, por exemplo, compreender um segundo número de canais ou sinais de saída de áudio, que pode ser diferente do primeiro número de canais ou sinais de áudio de entrada, e informações laterais ou informações laterais espaciais adaptados ao segundo número de canais ou sinais de saída de áudio. O conteúdo de áudio 520 no primeiro formato compreende, por exemplo, um ou mais sinais de áudio, um ou mais sinais de mixagem de redução, um ou mais sinais residuais, um ou mais sinais médios, um ou mais sinais laterais e/ou um ou mais diferentes sinais.
[0232] O conversor de formato 500 é configurado para ajustar 540 uma complexidade da conversão de formato 510 em dependência de contribuições de sinais de áudio de entrada do primeiro formato para um mapa de intensidade sonora de direção geral 142 da cena de áudio. O conteúdo de áudio 520 compreende, por exemplo, os sinais de áudio de entrada do primeiro formato. As contribuições podem representar diretamente contribuições dos sinais de áudio de entrada do primeiro formato para o mapa de intensidade sonora de direção geral 142 da cena de áudio ou podem representar contribuições de mapas individuais de intensidade sonora direcional dos sinais de áudio de entrada do primeiro formato para o mapa de intensidade sonora de direção geral 142 ou podem representar contribuições de mapas de intensidade sonora direcional de pares dos sinais de áudio de entrada do primeiro formato para o mapa geral de intensidade sonora direcional 142. De acordo com uma modalidade, as contribuições podem ser calculadas pelo conversor de formato 500 conforme descrito na Figura 13 ou na Figura 14. De acordo com uma modalidade, o mapa geral de intensidade sonora direcional 142 pode, por exemplo, ser descrito por informações laterais do primeiro formato recebidas pelo conversor de formato 500. Alternativamente, o conversor de formato 500 é configurado para determinar o mapa geral de intensidade sonora direcional 142 com base em sinais de áudio de entrada do conteúdo de áudio 520. Opcionalmente, o conversor de formato 500 compreende um analisador de áudio conforme descrito em relação à Figura 1 à Figura 4b para calcular o mapa geral de intensidade sonora direcional 142 ou o conversor de formato 500 é configurado para receber o mapa geral de intensidade sonora direcional 142 de um analisador de áudio externo conforme descrito em relação à Figura 1 à Figura 4b.
[0233] O conteúdo de áudio 520 no primeiro formato pode compreender informações de mapa de intensidade sonora direcional dos sinais de áudio de entrada no primeiro formato. Com base nas informações de mapa de intensidade sonora direcional, o conversor de formato 500 é, por exemplo, configurado para obter o mapa geral de intensidade sonora direcional 142 e/ou um ou mais mapas de intensidade sonora direcional. Os um ou mais mapas de intensidade sonora direcional podem representar mapas de intensidade sonora direcional de cada sinais de áudio de entrada no primeiro formato e/ou mapas de intensidade sonora direcional de grupos ou pares de sinais no primeiro formato. O conversor de formato 500 é, por exemplo, configurado para derivar o mapa geral de intensidade sonora direcional 142 dos um ou mais mapas de intensidade sonora direcional ou informações de mapa de intensidade sonora direcional.
[0234] O ajuste de complexidade 540 é, por exemplo, realizado de modo que o mesmo seja controlado se um pulo de um ou mais dos sinais de áudio de entrada do primeiro formato que contribui para o mapa de intensidade sonora direcional abaixo de um limite for possível. Em outras palavras, o conversor de formato 500 é, por exemplo, configurado para computar ou estimar uma contribuição de um determinado sinal de áudio de entrada para o mapa geral de intensidade sonora direcional 142 da cena de áudio e decidir se considera o determinado sinal de áudio de entrada na conversão de formato 510 em dependência das computação ou estimativa da contribuição. A contribuição computada ou estimada é, por exemplo, comparada com um valor limítrofe absoluto ou relativo predeterminado pelo conversor de formato 500.
[0235] As contribuições dos sinais de áudio de entrada do primeiro formato para o mapa geral de intensidade sonora direcional 142 podem indicar uma relevância do respectivo sinal de áudio de entrada para uma qualidade de uma percepção do conteúdo de áudio 530 no segundo formato. Assim, por exemplo, apenas sinais de áudio no primeiro formato com alta relevância se submetem à conversão de formato
510. Isso pode resultar em um conteúdo de áudio de alta qualidade 530 no segundo formato.
[0236] A Figura 19 mostra um decodificador de áudio 400 para decodificar 410 um conteúdo de áudio codificado 420. O decodificador de áudio 400 é configurado para receber a representação codificada 420 de um ou mais sinais de áudio e fornecer uma representação decodificada 412 dos um ou mais sinais de áudio. A decodificação 410 usa, por exemplo, uma decodificação do tipo AAC ou uma decodificação de valores espectrais codificados por entropia. O decodificador de áudio 400 é configurado para reconstruir 430 uma cena de áudio com o uso da representação decodificada 412 dos um ou mais sinais de áudio. O decodificador de áudio 400 é configurado para ajustar 440 uma complexidade de decodificação em dependência de contribuições de sinais codificados para um mapa geral de intensidade sonora direcional 142 de uma cena de áudio decodificada 434.
[0237] O ajuste de complexidade de decodificação 440 pode ser realizado pelo decodificador de áudio 400 similar ao ajuste de complexidade 540 do conversor de formato 500 na Figura 18.
[0238] De acordo com uma modalidade, o decodificador de áudio 400 é configurado para receber informações de mapa de intensidade sonora direcional codificadas, por exemplo, extraídas do conteúdo de áudio codificado 420. As informações de mapa de intensidade sonora direcional codificadas podem ser decodificadas 410 pelo decodificador de áudio 400 para determinar informações de intensidade sonora direcional decodificadas 414. Com base nas informações de intensidade sonora direcional decodificadas 414, um mapa geral de intensidade sonora direcional dos um ou mais sinais de áudio do conteúdo de áudio codificado 420 e/ou um ou mais mapas individuais de intensidade sonora direcional dos um ou mais sinais de áudio do conteúdo de áudio codificado 420 pode ser obtido. O mapa geral de intensidade sonora direcional dos um ou mais sinais de áudio do conteúdo de áudio codificado 420 é, por exemplo, derivado dos um ou mais mapas individuais de intensidade sonora direcional.
[0239] O mapa geral de intensidade sonora direcional 142 da cena de áudio decodificada 434 pode ser calculado por um mapa de intensidade sonora direcional determinação 100, que pode ser realizado opcionalmente pelo decodificador de áudio
400. De acordo com uma modalidade, o decodificador de áudio 400 compreende um analisador de áudio conforme descrito em relação à Figura 1 ou à Figura 4b para realizar o mapa de intensidade sonora direcional determinação 100 ou o decodificador de áudio 400 pode transmitir a cena de áudio decodificada 434 para o analisador de áudio externo e receber do analisador de áudio externo o mapa geral de intensidade sonora direcional 142 da cena de áudio decodificada 434.
[0240] De acordo com uma modalidade, o decodificador de áudio 400 é configurado para computar ou estimar uma contribuição de um determinado codificado sinal para o mapa geral de intensidade sonora direcional 142 da cena de áudio decodificada e decidir se decodifica 410 o determinado sinal codificado em dependência das computação ou estimativa da contribuição. Assim, por exemplo, o mapa geral de intensidade sonora direcional dos um ou mais sinais de áudio do conteúdo de áudio codificado 420 pode ser comparado com o mapa geral de intensidade sonora direcional da cena de áudio decodificada 434. A determinação das contribuições pode ser realizada conforme descrito acima (por exemplo, conforme descrito em relação à Figura 13 ou à Figura 14) ou similarmente.
[0241] Alternativamente, o decodificador de áudio 400 é configurado para computar ou estimar uma contribuição de um determinado sinal codificado para o mapa geral de intensidade sonora direcional decodificado 414 de um codificado cena de áudio e decidir se decodifica 410 o determinado sinal codificado em dependência das computação ou estimativa da contribuição.
[0242] O ajuste de complexidade 440 é, por exemplo, realizado de modo que o mesmo seja controlado se um pulo de uma ou mais das representações codificada de um ou mais sinais de áudio de entrada, que contribui para o mapa de intensidade sonora direcional abaixo de um limite for possível.
[0243] Adicional ou alternativamente, o ajuste de complexidade de decodificação 440 pode ser configurado para adaptar parâmetros de decodificação com base nas contribuições.
[0244] Adicional ou alternativamente, o ajuste de complexidade de decodificação 440 pode ser configurado para comparar mapas de intensidade sonora direcional decodificados 414 com o mapa geral de intensidade sonora direcional da cena de áudio decodificada 434 (por exemplo, o mapa geral de intensidade sonora direcional da cena de áudio decodificada 434 é o mapa de intensidade sonora direcional alvo) para adaptar parâmetros de decodificação.
[0245] A Figura 20 mostra uma modalidade de um renderizador 600. O renderizador 600 é, por exemplo, um renderizador binaural ou um renderizador de soundbar ou um renderizador de alto-falante. Com o renderizador 600, um conteúdo de áudio 620 é renderizado para obter um conteúdo de áudio renderizado 630. O conteúdo de áudio 620 pode compreender um ou mais sinais de áudio de entrada 622. O renderizador 600 usa, por exemplo, os um ou mais sinais de áudio de entrada 622 para reconstruir 640 uma cena de áudio. Preferencialmente, a reconstrução 640 realizada pelo renderizador 600 é baseada em dois ou mais sinais de áudio de entrada
622. De acordo com uma modalidade, o sinal de áudio de entrada 622 pode compreender um ou mais sinais de áudio, um ou mais sinais de mixagem de redução, um ou mais sinais residuais, outros sinais de áudio e/ou informações adicionais.
[0246] De acordo com uma modalidade, para a reconstrução 640 da cena de áudio, o renderizador 600 é configurado para analisar os um ou mais sinais de áudio de entrada 622 para otimizar um renderização para obter uma cena de áudio desejada. Assim, por exemplo, o renderizador 600 é configurado para modificar uma disposição espacial de objetos de áudio do conteúdo de áudio 620. Isso significa, por exemplo, que o renderizador 600 pode reconstruir 640 uma nova cena de áudio. A nova cena de áudio compreende, por exemplo, objetos de áudio redispostos em comparação a uma cena de áudio do conteúdo de áudio original 620. Isso significa, por exemplo, que um guitarrista e/ou um cantor e/ou outros objetos de áudio são posicionados na nova cena de áudio em diferentes localizações espaciais que na cena de áudio original.
[0247] Adicional ou alternativamente, um número de canais de áudios ou uma relação entre canais de áudio é renderizado pelo renderizador de áudio 600. Assim, por exemplo, o renderizador 600 pode renderizar um conteúdo de áudio 620 que compreende um sinal de múltiplos canais em, por exemplo, um sinal de dois canais. Isso é, por exemplo, desejável se apenas dois alto-falantes estiverem disponíveis para uma representação do conteúdo de áudio 620.
[0248] De acordo com uma modalidade, a renderização é realizada pelo renderizador 600 de modo que a nova cena de áudio mostre apenas desvios menores em relação à cena de áudio original.
[0249] O renderizador 600 é configurado para ajustar 650 uma complexidade de renderização em dependência de contribuições dos sinais de áudio de entrada 622 para um mapa geral de intensidade sonora direcional 142 de uma cena de áudio renderizada 642. De acordo com uma modalidade, a cena de áudio renderizada 642 pode representar a nova cena de áudio descrita acima. De acordo com uma modalidade, o conteúdo de áudio 620 pode compreender o mapa geral de intensidade sonora direcional 142 como informações laterais. Esse mapa geral de intensidade sonora direcional 142 recebido como informações laterais pelo renderizador 600 pode indicar uma cena de áudio desejada para o conteúdo de áudio renderizado 630. Alternativamente, um mapa de intensidade sonora direcional determinação 100 pode determinar o mapa geral de intensidade sonora direcional 142 com base na cena de áudio renderizada recebida da unidade de reconstrução 640. De acordo com uma modalidade, o renderizador 600 pode compreender o mapa de intensidade sonora direcional determinação 100 ou receber o mapa geral de intensidade sonora direcional 142 de uma determinação de mapa de intensidade sonora direcional externa 100. De acordo com uma modalidade, o mapa de intensidade sonora direcional determinação 100 pode ser realizado por um analisador de áudio conforme descrito acima.
[0250] De acordo com uma modalidade, o ajuste 650 da complexidade de renderização é, por exemplo, realizado ao pular um ou mais dos sinais de áudio de entrada 622. Os sinais de áudio de entrada 622 a serem pulados são, por exemplo, sinais que contribuem para o mapa de intensidade sonora direcional 142 abaixo de um limite. Assim, apenas sinais de áudio de entrada relevantes são renderizados pelo renderizador de áudio 600.
[0251] De acordo com uma modalidade, o renderizador 600 é configurado para computar ou estimar uma contribuição de um determinado sinal de áudio de entrada 622 para o mapa geral de intensidade sonora direcional 142 da cena de áudio, por exemplo, da cena de áudio renderizada 642. Adicionalmente, o renderizador 600 é configurado para decidir se deve considerar o determinado sinal de áudio de entrada na renderização em dependência de uma computação ou estimativa da contribuição. Assim, por exemplo, a contribuição computada ou estimada é comparada com um valor de limite relativo ou absoluto predeterminado.
[0252] A Figura 21 mostra um método 1000 para analisar um sinal de áudio. O método compreende obter 1100 uma pluralidade de representações de domínio espectral ponderado (por exemplo, domínio de tempo-frequência) (𝑌𝑖,𝑏,Ψ0,𝑗 (𝑚, 𝑘), 𝑌𝐷𝑀,𝑏,Ψ0,𝑗 (𝑚, 𝑘), para diferentes Ψ0 (j 𝜖 [1;J]); “sinais direcionais”) com base em uma ou mais representações de domínio espectral (por exemplo, domínio de tempo-
frequência) (por exemplo, 𝑋𝑖,𝑏 (𝑚, 𝑘), por exemplo, para i={L;R}; ou 𝑋𝐷𝑀,𝑏 (𝑚, 𝑘)) de dois ou mais sinais de áudio de entrada (xL, xR, xi). Os valores de uma ou mais representações de domínio espectral (por exemplo, 𝑋𝑖,𝑏 (𝑚, 𝑘)) são ponderados 1200 em dependência de diferentes direções (por exemplo, direções de movimentação Ψ0 )(por exemplo, representadas por fatores de ponderação Ψ(m, k)) de componentes de áudio (por exemplo, de compartimentos espectrais ou bandas espectrais) (por exemplo, tons de instrumentos ou cantores) em dois ou mais sinais de áudio de entrada, para obter a pluralidade de representações de domínio espectral ponderadas (𝑌𝑖,𝑏,Ψ0,𝑗 (𝑚, 𝑘), 𝑌𝐷𝑀,𝑏,Ψ0,𝑗 (𝑚, 𝑘), para diferentes Ψ0 (j 𝜖 [1;J]); “sinais direcionais”).
Adicionalmente, o método compreende obter 1300 informações de intensidade sonora (por exemplo, L(m, Ψ0,𝑗 ) para uma pluralidade de diferentes Ψ0 ; por exemplo, “mapa de intensidade sonora direcional”) associadas às direções diferentes (por exemplo, direções de movimentação Ψ0 ) com base na pluralidade de representações de domínio espectral ponderadas (𝑌𝑖,𝑏,Ψ0,𝑗 (𝑚, 𝑘), 𝑌𝐷𝑀,𝑏,Ψ0,𝑗 (𝑚, 𝑘), para diferentes Ψ0 (j 𝜖 [1;J]); “sinais direcionais”) como um resultado de análise.
[0253] A Figura 22 mostra um método 2000 para avaliar uma similaridade de sinais de áudio. O método compreende obter 2100 primeiras informações de intensidade sonora (L1(m,Ψ0,𝑗 ); mapa de intensidade sonora direcional; valor de intensidade sonora combinado) associadas a diferentes (por exemplo, movimentação) direções (por exemplo, Ψ0,𝑗 ) com base em um primeiro conjunto de dois ou mais sinais de áudio de entrada (xR, xL, xi), e comparar 2200 as primeiras informações de intensidade sonora (L1(m,Ψ0,𝑗 )) com um segundo (por exemplo, correspondente) informações de intensidade sonora (L2(m,Ψ0,𝑗 ); informações de intensidade sonora de referência; mapa de intensidade sonora direcional diferente; valor de intensidade sonora combinado de referência) associadas às direções de movimentação diferentes (por exemplo, Ψ0,𝑗 ) e com um conjunto de dois ou mais sinais de áudio de referência (x2,R, x2,L, x2,i), a fim de obter 2300 informações de similaridade (por exemplo, “Variável de Saída de Modelo” (MOV)) descrevendo uma similaridade entre o primeiro conjunto de dois ou mais sinais de áudio de entrada (xR, xL, xi) e o conjunto de dois ou mais sinais de áudio de referência (x2,R, x2,L, x2,i)(ou representar uma qualidade do primeiro conjunto de dois ou mais sinais de áudio de entrada quando comparados ao conjunto de dois ou mais sinais de áudio de referência).
[0254] A Figura 23 mostra um método 3000 para codificação de um conteúdo de áudio de entrada que compreende um ou mais sinais de áudio de entrada (preferencialmente uma pluralidade de sinais de áudio de entrada). O método compreende fornecer 3100 um ou mais sinais de áudio codificados (por exemplo, quantizados e, então, codificados sem dissipação de energia) (por exemplo, representações codificadas de domínio espectral) com base em um ou mais sinais de áudio de entrada (por exemplo, sinal esquerdo e sinal direito), ou um ou mais sinais derivados dos mesmos (por exemplo, sinal médio ou sinal de mixagem de redução e sinal lateral ou sinal de diferença). Adicionalmente, o método 3000 compreende adaptar 3200 o fornecimento de um ou mais sinais de áudio codificados em dependência de um ou mais mapas de intensidade sonora direcional que representam informações de intensidade sonora associadas a uma pluralidade de diferentes direções (por exemplo, direções de movimentação) dos um ou mais sinais a serem codificados (por exemplo, em dependência de contribuições de mapas individuais de intensidade sonora direcional dos um ou mais sinais a serem quantizados para um mapa geral de intensidade sonora direcional, por exemplo, associado a múltiplos sinais de áudio de entrada (por exemplo, com cada sinal dos um ou mais sinais de áudio de entrada)).
[0255] A Figura 24 mostra um método 4000 para codificação de um conteúdo de áudio de entrada que compreende um ou mais sinais de áudio de entrada (preferencialmente uma pluralidade de sinais de áudio de entrada). O método compreende fornecer 4100 um ou mais sinais de áudio codificados (por exemplo, quantizados e, então, codificados sem dissipação de energia) (por exemplo, representações codificadas de domínio espectral) com base em dois ou mais sinais de áudio de entrada (por exemplo, sinal esquerdo e sinal direito), ou com base em dois ou mais sinais derivados dos mesmos, com o uso de uma codificação conjunta de dois ou mais sinais a serem codificados juntamente (por exemplo, com o uso de um sinal médio ou sinal de mixagem de redução e um sinal lateral ou sinal de diferença). Adicionalmente, o método 4000 compreende selecionar 4200 sinais a serem codificados juntamente dentre uma pluralidade de sinais candidatos ou dentre uma pluralidade de pares de sinais candidatos (por exemplo, dentre dos dois ou mais sinais de áudio de entrada ou dentre dos dois ou mais sinais derivados dos mesmos) em dependência de mapas de intensidade sonora direcional que representam informações de intensidade sonora associadas a uma pluralidade de diferentes direções (por exemplo, direções de movimentação) dos sinais candidatos ou dos pares de sinais candidatos (por exemplo, em dependência de contribuições de mapas individuais de intensidade sonora direcional dos sinais candidatos para um mapa geral de intensidade sonora direcional, por exemplo, associadas a múltiplos sinais de áudio de entrada (por exemplo, com cada sinal dos um ou mais sinais de áudio de entrada), ou em dependência de contribuições de mapas de intensidade sonora direcional de pares de sinais candidatos para um mapa geral de intensidade sonora direcional).
[0256] A Figura 25 mostra um método 5000 para codificação de um conteúdo de áudio de entrada que compreende um ou mais sinais de áudio de entrada (preferencialmente uma pluralidade de sinais de áudio de entrada). O método compreende fornecer 5100 um ou mais sinais de áudio codificados (por exemplo, quantizados e, então, codificados sem dissipação de energia) (por exemplo, representações codificadas de domínio espectral) com base em dois ou mais sinais de áudio de entrada (por exemplo, sinal esquerdo e sinal direito), ou com base em dois ou mais sinais derivados dos mesmos. Adicionalmente, o método 5000 compreende determinar 5200 um mapa geral de intensidade sonora direcional (por exemplo, um mapa de intensidade sonora direcional alvo de uma cena) com base nos sinais de áudio de entrada e/ou determinar um ou mais mapas individuais de intensidade sonora direcional associados a sinais individuais de áudio de entrada e codificar 5300 o mapa geral de intensidade sonora direcional e/ou um ou mais mapas de intensidade sonora direcional individuais como informações laterais.
[0257] A Figura 26 mostra um método 6000 para decodificar um conteúdo de áudio codificado, que compreende receber 6100 uma representação codificada de um ou mais sinais de áudio e fornecer 6200 uma representação decodificada dos um ou mais sinais de áudio (por exemplo, com o uso de uma decodificação do tipo AAC ou com o uso de uma decodificação de valores espectrais codificados por entropia). O método 6000 compreende receber 6300 informações de mapa de intensidade sonora direcional codificadas e decodificar 6400 as informações de mapa de intensidade sonora direcional codificadas, para obter 6500 um ou mais mapas de intensidade sonora direcional (decodificados). Adicionalmente, o método 6000 compreende reconstruir 6600 uma cena de áudio com o uso da representação decodificada dos um ou mais sinais de áudio e com o uso de um ou mais mapas de intensidade sonora direcional.
[0258] A Figura 27 mostra um método 7000 para converter 7100 um formato de um conteúdo de áudio, que representa uma cena de áudio (por exemplo, uma cena de áudio espacial), a partir de um primeiro formato para um segundo formato (em que o primeiro formato pode, por exemplo, compreender um primeiro número de canais ou sinais de áudio de entrada e informações laterais ou informações laterais espaciais adaptadas para o primeiro número de canais ou sinais de áudio de entrada, e em que o segundo formato pode, por exemplo, compreender um segundo número de canais ou sinais de saída de áudio, que podem ser diferentes do primeiro número de canais ou sinais de áudio de entrada, e informações laterais ou informações laterais espaciais adaptadas para o segundo número de canais ou sinais de saída de áudio). O método 7000 compreende fornecer uma representação do conteúdo de áudio no segundo formato com base nas representação do conteúdo de áudio no primeiro formato e ajustar 7200 uma complexidade da conversão de formato (por exemplo, ao pular um ou mais dos sinais de áudio de entrada do primeiro formato, que contribui para o mapa de intensidade sonora direcional abaixo de um limite, no processo de conversão de formato) em dependência de contribuições de sinais de áudio de entrada do primeiro formato (por exemplo, um ou mais sinais de áudio, um ou mais sinais de mixagem de redução, um ou mais sinais residuais, etc.) para um mapa geral de intensidade sonora direcional da cena de áudio (em que o mapa geral de intensidade sonora direcional pode, por exemplo, ser descrito por informações laterais do primeiro formato recebido pelo conversor de formato).
[0259] A Figura 28 mostra um método 8000 para decodificar um conteúdo de áudio codificado, que compreende receber 8100 uma representação codificada de um ou mais sinais de áudio e fornecer 8200 uma representação decodificada dos um ou mais sinais de áudio (por exemplo, com o uso de um decodificação do tipo AAC ou com o uso de um decodificação de valores espectrais codificados por entropia). O método 8000 compreende reconstruir 8300 uma cena de áudio com o uso da representação decodificada dos um ou mais sinais de áudio. Adicionalmente, o método 8000 compreende ajustar 8400 uma complexidade de decodificação em dependência de contribuições de sinais codificados (por exemplo, um ou mais sinais de áudio, um ou mais sinais de mixagem de redução, um ou mais sinais residuais, etc.) para um mapa geral de intensidade sonora direcional de uma cena de áudio decodificada.
[0260] A Figura 29 mostra um método 9000 para renderizar um conteúdo de áudio (por exemplo, para mixagens de aumento de um conteúdo de áudio representado com o uso de um primeiro número de canais de áudio de entrada e informações laterais que descrevem características espaciais desejadas, como uma disposição de objetos de áudio ou uma relação entre canais de áudio, em uma representação que compreende um número de canais que é maior que o primeiro número de canais de áudio de entrada), que compreende reconstruir 9100 uma cena de áudio com base em um ou mais sinais de áudio de entrada (ou com base em dois ou mais sinais de áudio de entrada). O método 9000 compreende ajustar 9200 uma complexidade de renderização (por exemplo, ao pular um ou mais dos sinais de áudio de entrada, que contribuem com o mapa de intensidade sonora direcional abaixo de um limite, no processo de renderização) em dependência de contribuições dos sinais de áudio de entrada (por exemplo, um ou mais sinais de áudio, um ou mais sinais de mixagem de redução, um ou mais sinais residuais, etc.) para um mapa geral de intensidade sonora direcional de uma cena de áudio renderizada (em que o mapa geral de intensidade sonora direcional pode, por exemplo, ser descrito por informações laterais recebidas pelo renderizador). OBSERVAÇÕES:
[0261] A seguir, diferentes modalidades inventivas e aspectos serão descritos em um capítulo “avaliação objetiva de qualidade de áudio espacial com o uso de mapas de intensidade sonora direcional”, em um capítulo “Uso de intensidade sonora direcional para medição de qualidade objetiva e codificação de áudio”, em um capítulo “intensidade sonora direcional para codificação de áudio”, em um capítulo “Etapas genéricas para computar um mapa de intensidade sonora direcional (DirLoudMap)”, em um capítulo “Exemplo: Recuperar os sinais direcionais com função de janelamento/seleção derivada do índice de movimentação” e em um capítulo “Modalidades de Diferentes formas de calcular os mapas de intensidade sonora com o uso de funções de critério generalizadas”.
[0262] Além disso, as modalidades adicionais serão definidas pelas reivindicações anexas.
[0263] Deve ser notado que quaisquer modalidades conforme definido pelas reivindicações podem ser suplementadas por qualquer um dos detalhes (recursos e funcionalidades) descritos nos capítulos mencionados acima.
[0264] Além disso, as modalidades descritas nos capítulos acima mencionados podem ser usadas individualmente e também podem ser suplementadas por qualquer uma das características em outro capítulo, ou por qualquer característica incluída nas reivindicações.
[0265] Além disso, deve-se notar que os aspectos individuais descritos na presente invenção podem ser usados individualmente ou em combinação. Assim, os detalhes podem ser adicionados a cada um dos ditos aspectos individuais sem adicionar os detalhes para um dos ditos aspectos.
[0266] Também deve-se notar a presente revelação descreve, explícita ou implicitamente, os recursos úteis em um codificador de áudio (aparelho para fornecer uma representação codificada de um sinal de áudio de entrada) e em um decodificador de áudio (aparelho para fornecer uma representação decodificada de um sinal de áudio com base em uma representação codificada ). Assim, qualquer um dos recursos descritos na presente invenção pode ser usado no contexto de um codificador de áudio e no contexto de um decodificador de áudio.
[0267] Além disso, os recursos e funcionalidades revelados na presente invenção relacionados a um método também podem ser usados em um aparelho (configurado para realizar tal funcionalidade). Adicionalmente, quaisquer recursos e funcionalidades revelados na presente revelação em relação a um aparelho também podem ser usados em um método correspondente. Em outras palavras, os métodos revelados na presente revelação podem ser suplementados por qualquer um dos recursos e funcionalidades descritos em relação aos aparelhos.
[0268] Além disso, qualquer um dos recursos e funcionalidades descritos na presente revelação pode ser implementado em hardware ou em software, ou com o uso de uma combinação de hardware e software, como será descrito na seção “alternativas de implementação”. ALTERNATIVAS DE IMPLEMENTAÇÃO:
[0269] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é evidente que esses aspectos também representam uma descrição do método correspondente, em que um bloco ou um dispositivo corresponde a uma etapa do método ou um recurso de uma etapa do método. De modo análogo, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item ou recurso correspondente de um aparelho correspondente. Algumas ou todas as etapas do método podem ser executadas por (ou com o uso de) um aparelho de hardware, como, por exemplo, um microprocessador, um computador programável ou um circuito eletrônico. Em algumas modalidades, uma ou mais das etapas mais importantes do método podem ser executadas por tal aparelho.
[0270] Dependendo de determinados requisitos de implantação, as modalidades da invenção podem ser implantadas em hardware ou em software. A implantação pode ser realizada com o uso de uma mídia de armazenamento digital, por exemplo, um disquete, um DVD, um Blu-Ray, um CD, uma ROM, uma PROM, uma EPROM, uma EEPROM ou uma memória FLASH, que tem sinais de controle eletronicamente legíveis armazenados no mesmo, que cooperam (ou têm capacidade para cooperar) com um sistema de computador programável, de modo que o respectivo método seja realizado. Portanto, o meio de armazenamento digital pode ser legível por computador.
[0271] Algumas modalidades, de acordo com a invenção, compreendem uma portadora de dados que tem sinais de controle eletronicamente legíveis, que têm a capacidade de cooperar com um sistema de computador programável de tal modo que um dentre os métodos descritos no presente documento seja realizado.
[0272] Em geral, as modalidades da presente invenção podem ser implantadas como um produto de programa de computador com um código de programa, em que o código de programa é operacional para realizar um dentre os métodos quando o produto de programa de computador opera em um computador. O código de programa pode, por exemplo, ser armazenado em uma portadora legível por máquina.
[0273] Outras modalidades compreendem o programa de computador para desempenho de um dentre os métodos descritos no presente documento, armazenado em uma portadora legível por máquina.
[0274] Em outras palavras, uma modalidade do método inventivo é, portanto, um programa de computador que tem um código de programa para desempenho de um dos métodos descritos no presente documento, quando o programa de computador é executado em um computador.
[0275] Uma modalidade adicional dos métodos inventivos é, portanto, uma portadora de dados (ou uma mídia de armazenamento digital, ou uma mídia legível por computador) que compreende, registrado no mesmo, o programa de computador para desempenho de um dentre os métodos descritos no presente documento. A portadora de dados, a mídia de armazenamento digital ou a mídia gravada são, tipicamente, tangíveis e/ou de não transição.
[0276] Uma modalidade adicionalmente do método inventivo é, portanto, um fluxo de dados ou uma sequência de sinais que representa o programa de computador para realizar um dos métodos descritos no presente documento. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurada para ser transferida por meio de uma conexão de comunicação de dados, por exemplo, por meio da Internet.
[0277] Uma modalidade adicional compreende meios de processamento, por exemplo, um computador ou um dispositivo de lógica programável, configurados ou adaptados para realizar um dentre os métodos descritos no presente documento.
[0278] Uma modalidade adicional compreende um computador que tem instalado em si o programa de computador para desempenho de um dos métodos descritos no presente documento.
[0279] Uma modalidade adicional, de acordo com a invenção, compreende um aparelho e um sistema configurados para transferir (por exemplo, de modo eletrônico ou óptico) um programa de computador para desempenho de um dos métodos descritos no presente documento para um receptor. O receptor pode, por exemplo, ser um computador, um dispositivo móvel, um dispositivo de memória ou semelhantes. O aparelho ou sistema pode, por exemplo, compreender um servidor de arquivo para transferência do programa de computador ao receptor.
[0280] Em algumas modalidades, um dispositivo de lógica programável (por exemplo, um arranjo de porta programável em campo) pode ser usado para desempenho de uma parte ou todas as funcionalidades dos métodos descritos no presente documento. Em algumas modalidades, uma matriz de portas programável em campo pode cooperar com um microprocessador a fim de realizar um dentre os métodos descritos no presente documento. De modo geral, os métodos são realizados, de preferência, por meio de qualquer aparelho de hardware.
[0281] O aparelho descrito no presente documento pode ser implantado com a utilização de um aparelho de hardware, ou com a utilização de um computador, ou com a utilização de uma combinação de um aparelho de hardware e um computador.
[0282] O aparelho descrito no presente documento, ou quaisquer componentes do aparelho descrito no presente documento, podem ser implantados pelo menos parcialmente em hardware e/ou em software.
[0283] Os métodos descritos no presente documento podem ser realizados com o uso de um aparelho de hardware, ou com o uso de um computador, ou com o uso de uma combinação de um aparelho de hardware e um computador.
[0284] Os métodos descritos no presente documento, ou quaisquer componentes do aparelho descrito no presente documento, podem ser realizados pelo menos parcialmente por hardware e/ou por software.
[0285] As modalidades descritas acima são apenas ilustrativas para os princípios da presente invenção. Entende-se que as modificações e variações das disposições e os detalhes descritos no presente documento serão evidentes para outros indivíduos versados na técnica. Portanto, pretende-se que sejam limitadas somente pelo escopo das reivindicações da patente iminentes e não pelos detalhes específicos apresentados a título de descrição e explicação das modalidades no presente documento.
AVALIAÇÃO OBJETIVA DE QUALIDADE DE ÁUDIO ESPACIAL COM O USO DE MAPAS DE intensidade sonora direcional
RESUMO
[0286] Esse trabalho introduz um recurso extraído, por exemplo, dos sinais de áudio estereofônicos/binaurais que servem como uma medição de degradação de qualidade percebida em cenas auditivas espaciais processadas. O recurso pode ter como base um modelo simplificado que assume uma mixagem estéreo criada por sinais direcionais posicionados com o uso de técnicas de movimentação de nível de amplitude. Calculou-se, por exemplo, a intensidade sonora associada na imagem estéreo para cada sinal direcional no domínio Transformada de Fourier de Curto Termo (STFT) para comparar um sinal de referência e um versão deteriorada e derivar uma medida de distorção que tem como objetivo descrever as pontuações de degradação percebidas relatadas em testes de audição.
[0287] A medida foi testada em uma extensa base de dados de teste de escuta com sinais estéreo processados por codecs de áudio perceptuais do estado da técnica com o uso de técnicas que não preservam a forma de onda, como extensão de largura de banda e codificação estéreo conjunta, conhecidas por apresentar um desafio aos preditores de qualidade existentes [1], [2]. Os resultados sugerem que a medida de distorção derivada pode ser incorporada como uma extensão aos algoritmos de avaliação de qualidade perceptual automatizados existentes para melhorar a previsão em sinais de áudio codificados espacialmente. TERMOS DE ÍNDICE — ÁUDIO ESPACIAL, AVALIAÇÃO DE QUALIDADE OBJETIVA, PEAQ, ÍNDICE DE MOVIMENTAÇÃO.
1. INTRODUÇÃO
[0288] Propôs-se um recurso simples com o objetivo de descrever a deterioração na imagem auditiva estéreo percebida, por exemplo, com base na mudança de intensidade sonora em regiões que compartilham um índice de movimentação comum
[13]. Isto é, por exemplo, as regiões em tempo e frequência de um sinal binaural que compartilham a mesma razão de nível de intensidade entre canais à esquerda e à direita canais correspondendo, portanto, a uma direção percebida determinada no plano horizontal da imagem auditiva.
[0289] O uso de medições de intensidade sonora direcional no contexto de análise de cena auditiva para renderização de áudio de ambientes virtuais complexos também é proposto em [14], enquanto o trabalho atual está focado na avaliação objetiva de qualidade de codificação espacial de áudio geral.
[0290] A distorção de imagem estéreo percebida pode ser refletida como alterações em um mapa de intensidade sonora direcional de uma determinada granularidade correspondente à quantidade de valores de índice de movimentação a serem avaliados como um parâmetro.
2. MÉTODO
[0291] De acordo com uma modalidade, o sinal de referência (REF) e o sinal em teste (SUT) são processados em paralelo a fim de extrair recursos que têm como objetivo descrever -quando comparada- a degradação de qualidade auditória percebida causada pelas operações executadas a fim de produzir o SUT.
[0292] Ambos os sinais binaurais podem ser processados primeiro por um bloco de modelo de ouvido periférico. Cada sinal de entrada é, por exemplo, decomposto no domínio de STFT com o uso de uma janela Hann de amostras 𝑀 = 1024de tamanho de bloco e sobreposição de 𝑀/2, dando uma resolução de tempo de 21 ms em uma taxa de amostragem de 𝐹𝑠 = 48 𝑘𝐻𝑧. Os compartimentos de frequência do sinal transformado são, então, por exemplo, agrupados para levar em consideração a seletividade de frequência da cóclea humana seguindo a escala de ERB [15] em um total de 𝐵 = 20 bandas ou subconjuntos de compartimentos de frequência. Cada banda pode, então, ser ponderada por um valor derivado da função de transferência linear combinada que modela o ouvido externo e média como explicado em [3].
[0293] O modelo periférico emite, então, sinais 𝑋𝑖,𝑏 (𝑚, 𝑘) em cada período de tempo 𝑚, e compartimento de frequência 𝑘, e para cada canal 𝑖 = {𝐿, 𝑅} e cada grupo de frequência 𝑏 ∈ {0, … , 𝐵 − 1}, com diferentes larguras 𝐾𝑏 expressadas em compartimentos de frequência.
[0294] 2.1. Cálculo de Intensidade Sonora Direcional (por exemplo, realizado por um analisador de áudio e/ou avaliador de similaridade de áudio descritos na presente invenção)
[0295] De acordo com uma modalidade, o cálculo de intensidade sonora direcional pode ser realizado para diferentes direções, de modo que, por exemplo, a direção de movimentação determinada Ψ0 possa ser interpretada como Ψ0,j com j ϵ [1;J]. O seguinte conceito tem como base o método apresentado em [13], em que uma similaridade medida entre os canais à esquerda e à direita de um sinal binaural no domínio de STFT pode ser usada para extrair regiões de tempo e frequência ocupadas por cada fonte em uma gravação estereofônica com base em seus coeficientes de movimentação designados durante o processo de mixagem.
[0296] Dada a saída do modelo periférico 𝑋𝑖,𝑏 (𝑚, 𝑘), um bloco de tempo- frequência (T/F) 𝑌𝑖,𝑏,Ψ0 pode ser recuperado do sinal de entrada correspondente a uma direção de movimentação determinada Ψ0 multiplicando-se a entrada por uma função de janela ΘΨ0 : 𝑌𝑖,𝑏,Ψ0 (𝑚, 𝑘) = 𝑋𝑖,𝑏 (𝑚, 𝑘)ΘΨ0 (𝑚, 𝑘). (1)
[0297] O sinal recuperado terá os componentes T/F da entrada que correspondente a uma direção de movimentação Ψ0 em um valor de tolerância. A função de janelamento pode ser definida como uma janela gaussiana centrada na direção de movimentação desejada: 1 − (Ψ(𝑚,𝑘)−Ψ0 )2 ΘΨ0 (𝑚, 𝑘) = 𝑒 2𝜉 (2) em que Ψ(𝑚, 𝑘) é o índice de movimentação conforme calculado em [13] com um suporte definido de [−1,1] correspondente aos sinais movimentados completamente para a esquerda ou para a direita, respectivamente. De fato, 𝑌𝑖,𝑏,Ψ0 pode conter compartimentos de frequência cujos valores nos canais à esquerda e à direita farão com que a função Ψ tenha um valor de Ψ0 ou esteja em sua proximidade. Todos os outros componentes podem ser atenuados de acordo com a função gaussiana. O valor de 𝜉 representa a largura da janela e, portanto, a proximidade mencionada para cada direção de movimentação. Um valor de 𝜉 = 0.006 foi escolhido, por exemplo, para uma Razão entre Sinal e Interferência (SIR) de −60 dB [13]. Opcionalmente, um conjunto de direções de movimentação igualmente espaçados 22 dentro de [−1,1] é escolhido empiricamente para os valores de Ψ0 . Para cada sinal recuperado, um cálculo de intensidade sonora [16] em cada banda de ERB e dependente da direção de movimentação é expressado como, por exemplo: 1 0.25 𝐿𝑏,Ψ0 (𝑚) = (𝐾 ∑𝑘∈𝑏 𝑌𝐷𝑀𝑏,Ψ0 (𝑚, 𝑘)2 ) (3) 𝑏 em que 𝑌𝐷𝑀 é o sinal de soma de canais 𝑖 = {𝐿, 𝑅}. A intensidade sonora é, então, medida, por exemplo, por todas as bandas de ERB para fornecer um mapa de intensidade sonora direcional definido pelo domínio de movimentação Ψ0 ∈ [−1,1] ao longo do período de tempo 𝑚: 1 𝐿(𝑚, Ψ0 ) = 𝐵 ∑∀𝑏 𝐿𝑏,Ψ0 (𝑚). (4)
[0298] Para um refinamento posterior, a Equação 4 pode ser calculada apenas considerando um subconjunto das bandas de ERB que correspondem a regiões de frequência de 1.5 kHz e acima para acomodar a sensibilidade do sistema auditivo humano para diferenças de nível nessa região, de acordo com a teoria duplex [17]. De acordo com uma modalidade, as bandas 𝑏 ∈ {7, … ,19} são usadas correspondendo às frequências de 1.34 kHz para 𝐹𝑠 /2.
[0299] Como uma etapa, as mapas de intensidade sonora direcional para a duração do sinal de referência e SUT são, por exemplo, subtraídos e o valor absoluto do residual é, então, medido em todas as direções de movimentação e tempo que produzem um número único chamado de Variável de Saída de Modelo (MOV), seguindo a terminologia em [3]. Espera-se que esse número que expressa de modo eficaz a distorção entre mapas de intensidade sonora direcional de referência e SUT, seja um preditor da degradação de qualidade subjetiva associada relatada em testes de audição.
[0300] A Figura 9 mostra um diagrama de blocos para o cálculo de MOV proposto (valor de saída de modelo). As Figuras 10a a 10c mostram um exemplo de aplicação do conceito de um mapa de intensidade sonora direcional em um par de sinais de referência (REF) e degradados (SUT), e o valor absoluto de sua diferença (DIFF). As Figuras 10a a 10c mostram um exemplo de uma gravação de solo de violino de 5 segundos de duração movimentado para a esquerda. Regiões mais claras nos mapas representam, por exemplo, conteúdo mais alto. O sinal degradado (SUT) apresenta um colapso temporal da direção de movimentação do evento auditivo da esquerda para o centro entre os tempos 2 a 2,5 segundos e, novamente, em 3 a 3,5 segundos.
3. DESCRIÇÃO DE EXPERIMENTO
[0301] A fim de testar e validar a utilidade do MOV proposto, um experimento de regressão similar a um em [18] foi executado em que MOVs foram calculados para pares de referência e SUT em uma base de dados e comparados a suas respectivas pontuações de qualidade subjetivas de um teste de escuta. O desempenho de predição do sistema que faz uso desse MOV é avaliado em termos de correlação contra os dados subjetivos (𝑅), pontuação de erro absoluto (𝐴𝐸𝑆), e número de executantes (𝜈), conforme descrito em [3].
[0302] A base de dados usada para o experimento corresponde a uma parte do
Teste de Verificação de Codificação de Áudio e Fala Unificada (USAC) [19] Set 2, que contém sinais estéreo codificados em taxas de bits que variam de 16 a 24 kbps com o uso de sinais estéreo conjuntos [12] e ferramentas de extensão de largura de banda juntamente com sua pontuação de qualidade na escala de MUSHRA. Itens de fala foram excluídos, uma vez que não se espera que o MOV proposto descreva a principal causa de distorção nos sinais de fala. Um total de 88 itens (por exemplo, comprimento médio de 8 segundos) permaneceu na base de dados para o experimento.
[0303] Para contabilizar possíveis distorções monoaurais/tímbricas na base de dados, as saídas de uma implementação de PEAQ padrão (Versão Avançada) chamado de Grau de Diferença Objetiva (ODG) e POLQA, chamado de Pontuação Média de Opinião (MOS) foram tomadas como MOVs adicionais que complementam a distorção de intensidade sonora direcional (DirLoudDist; por exemplo, DLD) descrita na seção anterior. Todos os MOVs podem ser normalizados e adaptados para gerar uma pontuação de 0 para indicar a melhor qualidade e 1 para indicas a pior qualidade possível. As pontuações de teste de escuta foram escaladas consequentemente.
[0304] Uma fração aleatória do conteúdo disponível da base de dados (60%, 53 itens) foi reservada para treinamento de um modelo de regressão com o uso de Splines de Regressão Adaptativa Multivariada (MARS) [8] que mapeiam os MOVs para as pontuações subjetivas de itens. O restante (35 itens) foi usado para testar o desempenho do modelo de regressão treinado. A fim de remover a influência do procedimento de treinamento da análise de desempenho de MOV geral, o ciclo de treinamento/testagem foi, por exemplo, executado 500 vezes com itens de treinamento/teste aleatorizados e os valores médios para 𝑅, 𝐴𝐸𝑆 e 𝜈 foram considerados como medidas de desempenho.
4. RESULTADOS E DISCUSSÃO Conjunto de MOV (N) R AES ν MOS + ODG (2) 0,77 2,63 12 MOS + ODG + CHOI (5) 0,77 2,39 11
MOS + ODG + EITDD (3) 0,82 2,0 11 MOS + ODG + SEO (6) 0,88 1,65 7 MOS + ODG + DirLoudDist (3) 0,88 1,69 8 TABELA 1: VALORES DE DESEMPENHO MÉDIO PARA 500 CICLOS DE TREINAMENTO/VALIDAÇÃO (POR EXEMPLO, TESTAGEM) DO MODELO DE REGRESSÃO COM DIFERENTES CONJUNTOS DE MOVs. CHOI REPRESENTA OS 3 MOVs BINAURAIS CONFORME CALCULADO EM [20], EITDD
CORRESPONDE AO MOV DE DISTORÇÃO DE ITD DE ENVELOPE DE ALTA FREQUÊNCIA CONFORME CALCULADO EM [1]. SEO CORRESPONDE AOS 4 MOVs BINAURAIS DE [1], INCLUINDO EITDD. DIRLOUDDIST É O MOV PROPOSTO. O NÚMERO EM PARÊNTESES REPRESENTA O NÚMERO TOTAL DE MOVs USADOS. (OPCIONAL)
[0305] A Tabela 1 mostra os valores médios de desempenho (correlação, pontuação de erro absoluto, número de executantes) para o experimento descrito na Seção 3. Além do MOV proposto, os métodos para avaliação objetiva de sinais espacialmente codificados de áudio propostos em [20] e [1] também foram testados para comparação. Ambas as implementações comparadas fazem uso das distorções de pista interaurais clássicas mencionadas na introdução: Distorção de IACC (IACCD), distorção de ILD (ILDD) e ITDD.
[0306] Conforme mencionado, o desempenho de linha de base é determinado por ODG e MOS, ambos alcançam 𝑅 = 0.66 separadamente, mas apresentam um desempenho combinado de 𝑅 = 0.77 conforme mostrado na Tabela 1. Isso confirma que os recursos são complementares na avaliação de distorções monaurais.
[0307] Considerando o trabalho de Choi et. al. [20], a adição das três distorções binaurais (CHOI na Tabela 1) para os dois indicadores de qualidade monaural (perfazendo até cinco MOVs conjuntos) não fornece nenhum ganho adicional para o sistema em termos de desempenho de previsão para o conjunto de dados usado.
[0308] Em [1], alguns refinamentos de modelo opcionais adicionais foram feitos para os recursos mencionados em termos de localização no plano lateral e detectabilidade de distorção de sinalização. Além disso, um MOV inovador que considera as distorções de diferença de tempo interaural de envelope de alta frequência (EITDD) [21] foi, por exemplo, incorporado. O conjunto desses quatro MOVs binaurais (marcados como SEO na Tabela 1) mais os dois descritores monaurais (6 MOVs no total) aprimora significativamente o desempenho de sistema para o presente conjunto de dados.
[0309] A perspectiva para a contribuição na melhoria do EITDD sugere que os envelopes de tempo-energia de frequência, conforme usado em técnicas estéreo conjuntas [12], representam um aspecto saliente da percepção geral da qualidade.
[0310] No entanto, o MOV apresentado com base nas distorções de mapa de intensidade sonora direcional (DirLoudDist) se correlaciona ainda mais com a degradação de qualidade percebida que com EITDD, mesmo alcançando figuras de desempenho similares como a combinação de todos os MOVs binaurais de [1], enquanto usa um MOV adicional para os dois descritores de qualidade monaurais, em vez de quatro. O uso de menos recursos para o mesmo desempenho reduzirá o risco de sobreajuste e indica sua relevância perceptual superior.
[0311] Uma correlação média máxima contra as pontuações subjetivas para a base de dados de 0.88 mostra que ainda há ambiente para melhoria.
[0312] De acordo com uma modalidade, o recurso proposto tem como base um modelo descrito na presente invenção que assume uma descrição simplificada de sinais estéreo em que os objetos auditórios estão apenas localizados no plano lateral por meio de ILDs, que é geralmente o caso no conteúdo de áudio produzido em estúdio [13]. Para distorções de ITD usualmente presentes ao codificar gravações de múltiplos microfones ou mais sons naturais, o modelo precisa ser estendido ou complementado por uma medida de distorção de ITD adequada.
5. CONCLUSÕES E TRABALHO FUTURO
[0313] De acordo com uma modalidade, a métrica de distorção foi introduzida descrevendo as alterações em uma representação da cena auditivo com base na intensidade sonora de eventos que correspondem a uma direção de movimentação determinada. O aumento significativo em desempenho em relação à predição de qualidade apenas monaural mostra a eficácia do método proposto. A aproximação também sugere um complemento ou alternativa possível na medição de qualidade para codificação de áudio espacial de baixa taxa de bit em que as medições de distorção estabelecidas com base em pistas binaurais clássicas não realizam satisfatoriamente, possivelmente devido à natureza de preservação da forma de onda do processamento de áudio envolvido.
[0314] As medições de desempenho mostram que ainda há áreas para melhoria em relação a um modelo mais completo que também inclui distorções auditórias com base nos efeitos diferentes das diferenças de nível de canal. O trabalho futuro também inclui estudar como o modelo pode descrever instabilidades/modulações temporais na imagem estéreo conforme relatado em [12] em contraste às distorções estáticas.
REFERÊNCIAS
[1] Jeong-Hun Seo, Sang Bae Chon, Keong-Mo Sung e Inyong Choi, “Perceptual objective quality evaluation method for high quality multichannel audio codecs”, J. Audio Eng. Soc, vol. 61, nº 7/8, páginas 535 a 545, 2013.
[2] M. Scha¨fer, M. Bahram e P. Vary, “An extension of the PEAQ measure by a binaural hearing model,” in 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, maio de 2013, páginas 8164 a 8168.
[3] ITU-R Rec. BS.1387, Method for objective measurements of perceived audio quality, ITU-T Rec. BS.1387, Genebra, Suíça, 2001.
[4] ITU-T Rec. P.863, “Perceptual objective listening quality assessment”, Tech. Rep., International Telecommunication Union, Genebra, Suíça, 2014.
[5] Sven Ka¨mpf, Judith Liebetrau, Sebastian Schneider e Thomas Sporer, “Standardization of PEAQ-MC: Extension of ITU-R BS.1387-1 to Multichannel Audio,” in Audio Engineering Society Conference: 40th International Conference: Spatial Audio: Sense the Sound of Space, outubro de 2010.
[6] K Ulovec e M Smutny, “Perceived audio quality analysis in digital audio broadcasting plus system based on PEAQ,” Radioengineering, vol. 27, páginas 342 a 352, abril de 2018.
[7] C. Faller e F. Baumgarte, “Binaural cue coding-Part II: Schemes and applications,” IEEE Transactions on Speech and Audio Processing, vol. 11, nº 6, páginas 520 a 531, novembro de 2003.
[8] Jan-Hendrik Fleßner, Rainer Huber e Stephan D. Ewert, “Assessment and prediction of binaural aspects of audio quality,” J. Audio Eng. Soc, vol. 65, nº 11, páginas 929 a 942, 2017.
[9] Marko Takanen e Gae¨tan Lorho, “A binaural auditory model for the evaluation of reproduced stereo- phonic sound,” in Audio Engineering Society Conference: 45th International Conference: Applications of Time-Frequency Processing in Audio, março de 2012.
[10] Robert Conetta, Tim Brookes, Francis Rumsey, Slawomir Zielinski, Martin Dewhirst, Philip Jackson, Søren Bech, David Meares e Sunish George, “Spatial audio quality perception (part 2): A linear regression model,” J. Audio Eng. Soc, vol. 62, nº 12, páginas 847 a 860, 2015.
[11] ITU-R Rec. BS.1534-3, “Method for the subjective assessment of intermediate quality levels of coding systems”, Tech. Rep., International Telecommunication Union, Genebra, Suíça, outubro de 2015.
[12] Frank Baumgarte e Christof Faller, “Why binaural cue coding is better than intensity stereo coding,” in Audio Engineering Society Convention 112, abril de
2002.
[13] C. Avendano, “Frequency-domain source identification and manipulation in stereo mixes for enhancement, suppression and re-panning applications,” in 2003 IEEE Workshop on Applications of Signal Processing to Au- dio and Acoustics, outubro de 2003, páginas 55 a 58.
[14] Nicolas Tsingos, Emmanuel Gallo e George Drettakis, “Perceptual audio rendering of complex virtual environments”, in ACM SIGGRAPH 2004 Papers, Nova York, NY, EUA, 2004, SIGGRAPH ’04, páginas 249 a 258, ACM.
[15] B.C.J. Moore e B.R. Glasberg, “A revision of Zwicker’s loudness model,” Acustica United with Acta Acustica:the Journal of the European Acoustics Associ- ation, vol. 82, nº 2, páginas 335 a 345, 1996.
[16] E. Zwicker, “U¨ber psychologische und methodische Grundlagen der Lautheit [On the psychological and methodological bases of loudness]”, Acustica, vol. 8, páginas 237 a 258, 1958.
[17] Ewan A. Macpherson e John C. Middlebrooks, “Listener weighting of cues for lateral angle: The duplex theory of sound localization revisited,” The Journal of the Acoustical Society of America, vol. 111, nº 5, páginas 2219 a 2236, 2002.
[18] Pablo Delgado, Ju¨rgen Herre, Armin Taghipour e Nadja Schinkel- Bielefeld, “Energy aware modeling of interchannel level difference distortion impact on spatial audio perception”, in Audio Engineering Society Conference: 2018 AES International Conference on Spatial Reproduction - Aesthetics and Science, julho de
2018.
[19] ISO/IEC JTC1/SC29/WG11, “USAC verification test report N12232”, Tech. Rep., International Organisation for Standardisation, 2011.
[20] Inyong Choi, Barbara G. Shinn-Cunningham, Sang Bae Chon e Koeng- Mo Sung, “Objective measurement of perceived auditory quality in multichannel audio compression coding systems”, J. Audio Eng. Soc, vol. 56, nº 1/2, páginas 3 a 17, 2008
[21] E R Hafter e Raymond Dye, “Detection of interaural differences of time in trains of high-frequency clicks as a function of interclick interval and number”, The Journal of the Acoustical Society of America, vol. 73, páginas 644 a 51, 03 1983.
USO DE INTENSIDADE SONORA DIRECIONAL PARA CODIFICAÇÃO DE ÁUDIO E MEDIÇÃO DE QUALIDADE OBJETIVA
[0315] Favor consultar o capítulo “avaliação objetiva de qualidade de áudio espacial com uso de mapas de intensidade sonora direcional” para descrições adicionais. DESCRIÇÃO: (POR EXEMPLO, DESCRIÇÃO DA FIGURA 9)
[0316] Um recurso extraído, por exemplo, de sinais de áudio estereofônicos/binaurais na cena auditiva espacial (estéreo) é apresentado. O recurso tem, por exemplo, como base em um modelo simplificado de uma mixagem estéreo que extrai direções de movimentação de eventos na imagem estéreo. A intensidade sonora associada na imagem estéreo para cada direção de movimentação no domínio de Transformada de Fourier de Curto Termo (STFT) pode ser calculada. O recurso é opcionalmente computado para referência e sinal codificado e, então, comparado para derivar uma medida de distorção que tem como objetivo descrever a pontuação de degradação percebida relatada em um teste de escuta. Os resultados mostram uma robustez aprimorada frente a baixa taxa de bits, ferramentas de técnicas paramétricas sem preservação de forma de onda, como estéreo conjunto e extensão de largura de banda, em comparação aos métodos existentes. Pode ser integrado em sistemas padronizados de medição de avaliação de qualidade objetiva, como PEAQ ou POLQA (PEAQ = Medições Objetivas de Qualidade de Áudio Percebida; POLQA = Análise de Qualidade Auditiva Objetiva Perceptiva). TERMINOLOGIA: • Sinal: por exemplo, sinal estereofônico representando objetos, downmixes, resíduos, etc. • Mapa de Intensidade Sonora Direcional (DirLoudMap): por exemplo, derivado de cada sinal. Representa, por exemplo, a intensidade sonora em domínio de T/F (tempo/frequência) associado a cada direção de movimentação na cena auditiva. Pode ser derivado de mais que dois sinais pelo uso de renderização binaural (HRTF (função de transferência relacionada a cabeçalho)/BRIR (resposta de impulso de ambiente binaural)). APLICAÇÕES (MODALIDADES):
1. Avaliação automática de qualidade (modalidade 1): • conforme descrito no capítulo “avaliação objetiva de qualidade de áudio espacial com o uso de mapas de intensidade sonora direcional”
2. Distribuição de bits com base em intensidade sonora (modalidade 2) no codificador de áudio, com base na razão (contribuição) para DirLoudMap geral dos sinais individuais DirLoudMaps. • variação opcional 1 (pares estéreo independentes): sinais de áudio como alto-falantes ou objetos. • variação opcional 2 (pares Downmix/Residual): contribuição de sinal de mixagem de redução DirLoudMap e DirLoudMap residual para DirLoudMap geral. “Quantidade de contribuição” na cena auditiva para critérios de distribuição de bit.
1. Um codificador de áudio, que realiza codificação conjunta de dois ou mais canais, resultando, por exemplo, em cada um ou mais sinais residuais e mixagem de redução, em que a contribuição de cada sinal residual para o mapa geral de intensidade sonora direcional é determinada, por exemplo, de uma regra de decodificação fixa (por exemplo, MS-Estéreo) ou pela estimativa do processo de codificação conjunta inversa dos parâmetros de codificação conjunta (por exemplo, rotação em MCT). Com base na contribuição do sinal residual para DirLoudMap geral, a distribuição de taxa de bits entre mixagem de redução e sinal residual é adaptada, por exemplo, pelo controle da precisão de quantização dos sinais, ou pelo descarte direto de sinais residuais em que a contribuição está abaixo de um limite. Critérios possíveis para “contribuição” são, por exemplo, a razão média ou a razão na contribuição relativa máxima de direção. • Problema: estimativa de combinação e contribuição de DirLoudMap individual para o mapa de intensidade sonora resultante/total.
3. (modalidade 3) Para o lado de decodificador, a intensidade sonora direcional pode ajudar o decodificador a tomar uma decisão informada em • complexidade escalonamento/conversor de formato: cada sinal de áudio pode estar incluído ou ser excluído no processo de decodificação com base em sua contribuição para DirLoudMap geral (transmitido como um parâmetro separado ou estimado a partir de outros parâmetros) e, portanto, altera a complexidade na renderização para diferentes aplicações/conversão de formato. Isso permite a decodificação com complexidade reduzida quando apenas recursos limitados estão disponíveis (ou seja, um sinal de múltiplos canais renderizado para um dispositivo móvel) • Visto que o DirLoudMap resultante pode depender da configuração- alvo de reprodução, isso garante que os sinais mais importantes/salientes para o cenário individual são reproduzidos, essa é uma vantagem sobre abordagens não informadas espacialmente, como um nível de prioridade de sinal/objeto simples.
4. Para decisão de codificação conjunta (modalidade 4) (por exemplo, descrição da fig. 14) • Determinar a contribuição do mapa de intensidade sonora direcional de cada sinal, ou cada par de sinais candidatos para a contribuição de DirLoudMap da cena geral.
1. variação opcional 1) Escolher pares de sinais com a contribuição mais alta para o mapa de intensidade sonora geral
2. variação opcional 2) Escolher pares de sinais em que os sinais têm alta proximidade/similaridade em seu respectivo DirLoudMap => podem ser juntamente representados por uma mixagem de redução • Visto que pode haver codificação conjunta em cascata de sinais, o DirLoudMap de, por exemplo, um Sinal Downmix não corresponde necessariamente a uma fonte pontual de uma direção (por exemplo, um alto-falante), por conseguinte, a contribuição para DirLoudMap é, por exemplo, estimada a partir de parâmetros de codificação conjunta. • o DirLoudMap da cena geral pode ser calculado através de algum tipo de mixagem de redução ou binauralização que contempla as direções dos sinais.
5. Codec de áudio paramétrico (modalidade 5) com base em intensidade sonora direcional • Transmitir, por exemplo, mapa de intensidade sonora direcional da cena. --> é transmitido como informações laterais em forma paramétrica, por exemplo
1. “Estilo de PCM”= valores quantizados nas direções
2. posição de centro + inclinações lineares para esquerda/direita
3. representação de coluna ou polinomial
• transmitir, por exemplo, uma transmissão de sinal/sinais menores/eficaz,
1. variante opcional 1) transmitir DirLoudMap alvo parametrizado de um cenário + 1 canal de mixagem de redução
2. variante opcional 2) transmitir múltiplos sinais, cada um com DirLoudMap associado
3. variante opcional 3) transmitir DirLoudMap alvo geral, e múltiplos sinais mais contribuição relativa parametrizada para DirLoudMap geral • sintetizar, por exemplo, cena de áudio completa do sinal transmitido, com base no mapa de intensidade sonora direcional da cena.
INTENSIDADE SONORA DIRECIONAL PARA CODIFICAÇÃO DE ÁUDIO INTRODUÇÃO E DEFINIÇÕES
[0317] DirLoudMap = Mapa de Intensidade Sonora Direcional
[0318] Modalidade para computar um DirLoudMap: a) Realizar decomposição t/f (+agrupamento em bandas críticas (CBs))(por exemplo, por banco de filtro, STFT, ...) b) executar função de análise direcional para cada bloco t/f c) inserir/acumular o resultado de b) em histograma de DirLoudMap opcionalmente (caso necessário pela aplicação): d) resumir a saída em CBs para fornecer DirLoudMap de banda ampla
[0319] Modalidade de Nível de DirLoudMap/função de análise direcional: - Nível 1 (opcional): Direções de contribuição de mapas de acordo com posição de reprodução espacial de sinais (canais/objetos) - (nenhum conhecimento sobre conteúdo de sinal explorado). Usa uma função de análise direcional que considera apenas a direção de reprodução de canal/objeto +/- direção de reprodução de janela de alargamento L1 de canal/objeto +/- janela de alargamento (isso pode ser banda ampla, isto é, o mesmo para todas as frequências) - Nível 2 (opcional): Direções de contribuição de mapas de acordo com posição de reprodução espacial de sinais (canais/objetos) mais uma função
*dinâmica* do conteúdo dos sinais de canal/objeto (função de análise direcional) de diferentes Níveis de sofisticação.
PERMITIR A IDENTIFICAÇÃO
[0320] opcionalmente L2a) fontes fantasma movimentadas (-> índice de movimentação) [nível], ou opcionalmente L2b) nível+fontes fantasma movimentadas de atraso de tempo [nível e tempo], ou opcionalmente L2c) fontes fantasma movimentadas ampliadas (decorrelacionadas) (ainda mais avançadas)
APLICAÇÕES PARA CODIFICAÇÃO DE ÁUDIO PERCEPTUAL
[0321] Modalidade A) mascaramento de cada canal/objeto - nenhuma ferramenta de codificação conjunta -> alvo: controle de ruído de quantização de codificador (de modo que DirLoudMap original e codificado/decodificado se desviem em menos que um determinado limite, isto é, critério-alvo em domínio de DirLoudMap)
[0322] Modalidade B) mascaramento de cada canal/objeto - ferramentas de codificação conjuntas (por exemplo, M/S+predição, MCT) -> alvo: controle de ruído de quantização de codificador em sinais processados por ferramenta (por exemplo, M ou sinal de “soma” rotatório) para satisfazer os critérios-alvo no domínio de DirLoudMap
[0323] Exemplo para B) 1) calcular o DirLoudMap geral, por exemplo, de todos os sinais 2) aplicar as ferramentas de codificação conjuntas 3) determinar a contribuição de sinais processados por ferramenta (por exemplo, “soma” e “residual”) para DirLoudMap, com consideração da função de decodificação (por exemplo, movimentação por rotação/predição) 4) controlar a quantização ao a) considerar a influência de ruído de quantização para DirLoudMap b) considerar o impacto de quantização de partes de sinal para zero para DirLoudMap
[0324] Modalidade C) controlar a aplicação (por exemplo, MS ligado/desligado)
e/ou parâmetros (por exemplo, fator de predição) de ferramentas de codificação conjuntas alvo: controle de parâmetros de codificador/decodificador de ferramentas de codificação conjuntas para satisfazer os critérios-alvo no domínio de DirLoudMap
[0325] Exemplos para C) - controlar decisão de M/S ligado/desligado com base em DirLoudMap - controlar a suavização de fatores de predição dependentes de frequência com base na influência da variação dos parâmetros para DirLoudMap (para codificação diferencial de parâmetros mais barata) (=compensação de controle entre informações laterais e precisão de predição)
[0326] Modalidade D) determinar parâmetros (ligado/desligado, ILD, ...) de ferramentas de codificação conjuntas *paramétricas* (por exemplo, estéreo de intensidade) -> alvo: Controle de parâmetro de ferramenta paramétrica de codificação conjunta para satisfazer os critérios-alvo no domínio de DirLoudMap
[0327] Modalidade E) Sistema de codificador/decodificador paramétrico que transmite DirLoudMap como informações laterais (em vez de pistas espaciais tradicionais, por exemplo, ILD, ITD/IPD, ICC, ...) -> Codificador determina os parâmetros com base na análise de DirLoudMap, gera sinal (ou sinais) de mixagem de redução e (fluxo de bit) parâmetros, por exemplo, DirLoudMap geral + contribuição de cada sinal para DirLoudMap -> Decodificador sintetiza DirLoudMap transmitido por meios apropriados
[0328] Modalidade F) Redução de complexidade de Decodificador/Renderizador/Conversor de Formato
[0329] Determinar a contribuição de cada sinal para DirLoudMap geral (possivelmente com base em informações laterais transmitidas) para determinar a “importância” de cada sinal. Em aplicações com capacidade computacional restrita, pular a decodificação/renderização de sinais que contribuem para o DirLoudMap abaixo de um limite.
ETAPAS GENÉRICAS PARA COMPUTAR UM MAPA DE INTENSIDADE SONORA DIRECIONAL (DirLoudMap)
[0330] Isto é, por exemplo, válido para qualquer implementação: (por exemplo, descrição da fig. 3a e/ou fig. 4a) a) Realizar decomposição t/f de vários sinais de áudio de entrada. - opcional: agrupar os componentes espectrais em bandas de processamento em relação à resolução de frequência do sistema auditivo humano (HAS) - opcional: ponderação de acordo com sensibilidade de HAS em diferentes regiões de frequência (por exemplo, função de transferência de ouvido médio/ouvido externo) -> resultado: blocos t/f (por exemplo, representações de domínio espectral, bandas espectrais, compartimentos espectrais, …)
[0331] Para várias (por exemplo, cada uma) bandas de frequência (ciclo): b) Computar, por exemplo, uma função de análise direcional em blocos t/f dos vários canais de entrada de áudio -> resultado: direção d (por exemplo, direção Ψ(m, k) ou direção de movimentação Ψ0,𝑗 ).
c) Computar, por exemplo, uma intensidade sonora em blocos t/f dos vários canais de entrada de áudio -> resultado: intensidade sonora L - Computação de intensidade sonora pode ser simplesmente energia ou – mais sofisticado - energia (ou modelo Zwicker: alfa=0,25 a 0,27) d.a) por exemplo, inserir/acumular l contribuição em DirLoudMap em direção d - opcional: difundir (índice de movimentação: janelamento) de l distribuições entre direções adjacentes finalizar para, opcionalmente, (se necessário pela aplicação): Calcular DirLoudMap de banda ampla d.b) resumir DirLoudMap em várias (evitar: todas) bandas de frequência para fornecer DirLoudMap de banda ampla, indicando “atividade” sonora como uma função de direção/espaço EXEMPLO: RECUPERAR SINAIS DIRECIONAIS COM FUNÇÃO DE JANELAMENTO/SELEÇÃO DERIVADA DO ÍNDICE DE MOVIMENTAÇÃO (POR EXEMPLO, DESCRIÇÃO DA FIG. 6)
[0332] Os sinais de canal à esquerda (consulte a fig. 6a; vermelho) e à direita (consulte a fig. 6b; azul) são, por exemplo, mostrados na fig. 6a e na fig. 6b. As barras podem ser compartimentos de DFT (transformada discreta de Fourier) de todo o espectro, Bandas Críticas (grupos de compartimento de frequência), ou compartimentos de DFT em uma banda crítica, etc.
[0333] Função de critérios definida arbitrariamente como: Ψ = 𝑙𝑒𝑣𝑒𝑙𝑙 /𝑙𝑒𝑣𝑒𝑙𝑟 .
[0334] Critério é, por exemplo, “direção de movimentação de acordo com nível”. Por exemplo, o nível de cada ou vários compartimentos de FFT. a) A partir da função de critérios, pode-se extrair uma função de janelamento/função de ponderação que seleciona os compartimentos de frequência/grupos espectrais/componentes adequados e recupera os sinais direcionais. Assim, o espectro de entrada (por exemplo, L e R) será multiplicado por diferentes funções de janela Θ (uma função de janela por cada direção de movimentação Ψ0 ) b) A partir da função de critério, têm-se diferentes direções associadas a diferentes valores de Ψ (isto é, razões de nível entre L e R)
[0335] Para recuperar os sinais com o uso do método a)
[0336] Exemplo 1) Centro de direção de movimentação, Ψ0 = 1 (apenas mantém as barras que têm a relação Ψ = Ψ0 = 1. Esse é o sinal direcional (consulte a fig. 6a1 e a fig. 6b1).
[0337] Exemplo 2) Direção de movimentação, levemente para a esquerda, Ψ0 = 4/2 (apenas mantém as barras que têm a relação Ψ = Ψ0 = 4/2. Esse é o sinal direcional (consulte a fig. 6a2 e a fig. 6b2).
[0338] Exemplo 3) Direção de movimentação, levemente para a direita, Ψ0 = 3/4 (apenas mantém as barras que têm a relação Ψ = Ψ0 = 3/4. Esse é o sinal direcional (consulte a fig. 6a3.1 e a fig. 6b3.1).
[0339] Uma função de critério pode ser arbitrariamente definida como nível de cada compartimento de DFT, energia por grupo de compartimento de DFT (Banda 𝐸 𝐸 0.25 crítica) Ψ = log (𝐸 𝑙 ) ou intensidade sonora por banda crítica Ψ = log (𝐸𝑙0.25 ). Pode haver 𝑟 𝑟 diferentes critérios para diferentes aplicações. PONDERAÇÃO (OPCIONAL)
[0340] Nota: não deve ser confundido com ponderação de função de transferência de ouvido externo/ouvido médio (modelo periférico), que pondera, por exemplo, bandas críticas.
[0341] Ponderação: opcionalmente em vez de tomar o valor exato de Ψ0 , usar uma faixa de tolerância, e ponderar de forma menos importante os valores que se desviam de Ψ0 , isto é, “pegar todas as barras que obedecem a uma relação de 4/3 e passar as mesmas com peso 1, valores que são próximos, ponderar as mesmas com menos de 1 → para isso, a função gaussiana pode ser usada. Nos Exemplos acima, os sinais direcionais teriam mais compartimentos, não ponderados com 1, mas com valores menores.
[0342] Motivação: ponderação permite uma transição “mais suave” entre diferentes sinais direcionais, a separação não é assim abrupta visto que há algum “ocupação de memória” entre os diferentes sinais direcionais.
[0343] Por exemplo 3), pode ser similar ao mostrado na fig. 6a3.2 e na fig. 6b3.2.
MODALIDADES DE DIFERENTES FORMAS DE CALCULAR OS MAPAS DE INTENSIDADE SONORA COM O USO DE FUNÇÕES DE CRITÉRIO
GENERALIZADO OPÇÃO 1: APROXIMAÇÃO DE ÍNDICE DE MOVIMENTAÇÃO (CONSULTE A FIG. 3A E A FIG. 3B):
[0344] Para (todos) diferentes Ψ0 , um mapa de “valor” para essa função em tempo pode ser montado. O denominado "mapa de intensidade direcional" pode ser construído por • Exemplo 1) com o uso de uma função de critério de “direção de 𝑙𝑒𝑣𝑒𝑙 movimentação de acordo com nível de compartimentos de FFT individuais”Ψ = 𝑙𝑒𝑣𝑒𝑙 𝑙 , 𝑟 assim, os sinais direcionais são, por exemplo, compostos de compartimentos de DFT individuais. Desse modo, por exemplo, calcular a energia em cada banda crítica (grupo de compartimento de DFT) para cada sinal direcional e, então, elevar essas energias por banda crítica para um exponente de 0,25 ou similar. → similar ao capítulo “Avaliação objetiva de qualidade de áudio espacial com o uso de mapas de intensidade sonora direcional” • Exemplo 2) Em vez de janelamento do espectro de amplitude, um pode realizar o janelamento do espectro de intensidade sonora. Os sinais direcionais estarão no domínio de intensidade sonora pronto. • Exemplo 3) uso diretamente uma função de critério de “direção de 𝐸 0.25 movimentação de acordo com a intensidade sonora de cada banda crítica” Ψ = 𝐸𝑙0.25 . 𝑟 Desse modo, os sinais direcionais serão compostos de blocos de críticas de banda integral que obedecem aos valores determinados por Ψ0 .
[0345] Por exemplo, para Ψ0 = 4/3 o sinal direcional poderia ser: • Y= 1*critical_band_1 + 0,2*critical_band_2 + 0,001*critical_band_3. e diferentes combinações para outras direções de movimentação/sinais direcionais se aplicam. Nota-se, no caso do uso de ponderação, diferentes direções de movimentação poderiam conter as mesmas bandas críticas, mas muito provavelmente com diferentes valores de peso. Se a ponderação não for aplicada, os sinais direcionais são mutuamente exclusivos. OPÇÃO 2: APROXIMAÇÃO DE HISTOGRAMA (CONSULTE A FIG. 4B):
[0346] É uma descrição mais geral da intensidade sonora direcional geral. Não faz necessariamente uso do índice de movimentação (isto é, um não precisa recuperar “sinais direcionais” pelo janelamento do espectro para calcular a intensidade sonora). Uma intensidade sonora geral do espectro de frequência é “distribuída” de acordo com sua “direção analisada” na região de frequência correspondente. Análise de direção pode ser baseada em diferença de nível, baseada em diferença de tempo ou outra forma.
[0347] Para cada período de tempo (consulte a fig. 5): A resolução do histograma 𝐻Ψ será determinada, por exemplo, pela quantidade de valores determinados para o conjunto de Ψ0 . Isto é, por exemplo, a quantidade de compartimentos disponíveis para agrupar ocorrências de Ψ0 ao avaliar Ψ em um período de tempo. Os valores são, por exemplo, acumulados e suavizados ao longo do tempo, possivelmente com um “fator de esquecimento” 𝛼: 𝐻Ψ (𝑛) = 𝛼𝐻Ψ0 + (1 − α)𝐻Ψ (𝑛 − 1)
[0348] Em que n é o índice de período de tempo.

Claims (52)

REIVINDICAÇÕES
1. Analisador de áudio (100), em que o analisador de áudio (100) é caracterizado por ser configurado para obter representações de domínio espectral (110, 1101, 1102, 110a, 110b) de dois ou mais sinais de áudio de entrada (112, 1121, 1122, 1123, 112a, 112b); em que o analisador de áudio (100) é configurado para obter informações direcionais (122, 1221, 1222, 125, 127) associadas a bandas espectrais das representações de domínio espectral (110, 1101, 1102, 110a, 110b); em que o analisador de áudio (100) é configurado para obter informações de intensidade sonora (142, 1421, 1422, 142a, 142b) associadas a diferentes direções (121) como um resultado de análise, em que as contribuições (132, 1321, 1322, 1351, 1352) para as informações de intensidade sonora (142, 1421, 1422, 142a, 142b) são determinadas em dependência das informações direcionais (122, 1221, 1222, 125, 127).
2. Analisador de áudio (100), de acordo com a reivindicação 1, em que o analisador de áudio (100) é caracterizado por ser configurado para obter uma pluralidade de representações de domínio espectral ponderadas (135, 135 1, 1352, 132) com base nas representações de domínio espectral (110, 110 1, 1102, 110a, 110b) dos dois ou mais sinais de áudio de entrada (112, 1121, 1122, 1123, 112a, 112b); em que os valores das uma ou mais representações de domínio espectral (110, 1101, 1102, 110a, 110b) são ponderados (134) em dependência das diferentes direções (125) dos componentes de áudio nos dois ou mais sinais de áudio de entrada (112, 1121, 1122, 1123, 112a, 112b) para obter a pluralidade de representações de domínio espectral ponderadas (135, 1351, 1352, 132); em que o analisador de áudio (100) é configurado para obter informações de intensidade sonora (142, 1421, 1422, 142a, 142b) associadas às diferentes direções (121) com base nas representações de domínio espectral ponderadas (135, 135 1, 1352, 132) como o resultado de análise.
3. Analisador de áudio (100), de acordo com a reivindicação 1 ou 2, em que o analisador de áudio (100) é caracterizado por ser configurado para decompor os dois ou mais sinais de áudio de entrada (112, 112 1, 1122, 1123, 112a, 112b) em um domínio de transformada de Fourier de tempo curto (STFT) para obter dois ou mais sinais de áudio transformados (110, 1101, 1102, 110a, 110b).
4. Analisador de áudio (100), de acordo com a reivindicação 3, em que o analisador de áudio (100) é caracterizado por ser configurado para agrupar compartimentos espectrais dos dois ou mais sinais de áudio transformados (110, 110 1, 1102, 110a, 110b) em bandas espectrais dos dois ou mais sinais de áudio transformados (110, 1101, 1102, 110a, 110b); e em que o analisador de áudio (100) é configurado para ponderar as bandas espectrais usando diferentes pesos, com base em um modelo de ouvido externo e ouvido médio (116), para obter as uma ou mais representações de domínio espectral (110, 1101, 1102, 110a, 110b) dos dois ou mais sinais de áudio de entrada (112, 112 1, 1122, 1123, 112a, 112b).
5. Analisador de áudio (100), de acordo com qualquer uma das reivindicações 1 a 4, em que o analisador de áudio (100) é caracterizado por ser configurado para determinar uma ponderação dependente de direção (127, 122) por compartimento espectral e para uma pluralidade de direções predeterminadas (121).
6. Analisador de áudio (100), de acordo com qualquer uma das reivindicações 1 a 5, em que o analisador de áudio (100) é caracterizado por ser configurado para determinar uma ponderação dependente de direção (127, 122) com o uso de uma função gaussiana, de modo que a ponderação dependente de direção (127, 122) diminui com o desvio crescente entre respectivos valores de direção extraídos (125, 122) e respectivos valores de direção predeterminados (121).
7. Analisador de áudio (100), de acordo com a reivindicação 6, em que o analisador de áudio (100) é caracterizado por ser configurado para determinar valores de índice de movimentação como os valores de direção extraídos (125, 122); e/ou em que o analisador de áudio (100) é configurado para determinar os valores de direção extraídos (125, 122) em dependência de valores de domínio espectral (110) dos sinais de áudio de entrada (112, 112 1, 1122, 1123, 112a, 112b).
8. Analisador de áudio (100), de acordo com qualquer uma das reivindicações 5 a 7, em que o analisador de áudio (100) é caracterizado por ser configurado para obter a ponderação dependente de direção (127, 122) ΘΨ0,𝑗 (𝑚, 𝑘) associada a uma direção predeterminada (121), um tempo designado com um índice de tempo m, e um compartimento espectral designado por um índice de compartimento espectral k de acordo com 1 − (Ψ(𝑚,𝑘)−Ψ0,𝑗 )2 ΘΨ0,𝑗 (𝑚, 𝑘) = 𝑒 2𝜉 , em que 𝜉 é um valor predeterminado; em que Ψ(𝑚, 𝑘) designa os valores de direção extraídos (125, 122) associados a um tempo designado com um índice de tempo m, e um compartimento espectral designado por um índice de compartimento espectral k; e em que Ψ0,𝑗 é um valor de direção que designa uma direção predeterminada (121); e/ou em que o analisador de áudio (100) é configurado para aplicar a ponderação dependente de direção (127, 122) para as uma ou mais representações de domínio espectral (110, 1101, 1102, 110a, 110b) dos dois ou mais sinais de áudio de entrada (112, 1121, 1122, 1123, 112a, 112b), a fim de obter as representações de domínio espectral ponderadas (135, 1351, 1352, 132); e/ou em que o analisador de áudio (100) é configurado para obter as representações de domínio espectral ponderadas (135, 1351, 1352, 132), de modo que os componentes de sinal que têm associada uma primeira direção predeterminada (121) são enfatizados sobre os componentes de sinal que têm associadas outras direções (125) em uma primeira representação de domínio espectral ponderada (135, 1351, 1352, 132) e de modo que os componentes de sinal que têm associada uma segunda direção predeterminada (121) são enfatizados sobre componentes de sinal que têm associadas outras direções (125) em uma segunda representação de domínio espectral ponderada (135, 1351, 1352, 132).
9. Analisador de áudio (100), de acordo com qualquer uma das reivindicações 1 a 8, em que o analisador de áudio (100) é caracterizado por ser configurado para obter as representações de domínio espectral ponderadas (135, 1351, 1352, 132) 𝑌𝑖,𝑏,Ψ0,𝑗 (𝑚, 𝑘) associadas a um sinal de áudio de entrada ou combinação de sinais de áudio de entrada (112, 112 1, 1122, 1123, 112a, 112b) (112, 1121, 1122, 1123, 112a, 112b) designado pelo índice i, uma banda espectral designada pelo índice b, uma direção (121) designada pelo índice Ψ0,𝑗 , um tempo designado com um índice de tempo m, e um compartimento espectral designado por um índice de compartimento espectral k de acordo com 𝑌𝑖,𝑏,Ψ0,𝑗 (𝑚, 𝑘) = 𝑋𝑖,𝑏 (𝑚, 𝑘)ΘΨ0,𝑗 (𝑚, 𝑘), em que 𝑋𝑖,𝑏 (𝑚, 𝑘) designa uma representação de domínio espectral (110) associada a um sinal de áudio de entrada (112) ou combinação de sinais de áudio de entrada (112, 1121, 1122, 1123, 112a, 112b) designado pelo índice i, uma banda espectral designada pelo índice b, um tempo designado com um índice de tempo m, e um compartimento espectral designado por um índice de compartimento espectral k; e em que ΘΨ0,𝑗 (𝑚, 𝑘) designa a ponderação dependente de direção (127, 122) associada a uma direção (121) designada pelo índice Ψ0,𝑗 , um tempo designado com um índice de tempo m e um compartimento espectral designado por um índice de compartimento espectral k.
10. Analisador de áudio (100), de acordo com qualquer uma das reivindicações 1 a 9, em que o analisador de áudio (100) é caracterizado por ser configurado para determinar uma média de uma pluralidade de valores de intensidade sonora de banda (145), a fim de obter um valor de intensidade sonora combinado (142); e/ou em que o analisador de áudio (100) é configurado para obter valores de intensidade sonora de banda (145) para uma pluralidade de bandas espectrais com base em uma representação de domínio espectral combinada ponderada (137) que representa uma pluralidade de sinais de áudio de entrada (112, 112 1, 1122, 1123, 112a, 112b); e em que o analisador de áudio (100) é configurado para obter, como o resultado de análise, uma pluralidade de valores de intensidade sonora combinados (142) com base nos valores de intensidade sonora de banda obtidos (145) para uma pluralidade de diferentes direções (121).
11. Analisador de áudio (100), de acordo com a reivindicação 10, em que o analisador de áudio (100) é caracterizado por ser configurado para computar uma média de valores espectrais quadrados da representação de domínio espectral combinada ponderada (137) sobre valores espectrais de uma banda de frequência, e para aplicar uma exponenciação que tem um exponente entre 0 e 1/2 à média de valores espectrais quadrados, a fim de determinar os valores de intensidade sonora de banda (145); e/ou em que o analisador de áudio (100) é configurado para obter os valores de intensidade sonora de banda (145) 𝐿𝑏,Ψ0,𝑗 (𝑚) associados a uma banda espectral designada com índice b, uma direção (121) designada com índice Ψ0,𝑗 , um tempo designado com um índice de tempo m de acordo com
0.25 1 𝐿𝑏,Ψ0,𝑗 (𝑚) = ( ∑ 𝑌𝐷𝑀,𝑏,Ψ0,𝑗 (𝑚, 𝑘)2 ) , 𝐾𝑏 𝑘∈𝑏 em que Kb designa um número de compartimentos espectrais em uma banda de frequência que tem índice de banda de frequência b; em que k é uma variável de atribuição e designa compartimentos espectrais na banda de frequência que tem índice de banda de frequência b; em que b designa uma banda espectral; e em que 𝑌𝐷𝑀,𝑏,Ψ0,𝑗 (𝑚, 𝑘) designa uma representação de domínio espectral combinada ponderada (137) associada a uma banda espectral designada com índice b, uma direção (121) designada pelo índice Ψ0,𝑗 , um tempo designado com um índice de tempo m e um compartimento espectral designado por um índice de compartimento espectral k.
12. Analisador de áudio (100), de acordo com qualquer uma das reivindicações 1 a 11, em que o analisador de áudio (100) é caracterizado por ser configurado para obter uma pluralidade de valores de intensidade sonora combinados (142) L(m,Ψ0,𝑗 ) associados a uma direção (121) designada com índice Ψ0,𝑗 e um tempo designado com um índice de tempo m de acordo com 1 𝐿(𝑚, Ψ0,𝑗 ) = ∑ 𝐿𝑏,Ψ0,𝑗 (𝑚) ,
𝐵 ∀𝑏 em que B designa um número total de bandas espectrais b e em que 𝐿𝑏,Ψ0,𝑗 (𝑚) designa valores de intensidade sonora de banda (145) associados a uma banda espectral designado com índice b, uma direção (121) designada com índice Ψ0,𝑗 e um tempo designado com um índice de tempo m.
13. Analisador de áudio (100), de acordo com qualquer uma das reivindicações 1 a 12, em que o analisador de áudio (100) é caracterizado por ser configurado para alocar contribuições de intensidade sonora (132, 132 1, 1322, 1351, 1352) para compartimentos de histograma associados a diferentes direções (121) em dependência das informações direcionais (122, 122 1, 1222, 125, 127), a fim de obter o resultado de análise; e/ou em que o analisador de áudio (100) é configurado para obter informações de intensidade sonora associadas a compartimentos espectrais com base nas representações de domínio espectral (110, 1101, 1102, 110a, 110b), e em que o analisador de áudio (100) é configurado para adicionar uma contribuição de intensidade sonora (132, 1321, 1322, 1351, 1352) a um ou mais compartimentos de histograma com base em informações de intensidade sonora associadas a um determinado compartimento espectral; em que uma seleção, na qual é feita a contribuição de intensidade sonora (132, 1321, 1322, 1351, 1352) em um ou mais compartimentos de histograma, é baseada em uma determinação das informações direcionais para um determinado compartimento espectral; e/ou em que o analisador de áudio (100) é configurado para adicionar contribuições de intensidade sonora (132, 1321, 1322, 1351, 1352) a uma pluralidade de compartimentos de histograma com base em informações de intensidade sonora associadas a um determinado compartimento espectral, de modo que uma maior contribuição (132, 132 1, 1322, 1351, 1352) é adicionada a um compartimento de histograma associado a uma direção (121) que corresponde às informações direcionais (125, 122) associadas ao determinado compartimento espectral, e de modo que as contribuições reduzidas (132, 132 1, 1322, 1351, 1352) são adicionadas a um ou mais compartimentos de histograma associados a direções adicionais (121).
14. Analisador de áudio (100), de acordo com qualquer uma das reivindicações 1 a 13, em que o analisador de áudio (100) é caracterizado por ser configurado para obter informações direcionais (122, 1221, 1222, 125, 127) com base em uma análise de uma movimentação de amplitude de conteúdo de áudio; e/ou em que o analisador de áudio (100) é configurado para obter informações direcionais (122, 1221, 1222, 125, 127) com base em uma análise de uma relação de fase e/ou um atraso de tempo e/ou correlação entre conteúdos de áudio de dois ou mais sinais de áudio de entrada (112, 1121, 1122, 1123, 112a, 112b); e/ou em que o analisador de áudio (100) é configurado para obter informações direcionais (122, 1221, 1222, 125, 127) com base em uma identificação de fontes ampliadas, e/ou em que o analisador de áudio é configurado para obter informações direcionais (122, 1221, 1222, 125, 127) com o uso de uma correspondência de informações espectrais de um som de entrada e modelos associados a funções de transferência relacionadas à cabeça em diferentes direções.
15. Avaliador de similaridade de áudio (200), em que o avaliador de similaridade de áudio (200) é caracterizado por ser configurado para obter primeiras informações de intensidade sonora (142, 1421, 1422, 142a, 142b) associadas a diferentes direções (121) com base em um primeiro conjunto de dois ou mais sinais de áudio de entrada (112a), e em que o avaliador de similaridade de áudio (200) é configurado para comparar (220) as primeiras informações de intensidade sonora (142, 142 1, 1422, 142a, 142b) com segundas informações de intensidade sonora (142, 142 1, 1422, 142a, 142b) associadas às diferentes direções de movimentação e com um conjunto de dois ou mais sinais de áudio de referência (112b), a fim de obter informações de similaridade (210) que descrevem uma similaridade entre o primeiro conjunto de dois ou mais sinais de áudio de entrada (112a) e o conjunto de dois ou mais sinais de áudio de referência (112b).
16. Avaliador de similaridade de áudio (200), de acordo com a reivindicação 15, em que o avaliador de similaridade de áudio (200) é caracterizado por ser configurado para obter as primeiras informações de intensidade sonora (142, 142 1, 1422, 142a, 142b) de modo que as primeiras informações de intensidade sonora (142, 1421, 1422, 142a, 142b) compreendem uma pluralidade de valores de intensidade sonora combinados (142) associados ao primeiro conjunto de dois ou mais sinais de áudio de entrada (112a) e associadas a respectivas direções predeterminadas (121), em que os valores de intensidade sonora combinados (142) das primeiras informações de intensidade sonora (142, 142 1, 1422, 142a, 142b) que descrevem a intensidade sonora de componentes de sinal do primeiro conjunto de dois ou mais sinais de áudio de entrada (112a) associados às respectivas direções predeterminadas (121); e/ou em que o avaliador de similaridade de áudio (200) é configurado para obter as primeiras informações de intensidade sonora (142, 142 1, 1422, 142a, 142b) de modo que as primeiras informações de intensidade sonora (142, 142 1, 1422, 142a, 142b) são associadas a combinações de uma pluralidade de representações de domínio espectral ponderadas (135, 1351, 1352, 132) do primeiro conjunto de dois ou mais sinais de áudio de entrada (112a) associados às respectivas direções predeterminadas (121).
17. Avaliador de similaridade de áudio (200), de acordo com a reivindicação
15 ou 16, em que o avaliador de similaridade de áudio (200) é caracterizado por ser configurado para determinar uma diferença (210) entre as segundas informações de intensidade sonora (142, 1421, 1422, 142a, 142b) e as primeiras informações de intensidade sonora (142, 1421, 1422, 142a, 142b) para obter informações residuais de intensidade sonora (210); e em que o avaliador de similaridade de áudio (200) é configurado para determinar um valor (210) que quantifica a diferença (210) em uma pluralidade de direções.
18. Avaliador de similaridade de áudio (200), de acordo com qualquer uma das reivindicações 15 a 17, em que o avaliador de similaridade de áudio (200) é caracterizado por ser configurado para obter as primeiras informações de intensidade sonora (142, 1421, 1422, 142a, 142b) e/ou as segundas informações de intensidade sonora (142, 1421, 1422, 142a, 142b) com o uso de um analisador de áudio (100), conforme definido em qualquer uma das reivindicações 1 a 14.
19. Codificador de áudio (300) para codificar (310) um conteúdo de áudio de entrada (112) que compreende um ou mais sinais de áudio de entrada (112, 112 1, 1122, 1123, 112a, 112b), em que o codificador de áudio (300) é caracterizado por ser configurado para fornecer um ou mais sinais de áudio codificados (320) com base em um ou mais sinais de áudio de entrada (112, 1121, 1122, 1123, 112a, 112b), ou um ou mais sinais derivados dos mesmos (110, 1101, 1102, 110a, 110b); em que o codificador de áudio (300) é configurado para adaptar (340) parâmetros de codificação em dependência de um ou mais mapas de intensidade sonora direcionais que representam informações de intensidade sonora (142, 142 1, 1422, 142a, 142b) associadas a uma pluralidade de diferentes direções (121) do um ou mais sinais a serem codificados.
20. Codificador de áudio (300), de acordo com a reivindicação 19, em que o codificador de áudio (300) é caracterizado por ser configurado para adaptar (340) uma distribuição de bit entre o um ou mais sinais e/ou parâmetros a serem codificados em dependência de contribuições de mapas de intensidade sonora direcionais individuais do um ou mais sinais e/ou parâmetros a serem codificados para um mapa de intensidade sonora direcional geral (142, 1421, 1422, 142a, 142b); e/ou em que o codificador de áudio (300) é configurado para desativar a codificação (310) de um determinado dos sinais a serem codificados, quando as contribuições de um mapa de intensidade sonora direcional individual do determinado dos sinais a serem codificados para um mapa de intensidade sonora direcional geral estão abaixo de um limite; e/ou em que o codificador de áudio (300) é configurado para adaptar (342) uma precisão de quantização do um ou mais sinais a serem codificados em dependência de contribuições de mapas de intensidade sonora direcionais individuais do um ou mais sinais a serem codificados para um mapa de intensidade sonora direcional geral.
21. Codificador de áudio (300), de acordo com a reivindicação 19 ou 20, em que o codificador de áudio (300) é caracterizado por ser configurado para quantizar (312) representações de domínio espectral (110, 1101, 1102, 110a, 110b) do um ou mais sinais de áudio de entrada (112, 1121, 1122, 1123, 112a, 112b), ou do um ou mais sinais derivados dos mesmos (110, 1101, 1102, 110a, 110b) com o uso de um ou mais parâmetros de quantização, para obter uma ou mais representações quantizadas de domínio espectral (313); em que o codificador de áudio (300) é configurado para ajustar (342) o um ou mais parâmetros de quantização em dependência de um ou mais mapas de intensidade sonora direcionais que representam informações de intensidade sonora (142, 1421, 1422, 142a, 142b) associadas a uma pluralidade de diferentes direções (121) do um ou mais sinais a serem quantizados, para adaptar o fornecimento do um ou mais sinais de áudio codificados (320); e em que o codificador de áudio (300) é configurado para codificar as uma ou mais representações quantizadas de domínio espectral (313), a fim de obter o um ou mais sinais de áudio codificados (320).
22. Codificador de áudio (300), de acordo com a reivindicação 21, em que o codificador de áudio (300) é caracterizado por ser configurado para ajustar (342) o um ou mais parâmetros de quantização em dependência de contribuições de individual mapas de intensidade sonora direcionais do um ou mais sinais a serem quantizados para um mapa de intensidade sonora direcional geral; e/ou em que o codificador de áudio (300) é configurado para determinar um mapa de intensidade sonora direcional geral com base nas sinais de áudio de entrada (112, 1121, 1122, 1123, 112a, 112b), de modo que o mapa de intensidade sonora direcional geral representa informações de intensidade sonora (142, 1421, 1422, 142a, 142b) associadas às diferentes direções (121) de uma cena de áudio representada pelos sinais de áudio de entrada (112, 1121, 1122, 1123, 112a, 112b); e/ou em que o um ou mais sinais a serem quantizados são associados a diferentes direções (121) ou são associados a diferentes alto-falantes ou são associados a diferentes objetos de áudio; e/ou em que os sinais a serem quantizados compreendem componentes de uma codificação de múltiplos sinais conjunta de dois ou mais sinais de áudio de entrada (112, 1121, 1122, 1123, 112a, 112b); e/ou em que o codificador de áudio (300) é configurado para estimar uma contribuição de um sinal residual da codificação de múltiplos sinais conjunta para o mapa de intensidade sonora direcional geral, e para ajustar (342) o um ou mais parâmetros de quantização em dependência dos mesmos.
23. Codificador de áudio (300), de acordo com qualquer uma das reivindicações 19 a 22, em que o codificador de áudio (300) é caracterizado por ser configurado para adaptar (340) uma distribuição de bit entre o um ou mais sinais e/ou parâmetros a serem codificados em dependência de uma avaliação de um mascaramento espacial entre dois ou mais sinais a serem codificados, em que o codificador de áudio (300) é configurado para avaliar o mascaramento espacial com base nos mapas de intensidade sonora direcionais associados aos dois ou mais sinais a serem codificados.
24. Codificador de áudio (300), de acordo com qualquer uma das reivindicações 19 a 23, em que o codificador de áudio (300) é caracterizado por compreender um analisador de áudio (100), conforme definido em qualquer uma das reivindicações 1 a 14, em que as informações de intensidade sonora (142, 142 1, 1422, 142a, 142b) associadas a diferentes direções (121) formam o mapa de intensidade sonora direcional.
25. Codificador de áudio (300), de acordo com qualquer uma das reivindicações 19 a 24, em que o codificador de áudio (300) é caracterizado por ser configurado para adaptar (340) um ruído introduzido pelo codificador em dependência do um ou mais mapas de intensidade sonora direcionais; e em que o codificador de áudio (300) é configurado para usar um desvio entre um mapa de intensidade sonora direcional, que é associado a um determinado sinal de áudio de entrada não codificado, e um mapa de intensidade sonora direcional alcançável por uma versão codificada do determinado sinal de áudio de entrada, como um critério para a adaptação do fornecimento do determinado sinal de áudio codificado.
26. Codificador de áudio (300), de acordo com qualquer uma das reivindicações 19 a 25, em que o codificador de áudio (300) é caracterizado por ser configurado para ativar e desativar uma ferramenta de codificação conjunta em dependência de um ou mais mapas de intensidade sonora direcionais que representam informações de intensidade sonora (142, 1421, 1422, 142a, 142b) associadas a uma pluralidade de diferentes direções (121) do um ou mais sinais a serem codificados; e/ou em que o codificador de áudio (300) é configurado para determinar um ou mais parâmetros de uma ferramenta de codificação conjunta em dependência de um ou mais mapas de intensidade sonora direcionais que representam informações de intensidade sonora (142, 1421, 1422, 142a, 142b) associadas a uma pluralidade de diferentes direções (121) do um ou mais sinais a serem codificados.
27. Codificador de áudio (300) para codificar (310) um conteúdo de áudio de entrada (112) que compreende um ou mais sinais de áudio de entrada (112, 112 1, 1122, 1123, 112a, 112b), em que o codificador de áudio (300) é caracterizado por ser configurado para fornecer um ou mais sinais de áudio codificados (320) com base em dois ou mais sinais de áudio de entrada (112, 1121, 1122, 1123, 112a, 112b), ou com base em dois ou mais sinais derivados dos mesmos (110, 1101, 1102, 110a, 110b), com o uso de uma codificação conjunta (310) de dois ou mais sinais a serem codificados juntamente; em que o codificador de áudio (300) é configurado para selecionar (350) sinais a serem codificados juntamente dentre uma pluralidade de sinais candidatos (110, 1101, 1102) ou dentre uma pluralidade de pares de sinais candidatos (110, 110 1, 1102) em dependência de mapas de intensidade sonora direcionais que representam informações de intensidade sonora (142, 1421, 1422, 142a, 142b) associadas a uma pluralidade de diferentes direções (121) dos sinais candidatos (110, 110 1, 1102) ou dos pares de sinais candidatos (110, 1101, 1102).
28. Codificador de áudio (300), de acordo com a reivindicação 27, em que o codificador de áudio (300) é caracterizado por ser configurado para selecionar (350) sinais a serem codificados juntamente dentre uma pluralidade de sinais candidatos (110, 1101, 1102) ou dentre uma pluralidade de pares de sinais candidatos (110, 1101, 1102) em dependência de contribuições de mapas de intensidade sonora direcionais individuais dos sinais candidatos (110, 110 1, 1102) para um mapa de intensidade sonora direcional geral ou em dependência de contribuições de mapas de intensidade sonora direcionais dos pares de sinais candidatos (110, 1101, 1102) para um mapa de intensidade sonora direcional geral; e/ou em que o codificador de áudio (300) é configurado para determinar uma contribuição de pares de sinais candidatos (110, 110 1, 1102) para o mapa de intensidade sonora direcional geral; e em que o codificador de áudio (300) é configurado para escolher um ou mais pares de sinais candidatos (110, 1101, 1102) que têm uma contribuição mais alta para o mapa de intensidade sonora direcional geral para uma codificação conjunta (310), ou em que o codificador de áudio (300) é configurado para escolher um ou mais pares de sinais candidatos (110, 1101, 1102) que têm uma contribuição para o mapa de intensidade sonora direcional geral que é maior que um limite predeterminado para uma codificação conjunta (310); e/ou em que o codificador de áudio (300) é configurado para determinar mapas de intensidade sonora direcionais individuais de dois ou mais sinais candidatos (110, 1101, 1102), e em que o codificador de áudio (300) é configurado para comparar os mapas de intensidade sonora direcionais individuais dos dois ou mais sinais candidatos (110, 1101, 1102), e em que o codificador de áudio (300) é configurado para selecionar (350) dois ou mais dos sinais candidatos (110, 1101, 1102) para uma codificação conjunta (310) em dependência de um resultado da comparação; e/ou em que o codificador de áudio (300) é configurado para determinar um mapa de intensidade sonora direcional geral com o uso de uma mistura descendente dos sinais de áudio de entrada (112, 112 1, 1122, 1123, 112a, 112b) ou com o uso de uma binauralização dos sinais de áudio de entrada (112, 112 1, 1122, 1123, 112a, 112b).
29. Codificador de áudio (300) para codificar (310) um conteúdo de áudio de entrada (112) que compreende um ou mais sinais de áudio de entrada (112, 112 1, 1122, 1123, 112a, 112b), em que o codificador de áudio (300) é caracterizado por ser configurado para fornecer um ou mais sinais de áudio codificados (320) com base em dois ou mais sinais de áudio de entrada (112, 1121, 1122, 1123, 112a, 112b), ou com base em dois ou mais sinais derivados dos mesmos (110, 1101, 1102, 110a, 110b); em que o codificador de áudio (300) é configurado para determinar um mapa de intensidade sonora direcional geral com base nos sinais de áudio de entrada (112, 1121, 1122, 1123, 112a, 112b) e/ou para determinar um ou mais mapas de intensidade sonora direcionais individuais associados a sinais de áudio de entrada individuais (112, 1121, 1122, 1123, 112a, 112b); e em que o codificador de áudio (300) é configurado para codificar o mapa de intensidade sonora direcional geral e/ou um ou mais mapas de intensidade sonora direcionais individuais como informações laterais.
30. Codificador de áudio (300), de acordo com a reivindicação 29, em que o codificador de áudio (300) é caracterizado por ser configurado para determinar o mapa de intensidade sonora direcional geral com base nos sinais de áudio de entrada (112, 1121, 1122, 1123, 112a, 112b) de modo que o mapa de intensidade sonora direcional geral representa informações de intensidade sonora (142, 1421, 1422, 142a, 142b) associadas às diferentes direções (121) de um cena de áudio representada pelos sinais de áudio de entrada (112, 1121, 1122, 1123, 112a, 112b); e/ou em que o codificador de áudio (300) é configurado para codificar o mapa de intensidade sonora direcional geral na forma de um conjunto de valores associados a diferentes direções (121); ou em que o codificador de áudio (300) é configurado para codificar o mapa de intensidade sonora direcional geral com o uso de um valor de posição central e informações de coeficiente angular; ou em que o codificador de áudio (300) é configurado para codificar o mapa de intensidade sonora direcional geral na forma de uma representação polinomial; ou em que o codificador de áudio (300) é configurado para codificar o mapa de intensidade sonora direcional geral na forma de uma representação de coluna; e/ou em que o codificador de áudio (300) é configurado para codificar um sinal de mistura descendente obtido com base em uma pluralidade de sinais de áudio de entrada (112, 1121, 1122, 1123, 112a, 112b) e um mapa de intensidade sonora direcional geral; ou em que o codificador de áudio (300) é configurado para codificar uma pluralidade de sinais, e para codificar mapas de intensidade sonora direcionais individuais de uma pluralidade de sinais que são codificados; ou em que o codificador de áudio (300) é configurado para codificar um mapa de intensidade sonora direcional geral, uma pluralidade de sinais e parâmetros que descrevem as contribuições dos sinais que são codificados para o mapa de intensidade sonora direcional geral.
31. Decodificador de áudio (400) para decodificar (410) um conteúdo de áudio codificado (420), em que o decodificador de áudio (400) é caracterizado por ser configurado para receber uma representação codificada (420) de um ou mais sinais de áudio e para fornecer uma representação decodificada (432) de um ou mais sinais de áudio; em que o decodificador de áudio (400) é configurado para receber informações de mapa de intensidade sonora direcional codificado (424) e para decodificar as informações de mapa de intensidade sonora direcional codificado (424), para obter um ou mais mapas de intensidade sonora direcionais (414); e em que o decodificador de áudio (400) é configurado para reconstruir (430) uma cena de áudio com o uso da representação decodificada (432) de um ou mais sinais de áudio e com o uso de um ou mais mapas de intensidade sonora direcionais.
32. Decodificador de áudio (400), de acordo com a reivindicação 31, sendo o decodificador de áudio (400) caracterizado por ser configurado para obter sinais de saída de modo que um ou mais mapas de intensidade sonora direcionais associados aos sinais de saída se aproximem ou se igualem a um ou mais mapas- alvo de intensidade sonora direcionais, em que o um ou mais mapas-alvo de intensidade sonora direcionais têm como base o um ou mais mapas de intensidade sonora direcionais decodificados (414) ou são iguais a um ou mais mapas de intensidade sonora direcionais decodificados (414).
33. Decodificador de áudio (400), de acordo com a reivindicação 31 ou 32,
em que o decodificador de áudio (400) é caracterizado por ser configurado para receber - um sinal de mistura descendente codificado e um mapa de intensidade sonora direcional geral; ou - uma pluralidade de sinais de áudio codificados (422), e mapas de intensidade sonora direcionais individuais da pluralidade de sinais codificados; ou - um mapa de intensidade sonora direcional geral, uma pluralidade de sinais de áudio codificados (422) e parâmetros que descrevem contribuições dos sinais de áudio codificados (422) para o mapa de intensidade sonora direcional geral; e em que o decodificador de áudio (400) é configurado para fornecer os sinais de saída com base nos mesmos.
34. Conversor de formato (500) para converter (510) um formato de um conteúdo de áudio (520), que representa uma cena de áudio, de um primeiro formato para um segundo formato, em que o conversor de formato (500) é caracterizado por ser configurado para fornecer uma representação (530) do conteúdo de áudio no segundo formato com base na representação do conteúdo de áudio no primeiro formato; em que o conversor de formato (500) é configurado para ajustar (540) uma complexidade da conversão de formato em dependência de contribuições de sinais de áudio de entrada (112, 1121, 1122, 1123, 112a, 112b) do primeiro formato para um mapa de intensidade sonora direcional geral da cena de áudio.
35. Conversor de formato (500), de acordo com a reivindicação 34, em que o conversor de formato (500) é caracterizado por ser configurado para computar ou estimar uma contribuição de um determinado sinal de áudio de entrada para o mapa de intensidade sonora direcional geral da cena de áudio; e em que o conversor de formato (500) é configurado para decidir se deve considerar o determinado sinal de áudio de entrada na conversão de formato em dependência de uma computação ou estimativa da contribuição.
36. Decodificador de áudio (400) para decodificar (410) um conteúdo de áudio codificado (420), em que o decodificador de áudio (400) é caracterizado por ser configurado para receber uma representação codificada (420) de um ou mais sinais de áudio e para fornecer uma representação decodificada (432) de um ou mais sinais de áudio; em que o decodificador de áudio (400) é configurado para reconstruir (430) uma cena de áudio com o uso da representação decodificada (432) de um ou mais sinais de áudio; em que o decodificador de áudio (400) é configurado para ajustar (440) uma complexidade de decodificação em dependência de contribuições de sinais codificados para um mapa de intensidade sonora direcional geral de uma cena de áudio decodificada.
37. Decodificador de áudio (400), de acordo com a reivindicação 36, em que o decodificador de áudio (400) é caracterizado por ser configurado para receber informações de mapa de intensidade sonora direcional codificado (424) e para decodificar as informações de mapa de intensidade sonora direcional codificado (424), para obter o mapa de intensidade sonora direcional geral e/ou um ou mais mapas de intensidade sonora direcionais.
38. Decodificador de áudio (400), de acordo com a reivindicação 37, em que o decodificador de áudio (400) é caracterizado por ser configurado para derivar o mapa de intensidade sonora direcional geral de um ou mais mapas de intensidade sonora direcionais.
39. Decodificador de áudio (400), de acordo com qualquer uma das reivindicações 36 a 38, em que o decodificador de áudio (400) é caracterizado por ser configurado para computar ou estimar uma contribuição de um determinado sinal codificado para o mapa de intensidade sonora direcional geral da cena de áudio decodificada; e em que o decodificador de áudio (400) é configurado para decidir se deve decodificar o determinado sinal codificado em dependência de uma computação ou estimativa da contribuição.
40. Renderizador (600) para renderizar um conteúdo de áudio, em que o renderizador (600) é caracterizado por ser configurado para reconstruir (640) uma cena de áudio com base em um ou mais sinais de áudio de entrada (112, 1121, 1122, 1123, 112a, 112b); em que o renderizador (600) é configurado para ajustar (650) uma complexidade de renderização em dependência de contribuições dos sinais de áudio de entrada (112, 1121, 1122, 1123, 112a, 112b) para um mapa de intensidade sonora direcional geral (142) de uma cena de áudio renderizada (642).
41. Renderizador (600), de acordo com a reivindicação 40, em que o renderizador (600) é caracterizado por ser configurado para computar ou estimar uma contribuição de um determinado sinal de áudio de entrada para o mapa de intensidade sonora direcional geral da cena de áudio; e em que o renderizador (600) é configurado para decidir se deve considerar o determinado sinal de áudio de entrada na renderização em dependência de uma computação ou estimativa da contribuição.
42. Método (1000) para analisar um sinal de áudio, em que o método é caracterizado por compreender: obter (1100) uma pluralidade de representações de domínio espectral ponderadas com base em uma ou mais representações de domínio espectral de dois ou mais sinais de áudio de entrada, em que os valores das uma ou mais representações de domínio espectral são ponderados (1200) em dependência de diferentes direções de componentes de áudio em dois ou mais sinais de áudio de entrada, para obter a pluralidade de representações de domínio espectral ponderadas; e obter (1300) informações de intensidade sonora associadas a diferentes direções com base na pluralidade de representações de domínio espectral ponderadas como um resultado de análise.
43. Método (2000) para avaliar uma similaridade de sinais de áudio, em que o método é caracterizado por compreender: obter (2100) primeiras informações de intensidade sonora associadas a diferentes direções com base em um primeiro conjunto de dois ou mais sinais de áudio de entrada, e comparar (2200) as primeiras informações de intensidade sonora com as segundas informações de intensidade sonora associadas a diferentes direções de movimentação e com um conjunto de dois ou mais sinais de áudio de referência, a fim de obter (2300) informações de similaridade que descrevem uma similaridade entre o primeiro conjunto de dois ou mais sinais de áudio de entrada e o conjunto de dois ou mais sinais de áudio de referência.
44. Método (3000) para codificar um conteúdo de áudio de entrada que compreende um ou mais sinais de áudio de entrada, em que o método é caracterizado por compreender fornecer (3100) um ou mais sinais de áudio codificados com base em um ou mais sinais de áudio de entrada, ou um ou mais sinais derivados dos mesmos; e em que o método compreende adaptar (3200) o fornecimento de um ou mais sinais de áudio codificados em dependência de um ou mais mapas de intensidade sonora direcionais que representam informações de intensidade sonora associadas a uma pluralidade de diferentes direções de um ou mais sinais a serem codificados.
45. Método (4000) para codificar um conteúdo de áudio de entrada que compreende um ou mais sinais de áudio de entrada, em que o método é caracterizado por compreender fornecer (4100) um ou mais sinais de áudio codificados com base em dois ou mais sinais de áudio de entrada, ou com base em dois ou mais sinais derivados dos mesmos, com o uso de uma codificação conjunta de dois ou mais sinais a serem codificados em conjunto; e em que o método compreende selecionar (4200) sinais a serem codificados dentre uma pluralidade de sinais candidatos ou dentre uma pluralidade de pares de sinais candidatos em dependência de mapas de intensidade sonora direcionais que representam as informações de intensidade sonora associadas a uma pluralidade de diferentes direções dos sinais candidatos ou dos pares de sinais candidatos.
46. Método (5000) para codificar um conteúdo de áudio de entrada que compreende um ou mais sinais de áudio de entrada, em que o método é caracterizado por compreender fornecer (5100) um ou mais sinais de áudio codificados com base em dois ou mais sinais de áudio de entrada, ou com base em dois ou mais sinais derivados dos mesmos; em que o método compreende determinar (5200) um mapa de intensidade sonora direcional geral com base nos sinais de áudio de entrada, e/ou determinar um ou mais mapas de intensidade sonora direcionais individuais associados a sinais de áudio de entrada individuais; e em que o método compreende codificar (5300) o mapa de intensidade sonora direcional geral e/ou um ou mais mapas de intensidade sonora direcionais individuais como informações laterais.
47. Método (6000) para decodificar um conteúdo de áudio codificado, em que o método é caracterizado por compreender receber (6100) uma representação codificada de um ou mais sinais de áudio e fornecer (6200) uma representação decodificada de um ou mais sinais de áudio; em que o método compreende receber (6300) informações de mapa de intensidade sonora direcional codificado e decodificar (6400) as informações de mapa de intensidade sonora direcional codificado, para obter (6500) um ou mais mapas de intensidade sonora direcionais; e em que o método compreende reconstruir (6600) uma cena de áudio com o uso da representação decodificada de um ou mais sinais de áudio e com o uso de um ou mais mapas de intensidade sonora direcionais.
48. Método (7000) para converter (7100) um formato de um conteúdo de áudio, que representa uma cena de áudio, de um primeiro formato para um segundo formato, em que método é caracterizado por compreender fornecer uma representação do conteúdo de áudio no segundo formato com base na representação do conteúdo de áudio no primeiro formato; em que o método compreende ajustar (7200) uma complexidade da conversão de formato em dependência de contribuições de sinais de áudio de entrada do primeiro formato para um mapa de intensidade sonora direcional geral da cena de áudio.
49. Método (8000) para decodificar um conteúdo de áudio codificado, em que o método é caracterizado por compreender receber (8100) uma representação codificada de um ou mais sinais de áudio e fornecer (8200) uma representação decodificada de um ou mais sinais de áudio; em que o método compreende reconstruir (8300) uma cena de áudio com o uso da representação decodificada de um ou mais sinais de áudio; em que o método compreende ajustar (8400) uma complexidade de decodificação em dependência de contribuições de sinais codificados para um mapa de intensidade sonora direcional geral de uma cena de áudio decodificada.
50. Método (9000) para renderizar um conteúdo de áudio, em que o método é caracterizado por compreender reconstruir (9100) uma cena de áudio com base em um ou mais sinais de áudio de entrada; em que o método compreende ajustar (9200) uma complexidade de renderização em dependência de contribuições dos sinais de áudio de entrada para um mapa de intensidade sonora direcional geral de uma cena de áudio renderizada.
51. Programa de computador caracterizado por ter um código de programa para realizar, quando executado em um computador, um método, conforme definido em qualquer uma das reivindicações 42 a 50.
52. Representação de áudio caracterizada por compreender uma representação codificada de um ou mais sinais de áudio; e informações de mapa de intensidade sonora direcional codificadas.
BR112021007807-0A 2018-10-26 2019-10-28 analisador, avaliador de similaridade, codificador e decodificador de áudio, conversor de formato, renderizador, métodos e representação de áudio BR112021007807A2 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP18202945.4 2018-10-26
EP18202945 2018-10-26
EP19169684 2019-04-16
EP19169684.8 2019-04-16
PCT/EP2019/079440 WO2020084170A1 (en) 2018-10-26 2019-10-28 Directional loudness map based audio processing

Publications (1)

Publication Number Publication Date
BR112021007807A2 true BR112021007807A2 (pt) 2021-07-27

Family

ID=68290255

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112021007807-0A BR112021007807A2 (pt) 2018-10-26 2019-10-28 analisador, avaliador de similaridade, codificador e decodificador de áudio, conversor de formato, renderizador, métodos e representação de áudio

Country Status (6)

Country Link
US (1) US20210383820A1 (pt)
EP (3) EP3871216A1 (pt)
JP (2) JP2022505964A (pt)
CN (1) CN113302692A (pt)
BR (1) BR112021007807A2 (pt)
WO (1) WO2020084170A1 (pt)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220358940A1 (en) * 2021-05-07 2022-11-10 Electronics And Telecommunications Research Institute Methods of encoding and decoding audio signal using side information, and encoder and decoder for performing the methods

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3944240A1 (en) * 2020-07-20 2022-01-26 Nederlandse Organisatie voor toegepast- natuurwetenschappelijk Onderzoek TNO Method of determining a perceptual impact of reverberation on a perceived quality of a signal, as well as computer program product
US11637043B2 (en) 2020-11-03 2023-04-25 Applied Materials, Inc. Analyzing in-plane distortion
EP4346234A1 (en) * 2022-09-29 2024-04-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for perception-based clustering of object-based audio scenes
EP4346235A1 (en) * 2022-09-29 2024-04-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method employing a perception-based distance metric for spatial audio
JP2024067294A (ja) 2022-11-04 2024-05-17 株式会社リコー 結像レンズ、交換レンズ、撮像装置及び情報処理装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19628293C1 (de) * 1996-07-12 1997-12-11 Fraunhofer Ges Forschung Codieren und Decodieren von Audiosignalen unter Verwendung von Intensity-Stereo und Prädiktion
KR20070017441A (ko) * 1998-04-07 2007-02-09 돌비 레버러토리즈 라이쎈싱 코오포레이션 저 비트속도 공간 코딩방법 및 시스템
WO2006004048A1 (ja) * 2004-07-06 2006-01-12 Matsushita Electric Industrial Co., Ltd. オーディオ信号符号化装置、オーディオ信号復号化装置、方法、及びプログラム
CN101138021B (zh) * 2005-03-14 2012-01-04 韩国电子通信研究院 使用虚拟源位置信息的多声道音频压缩和解压缩方法
GB2467668B (en) * 2007-10-03 2011-12-07 Creative Tech Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
JP5215826B2 (ja) * 2008-11-28 2013-06-19 日本電信電話株式会社 複数信号区間推定装置とその方法とプログラム
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
ES2950751T3 (es) * 2010-04-13 2023-10-13 Fraunhofer Ges Forschung Codificador de audio o vídeo, decodificador de audio o vídeo y métodos relacionados para procesar señales de audio o vídeo multicanal usando una dirección de predicción variable
CN104885151B (zh) * 2012-12-21 2017-12-22 杜比实验室特许公司 用于基于感知准则呈现基于对象的音频内容的对象群集
MX339611B (es) * 2013-01-21 2016-05-31 Dolby Laboratories Licensing Corp Codificador y decodificador de audio con metadatos de limite y sonoridad de programa.
US9883312B2 (en) * 2013-05-29 2018-01-30 Qualcomm Incorporated Transformed higher order ambisonics audio data
EP4379714A2 (en) * 2013-09-12 2024-06-05 Dolby Laboratories Licensing Corporation Loudness adjustment for downmixed audio content
EP2958343B1 (en) * 2014-06-20 2018-06-20 Natus Medical Incorporated Apparatus for testing directionality in hearing instruments
WO2018047667A1 (ja) * 2016-09-12 2018-03-15 ソニー株式会社 音声処理装置および方法
JP6591477B2 (ja) * 2017-03-21 2019-10-16 株式会社東芝 信号処理システム、信号処理方法及び信号処理プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220358940A1 (en) * 2021-05-07 2022-11-10 Electronics And Telecommunications Research Institute Methods of encoding and decoding audio signal using side information, and encoder and decoder for performing the methods
US11783844B2 (en) * 2021-05-07 2023-10-10 Electronics And Telecommunications Research Institute Methods of encoding and decoding audio signal using side information, and encoder and decoder for performing the methods

Also Published As

Publication number Publication date
JP2022177253A (ja) 2022-11-30
WO2020084170A1 (en) 2020-04-30
JP2022505964A (ja) 2022-01-14
RU2022106058A (ru) 2022-04-05
EP3871216A1 (en) 2021-09-01
RU2022106060A (ru) 2022-04-04
EP4213147A1 (en) 2023-07-19
US20210383820A1 (en) 2021-12-09
EP4220639A1 (en) 2023-08-02
CN113302692A (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
BR112021007807A2 (pt) analisador, avaliador de similaridade, codificador e decodificador de áudio, conversor de formato, renderizador, métodos e representação de áudio
US7983922B2 (en) Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
US9516446B2 (en) Scalable downmix design for object-based surround codec with cluster analysis by synthesis
US9761229B2 (en) Systems, methods, apparatus, and computer-readable media for audio object clustering
US9449604B2 (en) Method for determining an encoding parameter for a multi-channel audio signal and multi-channel audio encoder
CA2583146C (en) Diffuse sound envelope shaping for binaural cue coding schemes and the like
US8612237B2 (en) Method and apparatus for determining audio spatial quality
JP4664431B2 (ja) アンビエンス信号を生成するための装置および方法
BRPI0304540B1 (pt) Methods for coding an audio signal, and to decode an coded audio sign, encoder to codify an audio signal, codified audio sign, storage media, and, decoder to decode a coded audio sign
BRPI0516405B1 (pt) Conformação individual de canal para esquemas bcc e similares
BR122018072501B1 (pt) Codificação paramétrica conjunta de fontes de áudio
Narbutt et al. AMBIQUAL-a full reference objective quality metric for ambisonic spatial audio
Jia et al. Encoding multiple audio objects using intra-object sparsity
WO2019170955A1 (en) Audio coding
Delgado et al. Objective assessment of spatial audio quality using directional loudness maps
US20200015028A1 (en) Energy-ratio signalling and synthesis
RU2771833C1 (ru) Обработка аудиоданных на основе карты направленной громкости
RU2793703C2 (ru) Обработка аудиоданных на основе карты направленной громкости
RU2798019C2 (ru) Обработка аудиоданных на основе карты направленной громкости