BR112017007267B1 - Adaptação de conteúdo de hoa relacionada a tela - Google Patents

Adaptação de conteúdo de hoa relacionada a tela Download PDF

Info

Publication number
BR112017007267B1
BR112017007267B1 BR112017007267-0A BR112017007267A BR112017007267B1 BR 112017007267 B1 BR112017007267 B1 BR 112017007267B1 BR 112017007267 A BR112017007267 A BR 112017007267A BR 112017007267 B1 BR112017007267 B1 BR 112017007267B1
Authority
BR
Brazil
Prior art keywords
audio
hoa
viewport
matrix
reference screen
Prior art date
Application number
BR112017007267-0A
Other languages
English (en)
Other versions
BR112017007267A2 (pt
Inventor
Nils Günther Peters
Martin James Morrell
Dipanjan Sen
Original Assignee
Qualcomm Incorporated
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Incorporated filed Critical Qualcomm Incorporated
Publication of BR112017007267A2 publication Critical patent/BR112017007267A2/pt
Publication of BR112017007267B1 publication Critical patent/BR112017007267B1/pt

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

ADAPTAÇÃO DE CONTEÚDO DE HOA RELACIONADA A TELA. Trata-se de técnicas para codificação de dados de áudio de ambissônica de ordem superior que compreende pelo menos um coeficiente de ambissônica de ordem superior (HOA) que corresponde a uma função de base harmônica esférica que tem uma ordem maior que um. Essa revelação descreve técnicas para ajustar campos sonoros de HOA para aprimorar potencialmente o alinhamento espacial dos elementos acústicos ao componente visual em um cenário de reprodução de áudio/vídeo misturado. Em um exemplo, um dispositivo para renderizar um sinal de áudio de HOA inclui um ou mais processadores configurados para renderizar o sinal de áudio de HOA através de um ou mais alto-falantes com base nos um ou mais parâmetros de campo de visão (FOV) de uma tela de referência e nos um ou mais parâmetros de FOV de uma janela de visualização.

Description

[0001] Este pedido reivindica o benefício do Pedido de Patente Provisório US 62/062.761, depositado em 10 de outubro de 2014, cujo o conteúdo total é incorporado ao presente documento a título de referência.
CAMPO DA TÉCNICA
[0002] Esta revelação refere-se a dados de áudio e, mais especificamente, a codificação de dados de áudio de ambissônica de ordem superior.
ANTECEDENTES
[0003] Um sinal de ambissônica de ordem superior (HOA) (frequentemente representado por uma pluralidade de coeficientes harmônicos esféricos (SHC) ou outros elementos hierárquicos) é uma representação tridimensional de um campo sonoro. A representação de HOA ou SHC pode representar o campo sonoro de uma maneira que é independente da geometria de alto-falante local usado para reproduzir um sinal de áudio de multicanal renderizado a partir do sinal de SHC. O sinal de SHC também pode facilitar a compatibilidade com versões anteriores à medida que o sinal de SHC pode ser renderizado para formatos de multicanal bem conhecidos e altamente adotados, como um formato de canal de áudio 5.1 ou um formato de canal de áudio 7.1. A representação de SHC pode possibilitar, portanto, uma representação melhor de um campo sonoro que também acomoda a compatibilidade com versões anteriores.
SUMÁRIO
[0004] Em geral, as técnicas são descritas para a codificação de dados de áudio de ambissônica de ordem superior. Os dados de áudio de ambissônica de ordem superior podem compreender pelo menos um coeficiente de ambissônica de ordem superior (HOA) esférico que corresponde a uma função de base harmônica esférica que tem uma ordem maior que um. Essa revelação descreve técnicas para ajustar campos sonoros de HOA para aprimorar potencialmente o alinhamento espacial dos elementos acústicos ao componente visual em um cenário de reprodução de áudio/vídeo misturado.
[0005] Em um exemplo, a dispositivo para renderizar a sinal de áudio de ambissônica de ordem superior (HOA) inclui um ou mais processadores configurados para renderizar o sinal de áudio de HOA através de um ou mais alto-falantes com base nos um ou mais parâmetros de campo de visão (FOV) de uma tela de referência e um ou mais parâmetros de FOV de uma janela de visualização.
[0006] Em um outro exemplo, um método de renderização de um sinal de áudio de ambissônica de ordem superior (HOA) inclui renderizar o sinal de áudio de HOA através de um ou mais alto-falantes com base nos um ou mais parâmetros de campo de visão (FOV) de uma tela de referência e um ou mais parâmetros de FOV de uma janela de visualização.
[0007] Em um outro exemplo, um aparelho para renderizar um sinal de áudio de ambissônica de ordem superior (HOA) inclui meios para receber o sinal de áudio de HOA e meios para renderizar o sinal de áudio de HOA através de um ou mais alto-falantes com base nos um ou mais parâmetros de campo de visão (FOV) de uma tela de referência e nos um ou mais parâmetros de FOV de uma janela de visualização.
[0008] Em um outro exemplo, um meio de armazenamento legível por computador armazena instruções que quando executadas por um ou mais processadores fazem com que os um ou mais processadores renderizem um sinal de áudio de ambissônica de ordem superior (HOA), incluindo renderizar o sinal de áudio de HOA através de um ou mais alto-falantes com base nos um ou mais parâmetros de campo de visão (FOV) de uma tela de referência e um ou mais parâmetros de FOV de uma janela de visualização.
[0009] Os detalhes da um ou mais aspectos das técnicas são estabelecidos nos desenhos anexos e na descrição abaixo. Outros recursos, objetos e vantagens das técnicas serão evidentes a partir da descrição e dos desenhos, e a partir das reivindicações.
BREVE DESCRIÇÃO DOS DESENHOS
[0010] A Figura 1 é um diagrama que ilustram funções de base harmônica esférica de várias ordens e subordens.
[0011] A Figura 2 é um diagrama que ilustra um sistema que pode realizar vários aspectos das técnicas descritas nesta revelação.
[0012] A Figura 3 é um diagrama de blocos que ilustra, em mais detalhes, um exemplo do dispositivo de codificação de áudio mostrado no exemplo da Figura 2 que pode realizar vários aspectos das técnicas descritas nesta revelação.
[0013] A Figura 4 é um diagrama de blocos que ilustra o dispositivo de decodificação de áudio da Figura 2 em mais detalhes.
[0014] A Figura 5 é um fluxograma que ilustra a operação exemplificativa de um dispositivo de codificação de áudio no desempenho de vários aspectos das técnicas de síntese baseada em vetor descritas nesta revelação.
[0015] A Figura 6 é um fluxograma que ilustra a operação exemplificativa de um dispositivo de decodificação de áudio no desempenho de vários aspectos das técnicas descritas nesta revelação.
[0016] A Figura7A mostra uma função de mapeamento exemplificativa que pode ser usada para mapear os ângulos de azimute originais para ângulos de azimute modificados com base em um tamanho de tela de referência e um tamanho de janela de visualização.
[0017] A Figura 7B mostra uma função de mapeamento exemplificativa que pode ser usada para mapear os ângulos de elevação originais para ângulos de elevação modificados com base em um tamanho de tela de referência e um tamanho de janela de visualização.
[0018] A Figura 8 mostra um campo de vetor para um efeito de expansão relacionados a tela desejado do campo sonoro como um efeito de tela de referência e de janela de visualização para o primeiro exemplo.
[0019] As Figuras 9A e 9B mostram exemplos de matrizes de efeito de HOA computado.
[0020] A Figura 10 mostra um exemplo de como uma matriz de efeito pode ser pré-renderizada e aplicada à matriz de renderização de alto-falante.
[0021] A Figura 11 mostra um exemplo de como a matriz de efeito pode resultar em um conteúdo de ordem superior (por exemplo, 6a ordem), uma matriz de renderização nessa ordem pode ser multiplicada para pré- computar a matriz de renderização final na ordem original (no presente, 3a ordem).
[0022] A Figura 12A mostra uma função de mapeamento exemplificativa que pode ser usada para mapear os ângulos de azimute originais para ângulos de azimute modificados com base em um tamanho de tela de referência e um tamanho de janela de visualização.
[0023] A Figura 12B mostra uma função de mapeamento exemplificativa que pode ser usada para mapear os ângulos de elevação originais para ângulos de elevação modificados com base em um tamanho de tela de referência e um tamanho de uma janela de visualização.
[0024] A Figura 12C mostra uma matriz de efeito de HOA computado.
[0025] A Figura 13 mostra um campo de vetor para um efeito de expansão relacionados a tela desejado do campo sonoro como um efeito de tela de referência e de janela de visualização.
[0026] A Figura 14A mostra uma função de mapeamento exemplificativa que pode ser usada para mapear os ângulos de azimute originais para ângulos de azimute modificados com base em um tamanho de tela de referência e um tamanho de janela de visualização.
[0027] A Figura 14B mostra uma função de mapeamento exemplificativa que pode ser usada para mapear os ângulos de elevação originais para ângulos de elevação modificados com base em um tamanho de tela de referência e um tamanho de uma janela de visualização.
[0028] A Figura 14C mostra uma matriz de efeito de HOA computado.
[0029] A Figura 15 mostra um campo de vetor para um efeito de expansão relacionados a tela desejado do campo sonoro como um efeito de tela de referência e de janela de visualização.
[0030] A Figura 16A mostra uma função de mapeamento exemplificativa que pode ser usada para mapear os ângulos de azimute originais para ângulos de azimute modificados com base em um tamanho de tela de referência e um tamanho de janela de visualização.
[0031] A Figura 16B mostra uma função de mapeamento exemplificativa que pode ser usada para mapear os ângulos de elevação originais para ângulos de elevação modificados com base em um tamanho de tela de referência e um tamanho de uma janela de visualização.
[0032] A Figura 16C mostra uma matriz de efeito de HOA computado.
[0033] A Figura 17 mostra um campo de vetor para um efeito de expansão relacionados a tela desejado do campo sonoro como um efeito de tela de referência e de janela de visualização.
[0034] A Figura 18A mostra uma função de mapeamento exemplificativa que pode ser usada para mapear os ângulos de azimute originais para ângulos de azimute modificados com base em um tamanho de tela de referência e um tamanho de janela de visualização.
[0035] A Figura 18B mostra uma função de mapeamento exemplificativa que pode ser usada para mapear os ângulos de elevação originais para ângulos de elevação modificados com base em um tamanho de tela de referência e um tamanho de uma janela de visualização.
[0036] A Figura 18C mostra uma matriz de efeito de HOA computado.
[0037] A Figura 19 mostra um campo de vetor para um efeito de expansão relacionados a tela desejado do campo sonoro como um efeito de tela de referência e de janela de visualização.
[0038] As Figuras 20A a 20C são diagramas de blocos que ilustram implantações exemplificativas de dispositivos de renderização de áudio configurado para implantar as técnicas desta revelação.
[0039] A Figura 21 é um fluxograma que ilustra a operação de um dispositivo de decodificação de áudio na realização das técnicas de adaptação baseadas em tela descritas nesta revelação.
DESCRIÇÃO DETALHADA
[0040] A evolução do som surround disponibilizou muitos formatos de saída para o entretenimento hoje em dia. Os exemplos de tais formatos de som surround do consumidor são, principalmente, "canal" com base no fato de que os mesmos especificam implicitamente fluxos de alimentação para os alto-falantes em determinadas coordenadas geométricas. Os formatos de som surround do consumidor incluem o popular formato 5.1 (que inclui os seis canais a seguir: esquerda frontal (FL), direita frontal (FR), centro ou centro frontal, esquerda posterior ou esquerda surround, direita posterior ou direita surround, e efeitos de baixa frequência (LFE)), o formato 7.1 crescente, vários formatos que incluem alto-falantes de altura como o formato 7.1.4 e o formato 22.2 (por exemplo, para uso com o Padrão de Televisão de Definição Ultra Alta). Os formatos para não consumidor podem abranger qualquer quantidade de alto-falantes (em geometrias simétricas e não simétricas) frequentemente designados "arranjos surround". Um exemplo de tal arranjo inclui 32 alto-falantes posicionados em coordenadas dos cantos de um isosaedro truncado.
[0041] A entrada em um codificador de MPEG futuro é opcionalmente um dos três formatos possíveis: (i) áudio baseado em canal tradicional (conforme discutido acima), que é destinado a ser reproduzido através de alto- falantes em posições pré-especificadas; (ii) áudio baseado em objeto, que envolve dados de modulação de código e pulso discreto (PCM) para únicos objetos de áudio com metadados associados que contêm suas coordenadas de localização (dentre outras informações); e (iii) áudio baseado em cena, que envolve representar o campo sonoro com uso de coeficientes de funções de base de harmônica esférica (também chamados de “coeficientes harmônicos esféricos” ou SHC, “Ambissônica de Ordem Superior” ou HOA, e “coeficientes de HOA”). O codificador de MPEG futuro pode ser descrito em mais detalhes em um documento intitulado “Call for Proposals for 3D Audio”, pela Organização Internacional para Padronização/Comissão Internacional de Eletrotécnica (ISO)/(IEC) JTC1/SC29/WG11/N13411, liberado em janeiro de 2013 em Genebra, Suíça, e disponível em http://mpeg.chiariglione.org/sites/default/files/files/stan dards/parts/docs/w13411.zip.
[0042] Há vários formatos baseados em canal de "som surround" no mercado. Os mesmos variam, por exemplo, do sistema de home theatre 5.1 (que foi o mais bem-sucedido em termos de fazer avanços nas salas de estar além do estéreo) para o sistema 22.2 desenvolvido por NHK (Nippon Hoso Kyokai ou Japan Broadcasting Corporation). Os criadores de conteúdo (por exemplo, estúdios Hollywood) gostariam de produzir a trilha sonora para um filme uma vez e sem gastar esforços para remixar a mesma para cada configuração de alto-falante. Recentemente, as Organizações de Desenvolvimento de Padrões têm considerado modos nos quais deve-se fornecer uma codificação para um fluxo de bits padronizado e uma decodificação subsequente que é adaptável e agnóstica à geometria do alto-falante (e número) e condições acústicas no local da reprodução (envolvendo um renderizador).
[0043] Para fornecer tal flexibilidade para os criadores de conteúdo, um conjunto hierárquico de elementos pode ser usado para representar um campo sonoro. O conjunto hierárquico de elementos pode se referir a um conjunto de elementos em que os elementos são ordenados de tal modo que um conjunto básico de elementos ordenados inferiores fornece uma representação completa do campo sonoro modelado. Conforme o conjunto é estendido para incluir elementos de ordem superior, a representação se torna mais detalhada, aumentando a resolução.
[0044] Um exemplo de um conjunto hierárquico de elementos é um conjunto de coeficientes harmônicos esféricos (SHC). A expressão a seguir demonstra uma descrição ou representação de um campo sonoro com o uso de SHC:
Figure img0001
[0045] A expressão mostra que a pressão em qualquer ponto do
Figure img0002
do campo sonoro, no tempo t, pode ser representada unicamente pelo SHC,
Figure img0003
No presente
Figure img0004
c é a velocidade do som (~343 m/s),
Figure img0005
é um ponto de referência (ou ponto de observação), é a função Bessel esférica da ordem n, e os
Figure img0006
esféricos são as funções de base harmônica esféricas da ordem n e subordem m. Pode-se reconhecer que o termo em colchetes é uma representação de domínio e frequência do sinal (isto é,
Figure img0007
que pode ser aproximada pelas transformações de tempo e frequência, como a transformada de Fourier discreta (DFT), a transformada de cosseno discreta (DCT) ou uma transformada de ondeleta. Outros exemplos de conjuntos hierárquicos incluem conjuntos de coeficientes de transformada de ondeleta e outros conjuntos de coeficientes de funções com base de multirresolução.
[0046] Os dados de vídeo são frequentemente exibidos em conjunto com dados de áudio sincronizados correspondentes, com os dados de áudio que são tipicamente gerados para serem compatíveis com a perspectiva dos dados de vídeo. Por exemplo, durante os quadros de vídeo que mostram uma perspectiva em aproximação de duas pessoas conversando em um restaurante, a conversação das duas pessoas pode ser alta e clara em relação a qualquer ruído de fundo no restaurante como as conversações de outros jantares, ruído da cozinha, música de fundo, etc. Durante os quadros de vídeo que mostram uma perspectiva mais distante das duas pessoas conversando, a conversação das duas pessoas pode ser menos alta e menos clara em relação aos ruídos de fundo, cujas fontes podem, agora, estar no quadro de vídeo.
[0047] Tradicionalmente, as decisões relacionadas a perspectiva (por exemplo, ampliação e redução de uma cena ou movimento panorâmico ao redor de uma cena) são tomadas por meio de um produtor de conteúdo com um consumidor final do conteúdo que tem pouca ou nenhuma habilidade de alterar a perspectiva escolhida pelo produtor de conteúdo original. Tem se tornado mais comum, no entanto, que os usuários tenham algum nível de controle através da perspectiva que veem quando assistem ao vídeo. Como um exemplo, durante uma exibição de futebol americano, um usuário pode receber um fluxo de alimentação de vídeo que mostra uma grande seção do campo, mas pode ter a habilidade de ampliação em um reprodutor específico ou grupo de reprodutores. Essa revelação introduz técnicas para adaptar a percepção de uma reprodução de áudio de uma maneira que é compatível a uma alteração na percepção do vídeo correspondente. Por exemplo, se, enquanto assiste um jogo de futebol americano, um usuário amplia o foco no quarterback, o áudio também pode ser adaptado para produzir um efeito de áudio da ampliação do foco no quarterback.
[0048] Uma percepção de vídeo do usuário também pode mudar dependendo do tamanho do visor que é usado para reproduzir o vídeo. Por exemplo, quando se assiste a um filme em um tablete de 10 polegadas, todo o visor pode estar dentro da visão central do espectador, enquanto quando se assiste ao mesmo filme em uma televisão de 100 polegadas, as porções externas do visor podem estar apenas dentro da visão periférica do espectador. Esta revelação introduz técnicas para adaptar a percepção de uma reprodução de áudio com base no tamanho de um visor que é usado para os dados de vídeo correspondentes.
[0049] O fluxo de bits de áudio de MPEG-H 3D contém novos campos de bits para sinalizar informações de um tamanho de tela de referência usado durante o processo de produção de conteúdo. Um decodificador de vídeo compatível com MPEG-H 3D, diversos exemplos dos quais serão descritos nesta revelação, também pode ser configurado para determinar um tamanho de tela real da definição de visor que é usado em conjunto com o vídeo que corresponde ao áudio que é decodificado. Consequentemente, de acordo com as técnicas desta revelação, um decodificador de áudio pode adaptar o campo sonoro de HOA, com base no tamanho de tela de referência e no tamanho de tela real, para que o conteúdo de áudio relacionado à tela seja percebido a partir do mesmo local que é mostrado no vídeo.
[0050] Esta revelação descreve técnicas para como os campos sonoros de HOA podem ser ajustados para garantir o alinhamento espacial dos elementos acústicos ao componente visual em um cenário de reprodução de áudio/vídeo misturado. As técnicas desta revelação podem ser utilizadas para ajudar a criar uma experiência de áudio/vídeo coerente para conteúdo apenas de HOA ou para conteúdo com uma combinação de objetos de HOA e de áudio em que, atualmente, apenas objetos de áudio relacionados à tela são ajustados.
[0051] A Figura 1 é um diagrama que ilustra funções de base harmônica esférica de ordem zero (n = 0) até a quarta ordem (n = 4). Conforme pode ser visto, para cada ordem, há uma expansão de subordens m que são mostradas, mas não explicitamente notadas no exemplo da Figura 1 por questão de facilidade de fins de ilustração.
[0052] O SHC
Figure img0008
pode ou ser fisicamente adquirido (por exemplo, registrado) através de várias configurações de arranjo de microfone ou, alternativamente, pode ser derivado de descrições com base em canal ou com base em objeto do campo sonoro. O SHC representa o áudio baseado em cena, em que o SHC pode ser inserido em um codificador de áudio para obter o SHC codificado que pode promover a transmissão ou o armazenamento mais eficaz. Por exemplo, uma representação de quarta ordem que envolve coeficientes de (1+4)2 (25, e, por isso, quarta ordem) pode ser usada.
[0053] Conforme notado acima, o SHC pode ser derivado de uma gravação por microfone com o uso de um arranjo de microfone. Vários exemplos de como o SHC pode ser derivado dos arranjos de microfone são descritos em Poletti, M., “Three-Dimensional Surround Sound Systems Based on Spherical Harmonics”, J. Audio Eng. Soc, Volume 53, n° 11, novembro de 2005, páginas 1.004 a 1.025.
[0054] Para ilustrar como os SHCs podem ser derivados de uma descrição baseada em objeto, considera-se í/c) a equação a seguir. Os coeficientes
Figure img0009
para o campo sonoro que corresponde a um objeto de áudio individual podem ser expressos como:
Figure img0010
em que i
Figure img0011
a função de Hankel esférica (do segundo tipo) de ordem n, e
Figure img0012
é o local do objeto. Conhecendo a energia da fonte do objeto g(w) como uma função de frequência (por exemplo, com o uso de técnicas de análise de tempo e frequência, como a realização de uma transformação rápida de Fourier no fluxo de PCM) permite-se converter cada objeto de PCM e o local correspondente para o SHC
Figure img0013
. Ademais, pode-se mostrar (uma vez que o exposto acima é uma decomposição linear e ortogonal) que os A™ (A) coeficientes
Figure img0014
' para cada objeto são aditivos. Dessa maneira, uma multiplicidade de objetos de PCM pode ser representada pelos coeficientes
Figure img0015
(por exemplo, como uma soma dos vetores de coeficiente para os objetos individual). Essencialmente, os coeficientes contêm informações sobre o campo sonoro (a pressão como função de coordenadas em 3D), e o exposto acima representa a transformação de objetos individuais para uma representação do campo sonoro geral, nas redondezas do ponto de [rr, θr, (pr] observação
Figure img0016
. As Figuras restantes são descritas abaixo no contexto da criptografia de áudio baseada em objeto e baseada em SHC.
[0055] A Figura 2 é um diagrama que ilustra um sistema 10 que pode realizar vários aspectos das técnicas descritas nesta revelação. Conforme mostrado no exemplo da Figura 2, o sistema 10 inclui um dispositivo criador de conteúdo 12 e um dispositivo consumidor de conteúdo 14. Muito embora seja descrito no contexto do dispositivo criador de conteúdo 12 e do dispositivo consumidor de conteúdo 14, as técnicas podem ser implantadas em qualquer contexto no qual os SHCs (que também podem ser referidos como coeficientes de HOA) ou qualquer outra representação hierárquica de um campo sonoro são codificados para formar um fluxo de bits representativo dos dados de áudio. Além do mais, o dispositivo criador de conteúdo 12 pode representar qualquer forma de dispositivo de computação com capacidade de implantar as técnicas descritas nesta revelação, incluindo um fone (ou telefone celular), um computador do tipo tablet, um telefone inteligente, ou um computador do tipo desktop para fornecer alguns exemplos. Igualmente, o dispositivo criador de conteúdo 14 pode representar qualquer forma de dispositivo de computação com capacidade de implantar as técnicas descritas nesta revelação, incluindo um fone (ou telefone celular), um computador do tipo tablet, um telefone inteligente, um decodificador de sinal ou um computador do tipo desktop para fornecer alguns exemplos.
[0056] O dispositivo criador de conteúdo 12 pode ser operado por um estúdio de filmes ou outra entidade que pode gerar conteúdo de áudio de múltiplos canais para o consumo por operadores de dispositivos consumidores de conteúdo, como o dispositivo consumidor de conteúdo 14. Em alguns exemplos, o dispositivo criador de conteúdo 12 pode ser operado por um usuário individual que gostaria de gerar um sinal de áudio com coeficientes de HOA 11 de compactação e também incluem no sinal de áudio, um ou mais parâmetros de campo de visão (FOV). Frequentemente, o criador de conteúdo gera conteúdo de áudio em conjunto com o conteúdo de vídeo. Os parâmetros de FOV podem, por exemplo, descrever um tamanho de tela de referência para o conteúdo de vídeo. O dispositivo consumidor de conteúdo 14 pode ser operado por um indivíduo. O dispositivo consumidor de conteúdo 14 pode incluir um sistema de reprodução de áudio 16, que pode se referir a qualquer forma de sistema de reprodução de áudio com capacidade de renderizar o SHC para a reprodução como conteúdo de áudio de múltiplos canais.
[0057] O dispositivo criador de conteúdo 12 inclui um sistema de edição de áudio 18. O dispositivo criador de conteúdo 12 obtém gravações ao vivo 7 em vários formatos (incluindo diretamente como coeficientes de HOA) e objetos de áudio 9, que o dispositivo criador de conteúdo 12 pode editar usando o sistema de edição de áudio 18. Um microfone 5 pode capturar as gravações ao vivo 7. O criador de conteúdo pode, durante o processo de edição, renderizar os coeficientes de HOA 11 a partir dos objetos de áudio 9, ouvindo aos fluxos de alimentação de alto-falante em uma tentativa de identificar vários aspectos do campo sonoro que exigem mais edição. O dispositivo criador de conteúdo 12 pode, então, editar os coeficientes de HOA 11 (de modo potencialmente indireto através da manipulação daqueles objetos diferentes dos objetos de áudio 9 dos quais os coeficientes de HOA fonte podem ser derivados da maneira acima descrita). O dispositivo criador de conteúdo 12 pode empregar o sistema de edição de áudio 18 para gerar os coeficientes de HOA 11 e parâmetros de FOV. O sistema de edição de áudio 18 representa qualquer sistema com capacidade de editar dados de áudio e emitir os dados de áudio como um ou mais coeficientes harmônicos esféricos fontes.
[0058] Quando o processo de edição for concluído, o dispositivo criador de conteúdo 12 pode gerar um fluxo de bits de áudio 21 com base nos coeficientes de HOA 11. Ou seja, o dispositivo criador de conteúdo 12 inclui um dispositivo de codificação de áudio 20 que representa um dispositivo configurado para codificar ou, de outro modo, compactar coeficientes de HOA 11 de acordo com vários aspectos das técnicas descritas nesta revelação para gerar o fluxo de bits de áudio 21. O dispositivo de codificação de áudio 20 pode incluir, em fluxo de bits 21, valores para sinalizar parâmetros de FOV 13. O dispositivo de codificação de áudio 20 pode gerar o fluxo de bits de áudio 21 para a transmissão, como um exemplo, através de um canal de transmissão, que pode ser um canal com fio ou sem fio, um dispositivo de armazenamento de dados ou semelhante. O fluxo de bits de áudio 21 pode representar uma versão codificada dos coeficientes de HOA 11 e pode incluir um fluxo de bits primário e um outro fluxo de bits auxiliar, que pode ser referido como informações de canal auxiliar. Em alguns exemplos, o dispositivo de codificação de áudio 20 pode incluir parâmetros de FOV 13 no canal auxiliar, enquanto em outros exemplos, o dispositivo de codificação de áudio 20 pode incluir parâmetros de FOV 13 em qualquer lugar. Em ainda outros exemplos, dispositivo de codificação de áudio 20 pode não codificar parâmetros de FOV 13, e ao invés disso, o sistema de reprodução de áudio 16 pode atribuir valores padrão aos parâmetros de FOV 13’.
[0059] Embora mostrado na Figura 2 como sendo diretamente transmitido para o dispositivo consumidor de conteúdo 14, o dispositivo criador de conteúdo 12 pode emitir o fluxo de bits de áudio 21 para um dispositivo intermediário posicionado entre o dispositivo criador de conteúdo 12 e o dispositivo consumidor de conteúdo 14. O dispositivo intermediário pode armazenar o fluxo de bits de áudio 21 para a liberação posterior para o dispositivo consumidor de conteúdo 14, que pode solicitar o fluxo de bits. O dispositivo intermediário pode compreender um servidor de arquivo, um servidor da web, um computador do tipo desktop, um computador do tipo laptop, um computador do tipo tablet, um telefone móvel, um telefone inteligente ou qualquer outro dispositivo com capacidade de armazenar o fluxo de bits de áudio 21 para a recuperação posterior por um decodificador de áudio. O dispositivo intermediário pode residir em uma rede de liberação de conteúdo com capacidade de transmitir por fluxo contínuo o fluxo de bits de áudio 21 (e possivelmente, em conjunto com a transmissão de um fluxo de bits de dados de vídeo correspondente) para assinantes, como o dispositivo consumidor de conteúdo 14, que solicita o fluxo de bits de áudio 21.
[0060] Alternativamente, o dispositivo criador de conteúdo 12 pode armazenar o fluxo de bits de áudio 21 para um meio de armazenamento, como um disco compacto, um disco de vídeo digital, um disco de vídeo de alta definição ou outra mídia de armazenamento, a maioria dos quais tem capacidade de ser lida por um computador e, portanto, pode ser referida como mídia de armazenamento legível por computador ou mídia de armazenamento legível por computador não transitória. Nesse contexto, o canal de transmissão pode se referir aos canais pelos quais o conteúdo armazenado nos meios são transmitidos (e podem incluir lojas de varejo e outro mecanismo de liberação baseado em loja). Em qualquer evento, as técnicas desta revelação não devem ser, portanto, limitadas, nesse sentido, ao exemplo da Figura 2.
[0061] O dispositivo criador de conteúdo 12 pode ser adicionalmente configurado para gerar e codificar dados de vídeo 23, e o dispositivo consumidor de conteúdo 14 pode ser configurado para receber e decodificar dados de vídeo 23. Os dados de vídeo 23 podem ser associados e transmitidos com o fluxo de bits de áudio 21. Nesse sentido, o dispositivo criador de conteúdo 12 e o dispositivo consumidor de conteúdo 14 podem incluir hardware e software adicionais não explicitamente mostrados na Figura 2. O dispositivo criador de conteúdo 12 pode, por exemplo, incluir câmeras para adquirir dados de vídeo, um sistema de edição de vídeo para editar os dados de vídeo, e um codificador de vídeo para codificar os dados de vídeo, e o dispositivo consumidor de conteúdo 14 também pode incluir um decodificador de vídeo e renderizador de vídeo.
[0062] Conforme adicionalmente mostrado no exemplo da Figura 2, o dispositivo consumidor de conteúdo 14 inclui o sistema de reprodução de áudio 16. O sistema de reprodução de áudio 16 pode representar qualquer sistema de reprodução de áudio com capacidade de reproduzir os dados de áudio de múltiplos canais. O sistema de reprodução de áudio 16 pode incluir inúmeros renderizadores 22 diferentes. Os renderizadores 22 podem, cada um, fornecer uma forma diferente de renderização, em que as diferentes formas de renderização podem incluir um ou mais dos vários modos de realizar movimento panorâmico de amplitude baseado em vetor (VBAP), e/ou um ou mais dos vários modos de realizar a síntese de campo sonoro. Conforme usado no presente documento, “A e/ou B” significa “A ou B”, ou ambos dentre “A e B”.
[0063] O sistema de reprodução de áudio 16 pode incluir adicionalmente um dispositivo de decodificação de áudio 24. O dispositivo de decodificação de áudio 24 pode representar um dispositivo configurado para decodificar coeficientes de HOA 11’ e parâmetros de FOV 13’ a partir do fluxo de bits 21, em que os coeficientes de HOA 11’ podem ser semelhantes aos coeficientes de HOA 11, mas diferem devido às operações com perdas (por exemplo, quantização) e/ou transmissão por meio do canal de transmissão. Os parâmetros de FOV 13, em contrapartida, podem ser codificados de forma desprendida. O sistema de reprodução de áudio 16 pode, após a decodificação do fluxo de bits de áudio 21 obter os coeficientes de HOA 11’ e renderizar os coeficientes de HOA 11’ para emitir fluxos de alimentação de alto-falante 25. Conforme será explicado em mais detalhes abaixo, a maneira na qual o sistema de reprodução de áudio 16 renderiza os coeficientes de HOA 11’ pode ser, em algumas ocasiões, modificada com base nos parâmetros de FOV 13’ em conjunto com os parâmetros de FOV do visor 15. Os fluxos de alimentação de alto-falante 25 podem acionar um ou mais alto-falantes (que não são mostrados no exemplo da Figura 2 para facilidade dos propósitos de ilustração.
[0064] Para selecionar o renderizador adequado ou, em algumas ocasiões, para gerar um renderizador adequado, o sistema de reprodução de áudio 16 pode obter informações de alto-falante 13 indicativas de um número de alto-falantes e/ou de uma geometria espacial dos alto- falantes. Em algumas ocasiões, o sistema de reprodução de áudio 16 pode obter as informações de alto-falante 13 com o uso de um microfone de referência e ao acionar os alto- falantes de tal maneira a determinar dinamicamente as informações de alto-falante 13. Em outras ocasiões ou em conjunto com a determinação dinâmica das informações de alto-falante 13, o sistema de reprodução de áudio 16 pode solicitar que um usuário faça interface com o sistema de reprodução de áudio 16 e insira as informações de alto- falante 13.
[0065] O sistema de reprodução de áudio 16 pode, então, selecionar um dentre os renderizadores de áudio 22 com base nas informações de alto-falante 13. Em algumas ocasiões, o sistema de reprodução de áudio 16 pode, quando nenhum dos renderizadores de áudio 22 estiver dentro de alguma medida de semelhança de limite (em termos da geometria do alto-falante) em relação à geometria de alto- falante especificada nas informações de alto-falante 13, gerar o um dos renderizadores de áudio 22 com base nas informações de alto-falante 13. O sistema de reprodução de áudio 16 pode, em algumas ocasiões, gerar um dos renderizadores de áudio 22 com base nas informações de alto-falante 13 sem tentar primeiro selecionar um renderizador existente dos renderizadores de áudio 22. Um ou mais alto-falantes 3 pode, então, reproduzir os fluxos de alimentação de alto-falante 25 renderizados.
[0066] Conforme mostrado na Figura 2, o dispositivo consumidor de conteúdo 14 também pode ter um dispositivo de exibição, visor 15 associado. No exemplo da Figura 2, o visor 15 é mostrado como sendo incorporado no dispositivo consumidor de conteúdo 14; no entanto, em outros exemplos, o visor 15 pode ser externo ao dispositivo consumidor de conteúdo 14. Conforme será explicado em mais detalhes abaixo, o visor 15 pode ter um ou mais parâmetros de FOV associados que são separados dos parâmetros de FOV 13’. Os parâmetros de FOV 13’ representam parâmetros associados a uma tela de referência no momento da criação de conteúdo, enquanto os parâmetros de FOV do visor 15 são parâmetros de FOV de uma janela de visualização usados para reprodução. O sistema de reprodução de áudio 16 pode modificar ou gerar um dentre o renderizador de áudio 22 com base em ambos os parâmetros de FOV 13’ e os parâmetros de FOV associados ao visor 15.
[0067] A Figura 3 é um diagrama de blocos que ilustra, em mais detalhes, um exemplo do dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 2 que pode realizar vários aspectos das técnicas descritas nesta revelação. O dispositivo de codificação de áudio 20 inclui uma unidade de análise de conteúdo 26, uma unidade de decomposição baseada em vetor 27 e uma unidade de decomposição baseada em direção 28. Embora descrito brevemente abaixo, mais informações em relação ao dispositivo de codificação de áudio 20 e aos vários aspectos de compactação ou, de outro modo, a codificação de coeficientes de HOA está disponível no Pedido de Patente Internacional n° WO 2014/194099, intitulado “INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD”, depositado em 29 de maio de 2014.
[0068] A unidade de análise de conteúdo 26 representa uma unidade configurada para analisar o conteúdo dos coeficientes de HOA 11 para identificar se os coeficientes de HOA 11 representam o conteúdo gerado a partir de uma gravação ao vivo ou um objeto de áudio. A unidade de análise de conteúdo 26 pode determinar se os coeficientes de HOA 11 foram gerados a partir de uma gravação de um campo sonoro real ou a partir de um objeto de áudio artificial. Em algumas ocasiões, quando os coeficientes de HOA em quadro 11 forem gerados a partir de uma gravação, a unidade de análise de conteúdo 26 passa os coeficientes de HOA 11 para a unidade de decomposição baseada em vetor 27. Em algumas ocasiões, quando os coeficientes de HOA em quadro 11 forem gerados a partir de um objeto de áudio sintético, a unidade de análise de conteúdo 26 passa os coeficientes de HOA 11 para a unidade de decomposição baseada em direção 28. A unidade de decomposição baseada em direção 28 pode representar uma unidade configurada para realizar uma síntese baseada em direção dos coeficientes de HOA 11 para gerar um fluxo de bits baseado em direção 21.
[0069] Conforme mostrado no exemplo da Figura 3, a unidade de decomposição baseada em vetor 27 pode incluir uma unidade de transformada inversível linear (LIT) 30, uma unidade de cálculo de parâmetro 32, uma unidade de reordenamento 34, uma unidade de seleção de primeiro plano 36, uma unidade de compensação de energia 38, uma unidade de criptógrafo de áudio psicoacústico 40, uma unidade de geração de fluxo de bits 42, uma unidade de análise de campo sonoro 44, uma unidade de redução de coeficiente 46, uma unidade de seleção de plano de fundo (BG) 48, uma unidade de interpolação espaço-temporal 50, e uma unidade de quantização 52.
[0070] A unidade de transformada inversível linear (LIT) 30 recebe os coeficientes de HOA 11 na forma de canais de HOA, sendo que cada canal é representativo de um bloco ou quadro de um coeficiente associado a uma dada ordem, subordem das funções de base esférica (que podem ser denotadas como HOA[k], em que k pode denotar o quadro ou bloco atual de amostras). A matriz de coeficientes de HOA 11 pode ter dimensões D: M x (N+1)2.
[0071] A unidade de LIT 30 pode representar uma unidade configurada para realizar uma forma de análise referida como decomposição de valor único. Embora descritas em relação à SVD, as técnicas descritas nesta revelação podem ser realizadas em relação a qualquer transformação ou decomposição semelhante que forneça conjuntos de saídas compactadas de energia linearmente não correlacionadas. Também, a referência à “conjuntos” nesta revelação é destinada, em geral, a se referir a conjuntos diferentes de zero a menos que seja especificamente estabelecido o contrário e não é destinada a se referir à definição matemática clássica de conjuntos que incluem o denominado “conjunto vazio”. Uma transformação alternativa pode compreender uma análise de componentes principais, que é frequentemente referida como “PCA”. Dependendo do contexto, a PCA pode ser referida por inúmeros nomes diferentes, como transformada de Karhunen-Loeve discreta, a transformada de Hotelling, decomposição ortogonal apropriada (POD), e decomposição de valor próprio (EVD) para citar alguns exemplos. As propriedades de tais operações que são propícias ao objetivo fundamental da compactação de dados de áudio são “compactação de energia” e “descorrelação” dos dados de áudio de múltiplos canais.
[0072] Em qualquer evento, supondo-se que a unidade de LIT 30 realize uma decomposição de valor único (que, mais uma vez, pode ser referida como “SVD”) para fins exemplificativos, a unidade de LIT 30 pode transformar os coeficientes de HOA 11 em dois ou mais conjuntos de coeficientes de HOA transformados. Os “conjuntos” de coeficientes de HOA transformados podem incluir vetores de coeficientes de HOA transformados. No exemplo da Figura 3, a unidade de LIT 30 pode realizar a SVD em relação aos coeficientes de HOA 11 para gerar uma denominada matriz V, uma matriz S e uma matriz U. A SVD, em álgebra linear, pode representar uma fatorização de uma matriz real de y por z ou complexa X (em que X pode representar dados de áudio de múltiplos canais, como os coeficientes de HOA 11) na forma a seguir: X = USV* U pode representar uma matriz unitária real ou complexa de y por y, em que as colunas y de U são conhecidas como os vetores de única esquerda dos dados de áudio de múltiplos canais. S pode representar uma matriz retangular diagonal de y por z com números reais não negativos na diagonal, em que os valores de diagonal de S são conhecidos como os valores únicos dos dados de áudio de múltiplos canais. V* (que pode denotar uma transposição conjugada de V) pode representar uma matriz unitária real ou complexa de z por z, em que as colunas z de V* são conhecidas como os vetores de única direita dos dados de áudio de múltiplos canais.
[0073] Em alguns exemplos, a matriz V* na expressão matemática de SVD referenciada acima é denotada como a transposição conjugada da matriz V para refletir que a SVD pode ser aplicada às matrizes que compreendem números complexos. Quando aplicado às matrizes que compreendem apenas números reais, o conjugado complexo da matriz V (ou, em outras palavras, da matriz V*) pode ser considerado para ser a transposição da matriz V. Abaixo supõe-se, por facilidade de fins ilustrativos, que os coeficientes de HOA 11 compreendem números reais com o resultado de que a matriz V é produzida através de SVD em vez da matriz V*. Além do mais, embora denotada como a matriz V nesta revelação, a referência à matriz V deve ser compreendida para se referir à transposição da matriz V quando adequado. Embora suponha-se que seja a matriz V, as técnicas podem ser aplicadas de uma maneira semelhante aos coeficientes de HOA 11 que têm coeficientes complexos, em que o produto da SVD é a matriz V*. Dessa maneira, as técnicas não devem se limitar, nesse sentido, a fornecer apenas a aplicação de SVD para gerar uma matriz V, mas pode incluir a aplicação de SVD aos coeficientes de HOA 11 que têm componentes complexos para gerar uma matriz V*.
[0074] Desse modo, a unidade de LIT 30 pode realizar a SVD em relação aos coeficientes de HOA 11 para produzir vetores US[k] 33 (que podem representar uma versão combinada dos vetores S e dos vetores U) que têm dimensões D: M x (N+1)2, e vetores V[k] 35 que têm dimensões D: (N+1)2 x (N+1)2. Os elementos de vetor individuais na matriz US[ k ] também podem ser denominados
Figure img0017
enquanto os vetores individuais da matriz V[k] também podem ser denominados l’1-1'1.
[0075] Uma análise das matrizes U, S e V pode revelar que as matrizes transportam ou representam característica espaciais ou temporais do campo sonoro subjacente representado acima por X. Cada um dos vetores N em U (de comprimento de M amostras) pode representar sinais de áudio normalizados separados em função de tempo (para o período de tempo representado por M amostras), que são ortogonais entre si e que foram desacoplados da quaisquer características espaciais (que também podem ser referidas como informações direcionais). As características espaciais, que representam o formato e a posição espacial (r, theta, phi) pode, em vez disso, ser representada por i
Figure img0018
na matriz V (cada um do comprimento (N+1)2). Os elementos individuais de cada um
Figure img0019
podem representar um coeficiente de HOA que descreve o formato (incluindo largura) e a posição do campo sonoro para um objeto de áudio associado. Ambos os vetores na matriz U e na matriz V são normalizados de modo que suas energias de raiz quadrada média sejam iguais à unitária. A energia dos sinais de áudio em U é, então, representada pelos elementos diagonais em S. A multiplicação de U e S para formar US[k] (com elementos de vetor individuais ""■■■ , representam, então, o sinal de áudio com energias. A habilidade da decomposição SVD desacoplar os sinais de tempo de áudio (em U), suas energias (em S) e suas características espaciais (em V) pode suportar vários aspectos das técnicas descritas nesta revelação. Ademais, o modelo de sintetizar os coeficientes de HOA[k] subjacentes, X, por uma multiplicação de vetor de US[k] e V[k] dá origem ao termo “decomposição baseada em vetor”, que é usado ao longo deste documento.
[0076] Embora descrito como sendo realizado diretamente em relação aos coeficientes de HOA 11, a unidade de LIT 30 pode aplicar a transformada inversível linear aos derivados dos coeficientes de HOA 11. Por exemplo, a unidade de LIT 30 pode aplicar a SVD em relação a uma matriz de densidade espectral de potência derivada dos coeficientes de HOA 11. Ao realizar a SVD em relação à densidade espectral de potência (PSD) dos coeficientes de HOA em vez dos próprios coeficientes, a unidade de LIT 30 pode reduzir potencialmente a complexidade computacional da realização da SVD em termos de um ou mais dos ciclos de processador e espaço de armazenamento, enquanto alcança a mesma eficiência de codificação de áudio de fonte como se a SVD fosse aplicada diretamente aos coeficientes de HOA.
[0077] A unidade de cálculo de parâmetro 32 representa uma unidade configurada para calcular vários parâmetros, como um parâmetro de correlação (R), parâmetro de propriedades direcionais (θ, Φ, r), e uma propriedade de energia (e). Cada um dos parâmetros para o quadro atual pode ser denotado como R[k], θ[k], Φ[k], r[k] e e[k]. A unidade de cálculo de parâmetro 32 pode realizar uma análise e/ou correlação de energia (ou denominada correlação cruzada) em relação aos vetores US[k] 33 para identificar os parâmetros. A unidade de cálculo de parâmetro 32 também pode determinar os parâmetros para o quadro anterior, em que os parâmetros de quadro anterior podem ser denotados R[k-1], θ[k-1], Φ[k-1], r[k-1] e e[k- 1], com base no quadro anterior do vetor US[k-1] e vetores V[k-1]. A unidade de cálculo de parâmetro 32 pode emitir os parâmetros atuais 37 e os parâmetros anteriores 39 para a unidade de reordenamento 34.
[0078] Os parâmetros calculados pela unidade de cálculo de parâmetro 32 pode ser usada pela unidade de reordenamento 34 para reordenar os objetos de áudio para representar sua avaliação natural ou continuidade ao longo do tempo. A unidade de reordenamento 34 pode comparar cada um dos parâmetros 37 a partir dos primeiros vetores US[k] 33 por vez contra cada um dos parâmetros 39 para os segundos vetores US[k-1] 33. A unidade de reordenamento 34 pode reordenar (com o uso de, como um exemplo, um algoritmo húngaro) os vários vetores na matriz US[k] 33 e na matriz V[k] 35 com base nos parâmetros atuais 37 e nos parâmetros anteriores 39 para produzir uma matriz US[k] 33’ reordenada (que pode ser denotada matematicamente como
Figure img0020
e uma matriz V[k] 35’ reordenada (que pode ser denotada matematicamente como
Figure img0021
para uma unidade de seleção de som em primeiro plano (ou som predominante - PS) 36 (“unidade de seleção de primeiro plano 36”) e uma unidade de compensação de energia 38.
[0079] A unidade de análise de campo sonoro 44 pode representar uma unidade configurada para realizar uma análise de campo sonoro em relação aos coeficientes de HOA 11 para que se alcance potencialmente uma taxa de bits alvo 41. A unidade de análise de campo sonoro 44 pode, com base na análise e/ou em uma taxa de bits alvo recebida 41, determinar o número total de instanciações de criptógrafo psicoacústico (que pode ser uma função do número total de canais do ambiente ou de plano de fundo (BGTOT) e do número de canais de primeiro plano ou, em outras palavras, de canais predominantes. O número total de instanciações de criptógrafo psicoacústico pode ser denotado como numHOATransportChannels.
[0080] A unidade de análise de campo sonoro 44 também pode determinar, novamente que se alcance potencialmente a taxa de bits alvo 41, o número total de canais de primeiro plano (nFG) 45, a ordem mínima do campo sonoro de plano de fundo (ou, em outras palavras, ambiente) (NBG ou, alternativamente, MinAmbHOAorder), o número correspondente de canais reais representativos da ordem mínima de campo sonoro de plano de fundo (nBGa = (MinAmbHOAorder + 1)2), e índices (i) de canais de HOA de BG adicionais para enviar (que podem ser coletivamente denotados como informações de canal de plano de fundo 43 no exemplo da Figura 3). As informações de canal de plano de fundo 42 também podem ser referidas como informações de canal do ambiente 43. Cada um dos canais que permanece do numHOATransportChannels - nBGa, pode ser um “canal de plano de fundo/do ambiente adicional”, um “canal predominante baseado em vetor ativo”, um “sinal predominante baseado em direção ativo” ou “completamente inativo”. Em um aspecto, os tipos de canal podem ser indicados (como um “ChannelType”) elemento de sintaxe por dois bits (por exemplo 00: sinal baseado em direção; 01: sinal predominante baseado em vetor; 10: sinal do ambiente adicional; 11: sinal inativo). O número total de sinais de plano de fundo ou do ambiente, nBGa, pode ser dado por (MinAmbHOAorder +1)2 + o número de vezes que o índice 10 (no exemplo acima) aparece como um tipo de canal no fluxo de bits para esse quadro.
[0081] A unidade de análise de campo sonoro 44 pode selecionar o número de canais de plano de fundo (ou, em outras palavras, do ambiente) e o número de canais de primeiro plano (ou, em outras palavras, predominantes) com base na taxa de bits alvo 41, selecionar mais canais de plano de fundo e/ou de primeiro plano quando a taxa de bits alvo 41 for relativamente maior (por exemplo, quando a taxa de bits alvo 41 for igual ou maior que 512 Kbps). Em um aspecto, o numHOATransportChannels pode ser definido para 8 enquanto o MinAmbHOAorder pode ser definido para 1 na seção de cabeçalho do fluxo de bits. Nesse cenário, em todo quadro, quatro canais podem ser dedicados para representar a porção de plano de fundo ou do ambiente do campo sonoro enquanto os outros 4 canais podem, em uma base de quadro por quadro variar no tipo de canal - por exemplo, ou usado como um canal de plano de fundo/do ambiente adicional ou um canal de primeiro plano/predominante. Os sinais de primeiro plano/predominantes podem ser um dentre os sinais baseados em vetor ou baseados em direção, conforme descrito acima.
[0082] Em algumas ocasiões, o número total de sinais predominantes baseados em vetor para um quadro, pode ser dado pelo número de vezes que o índice ChannelType é 01 no fluxo de bits desse quadro. No aspecto acima, para todo canal de plano de fundo/do ambiente adicional (por exemplo, que corresponde a um ChannelType de 10), as informações correspondentes das quais os coeficientes de HOA possíveis (além dos quatro primeiros) podem ser representadas nesse canal. As informações, para o conteúdo de HOA de quarta ordem, pode ser um índice para indicar os coeficientes de HOA 5 a 25. Os quatro primeiros coeficientes de HOA ambiente 1 a 4 podem ser enviados o tempo todo quando minAmbHOAorder é definido para 1, por isso, o dispositivo de codificação de áudio pode precisar apenas indicar um dentre os coeficientes de HOA ambiente adicionais que têm um índice de 5 a 25. As informações poderiam, então, ser enviadas com o uso de um elemento de sintaxe de 5 bits (para o conteúdo de 4 a ordem), que pode ser denotado como “CodedAmbCoeffIdx”. Em qualquer ocasião, a unidade de análise de campo sonoro 44 emite as informações de canal de plano de fundo 43 e os coeficientes de HOA 11 para a unidade de seleção de plano de fundo (BG) 36, as informações de canal de plano de fundo 43 para a unidade de redução de coeficiente 46 e a unidade de geração de fluxo de bits 42, e a nFG 45 para uma unidade de seleção de primeiro plano 36.
[0083] A unidade de seleção de plano de fundo 48 pode representar a unidade configurada para determine plano de fundo ou coeficientes de HOA ambiente 47 com base nas informações de canal de plano de fundo (por exemplo, o campo sonoro de plano de fundo (NBG) e o número (nBGa) e os índices (i) de canais de HOA de BG adicionais a enviar). Por exemplo, quando NBG for igual a um, a unidade de seleção de plano de fundo 48 pode selecionar os coeficientes de HOA 11 para cada amostra do quadro de áudio que tem uma ordem igual ou menor que um. A unidade de seleção de plano de fundo 48 pode, nesse exemplo, então, selecionar os coeficientes de HOA 11 que têm um índice identificado por um dos índices (i) como coeficientes de HOA de BG adicionais, em que o nBGa é fornecido para a unidade de geração de fluxo de bits 42 para ser especificado no fluxo de bits de áudio 21 para possibilitar que o dispositivo de decodificação de áudio, como o dispositivo de decodificação de áudio 24 mostrado no exemplo das Figuras 2 e 4, analise os coeficientes de HOA de plano de fundo 47 do fluxo de bits de áudio 21. A unidade de seleção de plano de fundo 48 pode, então, emite os coeficientes de HOA ambiente 47 para a unidade de compensação de energia 38. Os coeficientes de HOA ambiente 47 podem ter dimensões D: M x [(NBG+1)2 + nBGa]. Os coeficientes de HOA ambiente 47 também podem ser referidos como “coeficientes de HOA ambiente 47”, em que cada um dos coeficientes de HOA ambiente 47 corresponde a um canal de HOA do ambiente 47 separado para ser codificado pela unidade de criptógrafo de áudio psicoacústico 40.
[0084] A unidade de seleção de primeiro plano 36 pode representar uma unidade configurada para selecionar a matriz US[k] 33’ reordenada e a matriz V[k] 35’ reordenada que representa os componentes de primeiro plano ou distintos do campo sonoro com base no nFG 45 (que pode representar um ou mais índices que identificam os vetores de primeiro plano). A unidade de seleção de primeiro plano 36 pode emitir sinais de nFG 49 (que podem ser denotados como um
Figure img0022
reordenado ou
Figure img0023
para a unidade de criptógrafo de áudio psicoacústico 40), em que os sinais de nFG 49 podem ter dimensões D: M x nFG e cada um representa objetos de monoáudio. A unidade de seleção de primeiro plano 36 também pode emitir a matriz de V[k] reordenada 35’ ou
Figure img0024
que corresponde aos componentes de primeiro plano do campo sonoro para a unidade de interpolação espaço-temporal 50, em que um subconjunto da matriz de V[k] reordenada 35’ que corresponde aos componentes de primeiro plano pode ser denotado como matriz de V[k] 51k de primeiro plano (que pode ser matematicamente denotada como
Figure img0025
tendo dimensões D:
Figure img0026
[0085] A unidade de compensação de energia 38 pode representar uma unidade configurada para realizar a compensação de energia em relação aos coeficientes de HOA ambiente 47 para compensar a perda de energia devido à remoção de vários canais dos canais de HOA pela unidade de seleção de plano de fundo 48. A unidade de compensação de energia 38 pode realizar uma análise de energia em relação a uma ou mais dentre a matriz US[k] 33’ reordenada, a matriz V[k] 35’ reordenada, os sinais de nFG 49, os vetores de primeiro plano V[k] 51k e os coeficientes de HOA ambiente 47 e, então, realiza a compensação de energia com base na análise de energia para gerar coeficientes de HOA ambiente com energia compensada 47’. A unidade de compensação de energia 38 pode emitir os coeficientes de HOA ambiente com energia compensada 47’ para a unidade de criptógrafo de áudio psicoacústico 40.
[0086] A unidade de interpolação espaço- temporal 50 pode representar uma unidade configurada para receber os vetores de primeiro plano V[k] 51k para o k- ésimo quadro e os vetores de primeiro plano V[k-1] 51k-1 para o quadro anterior (por isso, a notação k-1) e para realizar a interpolação espaço-temporal para gerar vetores de primeiro plano V[k] interpolados. A unidade de interpolação espaço-temporal 50 pode recombinar os sinais de nFG 49 com os vetores de primeiro plano V[k] 51k para recuperar os coeficientes de HOA de primeiro plano reordenados. A unidade de interpolação espaço-temporal 50 pode, então, dividir os coeficientes de HOA de primeiro plano reordenados pelos vetores V[k] interpolados para gerar sinais de nFG interpolados 49’. A unidade de interpolação espaço-temporal 50 também pode emitir os vetores de primeiro plano V[k] 51k que foram usados para gerar os vetores de primeiro plano V[k] interpolados para que um dispositivo de decodificação de áudio, como o dispositivo de decodificação de áudio 24, possa pode gerar os vetores de primeiro plano V[k] interpolados e, desse modo, recuperar os vetores de primeiro plano V[k] 51k. Os vetores de primeiro plano V[k] 51k usados para gerar os vetores de primeiro plano V[k] interpolados são denotados como os vetores de primeiro plano V[k] restantes 53. A fim de garantir que os mesmos V[k] e V[k-1] sejam usados no codificador e decodificador (para criar os vetores V[k] interpolados) as versões quantizadas/desquantizadas dos vetores podem ser usadas no codificador e no decodificador. A unidade de interpolação espaço-temporal 50 pode emitir os sinais de nFG interpolados 49’ para a unidade codificadora de áudio psicoacústico 46 e os vetores V[k] de primeiro plano interpolados 51k para a unidade de redução de coeficiente 46.
[0087] A unidade de redução de coeficiente 46 pode representar uma unidade configurada para realizar a redução de coeficiente em relação aos vetores de primeiro plano restantes V[k] 53 com base nas informações de canal de plano de fundo 43 para emitir os vetores de primeiro plano reduzidos V[k] 55 para a unidade de quantização 52. Os vetores de primeiro plano reduzidos V[k] 55 podem ter dimensões D: [(N+1)2 - (NBG+1)2-BGTOT] X nFG. A unidade de redução de coeficiente 46 pode, nesse sentido, representar uma unidade configurada para reduzir o número de coeficientes nos vetores de primeiro plano restantes V[k] 53. Em outras palavras, a unidade de redução de coeficiente 46 pode representar uma unidade configurada para eliminar os coeficientes nos vetores de primeiro plano V[k] (que formam os vetores de primeiro plano restantes V[k] 53) dotados de poucas informações direcionais a nenhuma informação. Em alguns exemplos, os coeficientes dos vetores distintos ou, em outras palavras, vetores de primeiro plano V[k] que correspondem a funções de base de primeira ordem ou de ordem zero (que podem ser denotadas como NBG) fornecem poucas informações direcionais e, portanto, podem ser removidos dos vetores V de primeiro plano (através de um processo que pode ser referido como “redução de coeficiente”). Nesse exemplo, a flexibilidade maior pode ser fornecida para não apenas identificar os coeficientes que correspondem NBG, como para identificar canais de HOA adicionais (que podem ser denotados pela variável TotalOfAddAmbHOAChan) a partir do conjunto de [(NBG +1)2+1, (N+1)2].
[0088] A unidade de quantização 52 pode representar uma unidade configurada para realizar qualquer forma de quantização para compactar os vetores de primeiro plano reduzidos V[k] 55 para gerar vetores de primeiro plano criptografados V[k] 57, emitindo os vetores de primeiro plano criptografados V[k] 57 para a unidade de geração de fluxo de bits 42. Em operação, a unidade de quantização 52 pode representar uma unidade configurada para compactar um componente espacial do campo sonoro, isto é, um ou mais dos vetores de primeiro plano reduzidos V[k] 55 nesse exemplo. A unidade de quantização 52 pode realizar qualquer um dos 12 modos de quantização seguintes, conforme indicado por um elemento de sintaxe de modo de quantização denotado “NbitsQ”: valor NbitsQ Tipo de Modo de Quantização 0 a 3: Reservado 4: Quantização de Vetor 5: Quantização Escalar sem Codificação de Huffman 6: Quantização de Huffman Escalar de 6 bits com Codificação 7: Quantização de Huffman Escalar de 7 bits com Codificação 8: Quantização de Huffman Escalar de 8 bits com Codificação ... ... Quantização Escalar de 16 bits com Codificação 16: de Huffman
[0089] A unidade de quantização 52 também pode realizar versões de predição de qualquer um dos tipos anteriores de modos de quantização, em que uma diferença é determinada entre um elemento de (ou um peso quando a quantização de vetor for realizada) do V-vector de um quadro anterior e o elemento (ou peso quando a quantização de vetor for realizada) do V-vector de um quadro atual é determinado. A unidade de quantização 52 pode, então, quantizar a diferença entre os elementos ou pesos do quadro atual e do quadro anterior em vez do valor do elemento do V-vector do próprio quadro atual. A unidade de quantização 52 pode realizar múltiplas formas de quantização em relação a cada um dos vetores V[k] de primeiro plano reduzidos 55 para obter múltiplas versões criptografadas dos vetores de V[k] de primeiro plano reduzidos 55. A unidade de quantização 52 pode selecionar a uma das versões criptografadas dos vetores de V[k] de primeiro plano reduzidos 55 como o vetor de V[k] de primeiro plano criptografado 57. A unidade de quantização 52 pode, em outras palavras, selecionar um dentre o V-vetor quantizado por vetor não predito, V-vetor quantizado por vetor predito, o V-vetor quantizado por escalar sem codificação de Huffman e o V-vetor quantizado por escalar com codificação de Huffman para uso como o V-vetor quantizado comutado de saída com base em qualquer combinação dos critérios discutidos nesta revelação. Em alguns exemplos, a unidade de quantização 52 pode selecionar um modo de quantização a partir de um conjunto de modos de quantização que inclui um modo de quantização de vetor e um ou mais modos de quantização escalar, e quantizar um V-vetor de entrada com base (ou de acordo com) no modo selecionado. A unidade de quantização 52 pode, então, fornecer o vetor selecionado do V-vetor quantizado por vetor não predito (por exemplo, em termos de valores de peso ou bits indicativos dos mesmos), V-vetor quantizado por vetor predito (por exemplo, em termos de valores de erro ou bits indicativos dos mesmos), o V-vetor quantizado por escalar sem codificação de Huffman e o V-vetor quantizado por escalar com codificação de Huffman para a unidade de geração de fluxo de bits 52 como os vetores V[k] de primeiro plano criptografado 57. A unidade de quantização 52 também pode fornecer os elementos de sintaxe indicativos do modo de quantização (por exemplo, o elemento de sintaxe NbitsQ) e quaisquer outros elementos de sintaxe usados para desquantizar ou, de outro modo, reconstruir o V-vetor.
[0090] A unidade de criptógrafo de áudio psicoacústico 40 incluída no dispositivo de codificação de áudio 20 pode representar múltiplas ocasiões de um criptógrafo de áudio psicoacústico, cada uma das quais é usada para codificar um objeto de áudio ou canal de HOA diferente de cada um dos coeficientes de HOA ambiente com energia compensada 47’ e nos sinais de nFG interpolados 49’ para gerar coeficientes de HOA ambiente codificados 59 e sinais de nFG codificados 61. A unidade de criptógrafo de áudio psicoacústico 40 pode emitir os coeficientes de HOA ambiente codificados 59 e os sinais de nFG codificados 61 para a unidade de geração de fluxo de bits 42.
[0091] A unidade de geração de fluxo de bits 42 incluída no dispositivo de codificação de áudio 20 representa uma unidade que formata dados para se adequar a um formato conhecido (que pode se referir a um formato conhecido por um dispositivo de decodificação) gerando, desse modo, o fluxo de bits baseado em vetor 21. O fluxo de bits de áudio 21 pode, em outras palavras, representar dados de áudio codificados, que foram codificados da maneira descrita acima. A unidade de geração de fluxo de bits 42 pode representar um multiplexador em alguns exemplos, que pode receber os vetores de primeiro plano criptografados V[k] 57, os coeficientes de HOA ambiente codificados 59, os sinais de nFG codificados 61 e as informações de canal de plano de fundo 43. A unidade de geração de fluxo de bits de áudio 42 pode, então, gerar um fluxo de bits 21 com base nos vetores de primeiro plano criptografados V[k] 57, os coeficientes de HOA ambiente codificados 59, nos sinais de nFG codificados 61 e nas informações de canal de plano de fundo 43. Desse modo, a unidade de geração de fluxo de bits 42 pode, desse modo, especificar os vetores 57 no fluxo de bits de áudio 21 para obter o fluxo de bits de áudio 21. O fluxo de bits de áudio 21 pode incluir um fluxo de bits primário ou principal e um ou mais fluxos de bits de canal auxiliar.
[0092] Embora não mostrado no exemplo da Figura 3, o dispositivo de codificação de áudio 20 também pode incluir uma unidade de saída de fluxo de bits que comuta a saída de fluxo de bits a partir do dispositivo de codificação de áudio 20 (por exemplo, entre o fluxo de bits baseado em direção 21 e o fluxo de bits baseado em vetor 21) com base na possibilidade de um quadro atual ter que ser codificado com o uso de síntese baseada em direção ou da síntese baseada em vetor. A unidade de saída de fluxo de bits pode realizar a comutação com base na saída do elemento de sintaxe pela unidade de análise de conteúdo 26 que indica se uma síntese baseada em direção foi realizada (como resultado da detecção de que os coeficientes de HOA 11 foram gerados de um objeto de áudio sintético) ou uma síntese baseada em vetor foi realizada (como resultado da detecção de que os coeficientes de HOA foram registrados). A unidade de saída de fluxo de bits pode especificar a sintaxe de cabeçalho correta para indicar a comutação ou a codificação atual usada para o quadro atual juntamente com um respectivo fluxo dos fluxos de bits 21.
[0093] Além do mais, conforme notado acima, a unidade de análise de campo sonoro 44 pode identificar coeficientes de HOA ambiente de BGTOT 47, que podem mudar com base em quadro por quadro (embora, às vezes, BGTOT possa permanecer constante ou o mesmo através de dois ou mais quadros adjacentes (no tempo)). A mudança em BGTOT pode resultar em mudanças para os coeficientes expressos nos vetores de primeiro plano reduzidos V[k] 55. A mudança em BGTOT pode resultar em coeficientes de HOA de plano de fundo (que também podem ser referidos como “coeficientes de HOA ambiente”) que mudam em uma base de quadro por quadro (embora, novamente, às vezes, BGTOT possa permanecer constante ou o mesmo através de dois ou mais quadros adjacentes (no tempo)). As mudanças frequentemente resultam em uma alteração de energia para os aspectos do campo sonoro representado pela adição ou remoção dos coeficientes de HOA ambiente adicionais e pela remoção correspondente de coeficientes dos vetores ou pela adição de coeficientes aos vetores de primeiro plano reduzidos V[k] 55.
[0094] Como resultado, a unidade de análise de campo sonoro 44 pode adicionalmente determina quando os coeficientes de HOA ambiente mudam de quadro para quadro e geram um sinalizador ou outro elemento de sintaxe indicativo da mudança para o coeficiente de HOA ambiente em termos de ser usado para representar o componente dos ambientes do campo sonoro (em que a mudança também pode ser referida como uma “transição” do coeficiente de HOA ambiente ou como uma “transição” do coeficiente de HOA ambiente). Em particular, a unidade de redução de coeficiente 46 pode gerar o sinalizador (que pode ser denotado como um sinalizador AmbCoeffTransition ou um sinalizador AmbCoeffIdxTrasnsition), que fornece o sinalizador para a unidade de geração de fluxo de bits 42 para que o sinalizador possa estar incluído no fluxo de bits de áudio 21 (possivelmente como parte das informações de canal auxiliar).
[0095] A unidade de redução de coeficiente 46 pode, além de especificar o sinalizador de transição de coeficiente do ambiente, modificar também como os vetores de primeiro plano reduzidos V[k] 55 são gerados. Em um exemplo, mediante a determinação de que um dos coeficientes de HOA ambiente está em transição durante o quadro atual, a unidade de redução de coeficiente 46 pode especificar, um coeficiente de vetor (que também pode ser referido como um “elemento de vetor” ou “elemento”) para cada um dos vetores V dos vetores de primeiro plano reduzidos V[k] 55 que correspondem ao coeficiente de HOA ambiente em transição. Novamente, o coeficiente de HOA ambiente em transição pode adicionar ou remover do número total BGTOT de coeficientes de plano de fundo. Portanto, a mudança resultante no número total de coeficientes de plano de fundo afeta a possibilidade de o coeficiente de HOA ambiente estar incluído ou não estar incluído no fluxo de bits, e a possibilidade de o elemento correspondente dos vetores V estar incluído para os vetores V especificados no fluxo de bits no segundo e no terceiro modos de configuração descrito acima. Mais informações referentes a como a unidade de redução de coeficiente 46 pode especificar os vetores V[k] de plano anterior reduzido 55 para superar as alterações em energia são fornecidas no Pedido de n° de série US 14/594.533, intitulado “TRANSITIONING OF AMBIENT HIGHER_ORDER AMBISONIC COEFFICIENTS”, depositado em 12 de janeiro de 2015.
[0096] A Figura 4 é um diagrama de blocos que ilustra o dispositivo de decodificação de áudio 24 da Figura 2 em mais detalhes. Conforme mostrado no exemplo da Figura 4, o dispositivo de decodificação de áudio 24 pode incluir uma unidade de extração 72, uma unidade de reconstrução baseada em direção 90 e um unidade de reconstrução baseada em vetor 92. Embora descrito abaixo, mais informações em relação ao dispositivo de decodificação de áudio 24 e aos vários aspectos de descompactação ou, de outro modo, decodificação de coeficientes de HOA estão disponíveis no Pedido de Patente Internacional n° WO 2014/194099, intitulado “INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD”, depositado em 29 de maio de 2014.
[0097] A unidade de extração 72 pode representar uma unidade configurada para receber o fluxo de bits de áudio 21 e extrair as várias versões codificadas (por exemplo, uma versão codificada baseada em direção ou uma versão codificada baseada em vetor) dos coeficientes de HOA 11. A unidade de extração 72 pode determinar a partir do elemento de sintaxe notado acima indicativo da possibilidade de os coeficientes de HOA 11 serem codificados por meio das várias versões baseadas em direção ou baseadas em vetor. Quando uma codificação baseada em direção foi realizada, a unidade de extração 72 pode extrair a versão baseada em direção dos coeficientes de HOA 11 e os elementos de sintaxe associados à versão codificada (que é denotada como informações baseadas em direção 91 no exemplo da Figura 4), que passa as informações baseadas em direção 91 para a unidade de reconstrução baseada em direção 90. A unidade de reconstrução baseada em direção 90 pode representar uma unidade configurada para reconstruir os coeficientes de HOA na forma de coeficientes de HOA 11’ com base nas informações baseadas em direção 91. O fluxo de bits e a disposição de elementos de sintaxe no fluxo de bits é descrito abaixo em mais detalhes em relação ao exemplo das Figuras 7A a 7J.
[0098] Quando o elemento de sintaxe indicar que os coeficientes de HOA 11 foram codificados com o uso de uma síntese baseada em vetor, a unidade de extração 72 pode extrair os vetores V[k] de primeiro plano criptografado 57 (que pode incluir pesos criptografados 57 e/ou índices 63 ou V-vetores quantizados escalares), os coeficientes de HOA ambiente codificados 59 e os objetos de áudio correspondentes 61 (que também podem ser referidos como os sinais de nFG codificados 61). Os objetos de áudio 61 correspondem, cada um, a um dos vetores 57. A unidade de extração 72 pode passar os vetores de primeiro plano criptografados V[k] 57 para a unidade de reconstrução de V- vetor 74 e os coeficientes de HOA ambiente codificados 59 juntamente com os sinais de nFG codificados 61 para a unidade de decodificação psicoacústica 80.
[0099] A unidade de reconstrução de V-vetor 74 pode representar uma unidade configurada para reconstruir os V-vetores dos vetores V[k] de primeiro plano codificados 57. A unidade de reconstrução de V-vetor 74 pode operar de uma maneira recíproca àquela da unidade de quantização 52.
[0100] A unidade de decodificação psicoacústica 80 pode operar de uma maneira recíproca à unidade codificadora de áudio psicoacústico 40 mostrada no exemplo da Figura 3 para decodificar os coeficientes de HOA ambiente codificados 59 e os sinais nFG codificados 61 e, desse modo, para gerar coeficientes de HOA ambiente com energia compensada 47’ e os sinais de nFG interpolados 49’ (que também podem ser referidos como objetos de áudio nFG interpolados 49’). A unidade de decodificação psicoacústica 80 pode passar os coeficientes de HOA ambiente com energia compensada 47’ para a unidade de desvanecimento 770 e os sinais de nFG 49’ para a unidade de formulação de primeiro plano 78.
[0101] A unidade de interpolação espaço- temporal 76 pode operar de uma maneira semelhante à descrita acima em relação à unidade de interpolação espaço- temporal 50. A unidade de interpolação espaço-temporal 76 pode receber os vetores de primeiro plano reduzidos V[k] 55k e realizar a interpolação espaço-temporal em relação aos vetores de primeiro plano V[k] 55k e aos vetores de primeiro plano reduzidos V[k-1] 55k-1 para gerar vetores de primeiro plano V[k] interpolados 55k. A unidade de interpolação espaço-temporal 76 pode encaminhar os vetores de primeiro plano V[k] interpolados 55k para a unidade de desvanecimento 770.
[0102] A unidade de extração 72 também pode emitir um sinal 757 indicativo de quando um dos coeficientes de HOA ambiente está em transição para a unidade de desvanecimento 770, que pode, então, determinar qual do SHCBG 47’ (em que o SHCBG 47’ também pode ser denotado como “canais de HOA do ambiente 47’” ou “coeficientes de HOA ambiente 47’”) e os elementos dos vetores de primeiro plano V[k] interpolados 55k” devem ser aumentados ou diminuídos gradualmente. Em alguns exemplos, a unidade de desvanecimento 770 pode operar oposta em relação a cada um dos coeficientes de HOA ambiente 47’ e dos elementos dos vetores de primeiro plano V[k] interpolados 55k”. Ou seja, a unidade de desvanecimento 770 pode realizar um aumento gradual ou uma diminuição gradual, ou tanto um aumento gradual quanto uma diminuição gradual em relação ao coeficiente correspondente dos coeficientes de HOA ambiente 47’, enquanto realiza um aumento gradual ou uma diminuição gradual ou tanto um aumento gradual quanto uma diminuição gradual, em relação ao elemento correspondente dos elementos dos vetores de primeiro plano V[k] interpolados 55k”. A unidade de desvanecimento 770 pode emitir coeficientes de HOA ambiente ajustados 47’’ para a unidade de formulação de coeficiente de HOA 82 e vetores de primeiro plano ajustados V[i] 55k’’’ para a unidade de formulação de primeiro plano 78. Nesse sentido, a unidade de desvanecimento 770 representa uma unidade configurada para realizar uma operação de desvanecimento em relação aos vários aspectos dos coeficientes de HOA ou derivados dos mesmos, por exemplo, na forma dos coeficientes de HOA ambiente 47’ e dos elementos dos vetores de primeiro plano V[k] interpolados 55k’’.
[0103] A unidade de formulação de primeiro plano 78 pode representar uma unidade configurada para realizar a multiplicação de matriz em relação aos vetores de primeiro plano ajustados V[k] 55A’’’ e os sinais de nFG interpolados 49’ para gerar os coeficientes de HOA de primeiro plano 65. Nesse sentido, a unidade de formulação de primeiro plano 78 pode combinar os objetos de áudio 49’ (que é um outro modo pelo qual se denotam os sinais de nFG interpolados 49’) com os vetores 55k’’’ para reconstruir os aspectos de primeiro plano ou, em outras palavras, predominantes dos coeficientes de HOA 11’. A unidade de formulação de primeiro plano 78 pode realizar uma multiplicação de matriz dos sinais de nFG interpolados 49’ pelos vetores de primeiro plano ajustados V[k] 55k’’’.
[0104] A unidade de formulação de coeficiente de HOA 82 pode representar uma unidade configurada para combinar os coeficientes de HOA de primeiro plano 65 aos coeficientes de HOA ambiente ajustados 47’’ para obter os coeficientes de HOA 11’. A notação de plica reflete que os coeficientes de HOA 11’ podem ser semelhantes, mas não iguais ais coeficientes de HOA 11. As diferenças entre os coeficientes de HOA 11 e 11’ podem resultar da perda devido à transmissão através de um meio de transmissão com perda, operação de quantização ou outras operações com perda.
[0105] A Figura 5 é um fluxograma que ilustra a operação exemplificativa de um dispositivo de codificação de áudio, como o dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 3, na realização de vários aspectos das técnicas de síntese baseada em vetor descritas nesta revelação. Inicialmente, o dispositivo de codificação de áudio 20 recebe os coeficientes de HOA 11 (106). O dispositivo de codificação de áudio 20 pode invocar a unidade de LIT 30, que pode aplicar uma LIT em relação ao coeficiente de HOA para emitir coeficientes de HOA transformados (por exemplo, no caso de SVD, os coeficientes de HOA transformados pode compreender os vetores US[k] 33 e os vetores V[k] 35) (107).
[0106] O dispositivo de codificação de áudio 20 pode, em seguida, invocar a unidade de cálculo de parâmetro 32 para realizar a análise descrita acima em relação a qualquer combinação dos vetores US[k] 33, vetores US[k-1] 33, os vetores V[k] e/ou V[k-1] 35 para identificar vários parâmetros da maneira descrita acima. Ou seja, a unidade de cálculo de parâmetro 32 pode determinar pelo menos um parâmetro com base em uma análise dos coeficientes de HOA transformados 33/35 (108).
[0107] O dispositivo de codificação de áudio 20 pode, então, invocar a unidade de reordenamento 34, que pode reordenar os coeficientes de HOA transformados (que, novamente no contexto de SVD, pode se referir aos vetores US[k] 33 e aos vetores V[k] 35) com base no parâmetro para gerar coeficientes de HOA transformados reordenados 33’/35’ (ou, em outras palavras, os vetores US[k] 33’ e os vetores V[k] 35’), conformem descrito acima (109). O dispositivo de codificação de áudio 20 pode, durante qualquer uma das operações anteriores ou operações subsequentes, também invocar a unidade de análise de campo sonoro 44. A unidade de análise de campo sonoro 44 pode, conforme descrito acima, realizar uma análise de campo sonoro em relação aos coeficientes de HOA 11 e/ou aos coeficientes de HOA transformados 33/35 para determinar o número total de canais de primeiro plano (nFG) 45, a ordem do campo sonoro de plano de fundo (NBG) e o número (nBGa) e índices (i) de canais de HOA de BG adicionais para enviar (que podem coletivamente ser denotados como informações de canal de plano de fundo 43 no exemplo da Figura 3 (109).
[0108] O dispositivo de codificação de áudio 20 também pode invocar a unidade de seleção de plano de fundo 48. A unidade de seleção de plano de fundo 48 pode determinar coeficientes de HOA de plano de fundo ou do ambiente 47 com base nas informações de canal de plano de fundo 43 (110). O dispositivo de codificação de áudio 20 pode adicionalmente invocar a unidade de seleção de primeiro plano 36, que pode selecionar os vetores US[k] reordenados 33’ e os vetores V[k] reordenados 35’ que representam componentes de primeiro plano ou distintos do campo sonoro com base no nFG 45 (que pode representar um ou mais índices que identificam os vetores de primeiro plano) (112).
[0109] O dispositivo de codificação de áudio 20 pode invocar a unidade de compensação de energia 38. A unidade de compensação de energia 38 pode realizar a compensação de energia em relação aos coeficientes de HOA ambiente 47 para compensar a perda de energia devido à remoção de vários coeficientes dos coeficientes de HOA pela unidade de seleção de plano de fundo 48 (114) e, desse modo, gerar coeficientes de HOA ambiente com energia compensada 47’.
[0110] O dispositivo de codificação de áudio 20 também pode invocar a unidade de interpolação espaço- temporal 50. A unidade de interpolação espaço-temporal 50 pode realizar a interpolação espaço-temporal em relação aos coeficientes de HOA transformados reordenados 33’/35’ para obter os sinais de primeiro plano interpolados 49’ (que também podem ser referidos como os “sinais de nFG interpolados 49’”) e as informações direcionais de primeiro plano restantes 53 (que também podem ser referidas como os “vetores V[k] 53”) (116). O dispositivo de codificação de áudio 20 pode, então, invocar a unidade de redução de coeficiente 46. A unidade de redução de coeficiente 46 pode realizar a redução de coeficiente em relação aos vetores de primeiro plano restantes V[k] 53 com base nas informações de canal de plano de fundo 43 para obter informações direcionais de primeiro plano reduzidas 55 (que também podem ser referidas como os vetores de primeiro plano reduzidos V[k] 55) (118).
[0111] O dispositivo de codificação de áudio 20 pode, então, invocar a unidade de quantização 52 para compactar, da maneira descrita acima, os vetores de primeiro plano reduzidos V[k] 55 e gerar vetores de primeiro plano criptografados V[k] 57 (120).
[0112] O dispositivo de codificação de áudio 20 também pode invocar a unidade de criptógrafo de áudio psicoacústico 40. A unidade de criptógrafo de áudio psicoacústico 40 pode criptografar de modo psicoacústico cada vetor dos coeficientes de HOA ambiente com energia compensada 47’ e os sinais de nFG interpolados 49’ para gerar coeficientes de HOA ambiente codificados 59 e sinais de nFG codificados 61. O dispositivo de codificação de áudio pode, então, invocar a unidade de geração de fluxo de bits 42. A unidade de geração de fluxo de bits de áudio 42 pode gerar o fluxo de bits 21 com base nas informações direcionais de primeiro plano criptografadas 57, os coeficientes de HOA ambiente criptografados 59, os sinais de nFG criptografados 61 e as informações de canal de plano de fundo 43.
[0113] A Figura 6 é um fluxograma que ilustra a operação exemplificativa de um dispositivo de decodificação de áudio, como o dispositivo de decodificação de áudio 24 mostrado na Figura 4, na realização de vários aspectos das técnicas descritas nesta revelação. Inicialmente, o dispositivo de decodificação de áudio 24 pode receber o fluxo de bits de áudio 21 (130). No recebimento do fluxo de bits, o dispositivo de decodificação de áudio 24 pode invocar a unidade de extração 72. Supondo-se, para fins de discussão, que o fluxo de bits de áudio 21 indica que a reconstrução baseada em vetor deve ser realizada, a unidade de extração 72 pode analisar o fluxo de bits para recuperar as informações notadas acima, passando as informações para a unidade de reconstrução baseada em vetor 92.
[0114] Em outras palavras, a unidade de extração 72 pode extrair as informações direcionais de primeiro plano criptografadas 57 (que, novamente, também pode ser referida como os vetores de primeiro plano criptografados V[k] 57), os coeficientes de HOA ambiente criptografados 59 e os sinais de primeiro plano criptografados (que também podem ser referidos como os sinais de nFG de primeiro plano criptografados 59 ou os objetos de áudio de primeiro plano criptografados 59) a partir do fluxo de bits de áudio 21 da maneira descrita acima (132).
[0115] O dispositivo de decodificação de áudio 24 pode adicionalmente invocar a unidade de desquantização 74. A unidade de desquantização 74 pode decodificar por entropia e desquantiza as informações direcionais de primeiro plano criptografadas 57 para obter informações direcionais de primeiro plano reduzidas 55k (136). O dispositivo de decodificação de áudio 24 também pode invocar a unidade de decodificação psicoacústico 80. A unidade de decodificação psicoacústico 80 pode decodificar os coeficientes de HOA ambiente codificados 59 e os sinais de primeiro plano codificados 61 para obter coeficientes de HOA ambiente com energia compensada 47’ e os sinais de primeiro plano interpolados 49’ (138). A unidade de decodificação psicoacústica 80 pode passar os coeficientes de HOA ambiente com energia compensada 47’ para a unidade de desvanecimento 770 e os sinais de nFG 49’ para a unidade de formulação de primeiro plano 78.
[0116] O dispositivo de decodificação de áudio 24 pode, em seguida, invocar a unidade de interpolação espaço-temporal 76. A unidade de interpolação espaço- temporal 76 pode receber as informações direcionais de primeiro plano reordenadas 55k’ e pode realizar a interpolação espaço-temporal em relação às informações direcionais de primeiro plano reduzidas para gerar as informações direcionais de primeiro plano interpoladas 55k’’ (140). A unidade de interpolação espaço-temporal 76 pode encaminhar os vetores de primeiro plano V[k] interpolados 55k para a unidade de desvanecimento 770.
[0117] O dispositivo de decodificação de áudio 24 pode invocar a unidade de desvanecimento 770. A unidade de desvanecimento 770 pode receber ou, de outro modo, obter elementos de sintaxe (por exemplo, a partir da unidade de extração 72) indicativos de quando os coeficientes de HOA ambiente com energia compensada 47’ estiverem em transição (por exemplo, o elemento de sintaxe AmbCoeffTransition). A unidade de desvanecimento 770 pode, com base nos elementos de sintaxe de transição e nas informações de estado de transição mantidas, aumentar ou diminuir gradualmente os coeficientes de HOA ambiente com energia compensada 47’ emitindo coeficientes de HOA ambiente ajustados 47’’ para a unidade de formulação de coeficiente de HOA 82. A unidade de desvanecimento 770 também pode, com base nos elementos de sintaxe e nas informações de estado de transição mantidas, e diminuir ou aumentar gradualmente um ou mais elementos dos vetores de primeiro plano interpolados V[k] 55k’’ correspondentes emitindo os vetores de primeiro plano ajustados V[k] 55k’’’ para a unidade de formulação de primeiro plano 78 (142).
[0118] O dispositivo de decodificação de áudio 24 pode invocar a unidade de formulação de primeiro plano 78. A unidade de formulação de primeiro plano 78 pode realizar a multiplicação de matriz dos sinais de nFG 49’ pelas informações direcionais de primeiro plano ajustadas 55k’’’ para obter os coeficientes de HOA de primeiro plano 65 (144). O dispositivo de decodificação de áudio 24 também pode invocar a unidade de formulação de coeficiente de HOA 82. A unidade de formulação de coeficiente de HOA 82 pode adicionar os coeficientes de HOA de primeiro plano 65 aos coeficientes de HOA ambiente ajustados 47’’ para obter os coeficientes de HOA 11’ (146).
[0119] De acordo com as técnicas desta revelação, o dispositivo de decodificação de áudio 24 pode computar uma matriz de efeito de HOA com base no tamanho de tela de produção e reprodução. A matriz de efeito de HOA pode, então, ser multiplicada por uma dada matriz de renderização de HOA R para criar a matriz de renderização de HOA relacionada a tela. Em algumas implantações, a adaptação da matriz de renderização de HOA pode ser feita offline durante, por exemplo, uma fase de inicialização do dispositivo de decodificação de áudio 24, de modo que a complexidade de tempo de execução não aumente.
[0120] Uma técnica proposta desta revelação usa 900 pontos de amostragem igualmente espaçados em uma esfera
Figure img0027
sendo que cada um dos pontos de amostragem definidos com direção
Figure img0028
conforme descrito no Anexo F.9 de ISO/IEC DIS 23008-3, Information technology— High efficiency coding and media delivery in heterogeneous environments— Part 3: 3D audio (doravante “DIS 23008”). Com base nessas direções, o dispositivo de decodificação de áudio pode computar uma matriz de modo Ψ900 conforme esboçado no Anexo F.1.5 de DIS 23008. As direções desses 900 pontos de amostragem são modificadas por meio da função de mapeamento e a matriz de modo Ψ900 modificada é computada de maneira correspondente. Para evitar uma disparidade entre objetos de áudio relacionados à tela e conteúdo de HOA relacionado à tela, as mesmas funções de mapeamento já descritas na Cláusula 18.3 de DIS 23008 são usadas. A matriz de efeito F é, então, computada como:
Figure img0029
[0121] A matriz de renderização relacionada à tela é, então, computação como:
Figure img0030
[0122] É possível pré-computar e armazenar a matriz pinv
Figure img0031
para evitar qualquer repetição dessa etapa de processamento. O número total das operações restantes na equação (1) e (2) para gerar D é (900+M)*(N+1)4. Para uma matriz de renderização com a ordem N=4 e M=22 de alto-falantes a complexidade é cerca de 0,58 MOPS ponderado.
[0123] Um primeiro exemplo das técnicas de adaptação baseadas em tela desta revelação será descrito agora com referência às Figuras 7 a 11. A Figura 7A mostra um exemplo de uma função de mapeamento que pode ser usada para mapear um ângulo de azimute para uma tela de referência para um ângulo de azimute para uma janela de visualização. A Figura 7B mostra um exemplo da função de mapeamento que pode ser usada para mapear um ângulo de elevação para uma tela de referência para um ângulo de elevação para uma janela de visualização. No exemplo das Figuras 7A e 7B, os ângulos da tela de referência são de 29 a -29 graus azimute e de 16,3 a -16,3 graus de elevação, e os ângulos da janela de visualização são de 58 a -58 graus azimute e de 32,6 a -32,6 graus de elevação. Desse modo, no exemplo das Figuras 7A e 7B, a janela de visualização é duas vezes tão grande quanto a tela de referência.
[0124] Conforme usado nesta revelação, uma janela de visualização pode se referir a toda ou a parte de uma tela usada para reproduzir vídeo. Quando se reproduz um filme em tela cheia em uma televisão, computador do tipo tablet, telefone ou outro tal dispositivo, a janela de visualização pode corresponder a toda a tela do dispositivo. Em outros exemplos, no entanto, uma janela de visualização pode corresponder a menos do que toda a tela do dispositivo. Por exemplo, um dispositivo que reproduz quatro eventos esportivos simultaneamente pode incluir quatro janelas de visualização distintas em uma tela, ou um dispositivo pode ter uma única janela de visualização para reproduzir vídeo e usar a área de tela restante para exibir outro conteúdo. O campo de visão de uma janela de visualização pode ser determinado com base em tais parâmetros como um tamanho físico da janela de visualização e/ou uma distância (medida ou presumida) da janela de visualização para um local de visualização. O campo de visão pode, por exemplo, ser descrito por ângulos de azimute e ângulos de elevação.
[0125] Conforme usado nesta revelação, uma tela de referência se refere a um campo de visão que corresponde ao campo sonoro de dados de áudio de HOA. Por exemplo, os dados de áudio de HOA podem ser gerados ou capturados em relação a um determinado campo de visão (isto é, uma tela de referência), mas podem ser reproduzidos em relação a um campo de visão diferente (por exemplo, o campo de visão de uma janela de visualização). Conforme explicado nesta revelação, a tela de referência fornece uma referência por meio da qual um decodificador de áudio pode adaptar os dados de áudio de HOA para reprodução local em uma tela que difere em tamanho, local ou alguma outra característica da tela de referência. Para fins de explicação, determinadas técnicas nesta revelação podem ser descritas com referência a uma tela de produção e tela de reprodução. Deve-se compreender que essas mesmas técnicas são aplicáveis às telas de referência e janelas de visualização.
[0126] A Figura 8 mostra um campo de vetor para um efeito de expansão relacionados a tela desejado do campo sonoro como um efeito de tela de referência e de janela de visualização para o primeiro exemplo. Na Figura 8, os pontos correspondem a um destino de mapeamento, enquanto a linha que passa pelos pontos corresponde às trilhas de mapeamento. O retângulo com linhas tracejadas corresponde a um tamanho de tela de referência, e o retângulo de linha contínua corresponde a um tamanho de janela de visualização.
[0127] A Figura 61 mostra um exemplo de como o efeito relacionado a tela pode causar um aumento da ordem de HOA do conteúdo. No exemplo da Figura 61, a matriz de efeito é computada para criar 49 coeficientes de HOA (6a ordem) de um material de entrada de 3a ordem. No entanto, resultados satisfatórios também podem ser obtidos se a matriz for uma matriz quadrada com elementos (N+1)2 x (N+1)2.
[0128] A Figura 10 mostra um exemplo de como a matriz de efeito pode ser pré-renderizada e aplicada à matriz de renderização de alto-falante sem exigir, então, qualquer computação extra no tempo de execução.
[0129] A Figura 11 mostra um exemplo de como a matriz de efeito pode resultar em um conteúdo de ordem superior (por exemplo, 6a ordem), uma matriz de renderização nessa ordem pode ser multiplicada para pré- computar a matriz de renderização final na ordem original (no presente, 3a ordem).
[0130] Um segundo exemplo das técnicas de adaptação baseadas em tela desta revelação será descrito agora com referência às Figuras 12 a 13. A Figura 12A mostra um exemplo de uma função de mapeamento que pode ser usada para mapear um ângulo de azimute para uma tela de referência para um ângulo de azimute para uma janela de visualização. A Figura 12B mostra um exemplo da função de mapeamento que pode ser usada para mapear um ângulo de elevação para uma tela de referência para um ângulo de elevação para uma janela de visualização. No exemplo das Figuras 12A e 12B, os ângulos da tela de referência são de 29 a -29 graus azimute e de 16,3 a -16,3 graus de elevação, e os ângulos da janela de visualização são de 29 a -29 graus azimute e de 32,6 a -32,6 graus de elevação. Desse modo, no exemplo das Figuras 12A e 12B, a janela de visualização é duas vezes tão alta, mas com a mesma largura que a tela de referência. A Figura 12C mostra uma matriz de efeito de HOA computado para o segundo exemplo.
[0131] A Figura 13 mostra um campo de vetor para um efeito de expansão relacionados a tela desejado do campo sonoro como um efeito de tela de referência e de janela de visualização para o segundo exemplo. Na Figura 13, os pontos correspondem a um destino de mapeamento, enquanto a linha que passa pelos pontos corresponde às trilhas de mapeamento. O retângulo com linhas tracejadas corresponde a um tamanho de tela de referência, e o retângulo de linha contínua corresponde a um tamanho de janela de visualização.
[0132] Um terceiro exemplo das técnicas de adaptação baseadas em tela desta revelação será descrito agora com referência às Figuras 14 a 15. A Figura 14A mostra um exemplo de uma função de mapeamento que pode ser usada para mapear um ângulo de azimute para uma tela de referência para um ângulo de azimute para uma janela de visualização. A Figura 14B mostra um exemplo da função de mapeamento que pode ser usada para mapear um ângulo de elevação para uma tela de referência para um ângulo de elevação para uma janela de visualização. No exemplo das Figuras 14A e 14B, os ângulos da tela de referência são de 29 a -29 graus azimute e de 16,3 a -16,3 graus de elevação, e os ângulos da janela de visualização são de 58 a -58 graus azimute e de 16,3 a -16,3 graus de elevação. Desse modo, no exemplo das Figuras 14A e 14B, a janela de visualização é duas vezes tão larga quanto a tela de referência, mas com a mesma altura que a tela de referência. A Figura 14C mostra uma matriz de efeito de HOA computado para o terceiro exemplo.
[0133] A Figura 15 mostra um campo de vetor para um efeito de expansão relacionados a tela desejado do campo sonoro como um efeito de tela de referência e de janela de visualização para o terceiro exemplo. Na Figura 15, os pontos correspondem a um destino de mapeamento, enquanto a linha que passa pelos pontos corresponde às trilhas de mapeamento. O retângulo com linhas tracejadas corresponde a um tamanho de tela de referência, e o retângulo de linha contínua corresponde a um tamanho de janela de visualização.
[0134] Um quarto exemplo das técnicas de adaptação baseadas em tela desta revelação será descrito agora com referência às Figuras 16 a 17. A Figura 16A mostra um exemplo de uma função de mapeamento que pode ser usada para mapear um ângulo de azimute para uma tela de referência para um ângulo de azimute para uma janela de visualização. A Figura 16B mostra um exemplo da função de mapeamento que pode ser usada para mapear um ângulo de elevação para uma tela de referência para um ângulo de elevação para uma janela de visualização. No exemplo das Figuras 16A e 16B, os ângulos da tela de referência são de 29 a -29 graus azimute e de 16,3 a -16,3 graus de elevação, e os ângulos da janela de visualização são de 49 a -9 graus azimute e de 16,3 a -16,3 graus de elevação. Desse modo, no exemplo das Figuras 14A e 14B, a janela de visualização é duas vezes tão larga quanto a tela de referência, mas com a mesma altura que a tela de referência. A Figura 16C mostra uma matriz de efeito de HOA computado para o terceiro exemplo.
[0135] A Figura 17 mostra um campo de vetor para um efeito de expansão relacionados a tela desejado do campo sonoro como um efeito de tela de referência e de janela de visualização para o quarto exemplo. Na Figura 17, os pontos correspondem a um destino de mapeamento, enquanto a linha que passa pelos pontos corresponde às trilhas de mapeamento. O retângulo com linhas tracejadas corresponde a um tamanho de tela de referência, e o retângulo de linha contínua corresponde a um tamanho de janela de visualização.
[0136] Um quinto exemplo das técnicas de adaptação baseadas em tela desta revelação será descrito agora com referência às Figuras 18 a 19 A Figura 18A mostra um exemplo de uma função de mapeamento que pode ser usada para mapear um ângulo de azimute para uma tela de referência para um ângulo de azimute para uma janela de visualização. A Figura 18B mostra um exemplo da função de mapeamento que pode ser usada para mapear um ângulo de elevação para uma tela de referência para um ângulo de elevação para uma janela de visualização. No exemplo das Figuras 18A e 18B, os ângulos da tela de referência são de 29 a -29 graus azimute e de 16,3 a -16,3 graus de elevação, e os ângulos da janela de visualização são de 49 a -9 graus azimute e de 16,3 a -16,3 graus de elevação. Desse modo, no exemplo das Figuras 18A e 18B, a janela de visualização é desviada na localização azimute em relação à tela de referência. A Figura A Figura 18C mostra uma matriz de efeito de HOA computado para o quinto exemplo.
[0137] A Figura 19 mostra um campo de vetor para um efeito de expansão relacionados a tela desejado do campo sonoro como um efeito de tela de referência e de janela de visualização para o quarto exemplo. Na Figura 19, os pontos correspondem a um destino de mapeamento, enquanto a linha que passa pelos pontos corresponde às trilhas de mapeamento. O retângulo com linhas tracejadas corresponde a um tamanho de tela de referência, e o retângulo de linha contínua corresponde a um tamanho de janela de visualização.
[0138] As Figuras 20A a 20C são diagramas de blocos que ilustram um outro exemplo de um dispositivo de decodificação de áudio 900 que pode implantar vários aspectos das técnicas para adaptação baseada em tela de áudio descrita nesta revelação. Por questão de simplicidade, nem todos os aspectos do dispositivo de decodificação de áudio 900 são mostrados nas Figuras 20A a 20C. Contempla-se que os recursos e as funções do dispositivo de decodificação de áudio 900 podem ser implantadas em conjunto com os recursos e as funções de outros dispositivos de decodificação de áudio descritos nesta revelação, como o dispositivo de decodificação de áudio 24 descrito acima em relação às Figuras 2 e 4.
[0139] O dispositivo de decodificação de áudio 900 inclui decodificador de USAC 902, decodificador de HOA 904, gerador de matriz de renderização local 906, decisor de matriz de renderização sinalizada/local 908 e renderizador de alto-falante 910. O dispositivo de decodificação de áudio 900 recebe um fluxo de bits codificado (por exemplo, um fluxo de bits de áudio de MPEG- H 3D). O decodificador de USAC 902 e o decodificador de HOA 904 decodificam o fluxo de bits com o uso da USAC e técnicas de decodificação de áudio de HOA descritos acima. O gerador de matriz de renderização local 906 gera uma ou mais matrizes de renderização baseadas, pelo menos em parte, na configuração de alto-falante local do sistema que irá reproduzir o áudio decodificado. O fluxo de bits também pode incluir uma ou mais matrizes de renderização que podem ser decodificadas a partir do fluxo de bits codificado. O decisor de matriz de renderização sinalizada/local 908 determina quais das matrizes de renderização sinalizadas ou localmente geradas usar quando se reproduz os dados de áudio. O renderizador de alto-falante 910 emite áudio para um ou mais alto-falantes com base na matriz de renderização escolhida.
[0140] A Figura 20B é um diagrama de blocos que ilustra um outro exemplo do dispositivo de decodificação de áudio 900. No exemplo da Figura 20B, o dispositivo de decodificação de áudio 900 inclui adicionalmente o gerador de matriz de efeito 912. O gerador de matriz de efeito 912 pode determinar a partir do fluxo de bits um tamanho de tela de referência e determinar, com base no sistema que é usado para exibir dados de vídeo correspondentes, um tamanho de janela de visualização. Com base no tamanho de tela de referência e no tamanho de janela de visualização, o gerador de matriz de efeito 912 pode gerar e efetuar a matriz de (F) para modificar a matriz de renderização (R’) selecionada pelo decisor de matriz de renderização sinalizada/local 908. No exemplo da Figura 20B, o renderizador de alto-falante 910 pode emitir áudio para os um ou mais alto-falantes com base na matriz de renderização modificada (D). No exemplo da Figura 20C, o dispositivo de decodificação de áudio 900 pode ser configurado para renderizar apenas o efeito se em HOADecoderConfig() o sinalizador isScreenRelative flag == 1.
[0141] De acordo com as técnicas desta revelação, o gerador de matriz de efeito 912 também pode gerar uma matriz de efeito em resposta à rotação de tela. O gerador de matriz de efeito 912 pode, por exemplo, gerar uma matriz de efeito de acordo com o algoritmo a seguir. Um algoritmo exemplificativo para a nova função de mapeamento, em pseudocódigo, é: %1. computar parâmetro de mapeamento de tela relativo originalWidth = originalAngles.azi(1) - originalAngles.azi(2); originalHeight = originalAngles.ele(1) - originalAngles.ele(2); newWidth = newAngles.azi(1) - newAngles.azi(2); newHeight = newAngles.ele(1) - newAngles.ele(2); %2. Encontrar centro da tela de referência e centro da janela de visualização. originalCenter.azi = originalAngles.azi(1) - originalWidth * 0,5; originalCenter.ele = originalAngles.ele(1) - originalHeight * 0,5; newCenter.azi = newAngles.azi(1) - newWidth * 0,5; newCenter.ele = newAngles.ele(1) - newHeight * 0,5; %3. realizar mapeamento relacionado à tela relativo heightRatio = newHeight/originalHeight; widthRatio = newWidth/originalWidth; Mapeamento de posições espaciais igualmente distribuídas com o uso de função de mapeamento relacionado à tela MPEG-H com o uso de heightRatio e widthRatio, em vez das posições absolutas de produção e janela de visualização. %4. girar campo sonoro girar a posição espacial processada em (3.) de originalCenter para newCenter. %5. computar matriz de efeito de HOA usar posições espaciais originais e posições espaciais processadas (a partir de 4.)
[0142] De acordo com as técnicas desta revelação, o gerador de matriz de efeito 912 também pode gerar uma matriz de efeito em resposta à rotação de tela. O gerador de matriz de efeito 912 pode, por exemplo, gerar uma matriz de efeito de acordo com o algoritmo a seguir. 1. Computar parâmetro de mapeamento de tela relativo widthRatio = localWidth / productionWidth; heightRatio = localHeight /productionHeight; com: productionWidth = production_Azi_L - production_Azi_R; productionHeight = production_Ele_Top - production_Ele_Down; localWidth = local_Azi_L - local_Azi_R; localHeight = local_Ele_Top - local_Ele_Down; 2. Computar coordenadas centrais de tela de produção normativa e centro de tela de reprodução local: productionCenter_Azi = production_Azi_L- productionWidth /2; productionCenter_Ele = production_Ele_Top- productionHeight /2; localCenter_Azi = local_Azi_L- localWidth/2; localCenter_Ele = local_Ele_Top- localHeight/2; 3. Mapeamento relacionado à tela: Mapeamento de Q900 com função de mapeamento relacionada à tela com o uso de heightRatio e widthRatio para Qm900 4. Girar posições: Girar a posição espacial Q900 a partir da coordenada productionCenter para a coordenada localCenter, com o uso de kernel de rotação R, resultando em Qmr900
Figure img0032
rotação de eixo geométrico y (passo) rotação de eixo geométrico z (guinada) 5. Computar matriz de efeito de HOA:
Figure img0033
com
Figure img0034
sendo a matriz de modo criada a partir de
Figure img0035
[0143] A Figura 20C é um diagrama de blocos que ilustra um outro exemplo do dispositivo de decodificação de áudio 900. No exemplo da Figura 20C, o dispositivo de decodificação de áudio 900 opera, em geral, da mesma maneira descrita acima para o exemplo da Figura 20B, mas no exemplo da Figura 20C, o gerador de matriz de efeito 912 é adicionalmente configurado para determinar um fator de escalonamento para uma operação de ampliação, e com base nas informações de escalonamento, o tamanho de tela de referência, e o tamanho de janela de visualização, geram uma matriz de efeito (F) para modificar a matriz de renderização (R’) selecionada por meio do decisor de matriz de renderização sinalizada/local 908. No exemplo da Figura 20C, o renderizador de alto-falante 910 pode emitir áudio para os um ou mais alto-falantes com base na matriz de renderização modificada (D). No exemplo da Figura 20C, o dispositivo de decodificação de áudio 900 pode ser configurado para renderizar apenas o efeito se em HOADecoderConfig() o sinalizador isScreenRelativeHOA flag == 1.
[0144] O sinalizador isScreenRelativeHOA na tabela de sintaxe HOADecoderConfig() (mostrada abaixo como Tabela 1) é suficiente para possibilitar a adaptação de conteúdo de HOA relacionado à tela para o tamanho de tela de reprodução. As informações na tela de produção nominais podem ser sinalizadas separadamente como parte de um elemento de áudio de metadados. TABELA 1 - SINTAXE DE HOADDECODERCONFIG(), TABELA 120 EM DIS 23008
Figure img0036
[0145] Um sistema de reprodução de áudio da presente revelação, como o sistema de reprodução de áudio 16, pode ser configurado para renderizar um sinal de áudio de HOA ao renderizar o sinal de áudio de HOA sobre um ou mais alto-falantes (por exemplo, alto-falantes 3) com base nos um ou mais parâmetros de FOV de uma tela de referência (por exemplo, parâmetros de FOV 13’) e um ou mais parâmetros de FOV de uma janela de visualização. A renderização pode, por exemplo, ser adicionalmente baseada em um fator de escalonamento obtido em resposta a uma operação de ampliação iniciada por usuário. Em alguns exemplos, os um ou mais parâmetros de FOV para a tela de referência podem incluir um local de um centro da tela de referência e um local de um centro da janela de visualização.
[0146] O sistema de reprodução de áudio 16 pode, por exemplo, receber um fluxo de bits de dados de áudio codificados que compreendem o sinal de áudio de HOA. Os dados de áudio codificados podem ser associados aos dados de vídeo correspondentes. O sistema de reprodução de áudio 16 pode obter a partir do fluxo de bits os um ou mais parâmetros de FOV (por exemplo, parâmetros de FOV 13’) da tela de referência para os dados de vídeo correspondentes.
[0147] O sistema de reprodução de áudio 16 também pode obter os um ou mais parâmetros de FOV da janela de visualização para exibir os dados de vídeo correspondentes. Os parâmetros de FOV da janela de visualização podem ser determinados localmente com base em qualquer combinação de entrada de usuário, medições automatizadas, valores padrão, ou semelhantes.
[0148] O sistema de reprodução de áudio 16 pode determinar um renderizador, de renderizadores de áudio 22, para os dados de áudio codificados, com base nos um ou mais parâmetros de FOV da janela de visualização e nos um ou mais parâmetros de FOV da tela de referência, pode modificar um dos renderizadores de áudio 22, e com base no renderizador modificador e nos dados de áudio codificados, podem renderizar o sinal de áudio de HOA sobre os um ou mais alto-falantes. O sistema de reprodução de áudio 16 pode modificar um dos renderizadores de áudio 22 adicionalmente baseados no fator de escalonamento quando uma operação de ampliação for realizada.
[0149] O sistema de reprodução de áudio 16 pode, por exemplo, determinar o renderizador para os dados de áudio codificados com base em uma configuração de alto- falante, incluindo, mas não necessariamente se limita a uma geometria espacial de um ou mais alto-falantes e/ou inúmeros alto-falantes disponíveis para reprodução.
[0150] Os renderizadores de áudio 22 podem, por exemplo, incluir um algoritmo para converter os dados de áudio codificados em um formato de reprodução e/ou utilizar um formato de renderização. O formato de renderização pode, por exemplo, incluir qualquer um dentre uma matriz, um raio, uma linha ou um vetor. Os renderizadores de áudio 22 podem ser sinalizados no fluxo de bits ou determinados com base em um ambiente de reprodução.
[0151] Os um ou mais parâmetros de FOV para a tela de referência podem incluir um ou mais ângulos de azimute para a tela de referência. Os um ou mais ângulos de azimute para a tela de referência podem incluir um ângulo de azimute esquerdo para a tela de referência e um ângulo de azimute direito para a tela de referência. Os um ou mais parâmetros de FOV para a tela de referência podem incluir, alternativa ou adicionalmente, um ou mais ângulos de elevação para a tela de referência. Os um ou mais ângulos de elevação para a tela de referência podem incluir um ângulo de elevação superior para a tela de referência e um ângulo de elevação inferior para a tela de referência.
[0152] Os um ou mais parâmetros de FOV para a janela de visualização podem incluir um ou mais ângulos de azimute para a janela de visualização. Os um ou mais ângulos de azimute para a janela de visualização podem incluir um ângulo de azimute esquerdo para a janela de visualização e um ângulo de azimute direito para a janela de visualização. Os um ou mais parâmetros de FOV para a janela de visualização podem incluir um ou mais ângulos de azimute para a janela de visualização. Os um ou mais ângulos de elevação para a janela de visualização podem incluir um ângulo de elevação superior para a janela de visualização e um ângulo de elevação inferior para a janela de visualização.
[0153] O sistema de reprodução de áudio 16 pode modificar um ou mais dos renderizadores de áudio 22 ao determinar uma função de mapeamento de ângulo de azimute para modificar um ângulo de azimute de um alto-falante com base nos um ou mais parâmetros de FOV da tela de referência e nos um ou mais parâmetros de FOV da janela de visualização e para modificar um ângulo de azimute para um primeiro alto-falante dos um ou mais alto-falantes para gerar um ângulo de azimute modificado para o primeiro alto- falante com base no função de mapeamento de ângulo de azimute.
[0154] A função de mapeamento de ângulo de azimute compreende:
Figure img0037
em que Φ’ representa o primeiro alto-falante; Φ representa o ângulo de azimute para o primeiro alto- falante; Φesquerdonominal representa um ângulo de azimute esquerdo da tela de referência; Φdireitonominal representa um ângulo de azimute direito da tela de referência; Φesquerdorepro representa um ângulo de azimute esquerdo da janela de visualização; e Φdireitorepro representa um ângulo de azimute direito da janela de visualização.
[0155] O sistema de reprodução de áudio 16 pode modificar o renderizador ao determinar uma função de mapeamento de ângulo de elevação para modificar um ângulo de elevação de um alto-falante com base nos um ou mais parâmetros de FOV da tela de referência e nos um ou mais parâmetros de FOV da janela de visualização e ao modificar um ângulo de elevação para um primeiro alto-falante dos um ou mais alto-falantes com base na função de mapeamento de ângulo de elevação.
[0156] A função de mapeamento de ângulo de elevação compreende:
Figure img0038
em que θ’ representa o ângulo de elevação modificado para o primeiro alto-falante; θtoponominal representa o ângulo de elevação para o primeiro alto-falante; θfundonominal representa um ângulo de elevação de topo da tela de referência; θtoporepro representa um ângulo de elevação de fundo da tela de referência; θfundorepro apresenta um ângulo de elevação de topo da janela de visualização; e, representa um ângulo de elevação de fundo da janela de visualização.
[0157] O sistema de reprodução de áudio 16 pode modificar o renderizador em resposta a uma função de ampliação iniciada por usuário na janela de visualização. Por exemplo, em resposta a uma função de ampliação iniciada por usuário, o sistema de reprodução de áudio 16 pode determinar um ou mais parâmetros de FOV de uma janela de visualização ampliada e, com base nos um ou mais parâmetros de FOV da tela de referência e nos um ou mais parâmetros de FOV da janela de visualização ampliada, pode modificar o renderizador. O sistema de reprodução de áudio 16 também pode modificar o renderizador ao determinar um ou mais parâmetros de FOV de uma janela de visualização ampliada com base no fator de escalonamento e nos um ou mais parâmetros de FOV da janela de visualização, ao determinar uma função de mapeamento de ângulo de azimute para modificar um ângulo de azimute de um alto-falante com base nos um ou mais parâmetros de FOV da janela de visualização ampliada e nos um ou mais parâmetros de FOV da tela de referência, e ao modificar um ângulo de azimute para um primeiro alto-falante dos um ou mais alto-falantes para gerar um ângulo de azimute modificado para o primeiro alto- falante com base na função de mapeamento de ângulo de azimute.
[0158] A função de mapeamento de ângulo de azimute compreende:
Figure img0039
em que Φ’ representa o ângulo de azimute modificado para o primeiro alto-falante; Φesquerdonominal representa o ângulo de azimute para o primeiro alto-falante; Φdireitonominal representa um ângulo de azimute esquerdo da tela de referência; Φesquerdorepro representa um ângulo de azimute direito da tela de referência; Φdireitorepro apresenta um ângulo de azimute esquerdo da janela de visualização ampliada; e, apresenta um ângulo de azimute direito da janela de visualização ampliada.
[0159] O sistema de reprodução de áudio 16 pode modificar o renderizador ao determinar um ou mais parâmetros de FOV de uma janela de visualização ampliada com base no fator de escalonamento e nos um ou mais parâmetros de FOV da janela de visualização, ao determinar uma função de mapeamento de ângulo de elevação para modificar um ângulo de elevação de um alto-falante com base nos um ou mais parâmetros de FOV da janela de visualização ampliada e nos um ou mais parâmetros de FOV da tela de referência, e ao modificar um ângulo de elevação para um primeiro alto-falante dos um ou mais alto-falantes para gerar um ângulo de elevação modificado para o primeiro alto-falante com base na função de mapeamento de ângulo de elevação.
[0160] A função de mapeamento de ângulo de elevação compreende:
Figure img0040
em que θ’ representa o ângulo de elevação modificado para o primeiro alto-falante; θ representa o ângulo de elevação para o primeiro alto-falante; θ topo nominal representa um ângulo de elevação de topo da tela de referência; θfundonominal representa um ângulo de elevação de fundo da tela de referência; θ topo repro representa um ângulo de elevação de topo da janela de visualização ampliada; e, θfundorepro representa um ângulo de fundo de topo da janela de visualização ampliada.
[0161] O sistema de reprodução de áudio 16 pode determinar os um ou mais parâmetros de FOV da janela de visualização ampliada ao determinar um ou mais ângulos de azimute para a janela de visualização ampliada com base nos um ou mais ângulos de azimute para a janela de visualização e no fator de escalonamento. O sistema de reprodução de áudio 16 pode determinar os um ou mais parâmetros de FOV da janela de visualização ampliada ao determinar um ou mais ângulos de elevação para a janela de visualização ampliada com base nos um ou mais ângulos de elevação para a janela de visualização e no fator de escalonamento. O sistema de reprodução de áudio 16 pode determinar o centro da tela de referência com base nos um ou mais parâmetros de FOV da tela de referência e pode determinar o centro da janela de visualização com base nos um ou mais parâmetros de FOV da janela de visualização.
[0162] O sistema de reprodução de áudio 16 pode ser configurado para determinar um renderizador para os dados de áudio codificados, modificar o renderizador com base no centro da janela de visualização e no centro da tela de referência, e renderizar o sinal de áudio de HOA sobre os um ou mais alto-falantes com base no renderizador modificado e nos dados de áudio codificados.
[0163] O sistema de reprodução de áudio 16 pode determinar o centro da janela de visualização de acordo com o algoritmo a seguir: originalWidth = originalAngles.azi(1) - originalAngles.azi(2); originalHeight = originalAngles.ele(1) - originalAngles.ele(2); newWidth = newAngles.azi(1) - newAngles.azi(2); newHeight = newAngles.ele(1) - newAngles.ele(2); originalCenter.azi = originalAngles.azi(1) - originalWidth * 0,5; originalCenter.ele = originalAngles.ele(1) - originalHeight * 0,5; newCenter.azi = newAngles.azi(1) - newWidth * 0,5; newCenter.ele = newAngles.ele(1) - newHeight * 0,5, em que “originalWidth” representa uma largura da tela de referência; “originalHeight” representa uma altura da tela de referência; “originalAngles.azi(1)” representa um primeiro ângulo de azimute da tela de referência; “originalAngles.azi(2)” representa um segundo ângulo de azimute da tela de referência; “originalAngles.ele(1)” representa um primeiro ângulo de elevação da tela de referência; “originalAngles.ele(2)” representa um segundo ângulo de elevação da tela de referência; “newWidth” representa uma largura da janela de visualização; “newHeight” representa uma altura da janela de visualização; “newAngles.azi(1)” representa um primeiro ângulo de azimute da janela de visualização; “newAngles.azi(2)” representa um segundo ângulo de azimute da janela de visualização; “newAngles.ele(1)” representa um primeiro ângulo de elevação da janela de visualização; “newAngles.ele(2)” representa um segundo ângulo de elevação da janela de visualização; “originalCenter.azi” representa o ângulo de azimute do centro da tela de referência; “originalCenter.ele” representa o ângulo de elevação do centro da tela de referência; “newCenter.azi” representa o ângulo de azimute do centro da janela de visualização; “newCenter.ele” representa o ângulo de elevação do centro da janela de visualização.
[0164] O sistema de reprodução de áudio 16 pode girar o campo sonoro a partir do centro da tela de referência para o centro da janela de visualização.
[0165] O sinal de áudio de HOA pode ser parte de um fluxo de bits compatível com MPEG-H 3D. A janela de visualização pode, por exemplo, ser uma tela de reprodução ou uma porção de uma tela de reprodução. A janela de visualização também pode corresponder a uma tela local. A tela de referência pode, por exemplo, ser uma tela de produção.
[0166] O sistema de reprodução de áudio 16 pode ser configurado para receber um elemento de sintaxe que indica valores para os um ou mais parâmetros de FOV da tela de referência corresponderem aos valores padrão e/ou receber um elemento de sintaxe que indica valores para os um ou mais parâmetros de FOV da tela de referência corresponderem aos valores sinalizados incluídos em um fluxo de bits que compreende o sinal de áudio de HOA.
[0167] A Figura 21 é um fluxograma que ilustra a operação de um dispositivo de decodificação de áudio na realização das técnicas de adaptação baseadas em tela descritas nesta revelação. As técnicas da Figura 21 serão descritas em relação ao dispositivo consumidor de conteúdo 14, mas deve-se compreender que as técnicas da Figura 21 não se limitam necessariamente a um dispositivo e podem ser realizadas por outros tipos de dispositivos de renderização de áudio. O dispositivo consumidor de conteúdo 14 obtém um ou mais parâmetros de FOV para uma janela de visualização e um ou mais parâmetros de FOV para uma tela de referência (1000). O dispositivo consumidor de conteúdo 14 pode, por exemplo, obter os um ou mais parâmetros de FOV para a tela de referência a partir de um fluxo de bits que inclui um sinal de áudio de HOA. O dispositivo consumidor de conteúdo 14 e pode obter os um ou mais parâmetros de FOV para a janela de visualização localmente baseada em características de um visor local como um tamanho do visor local. Os parâmetros de FOV também podem se basear em características como uma orientação do visor, uma quantidade de ampliação usada para exibir vídeo, e outras tais características. Com base em um ou mais parâmetros de FOV de campo de visão da tela de referência e nos um ou mais parâmetros de FOV da janela de visualização, o dispositivo consumidor de conteúdo 14 renderiza o sinal de áudio de HOA sobre um ou mais alto-falantes (1020).
[0168] As técnicas anteriores podem ser realizadas em relação a qualquer número de diferentes contextos e ecossistemas de áudio. Inúmeros contextos exemplificativos são descritos abaixo, embora as técnicas devam ser limitadas aos contextos exemplificativos. Um ecossistema de áudio exemplificativo pode incluir conteúdo de áudio, estúdios de cinema, estúdios de música, estúdios de áudio de jogos, conteúdo de áudio baseado em canal, mecanismos de criptografia, derivações de áudio de jogos, mecanismos de criptografia de áudio de jogos/de renderização, e sistemas de liberação.
[0169] Os estúdios de cinema, os estúdios de música e os estúdios de áudio de jogos podem receber conteúdo de áudio. Em alguns exemplos, o conteúdo de áudio pode representar o resultado de uma aquisição. Os estúdios de cinema podem emitir conteúdo de áudio baseado em canal (por exemplo, em 2.0, 5.1 e 7.1) como com o uso de uma estação de trabalho de áudio digital (DAW). Os estúdios de música podem emitir conteúdo de áudio baseado em canal (por exemplo, em 2.0 e 5.1) como com o uso de uma DAW. Em qualquer caso, os mecanismos de criptografia podem receber e codificar o conteúdo de áudio baseado em canal com base em um ou mais codecs (por exemplo, AAC, AC3, Dolby True HD, Dolby Digital Plus e DTS Master Audio) para saída por meio dos sistemas de liberação. Os estúdios de áudio de jogos podem emitir uma ou mais derivações de áudio de jogos, como com o uso de uma DAW. Os mecanismos de criptografia de áudio de jogos/renderização podem criptografar e/ou renderizar as derivações de áudio em conteúdo de áudio baseado em canal para a saída pelos sistemas de liberação. Um outro contexto exemplificativo no qual as técnicas podem ser realizadas compreende um escossistema de áudio que pode incluir objetos de áudio de gravação por difusão, sistemas de áudio profissionais, captura em dispositivo de consumidor, formato de áudio de HOA, renderização em dispositivo, áudio de consumidor, TV e acessórios e sistemas de áudio de carro.
[0170] Os objetos de áudio de gravação por difusão, os sistemas de áudio profissionais e captura em dispositivo de consumidor podem, todos, criptografar sua saída com o uso de formato de áudio de HOA. Desse modo, o conteúdo de áudio pode ser criptografado com o uso do formato de áudio de HOA em uma única representação que pode ser reproduzida com o uso da renderização em dispositivo, do áudio de consumidor, TV e acessórios, e os sistemas de áudio de carro. Em outras palavras, a única representação do conteúdo de áudio pode ser reproduzida em um sistema de reprodução de áudio genérico (isto é, em oposição à exigência de uma configuração específica como 5.1, 7.1, etc.), como o sistema de reprodução de áudio 16.
[0171] Outros exemplos do contexto em que as técnicas podem ser realizadas incluem um ecossistema de áudio que pode incluir elementos de aquisição e elementos de reprodução. Os elementos de aquisição podem incluir dispositivos de aquisição com fio e/ou sem fio (por exemplo, microfones Eigen), captura de som surround em dispositivo e dispositivos móveis (por exemplo, telefones inteligentes e computadores do tipo tablet). Em alguns exemplos, dispositivos de aquisição com fio e/ou sem fio podem ser acoplados ao dispositivo móvel por meio de canal de comunicação com e/ou sem fio (ou canais).
[0172] De acordo com uma ou mais técnicas desta revelação, o dispositivo móvel pode ser usado para adquirir um campo sonoro. Por exemplo, o dispositivo móvel pode adquirir um campo sonoro por meio dos dispositivos de aquisição com fio e/ou sem fio e/ou da captura de som surround em dispositivo (por exemplo, uma pluralidade de microfones integrados no dispositivo móvel). O dispositivo móvel pode, então, criptografar o campo sonoro adquirido nos coeficientes de HOA para reprodução por um ou mais dos elementos de reprodução. Por exemplo, um usuário do dispositivo móvel pode gravar (adquirir um campo sonoro de) um evento ao vivo (por exemplo, uma reunião, uma conferência, uma peça, um concerto, etc.), e criptografar a gravação em coeficientes de HOA.
[0173] O dispositivo móvel também pode utilizar um ou mais dos elementos de reprodução para reproduzir o campo sonoro criptografado por HOA. Por exemplo, o dispositivo móvel pode decodificar o campo sonoro criptografado por HOA e emitir um sinal para um ou mais dos elementos de reprodução que faz com que os um ou mais dos elementos de reprodução recriem o campo sonoro. Como um exemplo, o dispositivo móvel pode utilizar os canais de comunicação sem fio e/ou com fio para emitir o sinal para os um ou mais alto-falantes (por exemplo, matrizes de alto-falante, barras de som, etc.). Como um outro exemplo, o dispositivo móvel pode utilizar soluções de encaixe para emitir o sinal para uma ou mais estações de encaixe e/ou um ou mais alto-falantes encaixados (por exemplo, sistemas de som em carros e/ou casas inteligentes). Como outro exemplo, o dispositivo móvel pode utilizar renderização de fones de ouvido para emitir o sinal para um conjunto de fones de ouvido, por exemplo, para criar som binaural realista.
[0174] Em alguns exemplos, um dispositivo móvel específico pode tanto adquirir um campo sonoro em 3D quanto reproduzir o mesmo campo sonoro em 3D em um momento posterior. Em alguns exemplos, o dispositivo móvel pode adquirir um campo sonoro em 3D, codificar o campo sonoro em 3D em HOA, e transmitir o campo sonoro em 3D codificado para um ou mais outros dispositivos (por exemplo, outros dispositivos móveis e/ou outros dispositivos não móveis) para reprodução.
[0175] Ainda um outro contexto em que as técnicas podem ser realizadas inclui um ecossistema de áudio que pode incluir conteúdo de áudio, estúdios de jogos, conteúdo de áudio criptografado, mecanismos de renderização e sistemas de liberação. Em alguns exemplos, os estúdios de jogos podem incluir uma ou mais DAWs que podem suportar edição de sinais de HOA. Por exemplo, as uma ou mais DAWs podem incluir plugins de HOA e/ou ferramentas que podem ser configuradas para operar com (por exemplo, trabalhar com) um ou mais sistemas de áudio de jogos. Em alguns exemplos, os estúdios de jogos podem emitir novos formatos de derivações que suportam a HOA. Em qualquer caso, os estúdios de jogos podem emitir conteúdo de áudio criptografado para os mecanismos de renderização que podem renderizar um campo sonoro para reprodução pelos sistemas de liberação.
[0176] As técnicas também podem ser realizadas em relação aos dispositivos de aquisição de áudio exemplificativos. Por exemplo, as técnicas podem ser realizadas em relação a um microfone próprio que pode incluir uma pluralidade de microfones que são coletivamente configurados para gravar um campo sonoro em 3D. Em alguns exemplos, a pluralidade de microfones de microfone próprio pode estar localizada na superfície de uma bola substancialmente esférica com um raio de aproximadamente 4cm. Em alguns exemplos, o dispositivo de codificação de áudio 20 pode ser integrado no próprio microfone de modo a emitir fluxo de bits de áudio 21 diretamente do microfone.
[0177] Um outro contexto de aquisição de áudio exemplificativo pode incluir um caminhão de produção que pode ser configurado para receber um sinal de um ou mais microfones, como um ou mais microfones próprios. O caminhão de produção também pode incluir um codificado de áudio, como o dispositivo de codificação de áudio 20 da Figura 3.
[0178] O dispositivo móvel também pode, em algumas ocasiões, incluir uma pluralidade de microfones que são coletivamente configurados para gravar um campo sonoro em 3D. Em outras palavras, a pluralidade de microfones pode ter diversidade X, Y, Z. Em alguns exemplos, o dispositivo móvel pode incluir um microfone que pode ser girado para fornecer diversidade X, Y, Z em relação aos um ou mais outros microfones do dispositivo móvel. O dispositivo móvel também pode incluir um codificado de áudio, como o dispositivo de codificação de áudio 20 da Figura 3.
[0179] Um dispositivo de captura de vídeo reforçado pode ser adicionalmente configurado para gravar um campo sonoro em 3D. Em alguns exemplos, o dispositivo de captura de vídeo reforçado pode ser fixado a um capacete de um usuário engajado em uma atividade. Por exemplo, o dispositivo de captura de vídeo reforçado pode ser fixado a um capacete de um usuário de rafting em águas claras. Desse modo, o dispositivo de captura de vídeo reforçado pode capturar um campo sonoro em 3D que representa a ação ao redor do usuário (por exemplo, ondas quebrando atrás do usuário, um outro rafter falando em frente ao usuário, etc...).
[0180] As técnicas também podem ser realizadas em relação a um dispositivo móvel intensificado por acessório, que pode ser configurado para gravar um campo sonoro em 3D. Em alguns exemplos, o dispositivo móvel pode ser semelhante aos dispositivos móveis discutidos acima, com a adição de um ou mais acessórios. Por exemplo, um microfone próprio pode ser fixado ao dispositivo móvel notado acima para formar um dispositivo móvel intensificado por acessório. Desse modo, o dispositivo móvel intensificado por acessório pode capturar uma versão de qualidade superior do campo sonoro em 3D do que apenas com o uso de componentes de captura de som integrados ao dispositivo móvel intensificado por acessório.
[0181] Os dispositivos de reprodução de áudio exemplificativos que podem realizar vários aspectos das técnicas descritos nesta revelação são adicionalmente discutidos abaixo. De acordo com uma ou mais técnicas desta revelação, alto-falantes e/ou barras de som podem ser dispostos em qualquer configuração arbitrária enquanto ainda reproduz um campo sonoro em 3D. Além do mais, em alguns exemplos, os dispositivos de reprodução em fones de ouvido podem ser acoplados ao dispositivo de decodificação de áudio 24 por meio de uma conexão com fio ou sem fio. De acordo com uma ou mais técnicas desta revelação, uma única representação genérica de um campo sonoro pode ser utilizada para renderizar o campo sonoro em qualquer combinação dos alto-falantes, das barras de som e dos dispositivos de reprodução em fones de ouvido.
[0182] Inúmeros ambientes de reprodução de áudio exemplificativos diferentes também podem ser adequados para realizar vários aspectos das técnicas descritos nesta revelação. Por exemplo, um ambiente de reprodução de alto-falante 5.1, um ambiente de reprodução de alto-falante 2.0 (por exemplo, estéreo), um ambiente de reprodução de alto-falante 9.1 com alto-falantes frontais em altura total, um ambiente de reprodução de alto-falante 22.2, um ambiente de reprodução de alto-falante 16.0, um ambiente de reprodução de alto-falante automotivo, e um dispositivo móvel com ambiente de reprodução com protetor auricular podem ser ambientes adequados para realizar vários aspectos das técnicas descritas nesta revelação.
[0183] De acordo com uma ou mais técnicas desta revelação, uma única representação genérica de um campo sonoro pode ser utilizada para renderizar o campo sonoro em qualquer dos ambientes de reprodução anteriormente mencionados. Adicionalmente, as técnicas desta revelação possibilitaram um renderizado renderize um campo sonoro a partir de uma representação genérica para reprodução nos ambientes de reprodução além daqueles descritos acima. Por exemplo, se as considerações de projeto proibirem a colocação adequada de alto-falantes de acordo com um ambiente de reprodução de alto-falante 7.1 (por exemplo, se não for possível colocar um alto-falante surround direito), as técnicas desta revelação possibilitam que um renderizador compense os outros 6 alto-falantes de modo que a reprodução possa ser obtida em um ambiente de reprodução de alto-falante 6.1.
[0184] Além do mais, um usuário pode assistir a um jogo esportivo enquanto usa fones de ouvido. De acordo com uma ou mais técnicas desta revelação, o campo sonoro em 3D dos jogos esportivos pode ser adquirido (por exemplo, um ou mais microfones próprios pode ser colocado no e/ou ao redor do estádio de basebol), os coeficientes de HOA que correspondem ao campo sonoro em 3D podem ser obtidos e transmitidos para um decodificador, o decodificador pode reconstruir o campo sonoro em 3D com base nos coeficientes de HOA e podem emitir o campo sonoro em 3D reconstruído para um renderizador, o renderizador pode obter uma indicação quanto ao tipo de ambiente de reprodução (por exemplo, fones de ouvido), e renderizar o campo sonoro em 3D reconstruído em sinais que fazem com que os fones de ouvido emitam uma representação do campo sonoro em 3D dos jogos esportivos.
[0185] Em cada uma das várias ocorrências descritas acima, deve-se compreender que o dispositivo de codificação de áudio 20 pode realizar um método ou, de outro modo, compreender meios para realizar cada etapa do método para o qual o dispositivo de codificação de áudio 20 é configurado para realizar. Em algumas ocorrências, os meios podem compreender um ou mais processadores. Em algumas ocorrências, os um ou mais processadores podem representar um processador para fins específicos configurados por meio de instruções armazenadas para um meio de armazenamento legível por computador não transitório. Em outras palavras, vários aspectos das técnicas em cada um dos conjuntos de exemplos de codificação podem fornecer um meio de armazenamento legível por computador não transitório que têm instruções armazenadas nos mesmos que, quando executadas, fazem com que os um ou mais processadores realizem o método para o qual o dispositivo de codificação de áudio 20 foi configurado para realizar.
[0186] Em um ou mais exemplos, as funções descritas podem ser implantadas em hardware, software, firmware ou qualquer combinação dos mesmos. Se implantadas em software, as funções podem ser armazenadas ou transmitidas, como uma ou mais instruções ou código, em um meio legível por computador e executadas por uma unidade de processamento baseada em hardware. A mídia legível por computador pode incluir mídia de armazenamento legível por computador, que corresponde a um meio tangível como mídia de armazenamento de dados. A mídia de armazenamento de dados pode ser qualquer mídia disponível que possa ser acessada por um ou mais computadores ou um ou mais processadores para recuperar instruções, código e/ou estruturas de dados para a implantação das técnicas descritas nesta revelação. Um produto de programa de computador pode incluir um meio legível por computador.
[0187] Igualmente, em cada uma das várias ocorrências descritas acima, deve-se compreender que o dispositivo de decodificação de áudio 24 pode realizar um método ou, de outro modo, compreender meios para realizar cada etapa do método para o qual o dispositivo de decodificação de áudio 24 é configurado para realizar. Em algumas ocorrências, os meios podem compreender um ou mais processadores. Em algumas ocorrências, os um ou mais processadores podem representar um processador para fins específicos configurados por meio de instruções armazenadas para um meio de armazenamento legível por computador não transitório. Em outras palavras, vários aspectos das técnicas em cada um dos conjuntos de exemplos de codificação podem fornecer um meio de armazenamento legível por computador não transitório que têm instruções armazenadas nos mesmos que, quando executadas, fazem com que os um ou mais processadores realizem o método para o qual o dispositivo de decodificação de áudio 24 foi configurado para realizar.
[0188] Por meio de exemplo, e sem limitação, tal mídia de armazenamento legível por computador pode compreender uma RAM, ROM, EEPROM, CD-ROM ou outro armazenamento de disco óptico, armazenamento de disco magnético ou outros dispositivos de armazenamento magnético, memória flash ou qualquer outro meio que possa ser usado para armazenar o código de programa desejado na forma de instruções ou estruturas de dados e que pode ser acessado por um computador. Deve-se compreender, no entanto, que a mídia de armazenamento legível por computador e a mídia de armazenamento de dados não incluem conexões, ondas de portadora, sinais, ou outra mídia transitório, mas, em vez disso, são direcionados à mídia de armazenamento tangível não transitório. O disco magnético e o disco óptico, conforme usados no presente documento, incluem disco compacto (CD), disco a laser, disco óptico, disco versátil digital (DVD), disco flexível e disco Blu- ray, em que os discos magnéticos normalmente reproduzem dados magneticamente, enquanto os discos ópticos reproduzem dados opticamente com lasers. As combinações dos supracitados também devem ser abrangidas pelo escopo de mídias legíveis por computador.
[0189] As instruções podem ser executadas por um ou mais processadores, como um ou mais processadores de sinal digital (DSPs), microprocessadores para fins gerais, circuitos integrados de aplicação específica (ASICs), matrizes lógicas programáveis em campo (FPGAs), ou outros conjuntos de circuitos lógicos discretos ou integrados equivalentes. Dessa maneira, o termo “processador”, como usado no presente documento, pode se referir a qualquer uma das estruturas anteriores ou qualquer outra estrutura adequada para implantação das técnicas descritas no presente documento. Além disso, em alguns aspectos, a funcionalidade descrita no presente documento pode ser fornecida nos módulos de software e/ou hardware dedicados configurados para codificar e decodificar, ou incorporados em um codec combinado. Também, as técnicas poderiam ser totalmente implantadas em um ou mais circuitos ou elementos lógicos.
[0190] As técnicas desta revelação podem ser implantadas em uma ampla variedade de dispositivos ou aparelhos, incluindo um fone sem fio, um circuito integrado (IC) ou um conjunto de ICs (por exemplo, um chipset). Vários componentes, módulos ou unidades são descritos nesta revelação para enfatizar aspectos funcionais de dispositivos configurados para realizar as técnicas reveladas, mas não exigem necessariamente a realização através de diferentes unidades de hardware. Em vez disso, conforme descrito acima, várias unidades podem ser combinadas em uma unidade de hardware de codec ou fornecidas por um conjunto de unidades de hardware interoperativas, que incluem um ou mais processadores conforme descrito acima, em conjunto com o software e/ou o firmware adequado.
[0191] Vários aspectos das técnicas foram descritos. Esses e outros aspectos das técnicas estão dentro do escopo das reivindicações a seguir.

Claims (16)

1. Dispositivo para renderizar um sinal de áudio de ambissônica de ordem superior, HOA, o dispositivo caracterizado pelo fato de que compreende: uma memória configurada para armazenar informações de parâmetro de campo de visão, FOV, (13’) incluindo um ou mais parâmetros de FOV e dados de áudio de HOA (11’) associados a um sinal de áudio de HOA (21); e um ou mais processadores acoplados à memória, o um ou mais processadores sendo configurados para: determinar uma matriz de renderização (R’) para os dados de áudio de HOA ao selecionar, com base nas informações de alto-falante (13) indicativas de uma configuração de alto-falante associada a um ou mais fluxos de alimentação de alto-falante, uma matriz de renderização a partir de uma pluralidade de matrizes de renderização, a pluralidade de matrizes de renderização incluindo uma matriz de rendereização incluída em um fluxo de bits e uma matriz de renderização localmente gerada; modificar a matriz de renderização (R’) selecionada com base nos um ou mais parâmetros de FOV de uma tela de referência e nos um ou mais parâmetros de FOV de uma janela de visualização para formar uma matriz de renderização modificada (D), os um ou mais parâmetros de FOV da tela de referência sendo obtidos com base em informações sinalizadas no fluxo de bits; e aplicar a matriz de renderização modificada (D) a pelo menos uma porção dos dados de áudio de HOA (11’) armazenados para renderizar o sinal de áudio de HOA em um ou mais fluxos de alimentação de alto-falante (25).
2. Dispositivo, de acordo com a reivindicação 1, caracterizado pelo fato de que os um ou mais processadores são adicionalmente configurados para, em resposta a detecção de uma operação de ampliação iniciada por usuário, determinar um ou mais parâmetros de FOV de uma janela de visualização ampliada; e pelo fato de que para modificar a matriz de renderização, os um mais processadores são adicionalmente configurados para modificar o renderizador com base nos um ou mais parâmetros de FOV da janela de visualização ampliada.
3. Dispositivo, de acordo com a reivindicação 2, caracterizado pelo fato de que para modificar a matriz de renderização, os um ou mais processadores são adicionalmente configurados para: obter um fator de escalonamento em resposta a detectar a operação de usuário ampliada iniciada; com base no fator de escalonamento e nos um ou mais parâmetros de FOV da janela de visualização, determinar os um ou mais parâmetros da janela de visualização ampliada; com base nos um ou mais parâmetros de FOV da janela de visualçao ampliada e nos um ou mais parâmetros de FOV da tela de referência, determinar uma função de mapeamento de ângulo para modificar as informações de ângulo de alto- falante; e com base na função de mapeamento de ângulo, modificar um ângulo associado a um primeiro alto-falante dos um ou mais alto-falantes para gerar um ângulo modificado para o alto-falante.
4. Dispositivo, de acordo com a reivindicação 3, caracterizado pelo fato de que para determinar os um ou mais parâmetros de FOV da janela de visualização ampliada, os um ou mais processadores são adicionalmente configurados para determinar um ou mais ângulos de azimute para a janela de visualização ampliada com base nos um ou mais ângulos de azimute para a janela de visualização e no fator de escalonamento, e para determinar os um ou mais parâmetros de FOV da janela de visualização ampliada, os um ou mais processadores são adicionalmente configurados para determinar um ou mais ângulos de elevação para a janela de visualização ampliada com base nos um ou mais ângulos de elevação para a janela de visualização e no fator de escalonamento.
5. Dispositivo, de acordo com a reivindicação 1, caracterizado pelo fato de que os um ou mais parâmetros de FOV para a tela de referência compreendem pelo menos um dentre um ou mais ângulos de azimute para a tela de referência ou um ou mais ângulos de elevação para a tela de referência.
6. Dispositivo, de acordo com a reivindicação 1, caracterizado pelo fato de que os um ou mais parâmetros de FOV para a janela de visualização compreendem pelo menos um dentre um ou mais ângulos de azimute para a janela de visualização ou um ou mais ângulos de elevação para a janela de visualização.
7. Dispositivo, de acordo com a reivindicação 1, caracterizado pelo fato de que os um ou mais processadores são adicionalmente configurados para renderizar o sinal de áudio de HOA em um ou mais fluxos de alimentação de alto- falante com base em um fator de escalonamento obtido em resposta à detecção de uma operação de ampliação iniciada por usuário.
8. Dispositivo, de acordo com a reivindicação 1, caracterizado pelo fato de que os um ou mais parâmetros de FOV para a tela de referência compreendem coordenadas de um centro da tela de referência e coordenadas de um centro da janela de visualização.
9. Dispositivo, de acordo com a reivindicação 8, caracterizado pelo fato de que os um ou mais processadores são adicionalmente configurados para: determinar as coordenadas do centro da tela de referência com base nos um ou mais parâmetros de FOV da tela de referência; e determinar as coordenadas do centro da janela de visualização com base nos um ou mais parâmetros de FOV da janela de visualização.
10. Dispositivo, de acordo com a reivindicação 8, caracterizado pelo fato de que a modificação da matriz de renderização selecionada é baseada nas coordenadas do centro da janela de visualização e nas coordenadas do centro da tela de referência.
11. Dispositivo, de acordo com a reivindicação 8, caracterizado pelo fato de que os um ou mais processadores são adicionalmente configurados para: girar um campo sonoro descrito pelo sinal de áudio de HOA do centro da tela de referência para o centro da janela de visualização.
12. Dispositivo, de acordo com a reivindicação 1, caracterizado pelo fato de que é configurado para receber um fluxo de bits compatível com MPEG-H 3D como o sinal de áudio de HOA.
13. Dispositivo, de acordo com a reivindicação 1, caracterizado pelo fato de que o dispositivo compreende adicionalmente pelo menos um alto-falante associado às um ou mais fluxos de alimentação de alto-falante, e em que para renderizar o sinal de áudio de HOA, os um ou mais processadores são adicionalmente configurados para gerar um fluxo de alimentação de alto-falante para acionar o pelo menos um alto-falante.
14. Dispositivo, de acordo com a reivindicação 1, caracterizado pelo fato de que o dispositivo compreende adicionalmente um visor para exibir a janela de visualização.
15. Método de renderização de um sinal de áudio de ambissônica de ordem superior, HOA, o método caracterizado pelo fato de que compreende: armazenar informações de parâmetro de campo de visão, FOV, (13’) incluindo um ou mais parâmetros de FOV e dados de áudio de HOA (11’) associados a um sinal de áudio de HOA (21); determinar uma matriz de renderização (R’) para os dados de áudio de HOA ao selecionar, com base nas informações de alto-falante (13) indicativas de uma configuração de alto- falante associada a um ou mais fluxos de alimentação de alto- falante, uma matriz de renderização a partir de uma pluralidade de matrizes de renderização, a pluralidade de matrizes de renderização incluindo uma matriz de rendereização incluída em um fluxo de bits e uma matriz de renderização localmente gerada; modificar a matriz de renderização (R’) com base nos um ou mais parâmetros de FOV de uma tela de referência e nos um ou mais parâmetros de FOV de uma janela de visualização para formar uma matriz de renderização modificada (D), os um ou mais parâmetros de FOV da tela de reerência sendoobtidos com base nas informações sinalizadas no fluxo de bits; e aplicar a matriz de renderização modificada (D) a pelo menos uma porção dos dados de áudio de HOA (11’) armazenados para renderizar o sinal de áudio de HOA em um ou mais fluxos de alimentação de alto-falante (25).
16. Memória legível por computador caracterizada pelo fato de que armazena, na mesma, instruções que quando executadas por um ou mais processadores de um dispositivo para renderizar um sinal de áudio de ambissônica de ordem superior, HOA, fazem com que os um mais processadores: armazene informações de parâmetro de campo de visão, FOV, (13’) incluindo um ou mais parâmetros de FOV e dados de áudio de HOA (11’) associados a um sinal de áudio de HOA (21); determine uma matriz de renderização (R’) para os dados de áudio de HOA ao selecionar, com base nas informações de alto-falante (13) indicativas de uma configuração de alto- falante associada a um ou mais fluxos de alimentação de alto- falante, uma matriz de renderização a partir de uma pluralidade de matrizes de renderização, a pluralidade de matrizes de renderização incluindo uma matriz de rendereização incluída em um fluxo de bits e uma matriz de renderização localmente gerada; modifique a matriz de renderização (R’) com base nos um ou mais parâmetros de FOV de uma tela de referência e nos um ou mais parâmetros de FOV de uma janela de visualização para formar uma matriz de renderização modificada (D), os um ou mais parâmetros de FOV da tela de reerência sendoobtidos com base nas informações sinalizadas no fluxo de bits; e aplique a matriz de renderização modificada (D) a pelo menos uma porção dos dados de áudio de HOA (11’) armazenados para renderizar o sinal de áudio de HOA em um ou mais fluxos de alimentação de alto-falante (25).
BR112017007267-0A 2014-10-10 2015-10-09 Adaptação de conteúdo de hoa relacionada a tela BR112017007267B1 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201462062761P 2014-10-10 2014-10-10
US62/062,761 2014-10-10
US14/878,948 2015-10-08
US14/878,948 US9940937B2 (en) 2014-10-10 2015-10-08 Screen related adaptation of HOA content
PCT/US2015/054964 WO2016057935A1 (en) 2014-10-10 2015-10-09 Screen related adaptation of hoa content

Publications (2)

Publication Number Publication Date
BR112017007267A2 BR112017007267A2 (pt) 2018-01-23
BR112017007267B1 true BR112017007267B1 (pt) 2022-03-03

Family

ID=54364703

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112017007267-0A BR112017007267B1 (pt) 2014-10-10 2015-10-09 Adaptação de conteúdo de hoa relacionada a tela

Country Status (10)

Country Link
US (1) US9940937B2 (pt)
EP (2) EP3205122B1 (pt)
JP (1) JP6599451B2 (pt)
KR (1) KR102077375B1 (pt)
CN (1) CN106797527B (pt)
BR (1) BR112017007267B1 (pt)
ES (2) ES2900653T3 (pt)
HU (1) HUE047302T2 (pt)
SG (1) SG11201701554PA (pt)
WO (1) WO2016057935A1 (pt)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2637427A1 (en) * 2012-03-06 2013-09-11 Thomson Licensing Method and apparatus for playback of a higher-order ambisonics audio signal
US9838819B2 (en) * 2014-07-02 2017-12-05 Qualcomm Incorporated Reducing correlation between higher order ambisonic (HOA) background channels
US9736606B2 (en) 2014-08-01 2017-08-15 Qualcomm Incorporated Editing of higher-order ambisonic audio data
US9854375B2 (en) * 2015-12-01 2017-12-26 Qualcomm Incorporated Selection of coded next generation audio data for transport
KR102631929B1 (ko) * 2016-02-24 2024-02-01 한국전자통신연구원 스크린 사이즈에 연동하는 전방 오디오 렌더링 장치 및 방법
CN108346432B (zh) * 2017-01-25 2022-09-09 北京三星通信技术研究有限公司 虚拟现实vr音频的处理方法及相应设备
US10390166B2 (en) * 2017-05-31 2019-08-20 Qualcomm Incorporated System and method for mixing and adjusting multi-input ambisonics
US10405126B2 (en) * 2017-06-30 2019-09-03 Qualcomm Incorporated Mixed-order ambisonics (MOA) audio data for computer-mediated reality systems
US11164606B2 (en) 2017-06-30 2021-11-02 Qualcomm Incorporated Audio-driven viewport selection
US10469968B2 (en) * 2017-10-12 2019-11-05 Qualcomm Incorporated Rendering for computer-mediated reality systems
GB2598751A (en) * 2020-09-10 2022-03-16 Nokia Technologies Oy Spatial audio parameter encoding and associated decoding
US11743670B2 (en) 2020-12-18 2023-08-29 Qualcomm Incorporated Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4775609A (en) * 1987-05-18 1988-10-04 Hoescht Celanese Corporation Image reversal
EP2374123B1 (fr) 2008-12-15 2019-04-10 Orange Codage perfectionne de signaux audionumeriques multicanaux
US20100328419A1 (en) * 2009-06-30 2010-12-30 Walter Etter Method and apparatus for improved matching of auditory space to visual space in video viewing applications
US20120162362A1 (en) 2010-12-22 2012-06-28 Microsoft Corporation Mapping sound spatialization fields to panoramic video
EP2541547A1 (en) 2011-06-30 2013-01-02 Thomson Licensing Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation
EP2637427A1 (en) * 2012-03-06 2013-09-11 Thomson Licensing Method and apparatus for playback of a higher-order ambisonics audio signal
WO2014111308A2 (en) * 2013-01-16 2014-07-24 Thomson Licensing Method for measuring hoa loudness level and device for measuring hoa loudness level
US9502044B2 (en) 2013-05-29 2016-11-22 Qualcomm Incorporated Compression of decomposed representations of a sound field
KR101862356B1 (ko) * 2014-01-03 2018-06-29 삼성전자주식회사 개선된 앰비소닉 디코딩을 수행하는 방법 및 장치
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
EP2928216A1 (en) * 2014-03-26 2015-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for screen related audio object remapping

Also Published As

Publication number Publication date
US9940937B2 (en) 2018-04-10
CN106797527B (zh) 2019-06-21
ES2900653T3 (es) 2022-03-17
EP3205122A1 (en) 2017-08-16
KR102077375B1 (ko) 2020-02-13
KR20170066400A (ko) 2017-06-14
SG11201701554PA (en) 2017-04-27
CN106797527A (zh) 2017-05-31
EP3205122B1 (en) 2019-11-20
JP2017535174A (ja) 2017-11-24
EP3668124A1 (en) 2020-06-17
ES2774449T3 (es) 2020-07-21
HUE047302T2 (hu) 2020-04-28
BR112017007267A2 (pt) 2018-01-23
US20160104495A1 (en) 2016-04-14
JP6599451B2 (ja) 2019-10-30
WO2016057935A1 (en) 2016-04-14
EP3668124B1 (en) 2021-11-17

Similar Documents

Publication Publication Date Title
BR112017007267B1 (pt) Adaptação de conteúdo de hoa relacionada a tela
JP6449455B2 (ja) 高次アンビソニック(hoa)バックグラウンドチャネル間の相関の低減
CN106575506B (zh) 用于执行高阶立体混响音频数据的中间压缩的装置和方法
ES2922451T3 (es) Indicación de la reusabilidad de parámetros de un marco para la codificación de vectores
US10070094B2 (en) Screen related adaptation of higher order ambisonic (HOA) content
KR102053508B1 (ko) 고차 앰비소닉 오디오 데이터의 스케일러블 코딩을 위한 채널들의 시그널링
US20150332682A1 (en) Spatial relation coding for higher order ambisonic coefficients
BR112016017278B1 (pt) Método de produção de um fluxo de bits de dados de áudio codificados por um dispositivo de codificação de áudio, dispositivo de codificação de áudio, método de decodificação de um fluxo de bits de dados de áudio codificado por um dispositivo de decodificação de áudio, dispositivo de decodificação de áudio, sistema e memória legível por computador
JP2017513053A (ja) 音場の記述へのオーディオチャンネルの挿入
US9959876B2 (en) Closed loop quantization of higher order ambisonic coefficients
BR112016028215B1 (pt) Obtenção de informação dispersa para renderizadores de áudio ambissônicos de ordem superior
BR112016028212B1 (pt) Obtenção de informação de simetria para renderizadores de áudio ambissônicos de ordem superior

Legal Events

Date Code Title Description
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 09/10/2015, OBSERVADAS AS CONDICOES LEGAIS.