BR112020016912A2 - Métodos, aparelhos e sistemas para codificação e decodificação de fontes de som direcionais - Google Patents

Métodos, aparelhos e sistemas para codificação e decodificação de fontes de som direcionais Download PDF

Info

Publication number
BR112020016912A2
BR112020016912A2 BR112020016912-9A BR112020016912A BR112020016912A2 BR 112020016912 A2 BR112020016912 A2 BR 112020016912A2 BR 112020016912 A BR112020016912 A BR 112020016912A BR 112020016912 A2 BR112020016912 A2 BR 112020016912A2
Authority
BR
Brazil
Prior art keywords
metadata
audio
data
fact
pattern
Prior art date
Application number
BR112020016912-9A
Other languages
English (en)
Inventor
Nicolas R. Tsingos
Mark R. P. THOMAS
Christof FERSCH
Original Assignee
Dolby Laboratories Licensing Corporation
Dolby International Ab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corporation, Dolby International Ab filed Critical Dolby Laboratories Licensing Corporation
Publication of BR112020016912A2 publication Critical patent/BR112020016912A2/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Abstract

alguns métodos revelados envolvem codificação ou decodificação de dados de áudio direcionais. alguns métodos de codificação podem envolver a recepção de um sinal de áudio mono correspondente a um objeto de áudio e uma representação de um padrão de radiação correspondente ao objeto de áudio. o padrão de radiação pode incluir níveis de som correspondentes à pluralidade de tempos de amostragem, uma pluralidade de bandas de frequência e uma pluralidade de direções. os métodos podem envolver a codificação do sinal de áudio mono e a codificação do padrão de radiação de origem para determinar o padrão de metadados de radiação. a codificação do padrão de radiação pode envolver a determinação de uma transformação harmônica esférica da representação do padrão de radiação e a compressão da transformação harmônica esférica para obter metadados de padrão de radiação codificado.

Description

"MÉTODOS, APARELHOS E SISTEMAS PARA CODIFICAÇÃO E DECODIFICAÇÃO DE FONTES DE SOM DIRECIONAIS" REFERÊNCIA CRUZADA A APLICATIVOS CORRELATOS
[001] Este pedido reivindica o benefício de prioridade com relação ao Pedido de Patente US número 62/658.067 apresentado em 16 de abril de 2018. O Pedido de Patente US número 62/681.429 depositado em 6 de junho de 2018 e o Pedido de Patente US número 62/741.419 depositado em 4 de outubro de 2018, os quais são incorporados ao presente documento, como referência, em sua totalidade.
CAMPO TÉCNICO
[002] A presente revelação refere-se à codificação e decodificação de fontes sonoras direcionais e cenas auditivas com base em múltiplas fontes direcionais dinâmicas e/ou móveis.
ANTECEDENTES
[003] As fontes sonoras do mundo real, naturais ou artificiais (alto-falantes, instrumentos musicais, voz, dispositivos mecânicos), irradiam som de maneira não isotrópica. A caracterização dos padrões de radiação de uma fonte sonora (ou "diretividade") pode ser importante para uma renderização adequada, em particular no contexto de ambientes interativos, tais como, videogames e aplicativos de realidade virtual/aumentada (VR/AR). Nesses ambientes, os usuários geralmente interagem com objetos de áudio direcionais caminhando ao redor deles, deste modo alterando sua perspectiva auditiva no som gerado (também conhecido como renderização de 6 graus de liberdade [DoF]). O usuário também pode pegar e girar dinamicamente os objetos virtuais, exigindo novamente a renderização de diferentes direções no padrão de radiação da (s) fonte (s) de som correspondente (s). Além de uma renderização mais realista dos efeitos de propagação direta de uma fonte para um ouvinte, as características de radiação também terão um papel importante no acoplamento acústico de ordem superior entre uma fonte e seu ambiente (por exemplo, o ambiente virtual em um jogo), afetando, portanto, o som reverberado (ou seja, ondas sonoras viajando para frente e para trás, como em um eco). Como resultado, essa reverberação pode afetar outras pistas espaciais, tal como a distância percebida.
[004] A maioria dos mecanismos de jogos de áudio oferece alguma maneira de representar e renderizar fontes sonoras direcionais, mas geralmente são limitadas a um ganho direcional simples, dependendo da definição de funções cosseno simples de primeira ordem ou "cones de som" (por exemplo, funções cosseno energéticas) e filtros roll-off simples de alta frequência. Essas representações são insuficientes para representar padrões de radiação do mundo real e também não são adequadas para a representação simplificada/combinada de uma infinidade de fontes sonoras direcionais.
SUMÁRIO
[005] Vários métodos de processamento de áudio são revelados no presente documento. Alguns desses métodos podem envolver a codificação de dados de áudio direcionais. Por exemplo, alguns métodos podem envolver a recepção de um sinal de áudio mono correspondente a um objeto de áudio e uma representação de um padrão de radiação correspondente ao objeto de áudio. O padrão de radiação pode incluir, por exemplo, níveis sonoros correspondentes à pluralidade de tempos de amostra, uma pluralidade de bandas de frequência e uma pluralidade de direções. Alguns desses métodos podem envolver a codificação do sinal de áudio mono e a codificação do padrão de radiação de origem para determinar o padrão de metadados de radiação. A codificação do padrão de radiação pode envolver a determinação de uma transformação harmônica esférica da representação do padrão de radiação e a compressão da transformação harmônica esférica para obter metadados de padrão de radiação codificado.
[006] Alguns desses métodos podem envolver a codificação de uma pluralidade de objetos de áudio direcionais com base em um cluster de objetos de áudio. O padrão de radiação pode ser representativo de um centroide que reflete um valor médio do nível de som para cada banda de frequência. Em algumas dessas implementações, a pluralidade de objetos de áudio direcionais é codificada como um único objeto de áudio direcional cuja diretividade corresponde à média ponderada por energia variável no tempo dos coeficientes harmônicos esféricos de cada objeto de áudio. O padrão de metadados de radiação codificado pode indicar uma posição de um cluster de objetos de áudio que é uma média da posição de cada objeto de áudio.
[007] Alguns métodos podem envolver a codificação de metadados de grupos em relação a um padrão de radiação de um grupo de objetos de áudio direcionais. Em alguns exemplos, o padrão de radiação da fonte pode ser redimensionado para uma amplitude do padrão de radiação de entrada em uma direção por frequência, para determinar um padrão de radiação normalizado. De acordo com algumas implementações, a compactação da transformação harmônica esférica pode envolver um método de Decomposição de Valor Singular, análise de componentes principais, transformações discretas de cosseno, bases independentes de dados e/ou eliminação de coeficientes harmônicos esféricos da transformação harmônica esférica que estão acima de uma ordem limite de coeficientes harmônicos esféricos.
[008] Alguns métodos alternativos podem envolver a decodificação de dados de áudio. Por exemplo, alguns desses métodos podem envolver a recepção de um sinal de áudio do núcleo codificado, metadados de padrão de radiação codificado e de metadados de objetos de áudio codificados e decodificação do sinal de áudio do núcleo codificado para determinar um sinal de áudio do núcleo. Alguns desses métodos podem envolver decodificação do padrão de metadados de radiação codificado para determinar um padrão de radiação decodificado, decodificar os metadados do objeto de áudio e renderizar o sinal de áudio do núcleo com base nos metadados do objeto de áudio e no padrão de radiação decodificado.
[009] Em alguns casos, os metadados do objeto de áudio podem incluir pelo menos uma informação de orientação da fonte de 3 graus de liberdade (3DoF) ou 6 graus de liberdade (6DoF) que varia no tempo. O sinal de áudio do núcleo pode incluir uma pluralidade de objetos direcionais com base em um cluster de objetos. O padrão de radiação decodificado pode ser representativo de um centroide que reflete um valor médio para cada banda de frequência. Em alguns exemplos, a renderização pode ter como base a aplicação de ganhos de sub-banda, com base pelo menos em parte nos dados de radiação decodificados, no sinal de áudio do núcleo decodificado. O padrão de metadados de radiação codificado pode corresponder a um conjunto variável de tempo e frequência de coeficientes harmônicos esféricos.
[010] De acordo com algumas implementações, o padrão de metadados de radiação codificado podem incluir metadados do tipo de objeto de áudio. Os metadados do tipo de objeto de áudio podem indicar, por exemplo, dados de padrão de diretividade paramétricos. Os dados do padrão de diretividade paramétrica podem incluir uma função cosseno, uma função seno e/ou uma função cardioide.
Em alguns exemplos, os metadados do tipo de objeto de áudio podem indicar dados de padrão de diretividade do banco de dados. A decodificação do padrão de metadados de radiação codificado para determinar o padrão de radiação decodificado pode envolver a consulta de uma estrutura de dados de diretividade que inclui tipos de objetos de áudio e dados correspondentes do padrão de diretividade. Em alguns exemplos, os metadados do tipo de objeto de áudio podem indicar dados de padrão de diretividade dinâmica. Os dados do padrão de diretividade dinâmica podem corresponder a um conjunto variável de tempo e frequência de coeficientes harmônicos esféricos. Alguns métodos podem envolver a recepção dos dados do padrão de diretividade dinâmica antes de receber o sinal de áudio do núcleo codificado.
[011] Alguns ou todos os métodos descritos no presente documento podem ser realizados por um ou mais dispositivos de acordo com as instruções (por exemplo, software) armazenadas em um ou mais meios não transitórios. Tais mídias não transitórias podem incluir dispositivos de memória, como os descritos no presente documento, incluindo, entre outros, dispositivos de memória de acesso aleatório (RAM), dispositivos de memória somente leitura (ROM), etc. Por conseguinte, vários aspectos inovadores da matéria descrita nesta revelação podem ser implementados em uma ou mais mídias não transitórias com software armazenado nas mesmas. O software pode incluir, por exemplo, instruções para controlar pelo menos um dispositivo para processar dados de áudio. O software pode ser, por exemplo, executável por um ou mais componentes de um sistema de controle, como os revelados no presente documento. O software pode, por exemplo, incluir instruções para executar um ou mais dos métodos no presente documento revelados.
[012] Pelo menos alguns aspectos da presente revelação podem ser implementados via aparelho. Por exemplo, um ou mais dispositivos podem ser configurados para executar, pelo menos em parte, os métodos revelados no presente documento. Em algumas implementações, um aparelho pode incluir um sistema de interface e um sistema de controle. O sistema de interface pode incluir uma ou mais interfaces de rede, uma ou mais interfaces entre o sistema de controle e um sistema de memória, uma ou mais interfaces entre o sistema de controle e outro dispositivo e/ou uma ou mais interfaces de dispositivos externos. O sistema de controle pode incluir pelo menos um dentre um processador de único chip ou múltiplos chips de uso geral, um processador de sinal digital (DSP), um circuito integrado específico para aplicação (ASIC), um arranjo de portas programáveis em campo (FPGA) ou outro dispositivo lógico programável, porta discreta ou lógica de transistor ou componentes de hardware discretos. Por conseguinte, em algumas implementações, o sistema de controle pode incluir um ou mais processadores e uma ou mais mídias de armazenamento não transitórias operativamente acopladas a um ou mais processadores.
[013] De acordo com alguns desses exemplos, o sistema de controle pode ser configurado para receber, através do sistema de interface, dados de áudio correspondentes a pelo menos um objeto de áudio. Em alguns exemplos, os dados de áudio podem incluir um sinal de áudio monofônico, metadados de posição de objeto de áudio, metadados de tamanho de objeto de áudio e um parâmetro de renderização. Alguns desses métodos podem envolver determinar se o parâmetro de renderização indica um modo posicional ou um modo de diretividade e, ao determinar que o parâmetro de renderização indica um modo de diretividade, renderizar os dados de áudio para reprodução através de pelo menos um alto- falante, de acordo com um padrão de diretividade indicado pelo metadados posicionais e/ou os metadados de tamanho.
[014] Em alguns exemplos, a renderização dos dados de áudio pode envolver a interpretação dos metadados da posição do objeto de áudio como metadados de orientação do objeto de áudio. Os metadados da posição do objeto de áudio podem, por exemplo, incluir dados de coordenadas x, y, z, dados de coordenadas esféricas e/ou dados de coordenadas cilíndricas. Em alguns casos, os metadados da orientação de objetos de áudio podem incluir dados de guinada, inclinação e rotação.
[015] De acordo com alguns exemplos, a renderização dos dados de áudio pode envolver a interpretação dos metadados de tamanho do objeto de áudio como metadados de diretividade que correspondem ao padrão de diretividade. Em algumas implementações, a renderização dos dados de áudio pode envolver a consulta de uma estrutura de dados que inclui uma pluralidade de padrões de diretividade e o mapeamento dos metadados posicionais e/ou dos metadados de tamanho para um ou mais dos padrões de diretividade. Em alguns casos, o sistema de controle pode ser configurado para receber, através do sistema de interface, a estrutura de dados. Em alguns exemplos, a estrutura de dados pode ser recebida antes dos dados de áudio. Em algumas implementações, em que os dados de áudio podem ser recebidos no formato Dolby Atmos. Os metadados da posição do objeto de áudio podem corresponder, por exemplo, às coordenadas mundiais ou coordenadas do modelo.
[016] Detalhes de uma ou mais implementações do objeto descrito neste relatório descritivo são apresentados nos desenhos anexos e na descrição abaixo.
Outros recursos, aspectos e vantagens serão evidentes a partir da descrição, dos desenhos e das reivindicações. Observe que as dimensões relativas das figuras a seguir não podem ser desenhadas em escala. Números de referência e designações semelhantes nos vários desenhos geralmente indicam elementos semelhantes.
BREVE DESCRIÇÃO DOS DESENHOS
[017] A Figura 1A é um fluxograma que mostra blocos de um método de codificação de áudio de acordo com um exemplo.
[018] A Figura 1B ilustra blocos de um processo que pode ser implementado por um sistema de codificação para codificar dinamicamente informações de diretividade por quadro para um objeto de áudio direcional, de acordo com um exemplo.
[019] A Figura 1C ilustra blocos de um processo que pode ser implementado por um sistema de decodificação de acordo com um exemplo.
[020] As Figuras 2 A e 2B representam padrões de radiação de um objeto de áudio em duas bandas de frequência diferentes.
[021] A Figura 2C é um gráfico que mostra exemplos de padrões de radiação normalizados e não normalizados de acordo com um exemplo.
[022] A Figura 3 mostra um exemplo de uma hierarquia que inclui dados de áudio e vários tipos de metadados.
[023] A Figura 4 é um fluxograma que mostra blocos de um método de decodificação de áudio de acordo com um exemplo.
[024] A Figura 5A mostra um prato de tambor.
[025] A Figura 5B mostra um exemplo de um sistema de alto-falantes.
[026] A Figura 6 é um fluxograma que mostra blocos de um método de decodificação de áudio de acordo com um exemplo.
[027] A Figura 7 ilustra um exemplo de codificação de vários objetos de áudio.
[028] A Figura 8 é um diagrama de blocos que mostra exemplos de componentes de um aparelho que pode ser configurado para executar, pelo menos, alguns dos métodos revelados no presente documento.
[029] Números de referência e designações semelhantes nos vários desenhos indicam elementos semelhantes.
DESCRIÇÃO DETALHADA
[030] Um aspecto da presente revelação refere-se à representação e codificação eficiente de padrões de radiação complexos. Algumas dessas implementações podem incluir um ou mais dos seguintes itens:
1. Uma representação de padrões gerais de radiação sonora como coeficientes de ordem n dependentes de tempo e frequência de uma decomposição de harmônicos esféricos (SPH) com valor real (N> = 1). Essa representação também pode ser estendida para depender do nível do sinal de áudio da reprodução. Ao contrário de onde o sinal de fonte direcional é ele próprio uma representação PCM semelhante à HOA, um sinal de objeto mono pode ser codificado separadamente de suas informações de diretividade, que são representadas como um conjunto de coeficientes de SPH escalares dependentes do tempo em sub-bandas.
2. Um esquema de codificação eficiente para reduzir a taxa de bits necessária para representar essas informações.
3. Uma solução para combinar dinamicamente os padrões de radiação, de modo que uma cena feita de várias fontes sonoras radiantes possa ser representada por um número reduzido equivalente de fontes, mantendo sua qualidade perceptiva no momento da renderização.
[031] Um aspecto da presente revelação refere-se à representação de padrões gerais de radiação, a fim de complementar os metadados para cada objeto de áudio mono por um conjunto de coeficientes dependentes do tempo/frequência que representam a diretividade do objeto de áudio mono projetada em uma base harmônica esférica da ordem N ( N> = 1).
[032] Os padrões de radiação de primeira ordem podem ser representados por um conjunto de 4 coeficientes de ganho escalar para um conjunto predefinido de bandas de frequência (por exemplo, 1/3 de oitava). O conjunto de bandas de frequência também pode ser conhecido como faixa ou sub-banda. Os compartimentos ou sub-bandas podem ser determinados com base em uma transformada de Fourier de curto prazo (STFT) ou em um banco de filtros perceptivo para um único quadro de dados (por exemplo, 512 amostras como em Dolby Atmos). O padrão resultante pode ser renderizado avaliando a decomposição de harmônicos esféricos nas direções necessárias ao redor do objeto.
[033] Em geral, esse padrão de radiação é uma característica da fonte e pode ser constante ao longo do tempo. No entanto, para representar uma cena dinâmica em que os objetos giram ou mudam, ou para garantir que os dados possam ser acessados aleatoriamente, pode ser benéfico atualizar esse conjunto de coeficientes em intervalos regulares. No contexto de uma cena auditiva dinâmica com objetos em movimento, o resultado da rotação do objeto pode ser codificado diretamente nos coeficientes que variam no tempo, sem a necessidade de codificação explícita e separada da orientação ao objeto.
[034] Cada tipo de fonte sonora possui um padrão característico de radiação/emissão, que normalmente difere com a banda de frequência. Por exemplo, um violino pode ter um padrão de radiação muito diferente do que uma trombeta, um tambor ou um sino. Além disso, uma fonte sonora, como um instrumento musical, pode irradiar de maneira diferente nos níveis de desempenho do pianíssimo e do fortíssimo. Como resultado, o padrão de radiação também pode ser uma função não apenas da direção ao redor do objeto sonoro, mas também do nível de pressão do sinal de áudio que ele irradia, onde o nível de pressão também pode variar no tempo.
[035] Assim, em vez de simplesmente representar um campo sonoro em um ponto no espaço, algumas implementações envolvem a codificação de dados de áudio que correspondem aos padrões de radiação de objetos de áudio, para que possam ser renderizados a partir de diferentes pontos de vista. Em alguns casos, os padrões de radiação podem variar de acordo com o tempo e a frequência. A entrada de dados de áudio para o processo de codificação pode, em alguns casos, incluir uma pluralidade de canais (por exemplo, 4, 6, 8, 20 ou mais canais) de dados de áudio de microfones direcionais. Cada canal pode corresponder aos dados de um microfone em uma posição específica no espaço ao redor da fonte de som da qual o padrão de radiação pode ser derivado. Presumindo que a direção relativa de cada microfone para a fonte é conhecida, isso pode ser alcançado pelo ajuste numérico de um conjunto de coeficientes harmônicos esféricos, de modo que a função esférica resultante corresponda melhor aos níveis de energia observados em diferentes sub-bandas de cada sinal de microfone de entrada. Por exemplo, consulte os métodos e os sistemas descritos em conexão com o Pedido número PCT/US2017/053946, Method, Systems and Apparatus for Determining Audio
Representations de Nicolas Tsingos e Pradeep Kumar Govindaraju, que é incorporado ao presente documento como referência. Em outros exemplos, o padrão de radiação de um objeto de áudio pode ser determinado por simulação numérica
[036] ]Em vez de simplesmente codificar dados de áudio de microfones direcionais em um nível de amostra, algumas implementações envolvem a codificação de sinais de objetos de áudio monofônicos com metadados correspondentes de padrões de radiação que representam padrões de radiação para pelo menos alguns dos objetos de áudio codificados. Em algumas implementações, o padrão de metadados de radiação pode ser representado como dados harmônicos esféricos. Algumas dessas implementações podem envolver um processo de suavização e/ou um processo de compactação/redução de dados.
[037] A Figura 1A é um fluxograma que mostra blocos de um método de codificação de áudio de acordo com um exemplo. O método 1 pode, por exemplo, ser implementado por um sistema de controle (como o sistema de controle 815 que é descrito abaixo com referência à Figura 8) que inclui um ou mais processadores e um ou mais dispositivos de memória não transitória. Como em outros métodos revelados, nem todos os blocos do método 1 são necessariamente executados na ordem mostrada na figura 1A. Além disso, métodos alternativos podem incluir mais ou menos blocos.
[038] Neste exemplo, o bloco 5 envolve receber um sinal de áudio mono correspondente a um objeto de áudio e também receber uma representação de um padrão de radiação que corresponde ao objeto de áudio. De acordo com esta implementação, o padrão de radiação inclui níveis sonoros correspondentes a uma pluralidade de tempos de amostragem, uma pluralidade de bandas de frequência e uma pluralidade de direções. De acordo com este exemplo, o bloco 10 envolve a codificação do sinal de áudio mono.
[039] No exemplo mostrado na figura 1A, o bloco 15 envolve a codificação do padrão de radiação de origem para determinar o padrão de metadados de radiação. De acordo com esta implementação, codificar a representação do padrão de radiação envolve determinar uma transformação harmônica esférica da representação do padrão de radiação e comprimir a transformação harmônica esférica para obter metadados de padrão de radiação codificado. Em algumas implementações, a representação do padrão de radiação pode ser redimensionada para uma amplitude do padrão de radiação de entrada em uma direção em base por frequência para determinar um padrão de radiação normalizado.
[040] Em alguns casos, a compressão da transformação harmônica esférica pode envolver o descarte de alguns coeficientes harmônicos esféricos de ordem superior. Alguns exemplos podem envolver a eliminação de coeficientes harmônicos esféricos da transformação harmônica esférica que estão acima de uma ordem limite de coeficientes harmônicos esféricos, por exemplo, acima da ordem 3, acima da ordem 4, acima da ordem 5, etc.
[041] No entanto, algumas implementações podem envolver métodos de compactação alternativos e/ou adicionais. De acordo com algumas dessas implementações, a compressão da transformação harmônica esférica pode envolver um método de Decomposição de Valor Singular, análise de componentes principais, transformada discretas de cosseno, bases independentes de dados e/ou outros métodos.
[042] De acordo com alguns exemplos, o método 1 também pode envolver a codificação de uma pluralidade de objetos de áudio direcionais como um grupo ou "cluster" de objetos de áudio. Algumas implementações podem envolver a codificação de metadados de grupos em relação a um padrão de radiação de um grupo de objetos de áudio direcionais. Em alguns casos, a pluralidade de objetos de áudio direcionais pode ser codificada como um único objeto de áudio direcional cuja diretividade corresponde à média ponderada por energia variável no tempo dos coeficientes harmônicos esféricos de cada objeto de áudio. Em alguns desses exemplos, o padrão de metadados de radiação codificado pode representar um centroide que corresponde a um valor médio do nível de som para cada banda de frequência. Por exemplo, o padrão de metadados de radiação codificado (ou metadados relacionados) pode indicar uma posição de um cluster de objetos de áudio que é uma média da posição de cada objeto de áudio direcional no cluster.
[043] A Figura 1B ilustra blocos de um processo que pode ser implementado por um sistema de codificação 100 para codificar dinamicamente informações de diretividade por quadro para um objeto de áudio direcional de acordo com um exemplo. O processo pode, por exemplo, ser implementado através de um sistema de controle como o sistema de controle 815 que é descrito abaixo com referência à Figura 8. O sistema de codificação 100 pode receber um sinal de áudio mono 101, o qual pode corresponder a um sinal de objeto mono como discutido acima. O sinal de áudio mono 101 pode ser codificado no bloco 111 e fornecido a um bloco de serialização 112.
[044] No bloco 102, podem ser processadas amostras de energia direcional estática ou variável no tempo em diferentes níveis de som em um conjunto de bandas de frequência em relação a um sistema de coordenadas de referência. O sistema de coordenadas de referência pode ser determinado em um determinado espaço de coordenadas, como o espaço de coordenadas do modelo ou um espaço de coordenadas do mundo.
[045] No bloco 105, o redimensionamento dependente da frequência das amostras de energia direcional com variação no tempo do bloco 102 pode ser realizado. Em um exemplo, o redimensionamento dependente da frequência pode ser realizado de acordo com o exemplo ilustrado nas Figuras 2A-2C, conforme descrito abaixo. A normalização pode ter como base um redimensionamento da amplitude, por exemplo, para uma alta frequência em relação a uma direção de baixa frequência.
[046] O reescalonamento dependente da frequência pode ser renormalizado com base em uma direção de captura assumida do áudio de núcleo. Esse áudio de núcleo assumido como direção de captura pode representar uma direção de escuta em relação à fonte de som. Por exemplo, essa direção de escuta pode ser denominada direção de olhar, onde a direção de olhar pode estar em uma determinada direção, em relação a um sistema de coordenadas (por exemplo, uma direção para frente ou uma direção para trás).
[047] No bloco 106, a saída de diretividade redimensionada de 105 pode ser projetada em uma base de harmônicos esféricos, resultando em coeficientes dos harmônicos esféricos.
[048] No bloco 108, os coeficientes esféricos do bloco 106 são processados com base em um nível sonoro instantâneo 107 e/ou informações do bloco de rotação 109. O nível de som instantâneo 107 pode ser medido em um determinado momento em uma determinada direção. As informações do bloco de rotação 109 podem indicar uma rotação (opcional) da orientação da fonte variável no tempo 103.
Em um exemplo, no bloco 109, os coeficientes esféricos podem ser ajustados para contabilizar uma modificação dependente do tempo na orientação da fonte em relação aos dados de entrada gravados originalmente.
[049] No bloco 108, uma determinação do nível de alvo pode ainda ser realizada com base em uma equalização que é determinada em relação a uma direção da direção de captura assumida do sinal de áudio do núcleo. O bloco 108 pode gerar um conjunto de coeficientes esféricos girados que foram equalizados com base em uma determinação do nível alvo.
[050] No bloco 110, uma codificação do padrão de radiação pode ter como base uma projeção em um subespaço menor de coeficientes esféricos relacionados ao padrão de radiação fonte, resultando no padrão de metadados de radiação codificado. Como mostrado na figura 1A, no bloco 110, um algoritmo de decomposição e compressão de SVD pode ser realizado nos coeficientes esféricos emitidos pelo bloco 108. Em um exemplo, o algoritmo de decomposição e compressão SVD do bloco 110 pode ser realizado de acordo com os princípios descritos em conexão com as Equações 11-13, que são descritas abaixo.
[051] Alternativamente, o bloco 110 pode envolver a utilização de outros métodos, como Análise de Componentes Principais (PCA) e/ou bases independentes de dados, como o 2D DCT, para projetar uma representação harmônica esférica H em um espaço que é propício à compressão com perdas. A saída de 110 pode ser uma matriz T que representa uma projeção de dados em um subespaço menor da entrada, ou seja, o padrão de radiação codificado T. O padrão de radiação codificado T, o sinal de áudio mono de núcleo codificado 111 e qualquer outro metadado do objeto 104 (por exemplo, orientação opcional da fonte x, y, z, etc.) podem ser serializados no bloco de serialização 112 para gerar um fluxo de bits codificado. Em alguns exemplos, a estrutura de radiação pode ser representada pela seguinte estrutura de sintaxe de fluxo de bits em cada quadro de áudio codificado: Byte freqBandModePreset (por exemplo, banda larga, oitava, banda larga, 1/3 da oitava, geral).
Isso determina o número N e os valores de frequência central das sub- bandas) Ordem de bytes (ordem harmônica esférica N) Coeficientes int * ((N + l) * (N + 1) * valores K)
[052] Essa sintaxe pode abranger diferentes conjuntos de coeficientes para diferentes níveis de pressão/intensidade da fonte sonora. Como alternativa, se as informações de diretividade estiverem disponíveis em diferentes níveis de sinal e se o nível da fonte não puder ser mais determinado no tempo de reprodução, um único conjunto de coeficientes pode ser gerado dinamicamente. Por exemplo, esses coeficientes podem ser gerados interpolando entre coeficientes de baixo nível e coeficientes de alto nível com base no nível variável no tempo do sinal de áudio do objeto no momento da codificação.
[053] O padrão de radiação de entrada em relação a um sinal de objeto mono de áudio também pode ser 'normalizado' para uma determinada direção, como o eixo de resposta principal (que pode ser uma direção da qual foi gravado ou uma média de várias gravações) e a diretividade codificada e a renderização final pode precisar ser consistente com essa "normalização". Em um exemplo, essa normalização pode ser especificada como metadados. Geralmente, é desejável codificar um sinal de áudio do núcleo que transmitisse uma boa representação do timbre do objeto se nenhuma informação de diretividade fosse aplicada.
Codificação de Diretividade
[054] Um aspecto da presente revelação é direcionado à implementação de esquemas de codificação eficientes para as informações de diretividade, à medida que o número de coeficientes cresce quadraticamente com a ordem da decomposição. Esquemas de codificação eficientes para informações de diretividade podem ser implementados para a entrega final de emissão da cena auditiva, por exemplo, através de uma rede de largura de banda limitada a um dispositivo de renderização de ponto final.
[055] Presumindo que 16 bits são usados para representar cada coeficiente, uma representação harmônica esférica de 4ª ordem em bandas de 1/3 de oitava exigiria 25 * 31 ~ = 12kbit por quadro. Atualizar essas informações em 30Hz exigiria uma taxa de transmissão de bits de pelo menos 400 kbps, mais do que os codecs de áudio com base em objetos atuais que são exigidos atualmente para transmitir metadados de áudio e de objeto. Em um exemplo, um padrão de radiação pode ser representado por: G (θi, i, ) (Equação número (1)
[056] Na Equação número (1), (θi, i,), i Ε {1...P} representa o ângulo de colatitude discreto θ Ε [0, π] e o ângulo de azimute  Ε [0,2 π) em relação à fonte acústica, P representa o número total de ângulos discretos e  representa a frequência espectral. As Figuras 2A e 2B representam padrões de radiação de um objeto de áudio em duas bandas de frequência diferentes. A Figura 2A pode, representar, por exemplo,um padrão de radiação de um objeto de áudio em uma faixa de frequência de 100 a 300 Hz, enquanto a figura 2A pode representar, por exemplo, um padrão de radiação do mesmo objeto de áudio em uma faixa de frequência de 1 kHz a 2 kHz. As baixas frequências tendem a ser relativamente mais omnidirecionais, de modo que o padrão de radiação mostrado na figura 2A é relativamente mais circular que o padrão de radiação mostrado na figura 2B. Na figura 2A, G (θi, i, ) representa o padrão de radiação na direção do eixo de resposta principal 200, enquanto G (θi, i, ) representa o padrão de radiação em uma direção arbitrária 205.
[057] Em alguns exemplos, o padrão de radiação pode ser capturado e determinado por vários microfones fisicamente colocados ao redor da fonte de som correspondente a um objeto de áudio, enquanto em outros exemplos o padrão de radiação pode ser determinado por simulação numérica. No exemplo de vários microfones, o padrão de radiação pode variar no tempo, refletindo, por exemplo, uma gravação ao vivo. Os padrões de radiação podem ser capturados em uma variedade de frequências, incluindo baixas (por exemplo, <100Hz) média (100Hz < e > 1kHz) e altas frequências (> 10KHz). O padrão de radiação também pode ser conhecido como representação espacial.
[058] Em outro exemplo, o padrão de radiação pode refletir uma normalização com base em um padrão de radiação capturado em uma certa frequência em uma determinada direção G (θi, i, ), tal como, por exemplo:
Equação número (2)
[059] Na Equação número (2), G (θ0, 0, ), representa o padrão de radiação na direção do eixo de resposta principal. Referindo-nos novamente à Figura 2B, pode-se ver o padrão de radiação G (θi, i, ), e o padrão de radiação normalizado H (θi, i, ), em um exemplo. A Figura 2C é um gráfico que mostra exemplos de padrões de radiação normalizados e não normalizados de acordo com um exemplo.
Neste exemplo, o padrão de radiação normalizada na direção do eixo de resposta principal, que é representado como H (θ0, 0, ), na figura 2C, tem substancialmente a mesma amplitude através da faixa ilustrada de faixas de frequência. Neste exemplo, o padrão de radiação normalizada na direção 205 (mostrada na figura 2A), que é representada como H (θi, i, ) na figura 2C, possui amplitudes relativamente mais altas em frequências mais altas do que o padrão de radiação não normalizada, que é representado como G (θi, i, ), na figura 2C. Para uma determinada banda de frequência, o padrão de radiação pode ser considerado constante para conveniência notacional, mas na prática pode variar ao longo do tempo, por exemplo, com diferentes técnicas de curvatura empregadas em um instrumento de cordas.
[060] O padrão de radiação ou uma representação paramétrica do mesmo, pode ser transmitido. O pré-processamento do padrão de radiação pode ser realizado antes de sua transmissão. Em um exemplo, o padrão de radiação ou representação paramétrica pode ser pré-processado por um algoritmo de computação, exemplos dos quais são mostrados em relação à figura 1A. Após o pré- processamento, o padrão de radiação pode ser decomposto em uma base esférica ortogonal com base, por exemplo, no seguinte: Equação número (3)
[061] Na Equação número (3), H (θi, i, ) ilustra a representação espacial e representa uma representação harmônica esférica que possui menos elementos que a representação espacial. A conversão entre H (θi, i, ) e pode se basear no uso, por exemplo, de harmônicos esféricos reais totalmente normalizados: Equação número (4)
[062] Na equação número (4) representa os Polinômios Associados de Legendre Equação número (5)
[063] Outras bases esféricas também podem ser usadas. Qualquer abordagem para realizar uma transformação harmônica esférica em dados discretos pode ser usada. Em um exemplo, uma abordagem de mínimos quadrados pode ser usada definindo primeiro uma matriz de transformação Equação número (6) relacionando assim a representação harmônica esférica à representação espacial como Equação número (7)
[064] Na Equação número (7), As representações harmônicas esféricas e/ou representações espaciais podem ser armazenadas para processamento adicional.
[065] O pseudo-inverso Y† pode ser uma solução de mínimos quadrados ponderada da forma:
Equação número (8)
[066] Soluções regularizadas também podem ser aplicáveis aos casos em que a distribuição de amostras esféricas contém grandes quantidades de dados ausentes. Os dados ausentes podem corresponder a áreas ou direções para as quais não há amostras de diretividade disponíveis (por exemplo, devido à cobertura desigual do microfone). Em muitos casos, a distribuição das amostras espaciais é suficientemente uniforme para que uma matriz de ponderação de identidade W produza resultados aceitáveis. Também se pode presumir que P »(N + l)2, de modo que a representação harmônica esférica contenha menos elementos que a representação espacial H (), produzindo assim um primeiro estágio de compressão com perdas que suaviza os dados de padrão de radiação.
[067] Agora considere bandas de frequências discretas κ, κ Ε {1 ...K}. A matriz H () pode ser empilhada, de modo que cada banda de frequência seja representada por uma coluna de matriz Equação número (9)
[068] Ou seja, a representação espacial H () pode ser determinada com base em faixas/bandas/conjuntos de frequência. Consequentemente, a representação harmônica esférica pode ter como base: Equação número (10)
[069] Na Equação número. (10), representa o padrão de radiação para todas as frequências discretas no domínio harmônico esférico. Prevê-se que as colunas vizinhas de sejam altamente correlacionadas, levando à redundância na representação. Algumas implementações envolvem decomposição adicional de por fatoração matricial na forma de Equação número (11)
[070] Algumas modalidades podem envolver a realização de Decomposição de Valor Singular (SVD), onde representam matrizes singulares esquerda e direita e representa uma matriz de valores singulares decrescentes ao longo de sua diagonal. A informação da matriz V pode ser recebida ou armazenada. Como alternativa, a Análise de Componentes Principais (PCA) e bases independentes de dados, como o 2D DCT, podem ser usadas para projetar em um espaço propício à compactação com perdas.
[071] Seja 0 = (N + 1)2. Em alguns exemplos, para obter a compactação, um codificador pode descartar componentes correspondentes a valores singulares menores calculando o produto com base no seguinte: Equação número (12)
[072] Na Equação número (12), representa uma cópia truncada de . A matriz T pode representar uma projeção de dados em um subespaço menor da entrada. T representa dados de padrão de radiação codificado que são então transmitidos para processamento adicional. No lado de decodificação e recebimento, em alguns exemplos a matriz T pode ser recebida e uma aproximação de baixo escalão para pode ser reconstruída com base em: Equação número (13) Na Equação número (13), representa uma cópia truncada de V.
A matriz V pode ser transmitida ou armazenada no lado do decodificador.
[073] A seguir, são apresentados três exemplos para transmitir a decomposição truncada e os vetores singulares à direita truncados:
1. O transmissor pode transmitir radiação codificada T e vetores simples direitos truncados V' para cada objeto independentemente.
2. Os objetos podem ser agrupados, por exemplo, por uma medida de similaridade, e U e V podem ser calculados como bases representativas para vários objetos. A radiação codificada T pode, portanto, ser transmitida por objeto e U e V podem ser transmitidos por grupo de objetos.
3. As matrizes simples esquerda e direita U e V podem ser pré-calculadas em um grande banco de dados de dados representativos (por exemplo, dados de treinamento) e informações sobre V podem ser armazenadas no lado do receptor.
Em alguns desses exemplos, apenas a radiação codificada T pode ser transmitida por objeto. O DCT é outro exemplo de base que pode ser armazenada na lateral do receptor.
Codificação espacial de objetos direcionais
[074] Quando cenas auditivas complexas compreendendo vários objetos são codificadas e transmitidas, é possível aplicar técnicas de codificação espacial onde objetos individuais são substituídos por um número menor de grupos representativos, de maneira a preservar melhor a percepção auditiva da cena. Em geral, a substituição de um grupo de fontes sonoras por um "centroide" representativo requer a computação de um valor agregado/médio para cada campo de metadados. Por exemplo, a posição de um cluster de fontes sonoras pode ser a média da posição de cada fonte. Ao representar o padrão de radiação de cada fonte usando uma decomposição harmônica esférica conforme descrito acima (por exemplo, com referência às Equações números 1-12), é possível combinar linearmente o conjunto de coeficientes em cada sub-banda para cada fonte, a fim de construir um padrão médio de radiação para um aglomerado de fontes. Ao computar uma sonoridade ou média ponderada em energia dos coeficientes de harmônicos esféricos ao longo do tempo, é possível construir uma representação perceptivamente otimizada com variação no tempo que preserva melhor a cena original.
[075] A Figura 1C ilustra blocos de um processo que pode ser implementado por um sistema de decodificação de acordo com um exemplo. Os blocos mostrados na figura 1C podem ser implementados, por exemplo, por um sistema de controle de um dispositivo de decodificação (como o sistema de controle 815 que é descrito abaixo com referência à Figura 8) que inclui um ou mais processadores e um ou mais dispositivos de memória transitória. No bloco 150, os metadados e o sinal de áudio mono do núcleo codificado podem ser recebidos e desserializados. A informação desserializada pode incluir metadados de objeto 151, um sinal de áudio do núcleo codificado e coeficientes esféricos codificados. No bloco 152, o sinal de áudio do núcleo codificado pode ser decodificado. No bloco 153, os coeficientes esféricos codificados podem ser decodificados. A informação do padrão de radiação codificado pode incluir o padrão de radiação codificado T e/ou a matriz V. A matriz V dependeria do método usado para projetar H em um espaço. Se, no bloco 110 da figura 1B, for utilizado um algoritmo SVD, a matriz V poderá ser recebida ou armazenada pelo sistema de decodificação.
[076] Os metadados do objeto 151 podem incluir informações sobre uma fonte para a direção relativa do ouvinte. Em um exemplo, os metadados 151 podem incluir informações sobre a distância e direção de um ouvinte e uma ou mais distâncias e direção de objetos em relação a um espaço 6DoF. Por exemplo, os metadados 151 podem incluir informações sobre a rotação, distância e direção relativa da fonte em um espaço 6DoF. No exemplo de vários objetos em clusters, o campo de metadados pode refletir informações sobre um "centroide" representativo que reflete um valor agregado/médio de um cluster de objetos.
[077] Um renderizador 154 pode então renderizar o sinal de áudio do núcleo decodificado e os coeficientes de harmônicos esféricos decodificados. Em um exemplo, o renderizador 154 pode renderizar o sinal de áudio do núcleo decodificado e os coeficientes de harmônicos esféricos decodificados com base nos metadados do objeto 151. O renderizador 154 pode determinar ganhos de sub- banda para os coeficientes esféricos de um padrão de radiação com base em informações dos metadados 151, por exemplo, direções relativas da fonte ao ouvinte. O renderizador 154 pode, então, renderizar um sinal de objeto de áudio de núcleo com base nos ganhos de sub-bandas determinados do (s) padrão (s) de radiação decodificado (s) correspondente (s), fonte e/ou informação de posição do ouvinte (por exemplo, x, y, z, guinada, inclinação, rotação) 155. As informações de posição do ouvinte podem corresponder à localização e à direção de visualização do usuário no espaço 6DoF. A informação de posição do ouvinte pode ser recebida de uma fonte local para um sistema de reprodução de VR, como, por exemplo, um aparelho de rastreamento óptico. A informação de pose da fonte corresponde à posição e orientação do objeto sonoro no espaço. Também pode ser inferido a partir de um sistema de rastreamento local, por exemplo, se as mãos do usuário são rastreadas e manipulam interativamente o objeto de som virtual ou se um objeto de prop/proxy físico rastreado é usado.
[078] A Figura 3 mostra um exemplo de uma hierarquia que inclui dados de áudio e vários tipos de metadados. Como em outros desenhos fornecidos no presente documento, os números e tipos de dados e metadados de áudio mostrados na figura 3 são meramente fornecidos a título de exemplo. Alguns codificadores podem fornecer o conjunto completo de dados de áudio e metadados mostrados na figura 3 (conjunto de dados 345), enquanto outros codificadores podem fornecer apenas uma parte dos metadados mostrados na figura 3, por exemplo, apenas o conjunto de dados 315, apenas o conjunto de dados 325 ou apenas o conjunto de dados 335.
[079] Neste exemplo, os dados de áudio incluem o sinal de áudio monofônico 301. O sinal de áudio monofônico 301 é um exemplo do que às vezes pode ser referido no presente documento como um "sinal de áudio do núcleo”. No entanto, em alguns exemplos, um sinal de áudio do núcleo pode incluir sinais de áudio correspondentes a uma pluralidade de objetos de áudio que são incluídos em um cluster.
[080] Neste exemplo, os metadados 305 da posição do objeto de áudio são expressos como coordenadas cartesianas. No entanto, em exemplos alternativos, os metadados 305 da posição do objeto de áudio podem ser expressos por meio de outros tipos de coordenadas, como coordenadas esféricas ou polares. Por conseguinte, os metadados 305 da posição do objeto de áudio podem incluir informações de posição de três graus de liberdade (3 DoF). De acordo com este exemplo, os metadados do objeto de áudio incluem os metadados do tamanho do objeto de áudio 310. Em exemplos alternativos, os metadados do objeto de áudio podem incluir um ou mais outros tipos de metadados do objeto de áudio.
[081] Nesta implementação, o conjunto de dados 315 inclui o sinal de áudio monofônico 301, os metadados de posição de objeto de áudio 305 e os metadados de tamanho de objeto de áudio 310. O conjunto de dados 315 pode, por exemplo, ser fornecido em um formato de dados de áudio Dolby Atmos™.
[082] Neste exemplo, o conjunto de dados 315 também inclui o parâmetro de renderização opcional R. De acordo com algumas implementações reveladas, o parâmetro de renderização opcional R pode indicar se pelo menos alguns dos metadados do objeto de áudio do conjunto de dados 315 devem ser interpretados em seu sentido "normal" (por exemplo, como metadados de posição ou tamanho) ou como metadados de diretividade. Em algumas implementações reveladas, o modo "normal" pode ser referido no presente documento como um "modo posicional" e o modo alternativo pode ser referido no presente documento como um "modo de diretividade. Alguns exemplos são descritos abaixo com referência às Figuras 5A-6.
[083] De acordo com este exemplo, os metadados de orientação 320 incluem informações angulares para expressar a guinada, inclinação e rotação de um objeto de áudio. Neste exemplo, os metadados de orientação 320 indicam a guinada, inclinação e rotação como , θ, ψ. O conjunto de dados 325 inclui informações suficientes para orientar um objeto de áudio para aplicativos de seis graus de liberdade (6 DoF).
[084] Neste exemplo, o conjunto de dados 335 inclui metadados do tipo de objeto de áudio 330. Em algumas implementações, os metadados do tipo de objeto de áudio 330 podem ser usados para indicar os metadados correspondentes do padrão de radiação. O padrão de metadados de radiação codificado pode ser utilizado (por exemplo, por um decodificador ou dispositivo que recebe dados de áudio do decodificador) para determinar um padrão de radiação decodificado. Em alguns exemplos, os metadados do tipo de objeto de áudio 330 podem indicar, em essência, "Eu sou uma trombeta", "Eu sou um violino" etc. Em alguns exemplos, um dispositivo de decodificação pode ter acesso a um banco de dados de tipos de objetos de áudio e padrões de diretividade correspondentes. De acordo com alguns exemplos, o banco de dados pode ser fornecido junto com dados de áudio codificados, ou antes, da transmissão de dados de áudio. Esses metadados 330 do tipo de objeto de áudio podem ser referidos no presente documento como "dados de padrão de diretividade do banco de dados”.
[085] De acordo com alguns exemplos, os metadados do tipo de objeto de áudio podem indicar dados de padrão de diretividade paramétricos. Em alguns exemplos, os metadados do tipo de objeto de áudio 330 podem indicar um padrão de diretividade correspondente a uma função cosseno de potência especificada, podem indicar uma função cardioide, etc.
[086] Em alguns exemplos, os metadados do tipo de objeto de áudio 330 podem indicar que o padrão de radiação corresponde a um conjunto de coeficientes harmônicos esféricos. Por exemplo, os metadados do tipo de objeto de áudio 330 podem indicar que coeficientes harmônicos esféricos 340 estão sendo fornecidos no conjunto de dados 345. Em alguns desses exemplos, os coeficientes harmônicos esféricos 340 podem ser um conjunto de coeficientes harmônicos esféricos que variam no tempo e/ou na frequência, por exemplo, como descrito acima. Essas informações podem exigir a maior quantidade de dados, em comparação com o restante da hierarquia de metadados mostrada na figura 3. Portanto, em alguns desses exemplos, os coeficientes harmônicos esféricos 340 podem ser fornecidos separadamente do sinal de áudio monofônico 301 e dos correspondentes metadados do objeto de áudio. Por exemplo, os coeficientes harmônicos esféricos 340 podem ser fornecidos no início de uma transmissão de dados de áudio, antes que as operações em tempo real sejam iniciadas (por exemplo, operações de renderização em tempo real para um jogo, um filme, uma performance musical, etc.).
[087] De acordo com algumas implementações, um dispositivo no lado do decodificador, como um dispositivo que fornece o áudio para um sistema de reprodução, pode determinar os recursos do sistema de reprodução e fornecer informações de diretividade de acordo com esses recursos. Por exemplo, mesmo que todo o conjunto de dados 345 seja fornecido a um decodificador, apenas uma parte útil da informação de diretividade pode ser fornecida a um sistema de reprodução em algumas dessas implementações. Em alguns exemplos, um dispositivo de decodificação pode determinar que tipo (s) de informação de diretividade usar de acordo com os recursos do dispositivo de decodificação.
[088] A Figura 4 é um fluxograma que mostra blocos de um método de decodificação de áudio de acordo com um exemplo. O método 400 pode ser implementado, por exemplo, por um sistema de controle de um dispositivo de decodificação (como o sistema de controle 815 que é descrito abaixo com referência à Figura 8) que inclui um ou mais processadores e um ou mais dispositivos de memória não transitória. Como com outros métodos revelados, nem todos os blocos do método 400 são necessariamente executados na ordem mostrada na figura 4.
Além disso, métodos alternativos podem incluir mais ou menos blocos.
[089] Neste exemplo, o bloco 405 envolve a recepção de um sinal de áudio do núcleo codificado, padrão de metadados de radiação codificado e metadados do objeto de áudio codificado. O padrão de metadados de radiação codificado pode incluir metadados do tipo de objeto de áudio. O sinal de áudio do núcleo codificado pode incluir, por exemplo, um sinal de áudio monofônico. Em alguns exemplos, os metadados do objeto de áudio podem incluir 3 informações de posição de DoF, 6 informações de posição e orientação de fonte de DoF, metadados de tamanho de objeto de áudio, etc. Os metadados do objeto de áudio podem variar no tempo em alguns casos.
[090] Neste exemplo, o bloco 410 envolve decodificar o sinal de áudio do núcleo codificado para determinar um sinal de áudio do núcleo. No presente documento, o bloco 415 envolve decodificar o padrão de metadados de radiação codificado para determinar um padrão de radiação decodificado. Neste exemplo, o bloco 420 envolve decodificar pelo menos alguns dos outros metadados do objeto de áudio codificado. No presente documento, o bloco 430 envolve renderizar o sinal de áudio do núcleo com base nos metadados do objeto de áudio (por exemplo, a posição do objeto de áudio, orientação e/ou metadados de tamanho) e o padrão de radiação decodificado.
[091] O bloco 415 pode envolver vários tipos de operações, dependendo da implementação específica. Em alguns casos, os metadados do tipo de objeto de áudio podem indicar dados de padrão de diretividade do banco de dados. A decodificação do padrão de metadados de radiação codificado para determinar o padrão de radiação decodificado pode envolver a consulta de uma estrutura de dados de diretividade que inclui tipos de objetos de áudio e dados correspondentes do padrão de diretividade. Em alguns exemplos, os metadados do tipo de objeto de áudio podem indicar dados de padrão de diretividade paramétricos, como dados de padrão de diretividade correspondentes a uma função cosseno, uma função seno ou uma função cardioide.
[092] De acordo com algumas implementações, os metadados do tipo de objeto de áudio podem indicar dados de padrão de diretividade dinâmica, como um conjunto de coeficientes de harmônicos esféricos com variação de tempo e/ou frequência. Algumas dessas implementações podem envolver a recepção dos dados do padrão de diretividade dinâmica antes de receber o sinal de áudio do núcleo codificado.
[093] Em alguns casos, um sinal de áudio do núcleo recebido no bloco 405 pode incluir sinais de áudio correspondentes a uma pluralidade de objetos de áudio que são incluídos em um cluster. De acordo com alguns desses exemplos, o sinal de áudio do núcleo pode se basear em um cluster de objetos de áudio que podem incluir uma pluralidade de objetos de áudio direcionais. O padrão de radiação decodificado determinado no bloco 415 pode corresponder a um centroide do cluster e pode representar um valor médio para cada banda de frequência de cada uma da pluralidade de objetos de áudio direcionais. O processo de renderização do bloco 430 pode envolver a aplicação de ganhos de sub-banda, com base, pelo menos em parte, nos dados de radiação decodificados, no sinal de áudio do núcleo decodificado. Em alguns exemplos, após decodificar e aplicar o processamento de diretividade ao sinal de áudio do núcleo, o sinal pode ser ainda mais virtualizado para o local pretendido em relação a uma posição de ouvinte usando metadados de posição de objeto de áudio e processos de renderização conhecidos, como renderização binaural em fones de ouvido, renderização usando alto-falantes de um ambiente de reprodução etc.
[094] Como discutido acima com referência à Figura 3, em algumas implementações, os dados de áudio podem ser acompanhados por um parâmetro de renderização (mostrado como R na figura 3). O parâmetro de renderização pode indicar se pelo menos alguns metadados de objetos de áudio, como os metadados Dolby Atmos, devem ser interpretados de maneira normal (por exemplo, como metadados de posição ou tamanho) ou como metadados de diretividade. O modo normal pode ser referido como um "modo posicional" e o modo alternativo pode ser referido no presente documento como um "modo de diretividade". Assim, em alguns exemplos, o parâmetro de renderização pode indicar se é necessário interpretar pelo menos alguns metadados do objeto de áudio como direcional em relação a um alto- falante ou posicional em relação a uma sala ou outro ambiente de reprodução. Tais implementações podem ser particularmente úteis para renderização de diretividade usando alto-falantes inteligentes com vários drivers, por exemplo, conforme descrito abaixo.
[095] A Figura 5A mostra um prato de bateria Neste exemplo, o prato de bateria 505 é mostrado emitindo som tendo um padrão de diretividade 510 que tem um eixo de resposta principal substancialmente vertical 515. O próprio padrão de diretividade 510 também é principalmente vertical, com algum grau de propagação a partir do eixo de resposta principal 515.
[096] A Figura 5B mostra um exemplo de um sistema de alto-falantes. Neste exemplo, o sistema de alto-falantes 525 inclui vários alto-falantes/transdutores configurados para emitir som em várias direções, inclusive para cima. O alto-falante superior pode, em alguns casos, ser usado de uma maneira Dolby Atmos convencional (um "modo posicional") para renderizar a posição, por exemplo, fazer com que o som seja refletido no teto e simular os alto-falantes de altura/teto (z = 1).
Em alguns casos, a renderização Dolby Atmos correspondente pode incluir um processamento adicional de virtualização em altura, que aprimora a percepção do objeto de áudio que possui uma posição específica.
[097] Em outros casos de uso, os mesmos alto-falantes de disparo ascendente podem ser operados em um "modo de diretividade", por exemplo, para simular um padrão de diretividade, por exemplo, de uma bateria, símbolos ou outro objeto de áudio com um padrão de diretividade semelhante a o padrão de diretividade 510 mostrado na figura 5A. Alguns sistemas de alto-falantes 525 podem ser capazes de formar feixes, o que poderia ajudar na construção de um padrão de diretividade desejado. Em alguns exemplos, nenhum processamento de virtualização estaria envolvido, a fim de diminuir a percepção do objeto de áudio que possui uma posição específica.
[098] A Figura 6 é um fluxograma que mostra blocos de um método de decodificação de áudio de acordo com um exemplo. O método 600 pode ser implementado,, por exemplo, por um sistema de controle de um dispositivo de decodificação (como o sistema de controle 815 que é descrito abaixo com referência à Figura 8) que inclui um ou mais processadores e um ou mais dispositivos de memória não transitória. Como com outros métodos revelados, nem todos os blocos do método 600 são necessariamente executados na ordem mostrada na figura 6.
Além disso, métodos alternativos podem incluir mais ou menos blocos.
[099] Neste exemplo, o bloco 605 envolve a recepção de dados de áudio correspondentes a pelo menos um objeto de áudio, os dados de áudio incluindo um sinal de áudio monofônico, metadados de posição do objeto de áudio, metadados de tamanho de objeto de áudio e um parâmetro de renderização. Nesta implementação, o bloco 605 envolve a recepção desses dados através de um sistema de interface de um dispositivo de decodificação (como o sistema de interface 810 da figura 8).
Em alguns casos, os dados de áudio podem ser recebidos no formato Dolby Atmos™. Os metadados da posição do objeto de áudio podem corresponder a coordenadas mundiais ou coordenadas do modelo, dependendo da implementação específica.
[0100] Neste exemplo, o bloco 610 envolve determinação se o parâmetro de renderização indica um modo posicional ou um modo de diretividade. No exemplo mostrado na figura 6, se for determinado que o parâmetro de renderização indica um modo de diretividade, no bloco 615 os dados de áudio são renderizados para reprodução (por exemplo, através de pelo menos um alto-falante, fones de ouvido etc.) de acordo com um padrão de diretividade indicado por pelo menos um dos metadados posicionais ou de tamanho. Por exemplo, o padrão de diretividade pode ser semelhante ao mostrado na figura 5A.
[0101] Em alguns exemplos, a renderização dos dados de áudio pode envolver a interpretação dos metadados da posição do objeto de áudio como metadados de orientação do objeto de áudio. Os metadados de posição do objeto de áudio podem ser dados de coordenadas cartesianas/x, y, z, dados de coordenadas esféricas ou dados de coordenadas cilíndricas. Os metadados da orientação do objeto de áudio podem ser metadados de guinada, inclinação e rotação.
[0102] De acordo com algumas implementações, a renderização dos dados de áudio pode envolver a interpretação dos metadados de tamanho do objeto de áudio como metadados de diretividade que correspondem a um padrão de diretividade. Em alguns desses exemplos, a renderização dos dados de áudio pode envolver a consulta de uma estrutura de dados que inclui uma pluralidade de padrões de diretividade e o mapeamento de pelo menos um dos metadados posicionais ou metadados de tamanho para um ou mais padrões de diretividade.
Algumas dessas implementações podem envolver a recepção, através do sistema de interface, da estrutura de dados. De acordo com algumas dessas implementações, a estrutura de dados pode ser recebida antes dos dados de áudio.
[0103] A Figura 7 ilustra um exemplo de codificação de vários objetos de áudio. Em um exemplo, as informações do objeto 1-n, 701, 702, 703 etc. podem ser codificadas. Em um exemplo, um cluster representativo para objetos de áudio 701- 703 pode ser determinado no bloco 710. Em um exemplo, o grupo de fontes sonoras pode ser agregado e representado por um "centroide" representativo que envolve a computação de um valor agregado/médio para o campo de metadados. Por exemplo, a posição de um cluster de fontes sonoras pode ser a média da posição de cada fonte. No bloco 720, o padrão de radiação para o cluster representativo pode ser codificado. Em alguns exemplos, o padrão de radiação para o cluster pode ser codificado de acordo com os princípios descritos acima com referência à Figura 1A ou Figura 1B.
[0104] A Figura 8 é um diagrama de blocos que mostra exemplos de componentes de um aparelho que pode ser configurado para executar pelo menos alguns dos métodos revelados no presente documento. Por exemplo, o aparelho 805 pode ser configurado para executar um ou mais dos métodos descritos acima com referência às Figuras 1A-1C, 4, 6 e/ou 7. Em alguns exemplos, o aparelho 805 pode ser ou pode incluir um computador pessoal, um computador de mesa ou outro dispositivo local configurado para fornecer processamento de áudio. Em alguns exemplos, o aparelho 805 pode ser ou pode incluir um servidor. De acordo com alguns exemplos, o aparelho 805 pode ser um dispositivo cliente configurado para comunicação com um servidor, através de uma interface de rede. Os componentes do aparelho 805 podem ser implementados via hardware, via software armazenado em mídia não transitória, via firmware e/ou por combinações dos mesmos. Os tipos e números de componentes mostrados na figura 8, bem como outras figuras reveladas no presente documento, são meramente mostrados a título de exemplo.
Implementações alternativas podem incluir mais, menos e/ou componentes diferentes.
[0105] Neste exemplo, o aparelho 805 inclui um sistema de interface 810 e um sistema de controle 815. O sistema de interface 810 pode incluir uma ou mais interfaces de rede, uma ou mais interfaces entre o sistema de controle 815 e um sistema de memória e/ou uma ou mais interfaces de dispositivos externos (como uma ou mais interfaces de barramento serial universal (USB)). Em algumas implementações, o sistema de interface 810 pode incluir um sistema de interface com o usuário. O sistema de interface do usuário pode ser configurado para receber entrada de um usuário. Em algumas implementações, o sistema de interface com o usuário pode ser configurado para fornecer feedback a um usuário. Por exemplo, o sistema de interface com o usuário pode incluir um ou mais displays com os sistemas de detecção de toque e/ou gesto correspondentes. Em alguns exemplos, o sistema de interface do usuário pode incluir um ou mais microfones e/ou alto- falantes. De acordo com alguns exemplos, o sistema de interface do usuário pode incluir aparelhos para fornecer feedback háptico, como um motor, um vibrador, etc.
O sistema de controle 815 pode, por exemplo, incluir um processador de chip único ou múltiplos chips de uso geral, um processador de sinal digital (DSP), um circuito integrado específico de aplicação (ASIC), uma matriz de portas programável em campo (FPGA) ou outro dispositivo lógico programável, porta discreta ou lógica de transistor e/ou componentes de hardware discretos.
[0106] Em alguns exemplos, o aparelho 805 pode ser implementado em um único dispositivo. No entanto, em algumas implementações, o aparelho 805 pode ser implementado em mais de um dispositivo. Em algumas dessas implementações, a funcionalidade do sistema de controle 815 pode ser incluída em mais de um dispositivo. Em alguns exemplos, o aparelho 805 pode ser um componente de outro dispositivo.
[0107] Várias modalidades exemplares da presente revelação podem ser implementadas em hardware ou circuitos para fins especiais, software, lógica ou qualquer combinação dos mesmos. Alguns aspectos podem ser implementados em hardware, enquanto outros podem ser implementados em firmware ou software, que pode ser executado por um controlador, microprocessador ou outro dispositivo de computação. Em geral, a presente revelação deve compreender também um aparelho adequado para executar os métodos descritos acima, por exemplo, um aparelho (renderizador espacial) tendo uma memória e um processador acoplado à memória, em que o processador está configurado para executar instruções e para executar métodos de acordo com modalidades da revelação.
[0108] Embora vários aspectos das modalidades exemplares da presente revelação sejam ilustrados e descritos como diagramas de blocos, fluxogramas ou usando alguma outra representação pictórica, será apreciado que os blocos, aparelhos, sistemas, técnicas ou métodos descritos no presente documento podem ser implementados, como exemplos não limitativos, em hardware, software, firmware, circuitos ou lógica de propósito específico, hardware ou controlador de uso geral ou outros dispositivos de computação ou alguma combinação dos mesmos.
[0109] Além disso, vários blocos mostrados nos fluxogramas podem ser vistos como etapas do método e/ou operações que resultam da operação do código do programa de computador e/ou como uma pluralidade de elementos de circuitos lógicos acoplados construídos para executar as funções associadas. Por exemplo, modalidades da presente revelação incluem um produto de programa de computador compreendendo um programa de computador tangível corporificado em um meio legível por máquina, no qual o programa de computador contém códigos de programa configurados para executar os métodos descritos acima.
[0110] No contexto da revelação, um meio legível por máquina pode ser qualquer meio tangível que possa conter ou armazenar um programa para uso por ou em conexão com um sistema, aparelho ou dispositivo de execução de instrução.
O meio legível por máquina pode ser um meio de sinal legível por máquina ou um meio de armazenamento legível por máquina. Um meio legível por máquina pode incluir, mas não se limita a um sistema, aparelho ou dispositivo eletrônico, magnético, óptico, eletromagnético, infravermelho ou semicondutor, ou qualquer combinação adequada dos itens anteriores. Exemplos mais específicos de mídia de armazenamento legível por máquina incluem uma conexão elétrica com um ou mais fios, um disquete de computador portátil, um disco rígido, uma memória de acesso aleatório (RAM), uma memória somente leitura (ROM), uma memória apenas de leitura programável apagável (EPROM ou memória Flash), uma fibra óptica, uma memória somente leitura portátil de CD (CD-ROM), um dispositivo de armazenamento óptico, um dispositivo de armazenamento magnético ou qualquer combinação adequada dos itens anteriores.
[0111] O código do programa de computador para executar métodos da presente revelação pode ser escrito em qualquer combinação de uma ou mais linguagens de programação. Esses códigos de programa de computador podem ser fornecidos a um processador de um computador de uso geral, computador de uso especial ou outro aparelho de processamento de dados programável, de modo que os códigos de programa, quando executados pelo processador do computador ou outro aparelho de processamento de dados programável, causem a funções/operações especificadas nos fluxogramas e/ou diagramas de blocos a serem implementados. O código do programa pode ser executado inteiramente em um computador, em parte no computador, como um pacote de software independente, em parte no computador e em parte em um computador remoto ou inteiramente no computador ou servidor remoto.
[0112] Além disso, embora as operações sejam representadas em uma ordem específica, isso não deve ser entendido como exigindo que tais operações sejam executadas na ordem específica mostrada ou em ordem sequencial, ou que todas as operações ilustradas sejam executadas para alcançar resultados desejáveis. Em certas circunstâncias, multitarefa e processamento paralelo podem ser vantajosos. Da mesma forma, embora vários detalhes de implementação específicos estejam contidos nas discussões acima, eles não devem ser interpretados como limitações no escopo de qualquer invenção ou do que pode ser reivindicado, mas como descrições de recursos que podem ser específicos para modalidades particulares de invenção específica. Certas características que são descritas neste relatório descritivo no contexto de modalidades separadas, também podem ser implementadas em combinação em uma única modalidade. Por outro lado, vários recursos que são descritos no contexto de uma única modalidade também podem ser implementados em várias modalidades separadamente ou em qualquer subconjunto adequado.
[0113] Deve-se ser observado que a descrição e os desenhos ilustram meramente os princípios dos métodos e aparelhos propostos. Deste modo, será apreciado que os versados na técnica serão capazes de conceber várias disposições que, embora não explicitamente descritas ou mostradas no presente documento, incorporem os princípios da invenção e estão incluídas no seu espírito e escopo. Além disso, todos os exemplos citados no presente documento destinam-se expressamente a ser apenas para fins pedagógicos, para ajudar o leitor a entender os princípios dos métodos e aparelhos propostos e os conceitos contribuídos pelos inventores para promover a arte, e devem ser interpretados como sendo sem limitação com relação aos exemplos e condições especificamente citados. Além disso, todas as declarações contidas no presente documento que citam princípios, aspectos e modalidades da invenção, bem como exemplos específicos dos mesmos, pretendem abranger equivalentes dos mesmos.

Claims (26)

REIVINDICAÇÕES
1. Método para codificar dados de áudio direcionais, CARACTERIZADO pelo fato de que compreende: receber um sinal de áudio mono correspondendo a um objeto de áudio e uma representação de um padrão de radiação correspondente ao objeto de áudio, o padrão de radiação compreendendo níveis de som correspondentes à pluralidade de tempos de amostra, uma pluralidade de bandas de frequência e uma pluralidade de direções; codificar o sinal de áudio mono; e codificar o padrão de radiação da fonte para determinar o padrão de metadados de radiação; em que a codificação do padrão de radiação compreende determinar uma transformação harmônica esférica da representação do padrão de radiação e comprimir a transformação harmônica esférica para obter metadados de padrão de radiação codificado.
2. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que compreende ainda a codificação de uma pluralidade de objetos de áudio direcionais com base em um cluster de objetos de áudio, em que o padrão de radiação é representativo de um centroide que reflete um valor médio do nível de som para cada banda de frequência.
3. Método, de acordo com a reivindicação 2, CARACTERIZADO pelo fato de que a pluralidade de objetos de áudio direcionais é codificada como um único objeto de áudio direcional, cuja diretividade corresponde à média ponderada por energia variável no tempo dos coeficientes harmônicos esféricos de cada objeto de áudio.
4. Método, de acordo com a reivindicação 2 ou reivindicação 3, CARACTERIZADO pelo fato de que o padrão de metadados de radiação codificado indica uma posição de um cluster de objetos de áudio que é uma média da posição de cada objeto de áudio.
5. Método, de acordo com qualquer uma das reivindicações 1 a 4, CARACTERIZADO pelo fato de que compreende ainda os metadados do grupo de codificação em relação a um padrão de radiação de um grupo de objetos de áudio direcionais.
6. Método, de acordo com qualquer uma das reivindicações 1 a 5, CARACTERIZADO pelo fato de que o padrão de radiação da fonte é reescalonado para uma amplitude do padrão de radiação de entrada em uma direção por frequência para determinar um padrão de radiação normalizado.
7. Método, de acordo com qualquer uma das reivindicações 1 a 6, CARACTERIZADO pelo fato de que a compressão da transformação harmônica esférica compreende, pelo menos, um método de Decomposição de Valor Singular, análise de componentes principais, transformações discretas de cosseno, bases independentes de dados ou eliminação de coeficientes harmônicos esféricos de transformada harmônica esférica que estão acima de uma ordem limite de coeficientes harmônicos esféricos.
8. Método para decodificar dados de áudio, CARACTERIZADO pelo fato de que compreende: receber um sinal de áudio do núcleo codificado, metadados de padrão de radiação codificado e metadados de objetos de áudio codificados; decodificar o sinal de áudio do núcleo codificado para determinar um sinal de áudio do núcleo; decodificar o padrão de metadados de radiação codificado para determinar um padrão de radiação decodificado; decodificar os metadados do objeto de áudio; e renderizar o sinal de áudio do núcleo com base nos metadados do objeto de áudio e no padrão de radiação decodificado.
9. Método, de acordo com a reivindicação 8, CARACTERIZADO pelo fato de que os metadados do objeto de áudio incluem pelo menos uma informação de orientação da fonte de 3 graus de liberdade (DoF) ou 6DoF que varia no tempo.
10. Método, de acordo com a reivindicação 8 ou reivindicação 9, CARACTERIZADO pelo fato de que o sinal de áudio do núcleo compreende uma pluralidade de objetos direcionais com base em um conjunto de objetos e em que o padrão de radiação decodificado é representativo de um centroide que reflete um valor médio para cada banda de frequência.
11. Método, de acordo com qualquer uma das reivindicações 8 a 10, CARACTERIZADO pelo fato de que a renderização se baseia na aplicação de ganhos de sub-banda com base, pelo menos em parte, nos dados de radiação decodificados, ao sinal de áudio do núcleo decodificado.
12. Método, de acordo com qualquer uma das reivindicações 8 a 11, CARACTERIZADO pelo fato de que o padrão de metadados de radiação codificado corresponde a um conjunto variável de tempo e frequência de coeficientes harmônicos esféricos.
13. Método, de acordo com qualquer uma das reivindicações 8 a 12, CARACTERIZADO pelo fato de que o padrão de metadados de radiação codificado compreende metadados do tipo de objeto de áudio.
14. Método, de acordo com a reivindicação 13, CARACTERIZADO pelo fato de que os metadados do tipo de objeto de áudio indicam dados do padrão de diretividade paramétrica e em que os dados do padrão de diretividade paramétrica incluem uma ou mais funções selecionadas de uma lista de funções que consiste em uma função cosseno, uma função senoidal ou uma função cardioide.
15. Método, de acordo com a reivindicação 13, CARACTERIZADO pelo fato de que os metadados do tipo de objeto de áudio indicam dados do padrão de diretividade do banco de dados e em que a decodificação do padrão de metadados de radiação codificado para determinar o padrão de radiação decodificado compreende consulta a uma estrutura de dados de diretividade que inclui tipos de objetos de áudio e dados correspondentes do padrão de diretividade.
16. Método, de acordo com a reivindicação 13, CARACTERIZADO pelo fato de que os metadados do tipo de objeto de áudio indicam dados do padrão de diretividade dinâmica e em que os dados do padrão de diretividade dinâmica correspondem a um conjunto variável de tempo e frequência de coeficientes harmônicos esféricos.
17. Método, de acordo com a reivindicação 16, CARACTERIZADO pelo fato de que compreende ainda receber os dados do padrão de diretividade dinâmica antes de receber o sinal de áudio do núcleo codificado.
18. Aparelho de decodificação de áudio, CARACTERIZADO pelo fato de que compreende: um sistema de interface; e um sistema de controle configurado para: receber, através do sistema de interface, dados de áudio correspondentes a pelo menos um objeto de áudio, os dados de áudio incluindo um sinal de áudio monofônico, metadados de posição do objeto de áudio, metadados de tamanho de objeto de áudio e um parâmetro de renderização; determinar se o parâmetro de renderização indica um modo posicional ou um modo de diretividade; e, ao determinar que o parâmetro de renderização indica um modo de diretividade, renderizar os dados de áudio para reprodução via pelo menos um alto-falante de acordo com um padrão de diretividade indicado por pelo menos um dos metadados posicionais ou de tamanho.
19. Aparelho, de acordo com a reivindicação 18, CARACTERIZADO pelo fato de que a renderização dos dados de áudio compreende a interpretação dos metadados de posição do objeto de áudio como metadados de orientação do objeto de áudio.
20. Aparelho, de acordo com a reivindicação 19, CARACTERIZADO pelo fato de que os metadados de posição do objeto de áudio compreendem pelo menos um dos dados de coordenadas x, y, z, dados de coordenadas esféricas ou dados de coordenadas cilíndricas e em que os metadados de orientação do objeto de áudio compreendem dados de guinada, inclinação e rotação.
21. Aparelho, de acordo com qualquer uma das reivindicações 18 a 20, CARACTERIZADO pelo fato de que a renderização dos dados de áudio compreende a interpretação dos metadados de tamanho de objeto de áudio como metadados de diretividade que correspondem ao padrão de diretividade.
22. Aparelho, de acordo com qualquer uma das reivindicações 18 a 21, CARACTERIZADO pelo fato de que a renderização dos dados de áudio compreende a consulta de uma estrutura de dados que inclui uma pluralidade de padrões de diretividade e o mapeamento de pelo menos um dos metadados posicionais ou metadados de tamanho para um ou mais dos padrões de diretividade.
23. Aparelho, de acordo com a reivindicação 22, CARACTERIZADO pelo fato de que o sistema de controle está configurado para receber, através do sistema de interface, a estrutura de dados.
24. Aparelho, de acordo com a reivindicação 23, CARACTERIZADO pelo fato de que a estrutura de dados é recebida antes dos dados de áudio.
25. Aparelho, de acordo com qualquer uma das reivindicações 18 a 24, CARACTERIZADO pelo fato de que os dados de áudio são recebidos no formato Dolby Atmos.
26. Aparelho, de acordo com qualquer uma das reivindicações 18 a 25, CARACTERIZADO pelo fato de que os metadados de posição do objeto de áudio correspondem às coordenadas mundiais ou coordenadas do modelo.
BR112020016912-9A 2018-04-16 2019-04-15 Métodos, aparelhos e sistemas para codificação e decodificação de fontes de som direcionais BR112020016912A2 (pt)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201862658067P 2018-04-16 2018-04-16
US62/658,067 2018-04-16
US201862681429P 2018-06-06 2018-06-06
US62/681,429 2018-06-06
US201862741419P 2018-10-04 2018-10-04
US62/741,419 2018-10-04
PCT/US2019/027503 WO2019204214A2 (en) 2018-04-16 2019-04-15 Methods, apparatus and systems for encoding and decoding of directional sound sources

Publications (1)

Publication Number Publication Date
BR112020016912A2 true BR112020016912A2 (pt) 2020-12-15

Family

ID=66323991

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112020016912-9A BR112020016912A2 (pt) 2018-04-16 2019-04-15 Métodos, aparelhos e sistemas para codificação e decodificação de fontes de som direcionais

Country Status (7)

Country Link
US (2) US11315578B2 (pt)
EP (1) EP3782152A2 (pt)
JP (2) JP7321170B2 (pt)
KR (1) KR20200141981A (pt)
CN (1) CN111801732A (pt)
BR (1) BR112020016912A2 (pt)
WO (1) WO2019204214A2 (pt)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112259110B (zh) * 2020-11-17 2022-07-01 北京声智科技有限公司 音频编码方法及装置、音频解码方法及装置
US11646046B2 (en) * 2021-01-29 2023-05-09 Qualcomm Incorporated Psychoacoustic enhancement based on audio source directivity
US20240155304A1 (en) * 2021-05-17 2024-05-09 Dolby International Ab Method and system for controlling directivity of an audio source in a virtual reality environment
WO2023051708A1 (zh) * 2021-09-29 2023-04-06 北京字跳网络技术有限公司 用于空间音频渲染的系统、方法和电子设备
US11716569B2 (en) 2021-12-30 2023-08-01 Google Llc Methods, systems, and media for identifying a plurality of sets of coordinates for a plurality of devices

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7644003B2 (en) 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
WO2007106399A2 (en) 2006-03-10 2007-09-20 Mh Acoustics, Llc Noise-reducing directional microphone array
US7624021B2 (en) * 2004-07-02 2009-11-24 Apple Inc. Universal container for audio data
EP2249334A1 (en) 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
US9165558B2 (en) 2011-03-09 2015-10-20 Dts Llc System for dynamically creating and rendering audio objects
TW202339510A (zh) * 2011-07-01 2023-10-01 美商杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
WO2013184215A2 (en) 2012-03-22 2013-12-12 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for simulating sound propagation in large scenes using equivalent sources
UA114793C2 (uk) * 2012-04-20 2017-08-10 Долбі Лабораторіс Лайсензін Корпорейшн Система та спосіб для генерування, кодування та представлення даних адаптивного звукового сигналу
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9516446B2 (en) * 2012-07-20 2016-12-06 Qualcomm Incorporated Scalable downmix design for object-based surround codec with cluster analysis by synthesis
US9489954B2 (en) 2012-08-07 2016-11-08 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
US9609452B2 (en) * 2013-02-08 2017-03-28 Qualcomm Incorporated Obtaining sparseness information for higher order ambisonic audio renderers
US9685163B2 (en) 2013-03-01 2017-06-20 Qualcomm Incorporated Transforming spherical harmonic coefficients
US9412385B2 (en) * 2013-05-28 2016-08-09 Qualcomm Incorporated Performing spatial masking with respect to spherical harmonic coefficients
DE102013223201B3 (de) * 2013-11-14 2015-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Komprimieren und Dekomprimieren von Schallfelddaten eines Gebietes
CN110827839B (zh) 2014-05-30 2023-09-19 高通股份有限公司 用于渲染高阶立体混响系数的装置和方法
US9712936B2 (en) 2015-02-03 2017-07-18 Qualcomm Incorporated Coding higher-order ambisonic audio data with motion stabilization
JP6905824B2 (ja) 2016-01-04 2021-07-21 ハーマン ベッカー オートモーティブ システムズ ゲーエムベーハー 非常に多数のリスナのための音響再生
CA3219540A1 (en) * 2017-10-04 2019-04-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding

Also Published As

Publication number Publication date
CN111801732A (zh) 2020-10-20
JP2023139188A (ja) 2023-10-03
EP3782152A2 (en) 2021-02-24
US20210118452A1 (en) 2021-04-22
KR20200141981A (ko) 2020-12-21
US11315578B2 (en) 2022-04-26
WO2019204214A2 (en) 2019-10-24
JP7321170B2 (ja) 2023-08-04
RU2020127190A3 (pt) 2022-02-14
US20220328052A1 (en) 2022-10-13
US11887608B2 (en) 2024-01-30
JP2021518923A (ja) 2021-08-05
RU2020127190A (ru) 2022-02-14
WO2019204214A3 (en) 2019-11-28

Similar Documents

Publication Publication Date Title
BR112020016912A2 (pt) Métodos, aparelhos e sistemas para codificação e decodificação de fontes de som direcionais
JP6284955B2 (ja) 仮想スピーカーを物理スピーカーにマッピングすること
CN104471640B (zh) 基于对象的环绕声编码解码器的具有反馈的可缩放降混设计
CN113316943B (zh) 再现空间扩展声源的设备与方法、或从空间扩展声源生成比特流的设备与方法
TWI651973B (zh) 以保真立體音響格式所編碼聲訊訊號為l揚聲器在已知位置之解碼方法和裝置以及電腦可讀式儲存媒體
ES2738490T3 (es) Especificación de coeficientes ambisónicos de orden superior y/o armónicos esféricos en flujos de bits
CN109891503B (zh) 声学场景回放方法和装置
BR112013029850B1 (pt) sistema de áudio e método de operação de um sistema de áudio
Chaitanya et al. Directional sources and listeners in interactive sound propagation using reciprocal wave field coding
CN115280800A (zh) 再现空间扩展声源的装置和方法或使用锚定信息生成空间扩展声源的描述的装置和方法
Martellotta Optimizing stepwise rotation of dodecahedron sound source to improve the accuracy of room acoustic measures
KR102284811B1 (ko) 인코히어런트 멱등 앰비소닉스 렌더링
RU2772227C2 (ru) Способы, аппараты и системы кодирования и декодирования направленных источников звука
JP2023551040A (ja) オーディオの符号化及び復号方法及び装置

Legal Events

Date Code Title Description
B350 Update of information on the portal [chapter 15.35 patent gazette]