BR122020021378B1 - Método, aparelho incluindo um sistema de renderização de áudio e meio não transitório de processamento de objetos de áudio espacialmente difusos ou grandes - Google Patents

Método, aparelho incluindo um sistema de renderização de áudio e meio não transitório de processamento de objetos de áudio espacialmente difusos ou grandes Download PDF

Info

Publication number
BR122020021378B1
BR122020021378B1 BR122020021378-7A BR122020021378A BR122020021378B1 BR 122020021378 B1 BR122020021378 B1 BR 122020021378B1 BR 122020021378 A BR122020021378 A BR 122020021378A BR 122020021378 B1 BR122020021378 B1 BR 122020021378B1
Authority
BR
Brazil
Prior art keywords
audio
audio object
signals
metadata
decorrelation
Prior art date
Application number
BR122020021378-7A
Other languages
English (en)
Inventor
Dirk Jeroen Breebaart
Lie Lu
Nicolas R. Tsingos
Antonio Mateos Sole
Original Assignee
Dolby International Ab
Dolby Laboratories Licensing Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International Ab, Dolby Laboratories Licensing Corporation filed Critical Dolby International Ab
Publication of BR122020021378B1 publication Critical patent/BR122020021378B1/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic

Abstract

A presente invenção refere-se a objetos de áudio difusos ou espacial-mente grandes que podem ser identificados para um processamento es-pecial. Um processo de descorrelação pode ser executado em sinais de áudio correspondentes a objetos de áudio grandes, para a produção de objetos de áudio descorrelacionados. Estes sinais de áudio de objeto de áudio grande descorrelacionados podem ser associados a localizações de objeto, as quais podem ser localizações estacionárias ou que variam no tempo. Por exemplo, os sinais de áudio de objeto de áudio grande descorrelacionados podem ser renderizados para localização de armazenamento de alto-falante virtual ou real. A saída de um processo de renderização como esse pode ser introduzida em um processo de simplificação de cena. Os processos de descorrelação, associação e/ou simplificação de cena podem ser executados antes de um processo de codificação de dados de áudio.

Description

Dividido do BR112016001738-2 depositado em 24 de julho de 2014. REFERÊNCIA CRUZADA A PEDIDOS RELACIONADOS
[001] Este pedido reivindica prioridade para o Pedido de Patente Espanhol N° P201221193, depositado em 31 de julho de 2013 e para o Pedido Provisório U.S. Número 61/885.805, depositado em 2 de outubro de 2013, cada um incorporado aqui como referência em sua totalidade.
CAMPO TÉCNICO
[002] Esta exposição refere-se ao processamento de dados de áudio. Em particular, esta exposição refere-se ao processamento de dados de áudio correspondentes a objetos de áudio difusos ou espacialmente grandes.
ANTECEDENTES
[003] Desde a introdução de som com filmes em 1927, houve uma evolução permanente da tecnologia usada para a captura da intenção artística da trilha sonora do filme e para a reprodução deste conteúdo. Nos anos 1970, Dolby introduziu um meio efetivo em termos de custos de codificar e distribuir mixagens com 3 canais de tela e um canal surround mono. Dolby levou o som digital para o cinema durante os anos 1990 com um formato de canal 5.1, que provê canais de tela discretos esquerdo, central e direito, arranjos de surround esquerdo e direito e um canal de subwoofer para efeitos de frequência baixa. O Dolby Surround 7.1, introduzido em 2010, aumentou o número de canais de surround pela divisão dos canais de surround esquerdo e direito existentes em quatro "zonas".
[004] Ambos os sistemas de reexecução de áudio de cinema e home theater estão se tornando crescentemente versáteis e complexos. Os sistemas de reexecução de áudio de home theater estão incluindo números crescentes de alto-falantes. Conforme o número de canais aumenta e as transições de layout de alto-falante a partir de um arranjo bidimensional plano (2D) para um arranjo tridimensional (3D) incluindo elevação, a reprodução de sons e um ambiente de reexecu- ção está se tornando um processo crescentemente complexo. Métodos de processamento de áudio melhorados seriam desejáveis.
SUMÁRIO
[005] Os métodos melhorados para processamento de objetos de áudio difusos ou espacialmente grandes são providos. Conforme usado aqui, o termo "objeto de áudio" refere-se a sinais de áudio (também referidos como "sinais de objeto de áudio") e metadados associados que podem ser criados ou "escritos com autoria" sem referência a qualquer ambiente de reexecução em particular. Os metadados associados podem incluir dados de posição de objeto de áudio, dados de ganho de objeto de áudio, dados de tamanho de objeto de áudio, dados de trajetória de objeto de áudio, etc. Conforme usado aqui, o termo "renderização" refere-se a um processo de transformação de objetos de áudio em sinais de alimentação de alto-falante para um ambiente de reexecução em particular. Um processo de renderi- zação pode ser executado, pelo menos em parte, de acordo com os metadados associados e de acordo com os dados de ambiente de reexecução. Os dados de ambiente de reexecução podem incluir uma indicação de um número de alto-falantes em um ambiente de reexe- cução e uma indicação da localização de cada alto-falante no ambiente de reexecução.
[006] Não se pretende que um objeto de áudio espacialmente grande seja percebido como uma fonte de som pontual, mas, ao invés disso, deve ser percebido como cobrindo uma grande área espacial. Em alguns casos, um objeto de áudio grande deve ser percebido como circundando o ouvinte. Esses efeitos de áudio podem não ser obteníveis por balanço apenas, mas, ao invés disso, podem requerer um processamento adicional. De modo a se criar um tamanho de objeto de áudio convincente, ou difusividade, uma proporção significativa dos sinais de alto-falante em um ambiente de reexecução deve ser mutuamente independente, ou pelo menos ser não correlacionada (por exemplo, independente em termos de correlação cruzada de primeira ordem ou covariância). Um sistema de renderização suficientemente complexo, tal como um sistema de renderização para um teatro, pode ser capaz de prover essa descorrelação. Contudo, sistemas de rende- rização menos complexos, tais como aqueles pretendidos para siste-mas de home theater, podem não ser capazes de proverem uma des- correlação adequada.
[007] Algumas implementações descritas aqui podem envolver a identificação de objetos de áudio difusos ou espacialmente grandes para processamento especial. Um processo de descorrelação pode ser executado em sinais de áudio correspondentes aos objetos de áudio grandes para a produção de sinais de áudio de objeto de áudio grande descorrelacionados. Estes sinais de áudio de objeto de áudio grande descorrelacionados podem ser associados a localizações de objeto, as quais podem ser localizações estacionárias ou que variam no tempo. O processo de associação pode ser independente de uma configuração de alto-falante de reexecução real. Por exemplo, os sinais de áudio de objeto de áudio grande descorrelacionados podem ser renderizados para localizações de alto-falante virtual. Em algumas implementações, uma saída desse processo de renderização pode ser introduzida em um processo de simplificação de cena.
[008] Assim sendo, pelo menos alguns aspectos desta exposição podem ser implementados em um método que pode envolver a rende- rização de dados de áudio compreendendo objetos de áudio. Os objetos de áudio podem incluir sinais de objeto de áudio e metadados associados. Os metadados podem incluir pelo menos dados de tamanho de objeto de áudio.
[009] O método pode envolver a determinação, com base nos dados de tamanho de objeto de áudio, de um objeto de áudio grande tendo um tamanho de objeto de áudio que seja maior do que um tamanho de limite e a execução de um processo de descorrelação em sinais de áudio do objeto de áudio grande para a produção de sinais de áudio de objeto de áudio grande descorrelacionados. O método pode envolver a associação dos sinais de áudio de objeto de áudio grande descorrelacionados com localizações de objeto. O processo de associação pode ser independente de uma configuração de alto-falante de reexecução real. A configuração de alto-falante de reexecução real pode eventualmente ser usada para a renderização dos sinais de áudio de objeto de áudio grande descorrelacionados para alto-falantes de um ambiente de reexecução.
[0010] O método pode envolver o recebimento de metadados de descorrelação para o objeto de áudio grande. O processo de descorre- lação pode ser executado, pelo menos em parte, de acordo com os metadados de descorrelação. O método pode envolver a codificação de dados de áudio extraídos a partir do processo de associação. Em algumas implementações, o processo de codificação pode não envolver a codificação dos metadados de descorrelação para o objeto de áudio grande.
[0011] As localizações de objeto podem incluir localizações correspondentes a pelo menos alguns dos dados de posição de objeto de áudio dos objetos de áudio recebidos. Pelo menos algumas das localizações de objeto podem ser estacionárias. Contudo, em algumas implementações, pelo menos algumas das localizações de objeto podem variar ao longo do tempo.
[0012] O processo de associação pode envolver a renderização dos sinais de áudio de objeto de áudio grande descorrelacionados de acordo com localizações de alto-falante virtual. Em alguns exemplos, o processo de recebimento pode envolver o recebimento de um ou mais sinais de base de áudio correspondentes a localizações de alto- falante. O método pode envolver a mixagem dos sinais de áudio de objeto de áudio grande descorrelacionados com pelo menos alguns dos sinais de base de áudio recebidos ou dos sinais de objeto de áudio recebidos. O método pode envolver a extração dos sinais de áudio de objeto de áudio grande descorrelacionados como sinais de base de áudio adicionais ou sinais de objeto de áudio.
[0013] O método pode envolver a aplicação de um processo de ajuste de nível aos sinais de áudio de objeto de áudio grande descor- relacionados. Em algumas implementações, os metadados de objeto de áudio grande podem incluir metadados de posição de objeto de áudio, e o processo de ajuste de nível pode depender, pelo menos em parte, dos metadados de tamanho de objeto de áudio e dos metadados de posição de objeto de áudio do objeto de áudio grande.
[0014] O método pode envolver a atenuação ou o apagamento dos sinais de áudio do objeto de áudio grande após o processo de descor- relação ser realizado. Contudo, em algumas implementações, o método pode envolver a retenção dos sinais de áudio correspondentes a uma contribuição de fonte pontual do objeto de áudio grande, após o processo de descorrelação ser realizado.
[0015] Os metadados de objeto de áudio grande podem incluir metadados de posição de objeto de áudio. Em algumas implementações como essa, o método pode envolver a computação de contribuições a partir de fontes virtuais em uma área ou um volume de objeto de audio definido pelos dados de posição de objeto de áudio grande e pelos dados de tamanho de objeto de áudio grande. O método também pode envolver a determinação de um conjunto de valores de ganho de objeto de áudio para cada um da pluralidade de canais de saída com base, pelo menos em parte, nas contribuições computadas. O método pode envolver a mixagem de sinais de áudio de objeto de áudio grande des- correlacionados com sinais de áudio para os objetos de áudio que estejam espacialmente separados por uma quantidade limite de distância a partir do objeto de áudio grande.
[0016] Em algumas implementações, o método pode envolver a execução de um processo de agrupamento de objeto de áudio após o processo de descorrelação. Em algumas implementações como essa, o processo de agrupamento de objeto de áudio pode ser executado após o processo de associação.
[0017] O método pode envolver a avaliação dos dados de áudio para a determinação do tipo de conteúdo. Em algumas implementações como essas, o processo de descorrelação pode ser seletivamente executado de acordo com o tipo de conteúdo. Por exemplo, uma quantidade de descorrelação a ser executada pode depender do tipo de conteúdo. O processo de descorrelação pode envolver atrasos, filtros de passa tudo, filtros pseudorrandômicos e/ou algoritmos de reverberação.
[0018] Os métodos expostos aqui podem ser implementados via um hardware, um firmware, um software armazenado em um ou mais meios não transitórios e/ou combinações dos mesmos. Por exemplo, pelo menos alguns aspectos desta exposição podem ser implementados em um aparelho que inclua um sistema de interface e um sistema lógico. O sistema de interface pode incluir uma interface de usuário e/ou uma interface de rede. Em algumas implementações, o aparelho pode incluir um sistema de memória. O sistema de interface pode incluir pelo menos uma interface entre o sistema lógico e o sistema de memória.
[0019] O sistema lógico pode incluir pelo menos um processador, tal como um processador de chip único ou múltiplo de finalidade geral, um processador de sinal digital (DSP), um circuito integrado específico de aplicação (ASIC), um arranjo de porta programável no campo (FPGA) ou outro dispositivo lógico programável, uma porta discreta ou lógica de transistor, componentes de hardware discretos, ou combinações dos mesmos.
[0020] Em algumas implementações, o sistema lógico pode ser capaz de receber, através do sistema de interface, dados de áudio compreendendo objetos de áudio. Os objetos de áudio podem incluir sinais de objeto de áudio e metadados associados. Em algumas implementações, os metadados incluem pelo menos dados de tamanho de objeto de áudio. O sistema lógico pode ser capaz de determinar, com base nos dados de tamanho de objeto de áudio, um objeto de áudio grande tendo um tamanho de objeto de áudio que seja maior do que um tamanho de limite e de executar um processo de descorrela- ção em sinais de áudio do objeto de áudio grande para a produção de sinais de áudio de objeto de áudio grande descorrelacionados. O sistema lógico pode ser capaz de associar os sinais de áudio de objeto de áudio grande descorrelacionados às localizações de objeto.
[0021] O processo de associação pode ser independente de uma configuração de alto-falante de reexecução real. Por exemplo, o processo de associação pode envolver a renderização dos sinais de áudio de objeto de áudio grande descorrelacionados de acordo com localizações de alto-falante virtual. A configuração de alto-falante de reexecu- ção real pode eventualmente ser usada para a renderização dos sinais de áudio de objeto de áudio grande descorrelacionados para alto- falantes de um ambiente de reexecução.
[0022] O sistema lógico pode ser capaz de receber, através do sis-tema de interface, metadados de descorrelação para o objeto de áudio grande. O processo de descorrelação pode ser executado, pelo menos em parte, de acordo com os metadados de descorrelação.
[0023] O sistema lógico pode ser capaz de decodificar os dados de áudio extraídos a partir do processo de associação. Em algumas implementações, o processo de codificação pode não envolver a codificação de metadados de descorrelação para o objeto de áudio grande.
[0024] Pelo menos algumas localizações de objeto podem ser estacionárias. Contudo, pelo menos algumas das localizações de objeto podem variar ao longo do tempo. Os metadados de objeto de áudio grande podem incluir metadados de posição de objeto de áudio. As localizações de objeto podem incluir localizações correspondentes a pelo menos alguns dos metadados de posição de objeto de áudio dos objetos de áudio recebidos.
[0025] O processo de recebimento pode envolver o recebimento de um ou mais sinais de base de áudio correspondentes a localizações de alto-falante. O sistema lógico pode ser capaz de mixar os sinais de áudio de objeto de áudio grande descorrelacionados com pelo menos alguns dos sinais de base de áudio recebidos ou dos sinais de objeto de áudio recebidos. O sistema lógico pode ser capaz de extrair os sinais de áudio de objeto de áudio grande descorrelacionados como sinais de base de áudio adicionais ou sinais de objeto de áudio.
[0026] O sistema lógico pode ser capaz de aplicar um processo de ajuste de nível aos sinais de áudio de objeto de áudio grande descorre- lacionados. O processo de ajuste de nível pode depender, pelo menos em parte, dos metadados de tamanho de objeto de áudio e dos metadados de posição de objeto de áudio do objeto de áudio grande.
[0027] O sistema lógico pode ser capaz de atenuar ou apagar os sinais de áudio do objeto de áudio grande, após o processo de descorre-lação ser realizado. Contudo, o aparelho pode ser capaz de reter sinais de áudio correspondentes a uma contribuição de fonte pontual do objeto de áudio grande, após o processo de descorrelação ser realizado.
[0028] O sistema lógico pode ser capaz de computar contribuições a partir de fontes virtuais em uma área ou um volume de objeto de áudio definido pelos dados de posição de objeto de áudio grande e pelos dados de tamanho de objeto de áudio grande. O sistema lógico pode ser capaz de determinar um conjunto de valores de ganho de objeto de áudio para cada um da pluralidade de canais de saída, com base, pelo menos em parte, em contribuições computadas. O sistema lógico pode ser capaz de mixar os sinais de áudio de objeto de áudio grande descorrelacionados com sinais de áudio para objetos de áudio que sejam espacialmente separados por uma quantidade de limite de distância a partir do objeto de áudio grande.
[0029] O sistema lógico pode ser capaz de executar um processo de agrupamento de objeto de áudio após o processo de descor- relação. Em algumas implementações, o processo de agrupamento de objeto de áudio pode ser executado após o processo de associação.
[0030] O sistema lógico pode ser capaz de avaliar os dados de áudio para determinar o tipo de conteúdo. O processo de descorrela- ção pode ser seletivamente executado de acordo com o tipo de conteúdo. Por exemplo, uma quantidade de descorrelação a ser executada depende do tipo de conteúdo. O processo de descorrelação pode envolver atrasos, filtros de passa tudo, filtros pseudorrandômicos e/ou algoritmos de reverberação.
[0031] Os detalhes de uma ou mais implementações do assunto descrito neste relatório descritivo são estabelecidos nos desenhos associados e na descrição abaixo. Outros recursos, aspectos e vantagens tornar-se-ão evidentes a partir da descrição, dos desenhos e das reivindicações. Note que as dimensões relativas das Figuras a seguir podem não estar desenhadas em escala.
BREVE DESCRIÇÃO DOS DESENHOS
[0032] A Figura 1 mostra um exemplo de um ambiente de reexe- cução tendo uma configuração de Dolby Surround 5.1.
[0033] A Figura 2 mostra um exemplo de um ambiente de reexe- cução que tem uma configuração de Dolby Surround 7.1.
[0034] As Figuras 3A e 3B ilustram dois exemplos de ambientes de reexecução que incluem configurações de alto-falante em altura.
[0035] A Figura 4A mostra um exemplo de uma interface gráfica de usuário (GUI) que retrata zonas de alto-falante em elevações variáveis em um ambiente de reexecução virtual.
[0036] A Figura 4B mostra um exemplo de um outro ambiente de reexecução.
[0037] A Figura 5 é um fluxograma que provê um exemplo de processamento de áudio para objetos de áudio espacialmente grandes.
[0038] As Figuras 6A a 6F são diagramas de blocos que ilustram exemplos de componentes de um aparelho de processamento de áudio capaz de processar objetos de áudio grandes.
[0039] A Figura 7 é um diagrama de blocos que mostra um exemplo de um sistema capaz de executar um processo de agrupamento.
[0040] A Figura 8 é um diagrama de blocos que ilustra um exemplo de um sistema capaz de agrupar objetos e/ou bases em um sistema de processamento de áudio adaptativo.
[0041] A Figura 9 é um diagrama de blocos que provê um exemplo de processo de agrupamento seguindo-se a um processo de descorrelação para objetos de áudio grandes.
[0042] A Figura 10A mostra um exemplo de localizações de fonte virtuais em relação a um ambiente de reexecução.
[0043] A Figura 10B mostra um exemplo alternativo de localizações de fonte virtuais em relação a um ambiente de reexecução.
[0044] A Figura 11 é um diagrama de blocos que provê exemplos de componentes de um aparelho de processamento de áudio.
[0045] Números de referência iguais e designações nos vários desenhos indicam elementos iguais.
DESCRIÇÃO DE MODALIDADES DE EXEMPLO
[0046] A descrição a seguir é dirigida a certas implementações para fins de descrição de alguns aspectos inovadores desta exposição, bem como exemplos de contextos nos quais estes aspectos inovadores podem ser implementados. Contudo, os ensinamentos aqui podem ser aplicados de várias formas diferentes. Por exemplo, embora várias implementações sejam descritas em termos de ambientes de reexecu- ção em particular, os ensinamentos aqui são amplamente aplicáveis a outros ambientes de reexecução conhecidos, bem como a ambientes de reexecução que possam ser introduzidos no futuro. Mais ainda, as implementações descritas podem ser implementadas, pelo menos em parte, em vários dispositivos e sistemas, como em sistemas de hardware, de software, firmware, baseados em nuvem, etc. Assim sendo, os ensinamentos desta exposição não são pretendidos para serem limitados às implementações mostradas nas Figuras e/ou descritas aqui, mas, ao invés disso, têm ampla aplicabilidade.
[0047] A Figura 1 mostra um exemplo de um ambiente de reexe- cução que tem uma configuração de Dolby Surround 5.1. Neste exemplo o ambiente de reexecução é um ambiente de reexecução de cinema. O Dolby Surround 5.1 foi desenvolvido nos anos 1990, mas esta configuração ainda é amplamente empregada em ambientes de ree- xecução de casas e cinema. Em um ambiente de reexecução de cinema, um projetor 105 pode ser configurado para a projeção de imagens de vídeo, por exemplo, para um filme, em uma tela 150. Os da-dos de áudio podem ser sincronizados com as imagens de vídeo e processados pelo processador de som 110. Os amplificadores de potência 115 podem prover sinais de alimentação de alto-falante para os alto-falantes do ambiente de reexecução 100.
[0048] A configuração de Dolby Surround 5.1 inclui um canal de surround esquerdo 120 para o arranjo de surround esquerdo 122 e um canal de surround direito 125 para o arranjo de surround 127. A configuração de Dolby Surround 5.1 também inclui um canal esquerdo 130 para o arranjo de alto-falante esquerdo 132, um canal central 135 para o arranjo de alto-falante central 137 e um canal direito 140 para o arranjo de alto-falante direito 142. Em um ambiente de cinema, estes canais podem ser referidos como um canal de tela esquerdo, um canal de tela central e um canal de tela direito, respectivamente. Um canal de efeitos de frequência baixa (LFE) separado 144 é provido para o subwoofer 145.
[0049] Em 2010, Dolby proveu melhoramentos para o som de cinema digital pela introdução de Dolby Surround 7.1. A Figura 2 mostra um exemplo de um ambiente de reexecução tendo uma configuração de Dolby Surround 7.1. Um projetor digital 205 pode ser configurado para o recebimento de dados de vídeo digital e para a projeção de imagens de vídeo na tela 150. Os dados de áudio podem ser processados pelo processador de som 210. Os amplificadores de potência 215 podem prover sinais de alimentação de alto-falante para os alto- falantes do ambiente de reexecução 200.
[0050] Como o Dolby Surround 5.1, a configuração do Dolby Surround 7.1 inclui um canal esquerdo 130 para o arranjo de alto-falante esquerdo 132, um canal central 135 para o arranjo de alto-falante central 137 e um canal direito 140 para o arranjo de alto-falante direito 142, e um canal de LFE 144 para o subwoofer 145. A configuração de Dolby Surround 7.1 inclui um arranjo de surround de lado esquerdo (Lss) 220 e um arranjo de surround de lado direito (Rss) 225, cada m dos quais podendo ser comandados por um canal único.
[0051] Contudo, o Dolby Surround 7.1 aumenta o número de canais de surround pela divisão dos canais de surround esquerdo e direito do Dolby Surround 5.1 em quatro zonas: além do arranjo de surround de lado esquerdo 220 e do arranjo de surround de lado direito 225, canais separados são incluídos para os alto-falantes de surround traseiro esquerdo (Lrs) 224 e os alto-falantes de surround traseiro direito (Rrs) 226. O aumento do número de zonas de surround no ambiente de reexecução 200 pode melhorar significativamente a localização do som.
[0052] Em um esforço para a criação de um ambiente de maior imersão, alguns ambientes de reexecução podem ser configurados com números aumentados de alto-falantes, comandados por números aumentados de canais. Mais ainda, alguns ambientes de reexecução podem incluir alto-falantes empregados em várias elevações, algumas das quais podendo ser "alto-falantes em altura" configurados para a produção de som a partir de uma área acima de uma área de assentos do ambiente de reexecução.
[0053] As Figuras 3A e 3B ilustram dois exemplos de ambientes de reexecução de home theater que incluem configurações de alto- falante em altura. Nestes exemplos, os ambientes de reexecução 300a e 300b incluem os recursos principais de uma configuração de Dolby Surround 5.1, incluindo um alto-falante de surround esquerdo 322, um alto-falante de surround direito 327, um alto-falante esquerdo 332, um alto-falante direito 342, um alto-falante central 337 e um subwoofer 145. Contudo, o ambiente de reexecução 300 inclui uma extensão da configuração de Dolby Surround 5.1 para alto-falantes em altura, a qual pode ser referida como uma configuração Dolby Surround 5.1.2.
[0054] A Figura 3A ilustra um exemplo de um ambiente de reexe-cução que tem alto-falantes em altura montados em um teto 360 de um ambiente de reexecução de home theater. Neste exemplo, o ambiente de reexecução 300a inclui um alto-falante em altura 352 que está na posição média de topo esquerdo (Ltm) e um alto-falante em altura 357 que está em uma posição média de topo direita (Rtm). No exemplo mostrado na Figura 3B, o alto-falante esquerdo 332 e o alto-falante direito 342 são alto-falantes de Elevação Dolby que são configurados para refletirem o som a partir do teto 360. Se apropriadamente configurado, o som refletido pode ser percebido pelos ouvintes 365 como se a fonte de som se originasse do teto 360. Contudo, o número e a configuração de alto-falantes são meramente providos para fins de exemplo. Essas implementações atuais de home theater podem permitir ainda mais posições de alto-falante.
[0055] Assim sendo, a tendência moderna é incluir não apenas mais alto-falantes e mais canais, mas também incluir alto-falantes em alturas diferentes. Conforme o número de canais aumenta e o layout de alto-falante faz uma transição de 2D para 3D, as tarefas de posicionamento e renderização de sons se tornam crescentemente difíceis.
[0056] Assim sendo, Dolby desenvolveu várias ferramentas incluindo, mas não limitando, interfaces de usuário, as quais aumentam a funcionalidade e/ou reduzem a complexidade de autoria para um sistema de som de áudio 3D. Algumas dessas ferramentas podem ser usadas para a criação de objetos de áudio e/ou metadados para objetos de áudio.
[0057] A Figura 4A mostra um exemplo de uma interface gráfica de usuário (GUI) que retrata zonas de alto-falante em elevações variá-veis em um ambiente de reexecução virtual. A GUI 400 pode ser exibida, por exemplo, em um dispositivo de exibição de acordo com instru-ções a partir de um sistema lógico, de acordo com sinais recebidos a partir de dispositivos de entrada de usuário, etc. Alguns desses dispositivos são descritos abaixo com referência à Figura 11.
[0058] Conforme usado aqui, com referência a ambientes de ree- xecução virtuais, tal como o ambiente de reexecução virtual 404, o termo "zona de alto-falante" refere-se geralmente a uma construção lógica que pode ou não ter uma correspondência de um para um com um sistema de fechamento de um ambiente de reexecução real. Por exemplo, uma "localização de zona de alto-falante" pode ou não corresponder a uma localização de alto-falante em particular de um ambiente de reexecução de cinema. Ao invés disso, os termos "localização de zona de alto-falante" podem se referir geralmente a uma zona de um ambiente de reexecução virtual. Em algumas implementações, uma zona de alto-falante de um ambiente de reexecução virtual pode corresponder a um alto-falante virtual, por exemplo, através do uso de uma tecnologia de virtualização, tal como Dolby Headphone™ (referida às vezes como Mobile Surround™), o que cria um ambiente de som surround virtual em tempo real usando um conjunto de fones de ouvido estéreo de dois canais. Na GUI 400, há sete zonas de alto-falante 402a em uma primeira elevação e duas zonas de alto-falante 402b em uma segunda elevação, perfazendo um total de nove zonas de alto- falante no ambiente de reexecução virtual 404. Neste exemplo, as zonas de alto-falante 1 a 3 estão na área dianteira 405 do ambiente de reexecução virtual 404. A área dianteira 405 pode corresponder, por exemplo, a uma área de um ambiente de reexecução de cinema no qual uma tela 150 está localizada, a uma área de uma casa na qual uma tela de televisão está localizada, etc.
[0059] Aqui, a zona de alto-falante 4 corresponde geralmente a alto-falantes na área esquerda 410 e a zona de alto-falante 5 corresponde a alto-falantes na área direita 415 do ambiente de reexecução virtual 404. A zona de alto-falante 6 corresponde a uma área traseira esquerda 412 e a zona de alto-falante 7 corresponde a uma área traseira direita 414 do ambiente de reexecução virtual 404. A zona de alto-falante 8 corresponde a alto-falantes em uma área superior 420 e a zona de alto-falante 9 corresponde a alto-falantes em uma zona superior 420b, a qual pode ser uma área de teto virtual. Assim sendo, as localizações das zonas de alto-falante 1 a 9 que são mostradas na Figura 4A podem ou não corresponder às localizações dos alto-falantes de um ambiente de reexecução real. Mais ainda, outras implementações podem incluir mais ou menos zonas de alto-falante e/ou elevações.
[0060] Em várias implementações descritas aqui, uma interface de usuário, tal como a GUI 400 pode ser usada como parte de uma ferramenta de autoria e/ou uma ferramenta de renderização. Em algumas implementações, a ferramenta de autoria e/ou a ferramenta de rende- rização podem ser implementadas via um software armazenado em um ou mais meios não transitórios. A ferramenta de autoria e/ou a ferramenta de renderização podem ser implementadas (pelo menos em parte) por um hardware, um firmware, etc., tais como o sistema lógico e outros dispositivos descritos abaixo com referência à Figura 11. Em algumas implementações de autoria, uma ferramenta de autoria associada pode ser usada para a criação de metadados para dados de áudio associados. Os metadados podem incluir, por exemplo, dados indicando a posição e/ou a trajetória de um objeto de áudio em um espaço tridimensional, dados de restrição de zona de alto-falante, etc. Os metadados podem ser criados com respeito às zonas de alto-falante 402 do ambiente de reexecução virtual 404, ao invés de com respeito a um layout de alto-falante em particular de um ambiente de reexecução real. Uma ferramenta de renderização pode receber dados de áudio e metadados associados, e pode computar ganhos de áudio e sinais de alimentação de alto-falante para um ambiente de reexecução. Esses ganhos de áudio e sinais de alimentação de alto-falante podem ser computados de acordo com um processo de balanço de amplitude, o que pode criar uma percepção que um som está vindo a partir de uma posição P no ambiente de reexecução. Por exemplo, os sinais de alimentação de alto-falante podem ser providos para os alto-falantes 1 a N do ambiente de reexecução, de acordo com a equação a seguir:
[0061] Na equação 1, xi(t) representa o sinal de alimentação de alto-falante a ser aplicado ao alto-falante i, gi representa o fator de ganho do canal correspondente, x(t) representa o sinal de áudio e t representa o tempo. Os fatores de ganho podem ser determinados, por exemplo, de acordo com os métodos de balanço de amplitude descritos na Seção 2, páginas 3-4 de V. Pulkki, Compensating Displacement of Amplitude-Panned Virtual Sources (Audio Engineering Society (AES) International Conference on Virtual, Synthetic and Entertainment Audio), o que é desse modo incorporado como referência. Em algumas implementações, os ganhos podem ser dependentes de frequência. Em algumas implementações, um atraso de tempo pode ser introduzido pela substituição de x(t) por x(t-Δt).
[0062] Em algumas implementações de renderização, os dados de reprodução de áudio criados com referência às zonas de alto-falante 402 podem ser mapeados para localizações de alto-falante de uma ampla faixa de ambientes de reexecução, os quais podem estar em uma configuração de Dolby Surround 5.1, uma configuração de Dolby Surround 7.1, uma configuração de Hamasaki 22.2 ou em uma outra configuração. Por exemplo, com referência à Figura 2, uma ferramenta de renderização pode mapear dados de reprodução de áudio para as zonas de alto-falante 4 e 5 para o arranjo de surround de lado esquer-do 220 e o arranjo de surround de lado direito 225 de um ambiente de reexecução tendo uma configuração de Dolby Surround 7.1. Os dados de reprodução de áudio para as zonas de alto-falante 1, 2 e 3 podem ser mapeados para o canal de tela esquerdo 230, o canal de tela direito 240 e o canal de tela central 235, respectivamente. Os dados de reprodução de áudio para as zonas de alto-falante 6 e 7 podem ser mapeados para os alto-falantes de surround traseiros esquerdos 224 e os alto-falantes de surround traseiros direitos 226.
[0063] A Figura 4B mostra um exemplo de um outro ambiente de reexecução. Em algumas implementações, uma ferramenta de rende- rização pode mapear dados de reprodução de áudio para as zonas de alto-falante 1, 2 e 3 para os alto-falantes de tela correspondentes 455 do ambiente de reexecução 450. Uma ferramenta de renderização pode mapear os dados de reprodução de áudio para as zonas de alto- falante 4 e 5 para o arranjo de surround de lado esquerdo 460 e o arranjo de surround de lado direito 465 e pode mapear dados de reprodução de áudio para as zonas de alto-falante 8 e 9 para os alto- falantes aéreos esquerdos 470a e os alto-falantes aéreos direitos 470b. Os dados de reprodução de áudio para as zonas de alto-falante 6 e 7 podem ser mapeados para os alto-falantes de surround traseiros esquerdos 480a e os alto-falantes de surround traseiros direitos 480b.
[0064] Em algumas implementações de autoria, uma ferramenta de autoria pode ser usada para a criação de metadados para objetos de áudio. Os metadados podem indicar uma posição 3D do objeto, restrições de renderização, tipo de conteúdo (por exemplo, diálogo, efeitos, etc.) e/ou outra informação. Dependendo da implementação, os metadados podem incluir outros tipos de ados, tais como dados de largura, dados de ganho, dados de trajetória, etc. alguns objetos de áudio podem ser estáticos, ao passo que outros podem se mover.
[0065] Os objetos de áudio são renderizados de acordo com seus metadados associados, o que geralmente inclui metadados de posição indicando a posição do objeto de áudio em um espaço tridimensional em um dado ponto no tempo. Quando os objetos de áudio são monitorados ou reexecutados em um ambiente de reexecução, os objetos de áudio são renderizados de acordo com os metadados de posição usando-se os alto-falantes que estiverem presentes no ambiente de reexecução, ao invés de serem extraídos para um canal físico predeterminado, como é o caso com sistemas baseados em canal tradicionais, tais como Dolby 5.1 e Dolby 7.1.
[0066] Além de metadados de posição, outros tipos de metadados podem ser necessários para a produção de efeitos de áudio pretendidos. Por exemplo, em algumas implementações, os metadados associados a um objeto de áudio podem indicar o tamanho de objeto de áudio, o qual também pode ser referido como uma "largura". Os metadados de tamanho podem ser usados para se indicar uma área ou um volume espacial ocupado por um objeto de áudio. Um objeto de áudio espacialmente grande deve ser percebido como cobrindo uma grande área espacial, não meramente como uma fonte de som pontual tendo uma localização definida apenas pelos metadados de posição de objeto de áudio. Em alguns casos, por exemplo, um objeto de áudio grande deve ser percebido como ocupando uma porção significativa de um ambiente de reexecução, possivelmente mesmo circundando o ouvinte.
[0067] O sistema de audição humano é muito sensível a mudanças na correlação ou na coerência dos sinais chegando em ambos os ouvidos, e mapeia esta correlação para um atributo de tamanho de objeto percebido, se uma correlação normalizada for menor do que o valor de +1. Portanto, de modo a se criar um tamanho de objeto espacial convincente, ou uma difusividade espacial, uma proporção significativa dos sinais de alto-falante em um ambiente de reexecução deve ser mutuamente independente, ou pelo menos ser não correlacionada (por exemplo, independente em termos de correlação cruzada de primeira ordem ou covariância). Um processo de descorrelação satisfató- rio tipicamente é bastante complexo, normalmente envolvendo filtros variantes no tempo.
[0068] Uma trilha sonora de cinema pode incluir centenas de objetos, cada um com seus metadados de posição associados, metadados de tamanho e, possivelmente, outros metadados espaciais. Mais ainda, um sistema de som de cinema pode incluir centenas de alto- falantes, os quais podem ser individualmente controlados para a provisão de uma percepção satisfatória de localizações e tamanhos de objeto de áudio. Em um cinema, portanto, centenas de objetos podem ser reproduzidos por centenas de alto-falantes, e o mapeamento de sinal de objeto para alto-falante consiste em uma matriz muito grande de coeficientes de balanço. Quando o número de objetos é dado por M, e o número de alto-falantes é dado por N, esta matriz tem até M*N elementos. Isto tem implicações para a reprodução de objetos difusos ou de tamanho grande. De modo a se criar um tamanho de objeto espacial consistente, ou uma difusividade espacial, uma proporção significativa dos N sinais de alto-falante deve ser mutuamente independente, ou pelo menos ser não correlacionado. Isto geralmente envolve o uso de muitos processos de descorrelação independentes (até N), causando uma carga de processamento significativa para o processo de renderização. Mais ainda, a quantidade de descorrelação pode ser diferente para cada objeto, o que complica adicionalmente o processo de renderização. Um sistema de renderização suficientemente complexo, tal como um sistema de renderização para um teatro comercial, pode ser capaz de prover essa descorrelação.
[0069] Contudo, sistemas de renderização menos complexos, tais como aqueles pretendidos para sistemas de home theater, podem não ser capazes de provisão de uma descorrelação adequada. Alguns desses sistemas de renderização não são capazes de proverem uma descorrelação de forma alguma. Os programas de descorrelação que são simples o bastante para serem executados em um sistema de home theater podem introduzir artefatos. Por exemplo, os artefatos de filtro de pente podem ser introduzidos, se um processo de descorrela- ção de complexidade baixa for seguido por um processo de downmixing (mixagem com redução).
[0070] Um outro problema em potencial é que, em algumas aplicações, um áudio baseado em objeto é transmitido na forma de uma mi- xagem compatível para trás (tal como Dolby Digital ou Dolby Digital Plus), aumentado com uma informação adicional para recuperação de um ou mais objetos a partir daquela mixagem compatível para trás. A mixagem compatível para trás normalmente não teria o efeito de uma descorrelação incluída. Em alguns sistemas como esses, a reconstrução de objetos poderia apenas funcionar de forma confiável se a mi- xagem compatível para trás fosse criada usando-se procedimentos de balanço simples. O uso de descorrelacionadores nesses processos pode prejudicar o processo de reconstrução de objeto de áudio, às vezes severamente. No passado, isto significou que se poderia escolher não aplicar uma descorrelação na mixagem compatível para trás, desse modo se degradando a intenção artística daquela mixagem, ou aceitar uma degradação no processo de reconstrução de objeto.
[0071] De modo a se dirigir a esses problemas em potencial, algumas implementações descritas aqui envolvem a identificação de objetos de áudio difusos ou espacialmente grandes para um processamento especial. Esses métodos e dispositivos podem ser particularmente adequados para dados de áudio a serem renderizados em um home theater. Contudo, esses métodos e dispositivos não estão limitados ao uso em home theater, mas, ao invés disso, têm ampla aplicabilidade.
[0072] Devido a sua natureza espacialmente difusa, os objetos com um tamanho grande não são percebidos como fontes pontuais com uma localização compacta e concisa. Portanto, múltiplos alto- falantes são usados para a reprodução desses objetos espacialmente difusos. Contudo, as localizações exatas dos alto-falantes no ambiente de reexecução que são usados para a reprodução de objetos de áudio grandes são menos críticas do que as localizações de alto-falantes usados para a reprodução de objetos de áudio de tamanho pequenos compactos. Assim sendo, uma reprodução de alta qualidade de objetos de áudio grandes é possível sem um conhecimento prévio sobre a configuração e alto-falante de reexecução real usada para a renderi- zação eventualmente de sinais de áudio de objeto de áudio grande descorrelacionados para alto-falantes reais do ambiente de reexecu- ção. Consequentemente, os processos de descorrelação para objetos de áudio grandes podem ser realizados "em fluxo contrário", antes do processo de renderização de dados de áudio para a reprodução em um ambiente de reexecução, tal como um sistema de home theater, para ouvintes. Em alguns exemplos, os processos de descorrelação para objetos de áudio grandes são executados antes da codificação de dados de áudio para a transmissão para esses ambientes de reexecu- ção.
[0073] Essas implementações não requerem que o renderizador de um ambiente de reexecução seja capaz de uma descorrelação de alta complexidade, desse modo se permitindo processos de renderiza- ção que podem ser relativamente mais simples, mais eficientes e mais baratos. Os downmixings compatíveis para trás podem incluir o efeito de descorrelação para manutenção da melhor intenção artística possível, sem a necessidade de reconstrução do objeto para uma descorre- lação de lado de renderização. Os descorrelacionadores de alta qualidade podem ser aplicados a objetos de áudio grandes em fluxo contrário de um processo de renderização final, por exemplo, durante um processo de autoria ou de pós-produção em um estúdio de som. Es-ses descorrelacionadores podem ser robustos com respeito a um downmixing e/ou outro processamento de áudio em fluxo normal.
[0074] A Figura 5 é um fluxograma que provê um exemplo de processamento de áudio para objetos de áudio espacialmente grandes. As operações do método 500, como com outros métodos descritos aqui, não são necessariamente realizadas na ordem indicada. Mais ainda, estes métodos podem incluir mais ou menos blocos do que o mostrado e/ou descrito. Estes métodos podem ser implementados, pelo menos em parte, por um sistema lógico, tal como o sistema lógico 1110 mostrado na Figura 11 e descrito abaixo. Um sistema lógico como esse pode ser um componente de um sistema de processamento de áudio. De forma alternativa ou adicional, esses métodos podem ser implementados através de um meio não transitório que tem um software armazenado ali. O software pode incluir instruções para controle de um ou mais dispositivos para execução, pelo menos em parte, dos métodos descritos aqui.
[0075] Neste exemplo, o método 500 começa com o bloco 505, o qual envolve o recebimento de dados de áudio incluindo objetos de áudio. Os dados de áudio podem ser recebidos por um sistema de processamento de áudio. Neste exemplo, os objetos de áudio incluem sinais de objeto de áudio e metadados associados. Aqui, os metadados associados incluem dados de tamanho de objeto de áudio. Os metadados associados também podem incluir dados de posição de objeto de áudio indicando a posição do objeto de áudio em um espaço tridimensional, metadados de descorrelação, uma informação de ganho de objeto de áudio, etc. Os dados de áudio também podem incluir um ou mais sinais de base de áudio correspondentes a localizações de alto- falante.
[0076] Nesta implementação, o bloco 510 envolve a determinação, com base nos dados de tamanho de objeto de áudio, de um objeto de áudio grande tendo um tamanho de objeto de áudio que é maior do que um tamanho de limite. Por exemplo, o bloco 510 pode envolver determinar se um valor de tamanho de objeto de áudio numérico excede a um nível predeterminado. O valor de tamanho de objeto de áudio numérico pode corresponder, por exemplo, a uma porção de um ambiente de reexecução ocupado pelo objeto de áudio. De forma alternativa ou adicional, o bloco 510 pode envolver determinar se um outro tipo de indicação, tais como um indicador tipo de flag, metadados de descorrelação, etc., indica que um objeto de áudio tem um tamanho de objeto de áudio que seja maior do que o tamanho de limite. Embora muito da discussão do método 500 envolva um processamento de um único objeto de áudio grande, será apreciado que os mesmos processos (ou similares) podem ser aplicados a múltiplos objetos de áudio grandes.
[0077] Neste exemplo, o bloco 515 envolve a execução de um processo de descorrelação em sinais de áudio de um objeto de áudio grande, produzindo sinais de áudio de objeto de áudio grande descor- relacionados. Em algumas implementações, o processo de descorre- lação pode ser executado, pelo menos em parte, de acordo com metadados de descorrelação recebidos. O processo de descorrelação pode envolver atrasos, filtros de passa tudo, filtros pseudorrandômicos e/ou algoritmos de reverberação.
[0078] Aqui, no bloco 520, os sinais de áudio de objeto de áudio grande descorrelacionados são associados a localizações de objeto. Neste exemplo, o processo de associação é independente de uma configuração de alto-falante de reexecução real que pode ser usada para a renderização eventual dos sinais de áudio de objeto de áudio grande descorrelacionados para alto-falantes de reexecução reais de um ambiente de reexecução. Contudo, em algumas implementações alternativas, as localizações de objeto podem corresponder a localiza-ções de alto-falante de reexecução reais. Por exemplo, de acordo com algumas dessas implementações alternativas, as localizações de objeto podem corresponder a localizações de alto-falante de reexecução de configurações de alto-falante de reexecução comumente usadas. Se sinais de base de áudio forem recebidos no bloco 505, as localizações de objeto poderão corresponder a localizações de alto-falante de reexecução correspondentes a pelo menos alguns dos sinais de base de áudio. De forma alternativa ou adicional, as localizações de objeto podem ser localizações correspondentes a pelo menos alguns dos dados de posição de objeto de áudio dos objetos de áudio recebidos. Assim sendo, pelo menos algumas das localizações de objeto podem ser estacionárias, ao passo que pelo menos alguma das localizações de objeto podem variar ao longo do tempo. Em algumas implementações, o bloco 520 pode envolver a mixagem dos sinais de áudio de objeto de áudio grande descorrelacionados com sinais de áudio para objetos de áudio que sejam espacialmente separados por uma distância de limite a partir do objeto de áudio grande.
[0079] Em algumas implementações, o bloco 520 pode envolver a renderização dos sinais de áudio de objeto de áudio grande descorre- lacionados de acordo com localizações de alto-falante virtual. Algumas dessas implementações podem envolver a computação de contribuições a partir de fontes virtuais em uma área ou um volume de objeto de áudio definido pelos dados de posição de objeto de áudio grande e os dados de tamanho de objeto de áudio grande. Essas implementações podem envolver a determinação de um conjunto de valores de ganho de objeto de áudio para cada um de uma pluralidade de canais de saída com base, pelo menos em parte, nas contribuições computa-das. Alguns exemplos são descritos abaixo.
[0080] Algumas implementações podem envolver a codificação de dados de áudio extraídos a partir do processo de associação. De acordo com algumas dessas implementações, o processo de codificação envolve a codificação de sinais de objeto de áudio e de metadados associados. Em algumas implementações, o processo de codificação inclui um processo de compressão de dados. O processo de compressão de dados pode ser sem perda ou com perda. Em algumas implementações, o processo de compressão de dados envolve um processo de quantificação. De acordo com alguns exemplos, o processo de codificação não envolve a codificação de metadados de descorre- lação para o objeto de áudio grande.
[0081] Algumas implementações envolvem a execução de um processo de agrupamento de objeto de áudio também referido aqui como um processo de "simplificação de cena". Por exemplo, o processo de agrupamento de objeto de áudio pode ser parte do bloco 520. Para implementações que envolvem uma codificação, o processo de codificação pode envolver a codificação de dados de áudio que são extraídos a partir do processo de agrupamento de objeto de áudio. Em algumas dessas implementações, o processo de agrupamento de objeto de áudio pode ser executado após o processo de descorrelação. Outros exemplos de processos correspondentes aos blocos de método 500, incluindo processos de simplificação de cena, são providos abaixo.
[0082] As Figuras 6A a 6F são diagramas de blocos que ilustram exemplos de componentes de sistemas de processamento de áudio que são capazes de processarem objetos de áudio grandes, conforme descrito aqui. Estes componentes podem corresponder, por exemplo, a módulos de um sistema lógico de um sistema de processamento de áudio, o qual pode ser implementado via um hardware, um firmware, um software armazenado em um ou mais meios não transitórios, ou combinações dos mesmos. O sistema lógico pode incluir um ou mais processadores, tais como processadores de chip único ou múltiplo de finalidade geral. O sistema lógico pode incluir um processador de sinal digital (DSP), um circuito integrado específico de aplicação (ASIC), um arranjo de porta programável no campo (FPGA) ou outro dispositivo lógico programável, uma porta discreta ou lógica de transistor, componentes de hardware discretos, ou combinações dos mesmos.
[0083] Na Figura 6A, o sistema de processamento de áudio 600 é capaz de detectar objetos de áudio grandes, tal como o objeto de áudio grande 605. O processo de detecção pode ser substancialmente similar a um dos processos descritos com referência ao bloco 510 da Figura 5. Neste exemplo, os sinais de áudio do objeto de áudio grande 605 são descorrelacionados pelo sistema de descorrelação 610, para a produção dos sinais de áudio de objeto de áudio grande descorrela- cionados 611. O sistema de descorrelação 610 pode executar o processo de descorrelação, pelo menos em parte, de acordo com metadados de descorrelação recebidos para o objeto de áudio grande 605. O processo de descorrelação pode envolver um ou mais dentre atrasos, filtros de passa tudo, filtros pseudorrandômicos e/ou algoritmos de reverberação.
[0084] O sistema de processamento de áudio 600 também é capaz de receber outros sinais de áudio, os quais são outros objetos de áudio e/ou bases 615 neste exemplo. Aqui, os outros objetos de áudio são objetos de áudio que têm um tamanho que está abaixo de um tamanho de limite para a caracterização de um objeto de áudio como sendo um objeto de áudio grande.
[0085] Neste exemplo, o sistema de processamento de áudio 600 é capaz de associar os sinais de áudio de objeto de áudio grande des- correlacionados 611 a outras localizações de objeto. As localizações de objeto podem ser estacionárias ou variar ao longo do tempo. O processo de associação pode ser similar a um ou mais dos processos descritos acima com referência ao bloco 520 da Figura 5.
[0086] O processo de associação pode envolver um processo de mixagem. O processo de mixagem pode ser baseado, pelo menos em parte, em uma distância entre uma localização de objeto de áudio grande e uma outra localização de objeto. Na implementação mostrada na Figura 6A, o sistema de processamento de áudio 600 é capaz de mixar os sinais de áudio de objeto de áudio grande descorrelacio- nados 611 com pelo menos alguns sinais de áudio correspondentes aos objetos de áudio e/ou às bases 615. Por exemplo, o sistema de processamento de áudio 600 pode ser capaz de mixar os sinais de áudio de objeto de áudio grande descorrelacionados 611 com sinais de áudio para outros objetos de áudio que sejam espacialmente separados por uma quantidade de limite de distância a partir do objeto de áudio grande.
[0087] Em algumas implementações, o processo de associação pode envolver um processo de renderização. Por exemplo, o processo de associação pode envolver a renderização dos sinais de áudio de objeto de áudio grande descorrelacionados de acordo com localizações de alto-falante virtual. Alguns exemplos são descritos abaixo. Após o processo de renderização, pode não haver necessidade de reter os sinais de áudio correspondentes ao objeto de áudio grande que foram recebidos pelo sistema de descorrelação 610. Assim sendo, o sistema de processamento de áudio 600 pode ser configurado para a atenuação ou o apagamento dos sinais de áudio do objeto de áudio grande 605 após o processo de descorrelação ser executado pelo sistema de descorrelação 610. Alternativamente, o sistema de processamento de áudio 600 pode ser configurado para retenção de pelo menos uma porção dos sinais de áudio do objeto de áudio grande 605 (por exemplo, sinais de áudio correspondentes a uma contribuição de fonte pontual do objeto de áudio grande 605), após o processo de descorrelação ser realizado.
[0088] Neste exemplo, o sistema de processamento de áudio 600 inclui um codificador 620 que é capaz de codificar dados de áudio. Aqui, o codificador 620 é configurado para a codificação de dados de áudio após o processo de associação. Nesta implementação, o codificador 620 é capaz de aplicar um processo de compressão de dados para os dados de áudio. Os dados de áudio codificados 622 pode ser armazenada e/ou transmitida para os outros sistemas de processamento de áudio para um processamento de fluxo normal, uma reexe- cução, etc.
[0089] Na implementação mostrada na Figura 6B, o sistema de processamento de áudio 600 é capaz de um ajuste de nível. Neste exemplo, o sistema de ajuste de nível 612 é configurado para o ajuste de níveis das saídas do sistema de descorrelação 610. O processo de ajuste de nível pode depender dos metadados nos objetos de áudio no conteúdo original. Neste exemplo, o processo de ajuste de nível depende, pelo menos em parte, dos metadados de tamanho de objeto de áudio e dos metadados de posição de objeto de áudio do objeto de áudio grande 605. Um nível de ajuste como esse pode ser usado para a otimização da distribuição de saída de descorrelacionador para os outros objetos de áudio, tais como objetos de áudio e/ou bases 615. Pode-se escolher mixar as saídas de descorrelacionador para outros sinais de objeto que sejam espacialmente distantes, de modo a se melhorar a difusividade espacial da renderização resultante.
[0090] De forma alternativa ou adicional, o processo de nível de ajuste pode ser usado para se garantir que sons correspondentes ao objeto de áudio grande descorrelacionado 605 sejam apenas reproduzidos por alto-falantes a partir de uma certa direção. Isto pode ser realizado apenas pela adição das saídas de descorrelacionador para objetos na vizinhança da direção ou localização desejada. Nessas implementações, os metadados de posição do objeto de áudio grande 605 são fatorados no processo de ajuste de nível, de modo a se preservar uma informação referente à direção percebida a partir da qual seus sons estão vindo. Essas implementações podem ser apropriadas para objetos de tamanho intermediário, por exemplo, para objetos de áudio que sejam julgados como sendo grandes, mas não tão grandes para que seu tamanho inclua o ambiente de reprodução/reexecução inteiro.
[0091] Na implementação mostrada na Figura 6C, o sistema de processamento de áudio 600 é capaz de criar objetos adicionais ou canais de base durante o processo de descorrelação. Essa funcionalidade pode ser desejável, por exemplo, se os outros objetos de áudio e/ou bases 615 não forem adequados ou ótimos. Por exemplo, em algumas implementações, os sinais de áudio de objeto de áudio grande descorrelacionados 611 podem corresponder a localizações de alto- falante virtual. Se os outros objetos de áudio e/ou bases 615 não corresponderem às posições que sejam suficientemente próximas das localizações de alto-falante virtual desejadas, os sinais de áudio de objeto de áudio grande descorrelacionados 611 poderão corresponder a novas localizações de alto-falante virtual.
[0092] Neste exemplo, um objeto de áudio grande 605 é primeiramente processado pelo sistema de descorrelação 610. Subsequentemente, objetos adicionais ou canais de base correspondentes aos sinais de áudio de objeto de áudio grande descorrelacionados 611 são providos para o codificador 620. Neste exemplo, os sinais de áudio de objeto de áudio grande descorrelacionados 611 são submetidos a um ajuste de nível antes de serem enviados para o codificador 620. Os sinais de áudio de objeto de áudio grande descorrelaciona- dos 611 podem ser sinais de canal de base e/ou sinais de objeto de áudio, dos quais os últimos podem corresponder a objetos estáticos ou móveis.
[0093] Em algumas implementações, os sinais de áudio extraídos para o codificador 620 também podem incluir pelo menos alguns dos sinais de objeto de áudio grande originais. Conforme citado acima, o sistema de processamento de áudio 600 pode ser capaz de reter sinais de áudio correspondentes a uma contribuição de fonte pontual do objeto de áudio grande 605 após o processo de dispositivo de controle remoto ser realizado. Isto pode ser benéfico, por exemplo, porque sinais diferentes podem ser correlacionados uns aos outros em graus variáveis. Portanto, pode ser útil passar através de pelo menos uma porção do sinal de áudio original correspondente ao objeto de áudio grande 605 (por exemplo, a contribuição de fonte pontual) e renderizar aquilo separadamente. Nessas implementações, pode ser vantajoso nivelar os sinais descorrelacionados e os sinais originais correspondentes ao objeto de áudio grande 605.
[0094] Um exemplo como esse é mostrado na Figura 6D. Neste exemplo, pelo menos alguns dos sinais de objeto de áudio grande originais 613 são submetidos a um primeiro processo de nivelamento pelo sistema de ajuste de nível 612a, e os sinais de áudio de objeto de áudio grande descorrelacionados 611 são submetidos a um processo de nivelamento pelo sistema de ajuste de nível 612b. Aqui, o sistema de ajuste de nível 612a e o sistema de ajuste de nível 612b proveem sinais de áudio de saída para o codificador 620. A saída do sistema de ajuste de nível 612b também é mixada com os outros objetos de áudio e/ou bases 615 neste exemplo.
[0095] Em algumas implementações, o sistema de processamento de áudio 600 pode ser capaz de avaliar dados de áudio de entrada para determinar (ou pelo menos estimar) um tipo de conteúdo. O processo de descorrelação pode ser baseado, pelo menos em parte, no tipo de conteúdo. Em algumas implementações, o processo de descorrela- ção pode ser seletivamente realizado de acordo com o tipo de conteú-do. Por exemplo, uma quantidade de descorrelação a ser realizada nos dados de áudio de entrada pode depender, pelo menos em parte, do tipo de conteúdo. Por exemplo, geralmente se quereria reduzir a quantidade de descorrelação para fala.
[0096] Um exemplo é mostrado na Figura 6E. Neste exemplo, o sistema de inteligência de mídia 625 é capaz de avaliar sinais de áudio e estimar o tipo de conteúdo. Por exemplo, o sistema de inteligência de mídia 625 pode ser capaz de avaliar sinais de áudio correspondentes a objetos de áudio grandes 605 e estimar se o tipo de conteúdo é de fala, música, efeitos sonoros, etc. No exemplo mostrado na Figura 6E, o sistema de inteligência de mídia 625 é capaz de enviar sinais de controle 627 para controle da quantidade de descorrelação ou processamento de tamanho de um objeto de acordo com a estimativa do tipo de conteúdo.
[0097] Por exemplo, se o sistema de inteligência de mídia 625 estimar que os sinais de áudio do objeto de áudio grande 605 correspondem à fala, o sistema de inteligência de mídia 625 poderá enviar sinais de controle 627 indicando que a quantidade de descorrelação para estes sinais deve ser reduzida ou que estes sinais não devem ser des- correlacionados. Vários métodos de determinação automaticamente da probabilidade de um sinal ser um sinal de fala podem ser usados. De acordo com uma modalidade, o sistema de inteligência de mídia 625 pode incluir um estimador de probabilidade de fala que é capaz de gerar um valor de probabilidade de fala com base, pelo menos em parte, em uma informação de áudio em um canal central. Alguns exemplos são descritos por Robinson and Vinton in "Automated Spe- ech/Other Discrimination for Loudness Monitoring" (Audio Engineering Society, número de pré-impressão 6437 da Convenção 118, maio de 2005).
[0098] Em algumas implementações, os sinais de controle 627 po-de indicar uma quantidade de ajuste de nível e/ou podem indicar parâmetros para a mixagem dos sinais de áudio de objeto de áudio grande descorrelacionados 611 com sinais de áudio para os objetos de áudio e/ou bases 615.
[0099] De forma alternativa ou adicional, uma quantidade de dispositivo de controle remoto para um objeto de áudio grande pode ser baseada em "troncos", "etiquetas" ou outras indicações expressas de tipo de conteúdo. Essas indicações expressas de tipo de conteúdo podem ser criadas, por exemplo, por um criador de conteúdo (por exemplo, durante um processo de pós-produção) e transmitidas como metadados com os sinais de áudio correspondentes. Em algumas implementações, esses metadados podem ser lidos por seres humanos. Por exemplo, um tronco ou uma etiqueta que pode ser lido por ser humano pode indicar expressamente, com efeito, "isto é um diálogo", "isto é um efeito especial", "isto é música", etc.
[00100] Algumas implementações podem envolver um processo de agrupamento que combina objetos que são similares em algum aspecto, por exemplo, em termos de localização espacial, tamanho espacial, ou tipo de conteúdo. Alguns exemplos de agrupamento são descritos abaixo com referência às Figuras 7 e 8. No exemplo mostrado na Figura 6F, os objetos e/ou bases 615a são introduzidos em um processo de agrupamento 630. Um número menor de objetos e/ou bases 615b é extraído a partir do processo de agrupamento 630. Os dados de áudio correspondentes aos objetos e/ou às bases 615b são mixados com os sinais de áudio de objeto de áudio grande des- correlacionados nivelados 611. Em algumas implementações alternativas, um processo de agrupamento pode se seguir ao processo de descorrelação. Um exemplo é descrito abaixo com referência à Figura 9. Essas implementações podem evitar, por exemplo, que um diálogo seja mixado em um agrupamento com metadados indesejáveis,tal como uma posição não perto do alto-falante central ou um tamanho de agrupamento grande.
Simplificação de Cena Através de Agrupamento de Objeto
[00101] Para fins da descrição a seguir, os termos "agrupamento" e "grupamento" ou "combinação" são usados de forma intercambiável para a descrição da combinação de objetos e/ou bases (canais) para redução da quantidade de dados em uma unidade de conteúdo de áudio adaptativo para transmissão e renderização em um sistema de re- execução de áudio adaptativo; e o termo "redução" pode ser usado para referência ao ato de execução de uma simplificação de cena de áudio adaptativo através desse agrupamento de objetos e bases. Os termos "agrupamento", "grupamento" ou "combinação" por toda esta descrição não estão limitados a uma atribuição estritamente única de um objeto ou canal de base a um único agrupamento apenas; ao invés disso, um objeto ou canal de base pode ser distribuído por mais de uma base de saída ou agrupamento usando-se pesos ou vetores de ganho que determinam a contribuição relativa de um sinal de objeto ou base para o agrupamento de saída ou o sinal de base de saída.
[00102] Em uma modalidade, um sistema de áudio adaptativo inclui pelo menos um componente configurado para a redução da largura de banda de um conteúdo de áudio baseado em objeto através de um agrupamento de objeto e simplificações perceptivamente transparentes das cenas espaciais criadas pela combinação de bases de canal e objetos. Um processo de agrupamento de objeto executado pelo(s) componente(s) usa certa informação sobre os objetos que pode incluir posição espacial, tipo de conteúdo de objeto, atributos temporais, tamanho de objeto e/ou similares, para redução da complexidade da cena espacial pelo grupamento de observação similares em agrupamentos de objeto que substituem os objetos originais.
[00103] O processo de áudio adicional para uma codificação de áu-dio padrão para distribuição e renderização de uma experiência de usuário persuasiva com base nas trilhas de base e de áudio complexas originais geralmente é referido como uma simplificação de cena e/ou um agrupamento de objeto. A finalidade principal deste processamento é reduzir a cena espacial através de técnicas de agrupamento e grupamento que reduzem o número de elementos de áudio individuais (bases e objetos) a serem entregues para o dispositivo de reprodução, mas que ainda retêm uma informação espacial suficiente, de modo que a diferença percebida entre o conteúdo de autoria original e a saída renderizada seja minimizada.
[00104] O processo de simplificação de cena pode facilitar a rende- rização de um conteúdo de objeto mais base em canais de largura de banda reduzida ou sistemas de codificação usando uma informação sobre os objetos, tais como posição espacial, atributos temporais, tipo de conteúdo, tamanho e/ou outras características apropriadas para o agrupamento dinamicamente de objetos para um número reduzido. Este processo pode reduzir o número de objetos pela execução de uma ou mais das operações de agrupamento a seguir: (1) agrupamento de objetos para objetos; (2) agrupamento de objeto com bases; e (3) agrupamento de objetos e/ou bases para objetos. Além disso, um objeto pode ser distribuído por dois ou mais agrupamentos. O processo pode usar uma informação temporal sobre objetos para controle de agrupamento e desagrupamento de objetos.
[00105] Em algumas implementações, os agrupamentos de objeto substituem as formas de onda individuais e os elementos de metadados de objetos constituintes por uma forma de onda equivalente única e um conjunto de metadados, de modo que os dados para N objetos sejam substituídos por dados para um único objeto, assim essencialmente se comprimindo os ados de objeto de N para 1. De forma alternativa ou adicional, um objeto ou canal de base pode ser distribuído por mais de um agrupamento (por exemplo, usando-se técnicas de balanço de amplitude), reduzindo-se dados de objeto de N para M, com M < N. O processo de agrupamento pode usar uma medida de erro com base em distorção, devido a uma mudança na localização, a altura ou em outra característica dos objetos agrupados para a determinação de uma transigência entre compressão de agrupamento versus degradação de som dos objetos agrupados. Em algumas modalidades, o processo de agrupamento pode ser realizado de forma síncrona. De forma alternativa ou adicional, o processo de agrupamento pode ser comandado por evento, tal como pelo uso de uma análise de cena auditiva (ASA) e/ou uma detecção de fronteira de evento para controle de simplificação de objeto através de um agrupamento.
[00106] Em algumas modalidades, o processo pode utilizar um conhecimento de algoritmos de renderização de ponto final e/ou dispositivos para controle de agrupamento. Desta forma, certas características ou propriedades do dispositivo de reexecução podem ser usadas para se informar o processo de agrupamento. Por exemplo, esquemas diferentes de agrupamento podem ser utilizados para alto-falantes versus fones de ouvido ou outros drivers de áudio, ou esquemas de agrupamento diferentes podem ser usados para codificação sem perda versus com perda, e assim por diante.
[00107] A Figura 7 é um diagrama de blocos que mostra um exemplo de um sistema capaz de executar um processo de agrupamento. Conforme mostrado na Figura 7, o sistema 700 inclui estágios de codificador 704 e de decodificador 706 que processam sinais de áudio de entrada para a produção de sinais de áudio de saída em uma largura de banda reduzida. Em algumas implementações, a porção 720 e a porção 730 podem estar em localizações diferentes. Por exemplo, a porção 720 pode corresponder a um sistema de autoria de pós- produção, e a porção 730 pode corresponder a um ambiente de ree- xecução, tal como um sistema de home theater. No exemplo mostrado na Figura 7, uma porção 709 dos sinais de entrada é processada através de técnicas de compressão conhecidas para a produção de um fluxo de bit de áudio comprimido 705. O fluxo de bit de áudio comprimido 705 pode ser decodificado por um estágio de decodificador 706 para a produção de pelo menos uma porção da saída 707. Essas técnicas de compressão conhecidas podem envolver a análise do conteúdo de áudio de entrada 709, a quantificação dos dados de áudio e, então, a execução de técnicas de compressão, tais como mascara- mento, etc. nos dados de áudio em si. As técnicas de compressão podem ser com perda ou sem perda, e podem ser implementadas em sistemas que podem permitir que o usuário selecione uma largura de banda comprimida, tais como 192 kbps, 256 kbps, 512 kbps, etc.
[00108] Em um sistema de áudio adaptativo, pelo menos uma porção do áudio de entrada compreende sinais de entrada 701 que incluem objetos de áudio, os quais, por sua vez, incluem sinais de objeto de áudio e metadados associados. Os metadados definem certas características do conteúdo de áudio associado, tais como posição espacial de objeto, tamanho de objeto, tipo de conteúdo, altura, e assim por diante. Qualquer número prático de objetos de áudio (por exemplo, centenas de objetos) pode ser processado através do sistema para reexecução. Para facilitar uma reexecução acurada de uma multidão de objetos em uma ampla variedade de sistemas de reexecução e meios de transmissão, o sistema 700 inclui um processo ou componente de agrupamento 702 que reduz o número de objetos em um número menor, mais gerenciável, de objetos pela combinação dos objetos originais em um número menor de grupos de objeto.
[00109] O processo de agrupamento assim constrói grupos de objetos para a produção de um número menor de grupos de saída 703 a partir de um conjunto original de objetos de entrada individuais 701. O processo de agrupamento 702 essencialmente processa os metadados dos objetos, bem como os dados de áudio em si para a produção do número reduzido de grupos de objeto. Os metadados podem ser analisados para a determinação de quais objetos em qualquer ponto no tempo são mais apropriadamente combinados com outros objetos, e as formas de onda de áudio correspondentes para os objetos combinados podem ser somadas em conjunto para a produção de um objeto substituto ou combinado. Neste exemplo, os grupos de objeto combinados então são introduzidos no codificador 704, o qual é configurado para a geração de um fluxo de bit 705 contendo o áudio e os metadados para transmissão para o decodificador 706.
[00110] Em geral, o sistema de áudio adaptativo que incorpora o processo de agrupamento de objeto 702 inclui componentes que geram metadados a partir do formato de áudio espacial. O sistema 700 compreende parte de um sistema de processamento de áudio configurado para o processamento de um ou mais fluxos de bit contendo elementos de áudio baseados em canal convencionais e elementos de codificação de objeto de áudio. Uma camada de extensão contendo os elementos de codificação de objeto de áudio pode ser adicionada ao fluxo de bit de codificador - decodificador de áudio baseado em canal ou para o fluxo de bit de objeto de áudio. Assim sendo, neste exemplo, os fluxos de bit 705 incluem uma camada de extensão para ser processada pelos renderizadores para uso com projetos existentes de alto-falante e driver ou alto-falantes de próxima geração utilizando drivers endereçáveis individualmente e definições de driver.
[00111] O conteúdo de áudio espacial a partir do processador de áudio espacial pode incluir objetos de áudio, canais e metadados de posição. Quando um objeto é renderizado, ele pode ser atribuído a um ou mais alto-falantes, de acordo com os metadados de posição e a localização dos alto-falantes de reexecução. Os metadados podem ser gerados na estação de trabalho de áudio em resposta às entradas de mixagem do engenheiro para a provisão de pistas de renderização que controlem parâmetros espaciais (por exemplo, posição, tamanho, velocidade, intensidade, timbre, etc.) e especificar qual(is) driver(s) ou alto-falante(s) no ambiente de escuta tocam respectivos sons durante uma exibição. Os metadados podem ser associados aos respectivos dados de áudio na estação de trabalho para embalagem e transporte por um processador de áudio espacial.
[00112] A Figura 8 é um diagrama de blocos que ilustra um exemplo de um sistema capaz de agrupar objetos e/ou bases em um sistema de processamento de áudio adaptativo. No exemplo mostrado na Figura 8, um componente de processamento de objeto 806, o qual é capaz de executar tarefas de simplificação de cena, lê um número arbitrário de arquivos de áudio de entrada e metadados. Os arquivos de áudio de entrada compreendem objetos de entrada 802 e metadados de objeto associados, e podem incluir bases 804 e metadados de base associados. Estes arquivos de entrada/metadados assim correspondem a trilhas de "base" ou "objeto".
[00113] Neste exemplo, o componente de processamento de objeto 806 é capaz de combinar classificação de inteligência/conteúdo de mídia, análise de distorção espacial e informação de sele- ção/agrupamento de objeto para a criação de um número menor de objetos de saída e trilhas de base. Em particular, os objetos podem ser agrupados em conjunto para a criação de novos objetos equivalentes ou agrupamentos de objeto 808, com metadados de obje- to/agrupamento associados. Os objetos podem ser selecionados para o downmixing em bases. Isto é mostrado na Figura 8 como a saída de objetos que passaram por um downmixing 810 introduzidos em um renderizador 816 para uma combinação 818 com bases 812 para a formação de objetos de base de saída e metadados associados 820. A configuração de base de saída 820 (por exemplo, uma configuração de Dolby 5.1) não necessariamente precisa combinar com a configuração de base de entrada, a qual, por exemplo, poderia ser 9.1 para cinema Atmos. Neste exemplo, os novos metadados são gerados para as trilhas de saída pela combinação de metadados a partir das trilhas de entrada e novos dados de áudio também são gerados para as trilhas de saída pela combinação de áudio a partir de trilhas de entrada.
[00114] Nesta implementação, o componente de processamento de objeto 806 é capaz de usar uma certa informação de configuração de processamento 822. Essa informação de configuração de processamento 822 pode incluir o número de objetos de saída, o tamanho de quadro e certas regulagens de inteligência de mídia. A inteligência de mídia pode envolver a determinação de parâmetros ou características (associadas aos) objetos, tais como tipo de conteúdo (isto é, diálo- go/música/efeitos/etc.), regiões (segmento/classificação), resultados de pré-processamento, resultados de análise de cena auditiva e outra informação similar. Por exemplo, o componente de processamento de objeto 806 pode ser capaz de determinar quais sinais de áudio correspondem à fala, música e/ou sons de efeitos especiais. Em algumas implementações, o componente de processamento de objeto 806 é capaz de determinar pelo menos algumas dessas características pela análise de sinais de áudio. De forma alternativa ou adicional, o componente de processamento de objeto 806 pode ser capaz de determinar pelo menos algumas dessas características de acordo com metadados associados, tais como etiquetas, rótulos, etc.
[00115] Em uma modalidade alternativa, uma geração de áudio poderia ser adiada pela manutenção de uma referência a todas as trilhas originais, bem como metadados de simplificação (por exemplo, qual objeto pertence a qual agrupamento, quais objetos são para serem renderizados para bases, etc.). Essa informação pode ser útil, por exemplo, para a distribuição de funções de um processo de simplificação de cena entre um estúdio e uma sala de codificação, ou outros cenários similares.
[00116] A Figura 9 é um diagrama de blocos que provê um exemplo de um processo de agrupamento seguindo-se a um processo de des- correlação para objetos de áudio grandes. Os blocos do sistema de processamento de áudio 600 podem ser implementados através de qualquer combinação apropriada de hardware, firmware, software armazenado em meio não transitório, etc. Por exemplo, os blocos do sistema de processamento de áudio 600 podem ser implementados através de um sistema lógico e/ou outros elementos, tais como aqueles descritos abaixo com referência à Figura 11.
[00117] Nesta implementação, o sistema de processamento de áudio 600 recebe dados de áudio que incluem os objetos de áudio O1 a OM. Aqui, os objetos de áudio incluem sinais de objeto de áudio e metadados associados, incluindo pelo menos metadados de tamanho de objeto de áudio. Os metadados associados também podem incluir metadados de posição de objeto de áudio. Neste exemplo, o módulo de detecção de objeto grande 905 é capaz de determinar, com base, pelo menos em parte, nos metadados de tamanho de objeto de áudio, objetos de áudio grandes 605 que tenham um tamanho que seja maior do que um tamanho de limite. O módulo de detecção de objeto grande 905 pode funcionar, por exemplo, conforme descrito acima com refe-rência ao bloco 510 da Figura 5.
[00118] Nesta implementação, o módulo 910 é capaz de executar um processo de descorrelação nos sinais de áudio dos objetos de áudio grandes 605 para a produção de sinais de áudio de objeto de audio grande descorrelacionados 611. Neste exemplo, o módulo 910 também é capaz de renderizar os sinais de áudio dos objetos de audio grandes 605 para localizações de alto-falante virtual. Assim sendo, neste exemplo, os sinais de áudio de objeto de áudio grande descorre- lacionados 611 extraídos pelo módulo 910 correspondem a localizações de alto-falante virtual. Alguns exemplos de renderização de sinais de objeto de áudio para localizações de alto-falante virtual serão descritos, agora, com referência às Figuras 10A e 10B.
[00119] A Figura 10A mostra um exemplo de localizações de alto- falante virtual em relação a um ambiente de reexecução. O ambiente de reexecução pode ser um ambiente de reexecução real ou um ambiente de reexecução virtual. As localizações de fonte virtual 1005 e as localizações de alto-falante 1025 são meramente exemplos. Contudo, neste exemplo, o ambiente de reexecução é um ambiente de reexecu- ção virtual e as localizações de alto-falante 1025 correspondem a localizações de alto-falante virtual.
[00120] Em algumas implementações, as localizações de fonte virtual 1005 podem ser espaçadas uniformemente em todas as direções. No exemplo mostrado na Figura 10A, as localizações de fonte virtual 1005 são espaçadas uniformemente ao longo dos eixos x, y e z. As localizações de fonte virtual 1005 podem formar uma rede retangular de Nx por Ny por Nz localizações de fonte virtual 1005. Em algumas implementações, o valor de N pode estar na faixa de 5 a 100. O valor de N pode depender, pelo menos em parte, do número de alto-falantes no ambiente de reexecução (ou esperado para estar no ambiente de ree- xecução): pode ser desejável incluir duas ou mais localizações de fonte virtual 1005 entre cada localização de alto-falante.
[00121] Contudo, em implementações alternativas, as localizações de fonte virtual 1005 podem ser espaçadas diferentemente. Por exemplo, em algumas implementações, as localizações de fonte virtual 1005 podem ter um primeiro espaçamento uniforme ao longo dos eixos x e y e um segundo espaçamento uniforme ao longo do eixo z. Em outras implementações, as localizações de fonte virtual 1005 podem ser espaçadas não uniformemente.
[00122] Neste exemplo, o volume de objeto de áudio 1020a corresponde ao tamanho do objeto de áudio. O objeto de áudio 1010 pode ser renderizado de acordo com as localizações de fonte virtual 1005 encerradas pelo volume de objeto de áudio 1020a. No exemplo mostrado na Figura 10A, o volume de objeto de áudio 1020a ocupa uma parte do, mas não todo o ambiente de reexecução 1000a. Os objetos de áudio grandes podem ocupar mais do que (ou todo) o ambiente de reexecução 1000a. Em alguns exemplos, se o objeto de áudio 1010 corresponder a uma fonte pontual, o objeto de áudio 1010 poderá ter um tamanho zero e o volume de objeto de áudio 1020a poderá ser regulado para zero.
[00123] De acordo com algumas dessas implementações, uma ferramenta de autoria pode ligar um tamanho de objeto de áudio com uma descorrelação pela indicação (por exemplo, através de um indicador tipo de flag de descorrelação incluído em metadados associados) que uma descorrelação deve ser ligada quando o tamanho de objeto de áudio for maior do que ou igual a um valor de limite de tamanho e que uma descorrelação deve ser desligada, se o tamanho de objeto de áudio estiver abaixo do valor de limite de tamanho. Em algumas implementações, uma descorrelação pode ser controlada (por exemplo, aumentada, diminuída ou desabilitada) de acordo com uma entrada de usuário com referência ao valor de limite de tamanho e/ou outros valores de entrada.
[00124] Neste exemplo, as localizações de fonte virtual 1005 são definidas em um volume de fonte virtual 1002. Em algumas implementações, o volume de fonte virtual pode corresponder a um volume no qual os objetos de áudio podem se mover. No exemplo mostrado na Figura 10A, o ambiente de reexecução 1000a e o volume de fonte virtual 1002a são coextensivos, de modo que cada uma das localizações de fonte virtual 1005 corresponda a uma localização no ambiente de reexecução 1000a. Contudo, em implementações alternativas, o ambiente de reexecução 1000a e o volume de fonte virtual 1002 podem não ser coextensivos.
[00125] Por exemplo, pelo menos algumas das localizações de fonte virtual 1005 podem corresponder a localizações fora do ambiente de reexecução. A Figura 10B mostra um exemplo alternativo de localizações de fonte virtual em relação a um ambiente de reexecução. Neste exemplo, o volume de fonte virtual 1002b se estende para fora do ambiente de reexecução 1000b. Algumas das localizações de fonte virtual 1005 no volume de objeto de áudio 1020b estão localizadas dentro do ambiente de reexecução 1000b e outras localizações de fonte virtual 1005 no volume de objeto de áudio 1020b estão localizadas fora do ambiente de reexecução 1000b.
[00126] Em outras implementações, as localizações de fonte virtual 1005 podem ter um primeiro espaçamento uniforme ao longo dos eixos x e y e um segundo espaçamento uniforme ao longo do eixo z. As localizações de fonte virtual 1005 podem formar uma rede retangular de Nx por Ny por Nz localizações de fonte virtual 1005. Por exemplo, em algumas implementações, pode haver menos localizações de fonte virtual 1005 ao longo do eixo z do que ao longo dos eixos x ou y. Em algumas dessas modalidades, o valor de N pode estar na faixa de 10 a 100, ao passo que o valor de M pode estar na faixa de 5 a 10.
[00127] Algumas implementações envolvem a computação de valores de ganho para cada uma das localizações de fonte virtual 1005 em um volume de objeto de áudio 1020. Em algumas implementa-ções, os valores de ganho para cada canal de uma pluralidade de canais de saída de um ambiente de reexecução (o qual pode ser umambiente de reexecução real ou um ambiente de reexecução virtual) serão computados para cada uma das localizações de fonte virtual 1005 em um volume de objeto de áudio 1020. Em algumas implementações, os valores de ganho podem ser computados pela aplicação de um algoritmo de balanço de amplitude baseado em vetor ("VBAP"), um algoritmo de balanço em pares ou um algoritmo similar para a computação de valores de ganho para fontes pontuais localizadas em cada uma das localizações de fonte virtual 1005 em um volume de objeto de áudio 1020. Em outras implementações, um algoritmo separável para a computação de valores de ganho para fontes pontuais localizadas em cada uma das localizações de fonte virtual 1005 em um volume de objeto de áudio 1020. Conforme usado aqui, um algoritmo "separável" é um para o qual o ganho de um dado alto-falante pode ser expresso como um produto de múltiplos fatores (por exemplo, três fatores, cada um dos quais dependendo de uma das coordenadas da localização de fonte virtual 1005. Os exemplos incluem algoritmos implementados em vários agentes de balanço de console de mixagem, incluindo, mas não limitando um software Pro Tools™ e agentes de balanço implementados em consoles de filme digital providos pela AMS Neve.
[00128] Retornando de novo à Figura 9, neste exemplo, o sistema de processamento de áudio 600 também recebe canais de base B1 a BN, bem como um canal de efeitos de frequência baixa (LFE). Os objetos de áudio e os canais de base são processados de acordo com um processo de simplificação de cena ou "agrupamento", por exemplo, conforme descrito acima com referência às Figuras 7 e 8. Contudo, neste exemplo, o canal de LFE não é introduzido em um processo de agrupamento, mas, ao invés disso, é passado através dali para o codificador 620.
[00129] Nesta implementação, os canais de base B1 a BN são trans-formados em objetos de áudio estáticos 917 pelo módulo 915. O módulo 920 recebe os objetos de áudio estáticos 917, além dos objetos de áudio que o módulo de detecção de objeto grande 905 determinou como não sendo objetos de áudio grandes. Aqui, o módulo 920 também recebe os sinais de áudio de objeto de áudio grande descorrela- cionados 611, os quais correspondem a localizações de alto-falante virtual neste exemplo.
[00130] Nesta implementação, o módulo 920 é capaz de renderizar os objetos estáticos 917, os objetos de áudio recebidos e os sinais de áudio de objeto de áudio grande descorrelacionados 611 para os agrupamentos C1 a CP. Em geral, o módulo 920 extrairá um número menor de agrupamentos do que o número de objetos de áudio recebidos. Nesta implementação, o módulo 920 é capaz de associar os sinais de áudio de objeto de áudio grande descorrelacionados 611 a localizações de agrupamentos apropriados, por exemplo, conforme descrito acima com referência ao bloco 520 da Figura 5.
[00131] Neste exemplo, os agrupamentos C1 a CP e os dados de áudio do canal de LFE são codificados pelo codificador 620 e transmitidos para o ambiente de reexecução 925. Em algumas implementações, o ambiente de reexecução 925 pode incluir um sistema de home theater. O sistema de processamento de áudio 930 é capaz de receber e decodificar os dados de áudio codificados, bem como renderizar os dados de áudio decodificados de acordo com a confi-guração e alto-falante de reexecução real do ambiente de reexecu- ção 925, por exemplo, as posições de alto-falante, as capacidades de alto-falante (por exemplo, capacidades de reprodução de grave), etc., dos alto-falantes de reexecução reais do ambiente de reexecu- ção 925.
[00132] A Figura 11 é um diagrama de blocos que provê exemplos de componentes do sistema de processamento de áudio. Neste exemplo, o sistema de processamento de áudio 1100 inclui um sistema de interface 1105. O sistema de interface 1105 pode incluir uma interface de rede, tal como uma interface de rede sem fio. De forma alternativa ou adicional, o sistema de interface 1105 pode incluir uma interface de barramento serial universal (USB) ou uma outra interface como essa.
[00133] O sistema de processamento de áudio 1100 inclui um sistema lógico 1110. O sistema lógico 1110 pode incluir um processador, tal como um processador de chip único ou múltiplo de finalidade geral. O sistema lógico 1110 pode incluir um processador de sinal digital (DSP), um circuito integrado específico de aplicação (ASIC), um arranjo de porta programável no campo (FPGA) ou outro dispositivo lógico programável, uma porta discreta ou lógica de transistor, componentes de hardware discretos, ou combinações dos mesmos. O sistema lógico 1110 pode ser configurado para controle dos outros componentes do sistema de processamento de áudio 1100. Embora nenhuma interface entre os componentes do sistema de processamento de áudio 1100 sejam mostradas na Figura 11, o sistema lógico 1110 pode ser configurado com interfaces para comunicação com os outros componentes. Os outros componentes podem ou não ser configurados para comunicação uns com os outros, conforme apropriado.
[00134] O sistema lógico 1110 pode ser configurado para a execução de uma funcionalidade de processamento de áudio, incluindo, mas não limitando os tipos de funcionalidade descritos aqui. Em algumas dessas implementações, o sistema lógico 1110 pode ser configurado para operar (pelo menos em parte) de acordo com um software armazenado em um ou mais meios não transitórios. Os meios não transitórios podem incluir uma memória associada ao sistema lógico 1110, tal como uma memória de acesso randômico (RAM) e/ou uma memória apenas de leitura (ROM). Os meios não transitórios podem incluir uma memória do sistema de memória 1115. O sistema de memória 1115 pode incluir um ou mais tipos adequados de meios de armazenamento não transitórios, tais como uma memória flash, um disco rígido, etc.
[00135] O sistema de exibição 1130 pode incluir um ou mais tipos adequados de visor, dependendo da manifestação do sistema de processamento de áudio 1100. Por exemplo, o sistema de exibição 1130 pode incluir um visor de cristal líquido, um visor de plasma, um visor biestável, etc.
[00136] O sistema de entrada de usuário 1135 pode incluir um ou mais dispositivos configurados para a aceitação de uma entrada a partir de um usuário. Em algumas implementações, o sistema de entrada de usuário 1135 pode incluir uma tela de toque que se sobrepõe a um visor do sistema de exibição 1130. O sistema de entrada de usuário 1135 pode incluir um mouse, um trackball, um sistema de detecção de gesto, um joystick, uma ou mais GUIs e/ou menus apresentados no sistema de exibição 1130, botões, um teclado, comutadores, etc. Em algumas implementações, o sistema de entrada de usuário 1135 pode incluir o microfone 1125: um usuário pode prover comandos de voz para o sistema de processamento de áudio 1100 através do microfone 1125. O sistema lógico pode ser configurado para reconhecimento de fala e para controle pelo menos de algumas operações do sistema de processamento de áudio 1100, de acordo com esses comandos de voz. Em algumas implementações, o sistema de entrada de usuário 1135 pode ser considerado como sendo uma interface de usuário e, portanto, como parte do sistema de interface 1105.
[00137] O sistema de potência 1140 pode incluir um ou mais dispositivos de armazenamento de energia adequados, tal como uma bateria de níquel-cádmio ou uma bateria de íon de lítio. O sistema de potência 1140 pode ser configurado para receber potência a partir de uma tomada elétrica.
[00138] Várias modificações nas implementações descritas nesta exposição podem ser prontamente evidentes para aqueles tendo um conhecimento comum na técnica. Os princípios gerais definidos aqui podem ser aplicados a outras implementações, sem se desviar do espírito ou do escopo desta exposição. Assim, as reivindicações não são pretendidas para serem limitadas às implementações mostradas aqui, mas são para estarem de acordo com o escopo mais amplo consistente com esta exposição, os princípios e os novos recursos expostos aqui.

Claims (20)

1. Método compreendendo: receber (505) dados de áudio compreendendo objetos de áudio, os objetos de áudio compreendendo sinais de objeto de áudio e metadados associados, os metadados incluindo pelo menos dados de tamanho de objeto de áudio, e compreendendo um ou mais sinais de base de áudio correspondentes a localizações de alto-falante; determinar (510), com base nos dados de tamanho de objeto de áudio, um objeto de áudio grande (605) tendo um tamanho de objeto de áudio que é maior do que um tamanho limite; executar (515) um processo de descorrelação em sinais de áudio do objeto de áudio grande (605) para produzir sinais de áudio de objeto de áudio grande descorrelacionados (611); associar (520) os sinais de áudio de objeto de áudio grande descorrelacionados (611) com localizações de objeto, o processo de associação sendo independente de uma configuração de alto-falante de reexecução real; e incluindo a mixagem dos sinais de áudio de objeto de áudio grande descorrelacionados (611) com pelo menos alguns dos sinais de base de áudio ou os sinais de objeto de áudio recebidos; codificar dados de áudio extraídos a partir do processo de associação, em que o processo de codificação inclui um processo de compressão de dados e não envolve codificação de metadados de descorrelação para o objeto de áudio grande (605), CARACTERIZADO pelo fato de que o método compreende ainda receber metadados de descorrelação para o objeto de áudio grande (605), em que os metadados de descorrelação compreendem um indicador de que o tamanho do objeto de áudio é maior que o tamanho limite.
2. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que o processo de descorrelação é executado, pelo menos em parte, de acordo com os metadados de descorrelação.
3. Método, de acordo com a reivindicação 1 ou 2, CARACTERIZADO pelo fato de pelo menos algumas das localizações de objeto serem estacionárias.
4. Método, de acordo com qualquer uma das reivindicações 1 a 3, CARACTERIZADO pelo fato de pelo menos algumas das localizações de objeto variarem ao longo do tempo.
5. Método, de acordo com qualquer uma das reivindicações 1 a 4, CARACTERIZADO pelo fato de o processo de associação envolver renderizar os sinais de áudio de objeto de áudio grande descor- relacionados (611) de acordo com localizações de alto-falante virtual.
6. Método, de acordo com qualquer uma das reivindicações 1 a 5, CARACTERIZADO pelo fato de a configuração de alto-falante de reexecução real ser usada para renderizar os sinais de áudio de objeto de áudio grande descorrelacionados (611) para alto-falantes de um ambiente de reexecução.
7. Método, de acordo com qualquer uma das reivindicações 1 a 6, CARACTERIZADO pelo fato de ainda compreender extrair os sinais de áudio de objeto de áudio grande descorrelacionados (611) como sinais de base de áudio adicionais ou sinais de objeto de áudio.
8. Método, de acordo com qualquer uma das reivindicações 1 a 7, CARACTERIZADO pelo fato de ainda compreender aplicar um processo de ajuste de nível aos sinais de áudio de objeto de áudio grande descorrelacionados (611).
9. Método, de acordo com a reivindicação 8, CARACTERIZADO pelo fato de os metadados de objeto de áudio grande incluírem metadados de posição de objeto de áudio, e em que o processo de ajuste de nível depende, pelo menos em parte, dos metadados de tamanho de objeto de áudio e dos metadados de posição de objeto de áudio do objeto de áudio grande (605).
10. Método, de acordo com qualquer uma das reivindicações 1 a 9, CARACTERIZADO pelo fato de ainda compreender atenuar ou apagar os sinais de áudio do objeto de áudio grande (605) após o processo de descorrelação ser executado.
11. Método, de acordo com qualquer uma das reivindicações 1 a 10, CARACTERIZADO pelo fato de ainda compreender reter sinais de áudio correspondentes a uma contribuição de fonte pontual do objeto de áudio grande (605) após o processo de descorrelação ser executado.
12. Método, de acordo com qualquer uma das reivindicações 1 a 11, CARACTERIZADO pelo fato de os metadados de objeto de áudio grande incluírem metadados de posição de objeto de áudio, ainda compreendendo: computar contribuições a partir de fontes virtuais em uma área ou volume de objeto de áudio definido pelos dados de posição de objeto de áudio grande e pelos dados de tamanho de objeto de áudio grande; e determinar um conjunto de valores de ganho de objeto de áudio para cada um de uma pluralidade de canais de saída com base, pelo menos em parte, nas contribuições computadas.
13. Método, de acordo com qualquer uma das reivindicações 1 a 12, CARACTERIZADO pelo fato de ainda compreender executar um processo de agrupamento de objeto de áudio após o processo de descorrelação.
14. Método, de acordo com a reivindicação 13, CARACTERIZADO pelo fato de o processo de agrupamento de objeto de áudio ser executado após o processo de associação.
15. Método, de acordo com qualquer uma das reivindicações 1 a 14, CARACTERIZADO pelo fato de ainda compreender avaliar os dados de áudio para determinar tipo de conteúdo, em que o processo de descorrelação é seletivamente realizado de acordo com o tipo de conteúdo.
16. Método, de acordo com a reivindicação 15, CARACTERIZADO pelo fato de uma quantidade de descorrelação a ser realizada depender do tipo de conteúdo.
17. Método, de acordo com qualquer uma das reivindicações 1 a 16, CARACTERIZADO pelo fato de o processo de descorre- lação envolver um ou mais dentre atrasos, filtros de passa tudo, filtros pseudorrandômicos ou algoritmos de reverberação.
18. Método, de acordo com qualquer uma das reivindicações 1 a 17, CARACTERIZADO pelo fato de os metadados de objeto de áudio grande incluírem metadados de posição de objeto de áudio, ainda compreendendo:a mixagem dos sinais de áudio de objeto de áudio grande descorrelacionados (611) com sinais de áudio para objetos de áudio que estão espacialmente espaçados por uma quantidade de limite de distância do objeto de áudio grande (605).
19. Aparelho compreendendo: um sistema de interface; e um sistema lógico capaz de: receber (505), através do sistema de interface, dados de áudio compreendendo objetos de áudio, os objetos de áudio compreendendo sinais de objeto de áudio e metadados associados, os metadados incluindo pelo menos dados de tamanho de objeto de áudio e compreendendo um ou mais sinais de base de áudio correspondentes a localizações de alto-falante; áudio do objeto de áudio grande (605) para produzir sinais de áudio de objeto de áudio grande descorrelacionados (611); associar (520) os sinais de áudio de objeto de áudio grande descorrelacionados (611) com localizações de objeto, o processo de associação sendo independente de uma configuração de alto-falante de reexecução real, e incluindo a mixagem dos sinais de áudio de objeto de áudio grande descorrelacionados (611) com pelo menos alguns dos sinais de base de áudio ou os sinais de objeto de áudio recebidos; codificar dados de áudio extraídos a partir do processo de associação, em que o processo de codificação inclui um processo de compressão de dados e não envolve codificar metadados de descorre- lação para o objeto de áudio grande (605),CARACTERIZADO pelo fato de que o sistema lógico é ainda capaz de receber metadados de descorrelação para o objeto de áudio grande (605), em que os metadados de descorrelação compreendem um indicador de que o tamanho do objeto de áudio é maior que o tamanho limite.
20. Meio não transitório tendo armazenado nele um método que, quando executado por um componente de processamento em um sistema de renderização de áudio, faz o sistema de renderização de áudio: receber (505) dados de áudio compreendendo objetos de áudio, os objetos de áudio compreendendo sinais de objeto de áudio e metadados associados, os metadados incluindo pelo menos dados de tamanho de objeto de áudio e compreendendo um ou mais sinais de base de áudio correspondentes a localizações de alto-falante; áudio do objeto de áudio grande (605) para produzir sinais de áudio de objeto de áudio grande descorrelacionados (611); associar (520) os sinais de áudio de objeto de áudio grande descorrelacionados (611) com localizações de objeto, o processo de associação sendo independente de uma configuração de alto-falante de reexecução real e incluindo a mixagem dos sinais de áudio de objeto de áudio grande descorrelacionados (611) com pelo menos alguns dos sinais de base de áudio ou os sinais de objeto de áudio (605); codificar dados de áudio extraídos a partir do processo de associação, em que o processo de codificação inclui um processo de compressão de dados e não envolve a codificação de metadados de descorrelação para o objeto de áudio grande, CARACTERIZADO pelo fato de que o método executado pelo componente de processamento compreende ainda receber metadados de descorrelação para o objeto de áudio grande (605), em que os metadados de descorrelação compreendem um indicador de que o tamanho do objeto de áudio é maior que o tamanho limite.
BR122020021378-7A 2013-07-31 2014-07-24 Método, aparelho incluindo um sistema de renderização de áudio e meio não transitório de processamento de objetos de áudio espacialmente difusos ou grandes BR122020021378B1 (pt)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
ESP201331193 2013-07-31
US61/885,805 2013-10-02

Publications (1)

Publication Number Publication Date
BR122020021378B1 true BR122020021378B1 (pt) 2023-09-05

Family

ID=

Similar Documents

Publication Publication Date Title
US11736890B2 (en) Method, apparatus or systems for processing audio objects
CN108712711B (zh) 使用元数据处理的耳机的双耳呈现
EP2805326B1 (en) Spatial audio rendering and encoding
BR112015028337B1 (pt) Aparelho de processamento de áudio e método
BR112015004288B1 (pt) sistema para renderizar som com o uso de elementos de som refletidos
TW201923752A (zh) 以保真立體音響格式所編碼聲訊訊號為l揚聲器在已知位置之解碼方法和裝置以及電腦可讀式儲存媒體
BR122020021378B1 (pt) Método, aparelho incluindo um sistema de renderização de áudio e meio não transitório de processamento de objetos de áudio espacialmente difusos ou grandes
BR122020021391B1 (pt) Método, aparelho incluindo um sistema de renderização de áudio e meio não transitório de processamento de objetos de áudio espacialmente difusos ou grandes
RU2803638C2 (ru) Обработка пространственно диффузных или больших звуковых объектов