BR112015028409B1

BR112015028409B1 - Aparelho de áudio e método de processamento de áudio

Info

Publication number: BR112015028409B1
Application number: BR112015028409-4A
Authority: BR
Inventors: Arnoldus Werner Johannes Oomen; Werner Paulus Josephus De Bruijn; Aki Sakari Haermae
Original assignee: Koninklijke Philips N.V.
Priority date: 2013-05-16
Filing date: 2014-05-06
Publication date: 2022-05-31
Also published as: EP2997743A1; CN105247894B; WO2014184706A1; EP2997743B1; RU2671627C2; US20160073215A1; US9860669B2; BR112015028409A2; RU2015153551A; CN105247894A

Abstract

APARELHO DE ÁUDIO, MÉTODO DE PROCESSAMENTO DE ÁUDIO, E PRODUTO DE PROGRAMA DE COMPUTADOR. A presente revelação se refere a um aparelho de áudio que compreende um receptor (605) para receber dados de áudio e dados de posição de transdutores de áudio para uma pluralidade de transdutores de áudio (603). Um renderizador (607) renderiza os dados de áudio por meio da geração, a partir dos dados de áudio, de sinais de acionamento de transdutores de áudio para os transdutores de áudio (603). Além disso, um agrupador (609) agrupa os transdutores de áudio em um conjunto de grupos em resposta aos dados de posição de transdutores de áudio e às distâncias entre transdutores de áudio de acordo com uma métrica de distância. Um controlador de renderização (611) adapta a renderização em resposta ao agrupamento. O aparelho pode, por exemplo, selecionar técnicas de processamento de matriz para subconjuntos específicos que contêm transdutores de áudio suficientemente próximos. A abordagem pode permitir uma adaptação automática a configurações de transdutores de áudio e, com isso, proporcionar a um usuário, por exemplo, maior flexibilidade de posicionamento de alto-falantes.

Description

Campo da invenção

[001] A invenção está relacionada a um aparelho de áudio e a um método de operar o mesmo, e, em particular, porém não exclusivamente, à adaptação de renderização para configurações de transdutores de áudio desconhecidos.

Antecedentes da invenção

[002] Nas últimas décadas, a variedade e a flexibilidade de aplicações de áudio aumentaram imensamente com, por exemplo, a grande diversidade de variadas aplicações de renderização de áudio. Somando-se a isso, as configurações de renderização de áudio são usadas em diversos ambientes acústicos e para muitas aplicações diferentes.

[003] Tradicionalmente, os sistemas de reprodução de som espacial são desenvolvidos para uma ou mais configurações específicas de alto-falantes. Como resultado, a experiência espacial depende de quão estreitamente a real configuração de alto-falantes utilizada corresponde à configuração nominal projetada, e uma experiência espacial de alta qualidade é, tipicamente, conseguida apenas para um sistema configurado de maneira substancialmente correta, isto é, de acordo com configurações específicas de alto-falantes.

[004] Entretanto, a exigência de usar configurações específicas de alto-falantes com tipicamente um número relativamente alto de alto-falantes é pouco prática e inconveniente. De fato, uma inconveniência significativa percebida por consumidores ao implantar, por exemplo, um sistema de som “surround” de cinema caseiro é a necessidade de posicionar um número relativamente grande de alto-falantes em locais específicos. Tipicamente, as configurações práticas de alto-falantes de som “surround” serão diferentes da configuração ideal porque os usuários acabam concluindo que é impraticável posicionar as caixas de som nas melhores posições. Consequentemente, a experiência, e em particular a experiência espacial, proporcionada por tais configurações fica abaixo da ideal.

[005] Nos últimos anos, tem havido uma forte tendência de os consumidores exigirem requisitos menos rigorosos para a localização de seus alto-falantes. Ainda mais, sua principal exigência é que a configuração de alto- falantes se ajuste ao seu ambiente doméstico, enquanto, obviamente, esperam que o sistema possa proporcionar uma experiência sonora de alta qualidade e, particularmente, uma experiência espacial apurada. Essas exigências conflitantes tornam-se mais relevantes com o aumento do número de alto- falantes. Além disso, os problemas tornaram-se mais relevantes devido a uma tendência atual de que a provisão de reprodução de som seja completamente tridimensional, com o som chegando ao ouvinte a partir de múltiplas direções.

[006] Foram desenvolvidos formatos de codificação de áudio para fornecer serviços de áudio cada vez mais potentes, variados e flexíveis e, em particular, formatos de codificação de áudio que suportam serviços de áudio espacial.

[007] Tecnologias de codificação de áudio bem conhecidas como MPEG, DTS e Dolby Digital produzem um sinal de áudio multicanal que representa a imagem espacial como um número de canais dispostos ao redor do ouvinte em posições fixas. Para uma configuração de alto-falantes diferente da configuração que corresponde ao sinal multicanal, a imagem espacial será inferior à ideal. Além disso, sistemas de codificação de áudio baseados em canal, tipicamente, não são capazes de lidar com um número diferente de alto-falantes.

[008] O formato MPEG-2 (ISO/IEC) fornece uma ferramenta de codificação de áudio multicanal em que o formato da sequência ou fluxo de bits (“bitstream”) compreende uma combinação de 2 canais e de 5 multicanais do sinal de áudio. Quando o fluxo de bits é decodificado com um decodificador MPEG-1 (ISO/IEC), a combinação retrocompatível de 2 canais é reproduzida. Quando o fluxo de bits é decodificado com um decodificador MPEG-2, são decodificados três canais de dados auxiliares que quando combinados (“desmatriciados”) com os canais estéreo resultam na combinação de 5 canais do sinal de áudio.

[009] O MPEG Surround (ISO/IEC MPEG-D) fornece uma ferramenta de codificação de áudio multicanal que permite que codificadores mono ou estéreos existentes sejam estendidos para aplicações de áudio multicanal. Figura 1 ilustra um exemplo dos elementos de um sistema MPEG Surround. Com o uso de parâmetros espaciais obtidos pela análise da entrada multicanal original, um decodificador MPEG Surround pode recriar a imagem espacial por um software de “upmix” controlado do sinal mono ou estéreo para obter um sinal de saída multicanal.

[010] Como a imagem espacial do sinal de entrada multicanal é parametrizada, o MPEG Surround permite a decodificação do mesmo fluxo de bits multicanal por dispositivos de renderização que não usam uma configuração de alto-falantes multicanais. Um exemplo é a reprodução “virtual surround” em fones de ouvido, que é chamada de processo de decodificação binaural MPEG Surround. Nesse modo, pode ser fornecida uma experiência de som realística quando são usados fones de ouvido regulares. Outro exemplo é o corte de saídas de multicanal de ordem mais alta, por exemplo, 7,1 canais, para configurações de ordem mais baixa, por exemplo, 5,1 canais.

[011] Como mencionado, a variação e flexibilidade nas configurações de renderização usada para renderizar som espacial aumentaram significativamente nos anos recentes com um número crescente de formatos de reprodução sendo disponibilizados para o consumidor comum. Isso requer uma representação flexível de áudio. Etapas importantes foram alcançadas com a introdução do codec MPEG Surround. No entanto, o áudio ainda é produzido e transmitido para uma configuração específica de alto- falantes, por exemplo, uma configuração de alto-falantes ITU 5,1. A reprodução em diferentes configurações e em configurações de alto-falantes não padrão (isto é, flexível ou definida pelo usuário) não é especificada. De fato, há um desejo de tornar a codificação e a representação de áudio cada vez mais independentes de configurações específicas de alto-falantes, sejam predeterminadas ou nominais. É cada vez mais preferencial que possa ser feita uma adaptação flexível a uma ampla variedade de diferentes configurações de alto- falantes no lado do decodificador/renderização.

[012] De modo a fornecer uma representação de áudio mais flexível, o grupo MPEG padronizou um formato conhecido como 'Spatial Audio Object Coding' (Codificação de Objeto de Áudio Espacial) (MPEG-D SAOC da ISO/IEC). Em contraste com os sistemas de codificação de áudio multicanal como DTS, Dolby Digital e MPEG Surround, o formato SAOC permite codificar de modo eficiente objetos de áudio individuais, ao invés de canais de áudio. Enquanto no MPEG Surround, cada canal de alto-falante pode ser considerado como tendo origem em uma mistura diferente de objetos de som, o formato SAOC contempla a manipulação interativa do local dos objetos de som individuais em uma mistura multicanal, como ilustrado na Figura 2.

[013] De modo similar ao MPEG Surround, o formato SAOC também cria um “downmix” mono ou estéreo. Além disso, parâmetros de objeto são calculados e incluídos. No lado decodificador, o usuário pode manipular esses parâmetros para controlar várias características dos objetos individuais, como posição, nível, equalização, ou mesmo até aplicar efeitos como reverberação. Figura 3 ilustra uma interface interativa que permite ao usuário controlar os objetos individuais contidos em um fluxo de bits SAOC. Por meio de uma matriz de renderização, objetos de som individuais são mapeados nos canais do alto-falante.

[014] O formato SAOC permite uma abordagem mais flexível e, em particular, permite mais adaptabilidade baseada em renderização ao transmitir objetos de áudio além de canais de reprodução apenas. Isso permite que o lado codificador coloque os objetos de áudio em posições arbitrárias no espaço, contanto que o espaço seja adequadamente coberto pelos alto- falantes. Desse modo, não existe relação entre o áudio transmitido e a configuração de reprodução ou renderização, o que permite, portanto, o uso de configurações arbitrárias de alto-falantes. Isso é vantajoso, por exemplo, para configurações de cinema em casa em uma sala de estar típica, onde os alto-falantes quase nunca estão nas posições pretendidas. Na codificação SAOC, é decidido no lado do decodificador o local onde os objetos são posicionados na cena de som (por exemplo, usando-se uma interface como a mostrada na Figura 3), o que nem sempre pode ser desejável do ponto de vista artístico. O padrão SAOC fornece meios de transmitir uma matriz de renderização padrão no fluxo de bits, eliminando a responsabilidade do decodificador. Entretanto, os métodos fornecidos se baseiam em configurações de reprodução fixas ou em sintaxe não especificada. Dessa forma, o SAOC não fornece meios normativos para transmitir completamente uma cena de áudio independentemente da configuração de alto-falantes. Além disso, o SAOC não é bem equipado para a renderização fiel de componentes de sinais difusos. Embora exista a possibilidade de incluir um assim chamado “Multichannel Background Object” (MBO) para capturar o som difuso, esse objeto é ligado a uma configuração específica de alto-falantes.

[015] Uma outra especificação de formato de áudio para áudio 3D foi desenvolvida pela DTS Inc. (Digital Theater Systems). A DTS, Inc. desenvolveu o MDA™ (MultiDimensional Audio), uma plataforma aberta para criação e autoração de áudio baseada em objetos visando acelerar a criação de conteúdo da próxima geração. A plataforma MDA suporta objetos de canal e de áudio e se adapta a qualquer quantidade e configuração de alto-falantes. O formato MDA permite a transmissão de um “downmix” de multicanais legados juntamente com objetos de som individuais. Além disso, são incluídos dados de posicionamento de objeto. O princípio de geração de um fluxo de áudio MDA é mostrado na Figura 4.

[016] Na abordagem MDA, os objetos de som são recebidos separadamente no fluxo de extensão e eles podem ser extraídos do “downmix” multicanal. O “downmix” multicanal resultante é renderizado juntamente com os objetos disponíveis individualmente.

[017] Os objetos podem consistir dos assim chamados “troncos”. Esses troncos são basicamente trilhas ou objetos agrupados (que passaram por “downmix”). Assim, um objeto pode consistir de múltiplos subobjetos compactados em um tronco. No MDA, um mix de referência multicanal pode ser transmitido com uma seleção de objetos de áudio. O MDA transmite os dados posicionais 3D de cada objeto. Os objetos podem então ser extraídos usando os dados posicionais 3D. Alternativamente, a matriz de mixagem inversa pode ser transmitida, descrevendo a relação entre os objetos e o mix de referência.

[018] A partir da descrição do MDA, é provável que as informações da cena do som sejam transmitidas mediante a atribuição de um ângulo e distância para cada objeto, indicando onde o objeto deve ser posicionado em relação, por exemplo, à direção à frente padrão. Dessa forma, são transmitidas as informações posicionais de cada objeto. Isso é útil para fontes pontuais, mas não consegue descrever fontes amplas (como, por exemplo, um coro ou aplauso) ou campos de som difuso (como o ambiente). Quando todas as fontes pontuais são extraídas do mix de referência, permanece um mix multicanal ambiente. Similar ao formato SAOC, o residual no MDA é fixo em uma configuração específica de alto-falantes.

[019] Dessa forma, tanto a abordagem SAOC como a MDA incorporam a transmissão de objetos de áudio individuais que podem ser manipulados individualmente no lado do decodificador. Uma diferença entre as duas abordagens é que o formato SAOC fornece informações sobre os objetos de áudio ao fornecer parâmetros que os caracterizam em relação ao “downmix” (isto é, de modo que os objetos de áudio sejam gerados a partir de “downmix” no lado do decodificador), enquanto o formato MDA fornece objetos de áudio como objetos de áudio completos e separados (isto é, que podem ser gerados independentemente de um “downmix” no lado do decodificador). Para ambas as abordagens, os dados de posição podem ser comunicados aos objetos de áudio.

[020] Atualmente, dentro do formato ISO/IEC MPEG, um sistema MPEG-H 3D Audio de áudio 3D padrão está sendo preparado para facilitar o transporte e a renderização de áudio 3D. O sistema MPEG-H 3D Audio deverá se tornar parte do pacote MPEG-H juntamente com codificação de vídeo HEVC e a camada de sistemas MMT (MPEG Media Transport). Figura 5 ilustra o diagrama de blocos de alto nível usado atualmente para o sistema MPEG 3D Audio.

[021] Além do tradicional formato baseado em canal, a abordagem visa também suportar formatos baseados em objetos e baseados em cenas. Um aspecto importante do sistema é que sua qualidade deve ser ajustável a um nível ideal para uma taxa de bits (“bitrate”) crescente, isto é, que à medida que a taxa de dados aumenta, a degradação causada pela codificação e decodificação deve continuar a reduzir até ser insignificante. Entretanto, tal exigência tende a ser problemática para técnicas de codificação paramétrica que eram usadas extensivamente no passado (a saber, MPEG-4 HE-AAC v2, MPEG Surround, MPEG-D SAOC e MPEG-D USAC). Em particular, a perda de informações para os sinais individuais tende a não ser plenamente compensada pelos dados paramétricos, mesmo a taxas de bits muito altas. De fato, a qualidade será limitada pela qualidade intrínseca do modelo paramétrico.

[022] A plataforma MPEG-H 3D Audio busca, adicionalmente, fornecer um fluxo de bits resultante independente da configuração de reprodução. As possibilidades de reprodução previstas incluem configurações flexíveis de alto-falantes de até 22.2 canais, bem como som “virtual surround” em fones de ouvido e alto-falantes com espaçamento próximo.

[023] Em resumo, a maioria dos sistemas de reprodução de som existentes permite apenas uma quantidade modesta de flexibilidade em termos de configuração de alto- falantes. Como quase todos os sistemas existentes foram desenvolvidos a partir de certas suposições básicas com relação à configuração geral dos alto-falantes (por exemplo, alto-falantes posicionados de maneira mais ou menos equidistante ao redor do ouvinte, ou alto-falantes dispostos em uma linha na frente do ouvinte, ou fones de ouvido), ou com relação à natureza do conteúdo (por exemplo, consistindo em um pequeno número de fontes localizáveis separadas, ou consistindo em uma cena de som altamente difusa), cada sistema é capaz de proporcionar uma experiência ideal apenas em uma faixa limitada de configurações de alto-falantes que pode ocorrer no ambiente de renderização (como o lar de um usuário). Uma nova classe de sistemas de renderização de som que permitem uma configuração flexível de alto-falantes é, portanto, desejada.

[024] Dessa forma, várias atividades são atualmente empreendidas para desenvolver sistemas de áudio mais flexíveis. Em particular, a atividade de padronização de áudio para desenvolver o padrão de áudio conhecido como o padrão de áudio 3D ISO/IEC MPEG-H é conduzida com o objetivo de fornecer um único formato eficiente que proporcione experiências de áudio completamente imersivas para consumidores de fones de ouvido e configurações flexíveis de alto-falantes.

[025] A atividade reconhece que a maioria dos consumidores não é capaz e/ou não deseja (por exemplo, devido a limitações físicas do ambiente) cumprir com requisitos de configurações padronizadas de alto-falantes estabelecidos pelos padrões convencionais. Em vez disso, preferem dispor seus alto-falantes em seu ambiente doméstico sempre que lhes for conveniente, o que, em geral, resulta em uma experiência sonora abaixo da ideal. Considerando-se que essa é simplesmente a realidade do dia a dia, a iniciativa MPEG-H 3D Audio almeja proporcionar ao consumidor uma experiência ideal dada sua configuração de alto-falantes preferida. Dessa forma, em vez de assumir que os alto-falantes sejam dispostos em quaisquer posições específicas, e, consequentemente, exigir que o usuário adapte a configuração de alto-falantes aos requisitos do padrão de áudio, a iniciativa busca desenvolver um sistema de áudio que se adapte a qualquer configuração específica de alto-falantes implantada pelo usuário.

[026] O renderizador de referência no Convite à Apresentação de Propostas (Call for Proposals) para MPEG-H 3D Audio tem por base o uso de espacialização sonora (“panorama sonoro”) baseada em vetores (Vector Base Amplitude Panning) (VBAP). Essa é uma tecnologia bem estabelecida que corrige desvios de configurações padronizadas de alto-falantes (por exemplo, 5,1, 7,1 ou 22,2) mediante a aplicação de nova espacialização de fontes/canais entre pares de alto-falantes (ou trios em configurações que incluem alto-falantes em alturas diferentes).

[027] A tecnologia VBAP é, em geral, considerada a referência para a correção de disposições não padronizadas de alto-falantes por oferecer uma solução razoável em muitas situações. Todavia, tornou-se claro também que existem limitações para os desvios das posições de alto-falantes que essa tecnologia pode resolver eficazmente. Por exemplo, como a VBAP baseia-se na espacialização de amplitude, essa tecnologia não fornece resultados muito satisfatórios em casos de uso com grandes espaços entre os alto-falantes, especialmente entre os dispostos na frente e atrás. Além disso, essa tecnologia é completamente incapaz de lidar com um caso de uso com conteúdo “surround” e apenas alto-falantes à frente. Um outro caso de uso específico no qual a tecnologia VBAP fornece resultados abaixo dos esperados ocorre quando um subconjunto dos alto- falantes disponíveis é agrupado dentro de uma região pequena, por exemplo, ao redor de (ou talvez até integrado em) uma TV. Consequentemente, abordagens de renderização e adaptação aprimoradas seriam desejáveis.

[028] Portanto, uma abordagem de renderização de áudio aprimorada seria vantajosa e, em particular, uma abordagem que permitisse maior flexibilidade, facilidade de implementação e/ou operação, permitindo um posicionamento mais flexível de alto-falantes, adaptação aprimorada a diferentes configurações de alto-falantes e/ou desempenho aprimorado.

Sumário da invenção

[029] Consequentemente, a invenção busca, de preferência, mitigar, aliviar ou eliminar uma ou mais das desvantagens mencionadas acima, individualmente ou em qualquer combinação.

[030] De acordo com um aspecto da invenção, é apresentado um aparelho de áudio que compreende: um receptor para receber dados de áudio e dados de posição de transdutores de áudio para uma pluralidade de transdutores de áudio, um renderizador para renderizar os dados de áudio através da geração, a partir dos dados de áudio, de sinais de acionamento de transdutores de áudio para a pluralidade de transdutores de áudio, um agrupador para agrupar a pluralidade de transdutores de áudio em um conjunto de grupos de transdutores de áudio em resposta às distâncias entre transdutores de áudio da pluralidade de transdutores de áudio de acordo com uma métrica de distância espacial, sendo que as distâncias são determinadas a partir dos dados de posição de transdutores de áudio e o agrupamento compreende a geração do conjunto de grupos de transdutores de áudio em resposta a uma inclusão iterada de transdutores de áudio em grupos de uma iteração anterior, onde um primeiro transdutor de áudio é incluído em um primeiro grupo do conjunto de grupos de transdutores de áudio em resposta à condição de o primeiro transdutor de áudio satisfazer um critério de distância em relação a um ou mais transdutores de áudio do primeiro grupo, e um controlador de renderização disposto para adaptar a renderização em resposta ao agrupamento.

[031] A invenção pode fornecer renderização aprimorada em muitas situações. Em muitas aplicações práticas, uma experiência para o usuário substancialmente aprimorada pode ser proporcionada. A abordagem permite maior flexibilidade e liberdade de posicionamento de transdutores de áudio (especificamente alto-falantes) usados para renderizar áudio. Em muitas aplicações e modalidades, a abordagem pode permitir que a renderização seja adaptada à configuração específica de transdutores de áudio. De fato, em muitas modalidades, a abordagem pode permitir que o usuário simplesmente posicione alto-falantes em posições desejadas (talvez associadas a uma diretriz geral, como tentar cercar o ponto de audição), e o sistema possa se adaptar automaticamente à configuração específica.

[032] A abordagem pode proporcionar um alto grau de flexibilidade. De fato, a abordagem de agrupamento pode proporcionar uma adaptação com um fim específico a configurações específicas. Por exemplo, a abordagem não precisa, por exemplo, de decisões predeterminadas do tamanho de transdutores de áudio em cada grupo. De fato, em modalidades e cenários típicos, o número de transdutores de áudio em cada grupo será desconhecido antes do agrupamento. Além disso, o número de transdutores de áudio em cada grupo será, tipicamente, diferente para (ao menos alguns) grupos diferentes.

[033] Alguns grupos podem compreender apenas um único transdutor de áudio (por exemplo, se esse único transdutor de áudio estiver longe demais de todos os outros transdutores de áudio para que a distância satisfaça um dado requisito para o agrupamento).

[034] O agrupamento pode tentar agrupar transdutores de áudio que tenham uma coerência espacial nos mesmos grupos. Os transdutores de áudio em um dado grupo podem ter uma certa relação espacial, como uma distância máxima ou uma distância máxima vizinha.

[035] O controlador de renderização pode adaptar a renderização. A adaptação pode ser uma seleção de um modo/algoritmo de renderização para um ou mais grupos, e/ou pode ser uma adaptação/configuração/modificação de um parâmetro de um modo/algoritmo de renderização.

[036] A adaptação da renderização pode ser uma resposta a um resultado do agrupamento, como uma distribuição de transdutores de áudio em grupos, o número de grupos, um parâmetro de transdutores de áudio em um grupo (por exemplo, distância máxima entre todos os transdutores de áudio ou entre transdutores de áudio vizinhos mais próximos).

[037] As distâncias entre transdutores de áudio (de fato, em algumas modalidades, todas as distâncias incluindo, por exemplo, as determinações de vizinhos mais próximos, etc.) podem ser determinadas de acordo com a métrica de distância espacial.

[038] A métrica de distância espacial pode, em muitas modalidades, ser uma distância Euclidiana ou uma distância angular.

[039] Em algumas modalidades, a métrica de distância espacial pode ser uma métrica de distância espacial tridimensional, como uma distância Euclidiana tridimensional.

[040] Em algumas modalidades, a métrica de distância espacial pode ser uma métrica de distância espacial bidimensional, como uma distância Euclidiana bidimensional. Por exemplo, a métrica de distância espacial pode ser uma distância Euclidiana de um vetor projetado sobre um plano. Por exemplo, um vetor entre as posições de dois alto-falantes pode ser projetado sobre um plano horizontal e a distância pode ser determinada como o comprimento Euclidiano do vetor projetado.

[041] Em algumas modalidades, a métrica de distância espacial pode ser uma métrica de distância espacial unidimensional, como uma distância angular (por exemplo, correspondendo a uma diferença nos valores angulares de representações polares de dois transdutores de áudio).

[042] Os sinais dos transdutores de áudio podem ser sinais de acionamento dos transdutores de áudio. Os sinais dos transdutores de áudio podem ser processados adicionalmente antes de serem alimentados aos transdutores de áudio, por exemplo, por filtragem ou amplificação. De modo equivalente, os transdutores de áudio podem ser transdutores ativos que incluem funcionalidade de amplificação e/ou filtragem do sinal de acionamento fornecido. Um sinal de transdutor de áudio pode ser gerado para cada transdutor de áudio da pluralidade de transdutores de áudio.

[043] Os dados de posição de transdutores de áudio podem fornecer uma indicação da posição de cada transdutor de áudio do conjunto de transdutores de áudio, ou pode fornecer indicações de posição para apenas um subconjunto de transdutores.

[044] Os dados de áudio podem compreender um ou mais componentes de áudio, como canais de áudio, objetos de áudio, etc.

[045] O renderizador pode ser disposto para gerar, para cada componente de áudio, componentes de sinal de transdutores de áudio para os transdutores de áudio, e para gerar o sinal de transdutor de áudio para cada transdutor de áudio combinando os componentes de sinal de transdutores de áudio para a pluralidade de componentes de áudio.

[046] A abordagem é altamente adequada para transdutores de áudio com um número relativamente alto de transdutores de áudio. De fato, em algumas modalidades, a pluralidade de transdutores de áudio compreende não menos que 10 ou mesmo 15 transdutores de áudio.

[047] Em algumas modalidades, o renderizador pode ser capaz de renderizar os dados de áudio de acordo com uma pluralidade de modos de renderização, e o controlador de renderização pode ser disposto para selecionar ao menos um modo de renderização a partir da pluralidade de modos de renderização em resposta ao agrupamento.

[048] Os dados de áudio e os dados de posição de transdutores de áudio podem, em algumas modalidades, ser recebidos juntos no mesmo fluxo de dados e possivelmente da mesma fonte. Em outras modalidades, os dados podem ser independentes e, de fato, podem ser dados completamente separados, por exemplo, recebidos em formatos diferentes e de fontes diferentes. Por exemplo, os dados de áudio podem ser recebidos como um fluxo de dados de áudio codificado de uma fonte remota e os dados de posição de transdutores de áudio podem ser recebidos a partir de uma entrada manual de dados pelo usuário. Dessa forma, o receptor pode compreender (sub)receptores separados para receber os dados de áudio e os dados de posição de transdutores de áudio. De fato, os (sub)receptores para receber os dados de áudio e os dados de posição de transdutores de áudio podem ser implementados em dispositivos físicos diferentes.

[049] Os sinais de acionamento de transdutores de áudio podem ser quaisquer sinais que permitam que os transdutores de áudio renderizem o áudio representado pelos sinais de acionamento de transdutores de áudio. Por exemplo, em algumas modalidades, os sinais de acionamento de transdutores de áudio podem ser sinais de potência analógicos que são alimentados diretamente para transdutores de áudio passivos. Em outras modalidades, os sinais de acionamento de transdutores de áudio podem, por exemplo, ser sinais analógicos de baixa potência que podem ser amplificados por alto-falantes ativos. Em ainda outras modalidades, os sinais de acionamento de transdutores de áudio podem ser sinais digitalizados que podem, por exemplo, ser convertidos em sinais analógicos pelos transdutores de áudio. Em algumas modalidades, os sinais de acionamento de transdutores de áudio podem, por exemplo, ser sinais de áudio codificados que podem, por exemplo, ser transmitidos a transdutores de áudio através de uma rede ou, por exemplo, uma ligação de comunicação sem fio. Em tais exemplos, os transdutores de áudio podem compreender uma funcionalidade de decodificação.

[050] De acordo com uma característica adicional da invenção, o renderizador é capaz de renderizar componentes de áudio de acordo com uma pluralidade de modos de renderização, e o controlador de renderização é disposto para selecionar independentemente modos de renderização a partir da pluralidade de modos de renderização para diferentes grupos de transdutores de áudio.

[051] Isso pode proporcionar uma adaptação aprimorada e eficiente da renderização em muitas modalidades. Em particular, pode permitir vantajosamente que os algoritmos de renderização sejam distribuídos dinamicamente e com um fim específico em subconjuntos de transdutores de áudio capazes de suportar tais algoritmos de renderização e, ao mesmo tempo, permitir que outros algoritmos sejam aplicados a subconjuntos que não suportam esses algoritmos de renderização.

[052] O controlador de renderização pode ser disposto para selecionar independentemente o modo de renderização para grupos diferentes no sentido de que diferentes modos de renderização sejam seleções possíveis para os grupos. Especificamente, um modo de renderização pode ser selecionado para um primeiro grupo, enquanto um outro modo de renderização é selecionado para um grupo diferente.

[053] A seleção de um modo de renderização para um grupo pode considerar características associadas a transdutores de áudio que pertencem ao grupo, mas pode, por exemplo, em algumas situações considerar também características associadas a outros grupos.

[054] De acordo com uma característica adicional da invenção, o renderizador é capaz de executar uma renderização de processamento de matriz, e o controlador de renderização é disposto para selecionar uma renderização de processamento de matriz para um primeiro grupo do conjunto de grupos de transdutores de áudio em resposta à condição de uma propriedade do primeiro grupo satisfazer um critério.

[055] Em muitas modalidades, isso pode proporcionar desempenho aprimorado e/ou pode permitir uma experiência aprimorada e/ou maior liberdade e flexibilidade para o usuário. Em particular, a abordagem pode permitir uma adaptação aprimorada ao cenário de renderização específica.

[056] O processamento de matriz pode permitir uma renderização particularmente eficiente e pode, em particular, permitir um alto grau de flexibilidade na renderização de áudio com características espaciais perceptivas desejadas. Entretanto, o processamento de matriz exige, tipicamente, que os transdutores de áudio da matriz estejam próximos uns dos outros.

[057] No processamento de matriz, um sinal de áudio é renderizado ao ser alimentado em uma pluralidade de transdutores de áudio com a fase e a amplitude ajustadas entre transdutores de áudio para fornecer um padrão de radiação desejado. A fase e amplitudes são, tipicamente, dependentes da frequência.

[058] O processamento de matriz pode incluir especificamente formação de feixes, síntese de campo sonoro e processamento de dipolo (que pode ser considerado uma forma de formação de feixes). Processos de matriz diferentes podem ter requisitos diferentes para os transdutores de áudio da matriz e o desempenho aprimorado pode, em algumas modalidades, ser conseguido selecionando-se entre técnicas diferentes de processamento de matriz.

[059] De acordo com uma característica adicional da invenção, o renderizador é disposto para executar uma renderização de processamento de matriz, e o controlador de renderização é disposto para adaptar a renderização de processamento de matriz para um primeiro grupo do conjunto de grupos de transdutores de áudio em resposta a uma propriedade do primeiro grupo.

[060] Em muitas modalidades, isso pode proporcionar desempenho aprimorado e/ou pode permitir uma experiência aprimorada e/ou maior liberdade e flexibilidade para o usuário. Em particular, a abordagem pode permitir uma adaptação aprimorada ao cenário de renderização específica.

[061] O processamento de matriz pode permitir uma renderização particularmente eficiente e pode, em particular, permitir um alto grau de flexibilidade na renderização de áudio com características espaciais perceptivas desejadas. Entretanto, o processamento de matriz exige, tipicamente, que os transdutores de áudio da matriz estejam próximos uns dos outros.

[062] De acordo com uma característica adicional da invenção, a propriedade é ao menos uma dentre: uma distância máxima entre transdutores de áudio do primeiro grupo que são vizinhos mais próximos de acordo com a métrica de distância espacial, uma distância máxima entre transdutores de áudio do primeiro grupo de acordo com a métrica de distância espacial, e um número de transdutores de áudio no primeiro grupo.

[063] Isso pode proporcionar uma adaptação particularmente vantajosa da renderização e especificamente do processamento de matriz.

[064] De acordo com uma característica adicional da invenção, o agrupador é disposto para gerar uma indicação de propriedade para um primeiro grupo do conjunto de grupos de transdutores de áudio, e o controlador de renderização é disposto para adaptar a renderização para o primeiro grupo em resposta à indicação de propriedade.

[065] Em muitas modalidades, isso pode proporcionar desempenho aprimorado e/ou pode permitir uma experiência aprimorada para o usuário e/ou maior flexibilidade. Em particular, a abordagem pode permitir uma adaptação aprimorada ao cenário de renderização específica.

[066] A adaptação da renderização pode, por exemplo, ser feita selecionando-se o modo de renderização em resposta à propriedade. Como outro exemplo, a adaptação pode ser feita adaptando-se um parâmetro de um algoritmo de renderização.

[067] De acordo com uma característica adicional da invenção, a indicação de propriedade é indicativa de ao menos uma propriedade selecionada do grupo que consiste em: uma distância máxima entre transdutores de áudio do primeiro grupo que são vizinhos mais próximos de acordo com a métrica de distância espacial, e a distância máxima entre dois transdutores de áudio quaisquer do primeiro grupo.

[068] Esses parâmetros podem proporcionar adaptação e desempenho particularmente vantajosos em muitas modalidades e cenários. Em particular, eles podem, frequentemente, fornecer uma indicação muito forte da adequação e/ou de parâmetros preferenciais para o processamento de matriz.

[069] De acordo com uma característica adicional da invenção, a indicação de propriedade é indicativa de ao menos uma propriedade selecionada do grupo que consiste em: uma resposta de frequência de um ou mais transdutores de áudio do primeiro grupo, uma restrição da faixa de frequências para um modo de renderização do renderizador, um número de transdutores de áudio no primeiro grupo, uma orientação do primeiro grupo em relação a pelo menos uma dentre uma posição de referência e uma propriedade geométrica do ambiente de renderização, e um tamanho espacial do primeiro grupo.

[070] Esses parâmetros podem proporcionar adaptação e desempenho particularmente vantajosos em muitas modalidades e cenários.

[071] O agrupador é disposto para gerar o conjunto de grupos de transdutores de áudio em resposta a uma inclusão iterada de transdutores de áudio em grupos de uma iteração anterior, onde um primeiro transdutor de áudio é incluído em um primeiro grupo do conjunto de grupos de transdutores de áudio em resposta à condição de o primeiro transdutor de áudio satisfazer um critério de distância em relação a um ou mais transdutores de áudio do primeiro grupo.

[072] Em muitas modalidades, isso pode proporcionar um agrupamento particularmente vantajoso. Em particular, pode permitir um agrupamento “da base para o topo” no qual grupos cada vez maiores são gerados gradualmente. Em muitas modalidades, um agrupamento vantajoso é obtido com o uso de recursos computacionais relativamente baixos.

[073] O processo pode ser iniciado por um conjunto de grupos em que cada grupo compreende um transdutor de áudio, ou pode, por exemplo, ser iniciado com um conjunto de grupos iniciais de alguns transdutores de áudio (por exemplo, satisfazendo um dado requisito).

[074] Em algumas modalidades, o critério de distância compreende ao menos um requisito selecionado do grupo que consiste nas seguintes condições: o primeiro transdutor de áudio é um transdutor de áudio mais próximo de qualquer transdutor de áudio do primeiro grupo; o primeiro transdutor de áudio pertence a um grupo de transdutores de áudio que compreende um transdutor de áudio que é um transdutor de áudio mais próximo de qualquer transdutor de áudio do primeiro grupo; uma distância entre um transdutor de áudio do primeiro grupo e o primeiro transdutor de áudio é menor do que qualquer outra distância entre pares de transdutores de áudio que compreendem transdutores de áudio de grupos diferentes; e uma distância entre um transdutor de áudio do primeiro grupo e um transdutor de áudio de um grupo ao qual o primeiro transdutor de áudio pertence é menor do que qualquer outra distância entre pares de transdutores de áudio que compreendem transdutores de áudio de grupos diferentes.

[075] Em algumas modalidades, o agrupador pode ser disposto para gerar o conjunto de grupos de transdutores de áudio em resposta a uma geração inicial de grupos seguida de uma divisão iterada de grupos, sendo que cada divisão de grupos é feita em resposta a uma distância entre dois transdutores de áudio de um grupo que excede um limiar.

[076] Em muitas modalidades, isso pode proporcionar um agrupamento particularmente vantajoso. Em particular, pode permitir um agrupamento “do topo para a base” no qual grupos cada vez menores são gerados gradualmente a partir de grupos maiores. Em muitas modalidades, um agrupamento vantajoso é obtido com o uso de recursos computacionais relativamente baixos.

[077] O processo pode ser iniciado por um conjunto de grupos que compreende um único grupo contendo todos os grupos, por exemplo, pode ser iniciado com um conjunto de grupos iniciais que compreendem um grande número de transdutores de áudio (por exemplo, satisfazendo um dado requisito).

[078] De acordo com uma característica adicional da invenção, o agrupador é disposto para gerar o conjunto de grupos de transdutores de áudio sujeitos a uma exigência de que em um grupo não há dois transdutores de áudio que são vizinhos mais próximos de acordo com a métrica de distância espacial com uma distância que excede um limiar.

[079] Isso pode proporcionar um desempenho e uma operação particularmente vantajosos em muitas modalidades. Por exemplo, pode gerar grupos que podem ser considerados adequados para, por exemplo, processamento de matriz.

[080] Em algumas modalidades, o agrupador pode ser disposto para gerar o conjunto de grupos de transdutores de áudio sujeitos a uma exigência de que não há dois alto- falantes quaisquer em um dado grupo com uma distância que excede um limiar.

[081] De acordo com uma outra característica da invenção, o agrupador é adicionalmente disposto para receber dados de renderização indicativos de características de renderização acústica de ao menos alguns transdutores de áudio da pluralidade de transdutores de áudio, e para agrupar a pluralidade de transdutores de áudio no conjunto de grupos de transdutores de áudio em resposta aos dados de renderização.

[082] Isso pode proporcionar um agrupamento que, em muitas modalidades e cenários, pode permitir uma adaptação aprimorada da renderização. As características de renderização acústica podem, por exemplo, incluir uma indicação da faixa de frequências, como largura de banda de frequência ou frequência central, para um ou mais transdutores de áudio.

[083] Em particular, em algumas modalidades o agrupamento pode ser dependente de um padrão de radiação, por exemplo, representado pela direção da radiação principal, dos transdutores de áudio.

[084] De acordo com uma característica adicional da invenção, o agrupador é adicionalmente disposto para receber dados de algoritmo de renderização indicativos de características de algoritmos de renderização que podem ser executados pelo renderizador, e para agrupar a pluralidade de transdutores de áudio no conjunto de grupos de transdutores de áudio em resposta aos dados de algoritmo de renderização.

[085] Isso pode proporcionar um agrupamento que, em muitas modalidades e cenários, pode permitir uma adaptação aprimorada da renderização. Os dados de algoritmo de renderização podem, por exemplo, incluir indicações de quais algoritmos/modos de renderização podem ser suportados pelo renderizador, quais restrições existem para os mesmos, etc.

[086] De acordo com uma característica adicional da invenção, a métrica de distância espacial é uma métrica de distância angular que reflete uma diferença angular entre transdutores de áudio em relação a uma posição ou direção de referência.

[087] Isso pode proporcionar desempenho aprimorado em muitas modalidades. Em particular, isso pode proporcionar uma correspondência aprimorada à adequação de grupos para, por exemplo, processos de matriz.

[088] De acordo com um aspecto da invenção é apresentado um método de processamento de áudio, sendo que o método compreende: receber dados de áudio e dados de posição de transdutores de áudio para uma pluralidade de transdutores de áudio; renderizar os dados de áudio através da geração, a partir dos dados de áudio, de sinais de acionamento de transdutores de áudio para a pluralidade de transdutores de áudio; agrupar a pluralidade de transdutores de áudio em um conjunto de grupos de transdutores de áudio em resposta aos dados de posição de transdutores de áudio e às distâncias entre transdutores de áudio da pluralidade de transdutores de áudio de acordo com uma métrica de distância espacial, sendo que as distâncias são determinadas a partir dos dados de posição de transdutores de áudio e o agrupamento compreende a geração do conjunto de grupos de transdutores de áudio em resposta a uma inclusão iterada de transdutores de áudio em grupos de uma iteração anterior, onde um primeiro transdutor de áudio é incluído em um primeiro grupo do conjunto de grupos de transdutores de áudio em resposta à condição de o primeiro transdutor de áudio satisfazer um critério de distância em relação a um ou mais transdutores de áudio do primeiro grupo; e adaptar a renderização em resposta ao agrupamento.

[089] Esses e outros aspectos, recursos e vantagens da invenção serão evidentes a partir de e elucidados com referência à(s) modalidade(s) descrita(s) mais adiante neste documento.

Breve descrição dos desenhos

[090] As modalidades da invenção serão descritas, somente a título de exemplo, com referência aos desenhos, nos quais: A Figura 1 ilustra um exemplo do princípio de um sistema MPEG Surround de acordo com a técnica anterior; A Figura 2 ilustra um exemplo de elementos de um sistema SAOC de acordo com a técnica anterior; A Figura 3 ilustra uma interface interativa que permite ao usuário controlar os objetos individuais contidos em um fluxo de bits SAOC; A Figura 4 ilustra um exemplo do princípio da codificação de áudio do MDA™ da DTS de acordo com a técnica anterior; A Figura 5 ilustra um exemplo de elementos de um sistema MPEG-H 3D Audio de acordo com a técnica anterior; A Figura 6 ilustra um exemplo de um aparelho de áudio de acordo com algumas modalidades da invenção; A Figura 7 ilustra um exemplo de uma configuração de alto-falantes de acordo com algumas modalidades da invenção; A Figura 8 ilustra um exemplo de um agrupamento da configuração de alto-falantes da Figura 7; A Figura 9 ilustra um exemplo de a configuração de alto-falantes de acordo com algumas modalidades da invenção, e A Figura 10 ilustra um exemplo de um agrupamento da configuração de alto-falantes da Figura 7.

Descrição detalhada de algumas modalidades da invenção

[091] A descrição a seguir concentra-se em modalidades da invenção aplicáveis a um sistema de renderização disposto para renderizar uma pluralidade de componentes de áudio que podem ser de tipos diferentes, e, em particular, para a renderização de canais de áudio, objetos de áudio e objetos de cenas de áudio de um fluxo de áudio 3D MPEG-H. Entretanto, será entendido que a invenção não se limita a essa aplicação, mas pode ser aplicada a muitos outros sistemas de renderização de áudio, bem como a outros fluxos de áudio.

[092] O sistema de renderização descrito é um sistema de renderização adaptável capaz de adaptar sua operação à configuração de renderização de transdutores de áudio utilizada, e especificamente às posições específicas dos transdutores de áudio usados na renderização.

[093] A maioria dos sistemas de reprodução de som existentes permite apenas uma quantidade muito modesta de flexibilidade na configuração de alto-falantes. Como os sistemas convencionais são, em geral, desenvolvidos a partir de suposições básicas com relação à configuração geral de seus alto-falantes (por exemplo, que os alto-falantes sejam posicionados de maneira mais ou menos equidistante ao redor do ouvinte, ou dispostos em uma linha na frente do ouvinte, etc.) e/ou com relação à natureza do conteúdo de áudio (por exemplo, que o mesmo consista em um pequeno número de fontes localizáveis separadas, ou o mesmo consista em uma cena de som altamente difusa, etc.), os sistemas existentes são, tipicamente, capazes de proporcionar uma experiência ideal específica por uma faixa limitada de configurações de alto- falante. Isso resulta em uma redução significativa na experiência para o usuário e, em particular, na experiência espacial em muitos casos de uso do mundo real e/ou reduz gravemente a liberdade e a flexibilidade do usuário para posicionar os alto-falantes.

[094] O sistema de renderização descrito no texto a seguir fornece um sistema de renderização adaptável que é capaz de proporcionar uma experiência de alta qualidade e tipicamente otimizada para uma grande faixa de configurações diversificadas de alto-falantes. O sistema fornece, portanto, a liberdade e a flexibilidade procuradas em muitas aplicações, como aplicações domésticas de renderização.

[095] O sistema de renderização tem por base o uso de um algoritmo de agrupamento que executa um agrupamento dos alto-falantes em um conjunto de grupos. O agrupamento tem por base as distâncias entre alto-falantes que são determinadas com o uso de uma métrica de distância espacial adequada, como uma distância Euclidiana ou uma diferença/distância angular em relação a um ponto de referência. A abordagem de agrupamento pode ser aplicada a qualquer instalação e configuração de alto-falantes e pode proporcionar uma geração adaptável e dinâmica de grupos que refletem as características específicas da configuração dada. O agrupamento pode identificar e agrupar especificamente alto- falantes que apresentem uma coerência espacial. Essa coerência espacial dentro de grupos individuais pode, então, ser usada por algoritmos de renderização que se baseiam na exploração da coerência espacial. Por exemplo, uma renderização baseada em um processamento de matriz, como, por exemplo, uma renderização por formação de feixes, pode ser aplicada dentro dos grupos individuais identificados. Dessa forma, o agrupamento pode permitir a identificação de grupos de alto- falantes que podem ser usados para renderizar áudio com o uso de um processo de formação de feixes.

[096] Consequentemente, no sistema de renderização, a renderização é adaptada em função do agrupamento. Dependendo do resultado do agrupamento, o sistema de renderização pode selecionar um ou mais parâmetros da renderização. De fato, em muitas modalidades, pode-se selecionar um algoritmo de renderização livremente para cada grupo. Dessa forma, o algoritmo que é usado para um dado alto-falante dependerá do agrupamento e dependerá especificamente do grupo ao qual o alto-falante pertence. O sistema de renderização pode, por exemplo, tratar cada grupo com uma quantidade maior que um dado número de alto-falantes como se fosse uma única matriz de alto-falantes, sendo o áudio renderizado a partir desse grupo por um processo de matriz, como um processo de formação de feixes.

[097] Em algumas modalidades, a abordagem de renderização baseia-se em um processo de agrupamento que pode identificar especificamente um ou mais subconjuntos dentre um conjunto total de alto-falantes, que podem ter coerência espacial que permita a aplicação de algoritmos de renderização específicos. Especificamente, o agrupamento pode permitir uma geração flexível e “ad-hoc” de subconjuntos de alto-falantes em uma configuração adaptável de alto-falantes aos quais técnicas de processamento de matriz possam ser efetivamente aplicadas. A identificação dos subconjuntos é feita com base nas distâncias espaciais entre alto-falantes vizinhos.

[098] Em algumas modalidades, os grupos ou subconjuntos de alto-falantes podem ser caracterizados por um ou mais indicadores que estão relacionados ao desempenho de renderização do subconjunto, e um ou mais parâmetros da renderização podem ser definidos de acordo.

[099] Por exemplo, para um dado grupo, pode ser gerado um indicador do possível desempenho da matriz do subconjunto. Esses indicadores podem incluir, por exemplo, o espaçamento máximo entre alto-falantes dentro do subconjunto, a extensão espacial total (tamanho) do subconjunto, a largura de banda de frequência dentro da qual o processamento de matriz pode ser efetivamente aplicado ao subconjunto, a posição, direção ou orientação do subconjunto em relação a alguma posição de referência, e indicadores que especificam para um ou mais tipos de processamento de matriz se tal processamento pode ser efetivamente aplicado ao subconjunto.

[0100] Embora muitas abordagens diferentes de renderização possam ser usadas em modalidades diferentes, a abordagem pode, especificamente em muitas modalidades, ser disposta para identificar e gerar subconjuntos de alto- falantes em qualquer dada configuração (aleatória) que são particularmente adequados para o processamento de matriz. A descrição abaixo terá como foco modalidades nas quais ao menos um possível modo de renderização usa processamento de matriz, mas será entendido que em outras modalidades nenhum processamento de matriz pode ser empegado.

[0101] Com o uso de processamento de matriz, as propriedades espaciais do campo sonoro reproduzido por uma configuração de múltiplos alto-falantes podem ser controladas. Existem tipos diferentes de processamento de matriz, mas, em geral, o processamento envolve o envio de um sinal de entrada que é comum a vários alto-falantes com a aplicação de ganho individual e modificações de fase ao sinal de cada alto- falante, possivelmente de uma forma que depende da frequência.

[0102] O processamento de matriz pode ser projetado para: restringir a região espacial para a qual o som é irradiado (formação de feixes); resultar em um campo sonoro espacial que é idêntico àquele de uma fonte de som virtual no local de alguma fonte desejada (síntese de campo sonoro e técnicas similares); impedir a irradiação acústica em uma direção específica (processamento de dipolo); renderizar som de modo que o mesmo não transmita uma clara associação direcional para o ouvinte; - renderizar som de modo a criar uma experiência espacial desejada para uma dada posição no espaço de audição (auralização de alto-falante utilizando cancelamento de diafonia e funções de transferência relativas à cabeça (HRTFs)).

[0103] Deve ser entendido que esses são apenas alguns exemplos específicos e que qualquer outro tipo de processamento de matriz de áudio pode ser usado alternativa ou adicionalmente.

[0104] As diferentes técnicas de processamento de matriz têm diferentes requisitos para a matriz de alto- falantes, por exemplo, em termos de espaçamento máximo permitido entre alto-falantes, ou o número mínimo de alto- falantes na matriz. Esses requisitos dependem, também, da aplicação e caso de uso. Eles podem estar relacionados à largura de banda de frequência dentro da qual se exige que o processamento de matriz seja eficaz, e podem ser motivados de forma perceptiva. Por exemplo, o processamento por síntese de campo sonoro pode ser eficaz com um espaçamento entre alto- falantes de até 25 cm e tipicamente exige uma matriz relativamente longa para fornecer uma vantagem real. O processamento por formação de feixes, por outro lado, é tipicamente útil apenas com espaçamentos menores entre alto- falantes (por exemplo, menos de 10 cm), mas ainda pode ser eficaz com matrizes relativamente curtas, enquanto o processamento de dipolo exige apenas dois alto-falantes espaçados relativamente próximos um do outro.

[0105] Portanto, subconjuntos diferentes de um conjunto total de alto-falantes podem ser adequados para tipos diferentes de processamento de matriz. O desafio é identificar esses diferentes subconjuntos e caracterizá-los de modo que técnicas adequadas de processamento de matriz possam ser aplicadas aos mesmos. No sistema de renderização descrito, os subconjuntos são determinados dinamicamente sem a necessidade de conhecimentos ou suposições prévias de configurações específicas de alto-falantes. A determinação tem por base uma abordagem de agrupamento que gera subconjuntos dos alto- falantes que dependem das relações espaciais entre os mesmos.

[0106] O sistema de renderização pode, portanto, adaptar a operação à configuração específica de alto-falantes e pode, especificamente, otimizar o uso de técnicas de processamento de matriz para fornecer renderização aprimorada e, em particular, fornecer uma renderização espacial aprimorada. De fato, o processamento de matriz pode, tipicamente, proporcionar uma experiência espacial substancialmente aprimorada quando usado com matrizes de alto-falantes adequadas em comparação, por exemplo, com uma abordagem de espacialização sonora baseada em vetores (VBAP) usada em alguns sistemas de renderização. O sistema de renderização pode identificar automaticamente subconjuntos de alto-falantes adequados que possam suportar um processamento de matriz adequado, permitindo, dessa forma, uma renderização total de áudio aprimorada.

[0107] A Figura 6 ilustra um exemplo de um sistema de renderização/aparelho de áudio 601 de acordo com algumas modalidades da invenção.

[0108] O aparelho de processamento de áudio 601 é especificamente um renderizador de áudio que gera sinais de acionamento para um conjunto de transdutores de áudio, os quais, no exemplo específico, são alto-falantes 603. Dessa forma, o aparelho de processamento de áudio 601 gera sinais de acionamento de transdutores de áudio os quais, no exemplo específico, são sinais de acionamento para um conjunto de alto-falantes 603. Figura 6 ilustra especificamente um exemplo de seis alto-falantes, mas será entendido que tal configuração ilustra apenas um exemplo específico e que qualquer número de alto-falantes pode ser usado. De fato, em muitas modalidades, o número total de alto-falantes pode ser não menos que 10 ou mesmo 15 alto-falantes.

[0109] O aparelho de processamento de áudio 601 compreende um receptor 605, que recebe dados de áudio, que compreende uma pluralidade de componentes de áudio a serem renderizados a partir dos alto-falantes 603. Os componentes de áudio são, tipicamente, renderizados para proporcionar ao usuário uma experiência espacial e podem, por exemplo, incluir sinais de áudio, canais de áudio, objetos de áudio e/ou objetos de cenas de áudio. Em algumas modalidades, os dados de áudio podem representar apenas um sinal de áudio mono. Em outras modalidades, uma pluralidade de componentes de áudio de tipos diferentes pode, por exemplo, ser representada pelos dados de áudio.

[0110] O aparelho de processamento de áudio 601 compreende adicionalmente um renderizador 607 que é disposto para renderizar (ao menos parte de) os dados de áudio mediante a geração dos sinais de acionamento de transdutores de áudio (referidos deste ponto em diante do presente documento como “sinais de acionamento”), isto é, sinais de acionamento para os alto-falantes 603 derivados dos dados de áudio. Dessa forma, quando são alimentados nos alto-falantes 603, os sinais de acionamento produzem o áudio representado pelos dados de áudio.

[0111] O renderizador pode, especificamente, gerar componentes de sinais de acionamento para os alto- falantes 603 a partir de cada um dentre os vários componentes de áudio nos dados de áudio recebidos, e então combinar os componentes de sinais de acionamento dos diferentes componentes de áudio em sinais únicos de transdutores de áudio, isto é, nos sinais de acionamento finais que são alimentados nos alto-falantes 603. Para fins de brevidade e clareza, a Figura 6 e a descrição a seguir não detalharão as operações padrão de processamento de sinal que podem ser aplicadas aos sinais de acionamento ou na geração de sinais de acionamento. Todavia, será entendido que o sistema pode incluir, por exemplo, funções de filtragem e amplificação.

[0112] Os receptores 605 pode, em algumas modalidades, receber dados de áudio codificados que compreendem dados de áudio codificados para um ou mais componentes de áudio, e pode ser disposto para decodificar os dados de áudio e fornecer fluxos de áudio decodificados ao renderizador 607. Especificamente, pode ser fornecido um fluxo de áudio para cada componente de áudio. Alternativamente, um fluxo de áudio pode ser um “downmix” de múltiplos objetos de som (como, por exemplo, para um fluxo de bits SAOC).

[0113] Em algumas modalidades, o receptor 605 pode, ainda, ser disposto para fornecer dados de posição ao renderizador 607 quanto aos componentes de áudio, e o renderizador 607 pode posicionar os componentes de áudio de acordo. Em algumas modalidades, os dados de posição podem ser fornecidos, por exemplo, a partir de uma entrada de dados pelo usuário, por um algoritmo separado, ou gerados pelo próprio sistema de renderização/aparelho de áudio 601. Em geral, será entendido que os dados de posição podem ser gerados e fornecidos de qualquer maneira adequada e em qualquer formato adequado.

[0114] Ao contrário dos sistemas convencionais, o aparelho de processamento de áudio 601 da Figura 6 não apenas gera os sinais de acionamento com base em uma posição predeterminada ou assumida dos alto-falantes 603. Ao invés disso, o sistema adapta a renderização à configuração específica dos alto-falantes. A adaptação é baseada no agrupamento dos alto-falantes 603 em um conjunto de grupos de transdutores de áudio.

[0115] Consequentemente, o sistema de renderização compreende um agrupador 609 que é disposto para agrupar a pluralidade de transdutores de áudio em um conjunto de grupos de transdutores de áudio. Dessa forma, o agrupador 609 produz uma pluralidade de grupos que corresponde aos subconjuntos dos alto-falantes 603. Um ou mais dos grupos resultantes podem compreender apenas um único alto-falante ou uma pluralidade de alto-falantes 603. O número de alto-falantes em um ou mais dos grupos não é predeterminado, mas depende das relações espaciais entre os alto-falantes 603.

[0116] O agrupamento baseia-se nos dados de posição de transdutores de áudio que o receptor 605 fornece ao agrupador 609. O agrupamento baseia-se em distâncias espaciais entre os alto-falantes 603, sendo que a distância espacial é determinada de acordo com uma métrica de distância espacial. A métrica de distância espacial pode, por exemplo, ser uma distância Euclidiana bidimensional ou tridimensional, ou pode ser uma distância angular em relação a um ponto de referência adequado (por exemplo, uma posição de audição).

[0117] Deve ser entendido que os dados de posição de transdutores de áudio podem ser quaisquer dados que forneçam uma indicação de uma posição de um ou mais dos alto-falantes 603, incluindo posições absolutas ou relativas (como, por exemplo, posições relativas a outras posições de alto-falantes 603, relativas a uma posição de audição, ou a posição de um dispositivo de localização separado ou outro dispositivo no ambiente). Deve ser entendido também que os dados de posição de transdutores de áudio podem ser fornecidos ou gerados de qualquer maneira adequada. Por exemplo, em algumas modalidades os dados de posição de transdutores de áudio podem ser inseridos manualmente por um usuário, por exemplo, como posições reais em relação a uma posição de referência (como uma posição de audição), ou como distâncias e ângulos entre alto-falantes. Em outros exemplos, o aparelho de processamento de áudio 601 pode compreender uma funcionalidade para estimar as posições dos alto-falantes 603 com base em medições. Por exemplo, os alto-falantes 603 podem ser dotados de microfones e esses podem ser usados para estimar as posições. Por exemplo, cada alto-falante 603 pode, por sua vez, renderizar um sinal de teste, e as diferenças de tempo entre os componentes do sinal de teste nos sinais dos microfones podem ser determinados e usados para estimar as distâncias ao alto-falante 603 que renderiza o sinal de teste. O conjunto completo de distâncias obtidas a partir dos testes de uma pluralidade (e tipicamente todos) de alto- falantes 603 pode então ser usado para estimar as posições relativas dos alto-falantes 603.

[0118] O agrupamento tentará agrupar alto- falantes que têm uma coerência espacial. Dessa forma, são gerados grupos de alto-falantes onde os alto-falantes dentro de cada grupo satisfazem um ou mais requisitos de distância entre si. Por exemplo, cada grupo pode compreender um conjunto de alto-falantes em que cada alto-falante tem uma distância (de acordo com a métrica de distância) a ao menos um outro alto-falante do grupo que está abaixo de um limiar predeterminado. Em algumas modalidades, a geração do grupo pode estar sujeita a uma exigência de que uma distância máxima (de acordo com a métrica de distância) entre dois alto-falantes quaisquer no grupo é menor que um limiar.

[0119] O agrupador 609 é disposto para fazer o agrupamento com base na métrica de distância, nos dados de posição e nos requisitos de distância relativa dos alto- falantes de um grupo. Dessa forma, o agrupador 609 não assume nem exige uma posição ou uma configuração específica para os alto-falantes. Ao invés disso, qualquer configuração de alto- falantes poderá ser agrupada com base nos dados de posição. Se uma dada configuração de alto-falantes não compreender de fato um conjunto de alto-falantes posicionados com uma coerência espacial adequada, o agrupamento irá gerar um grupo compreendendo esse conjunto de alto-falantes. Ao mesmo tempo, os alto-falantes que não estiverem suficientemente próximos de quaisquer outros alto-falantes para exibir uma coerência espacial desejada acabarão sendo incluídos em grupos que compreendem apenas o próprio alto-falante.

[0120] O agrupamento poderá, dessa forma, proporcionar uma adaptação bastante flexível para qualquer configuração de alto-falantes. De fato, para uma dada configuração de alto-falantes qualquer, o agrupamento poderá, por exemplo, identificar qualquer subconjunto de alto-falantes 603 que sejam adequados para processamento de matriz.

[0121] O agrupador 609 é acoplado a um adaptador/controlador de renderização 611 que é acoplado adicionalmente ao renderizador 607. O controlador de renderização 611 é disposto para adaptar a renderização feita pelo renderizador 607 em resposta ao agrupamento.

[0122] Dessa forma, o agrupador 609 fornece ao controlador de renderização 611 dados que descrevem o resultado do agrupamento. Os dados podem incluir especificamente uma indicação de quais alto-falantes 603 pertencem a quais grupos, isto é, dos grupos resultantes e de seus constituintes. Deve ser observado que em muitas modalidades, um alto-falante pode pertencer a mais de um grupo. Além das informações sobre quais alto-falantes encontram-se em cada grupo, o agrupador 609 pode também gerar outras informações, como, por exemplo, indicações da distância média ou máxima entre os alto-falantes no grupo (por exemplo, a distância média ou máxima entre cada alto- falante no grupo e o alto-falante vizinho mais próximo no grupo).

[0123] O controlador de renderização 611 recebe as informações do agrupador 609 e em resposta é disposto para controlar o renderizador 607 de modo a adaptar a renderização ao agrupamento específico. A adaptação pode, por exemplo, ser uma seleção de um modo/algoritmo de renderização e/ou uma configuração de um modo/algoritmo de renderização, por exemplo, mediante a definição de um ou mais parâmetros de um modo/algoritmo de renderização.

[0124] Por exemplo, o controlador de renderização 611 pode, para um dado grupo, selecionar um algoritmo de renderização que seja adequado para o grupo. Por exemplo, se o grupo compreender um único alto-falante, a renderização de alguns componentes de áudio poderá ser feita por um algoritmo VBAP que usa, por exemplo, um outro alto- falante que pertence a um grupo diferente. Contudo, se o grupo compreender, em vez disso, um número suficiente de alto-falantes, a renderização do componente de áudio poderá, em vez disso, ser feita com o uso de um processamento de matriz como formação de feixes ou síntese de campo sonoro. Assim, a abordagem contempla a detecção e o agrupamento automáticos de alto-falantes aos quais podem ser aplicadas técnicas de processamento de matriz para aprimorar a percepção espacial e, ao mesmo tempo, permitir o uso de outros modos de renderização quando isso não for possível.

[0125] Em algumas modalidades, os parâmetros do modo de renderização podem ser definidos dependendo de outras características. Por exemplo, o processamento real de matriz pode ser adaptado para refletir as posições específicas dos alto-falantes em um dado grupo usados para a renderização do processamento de matriz.

[0126] Como outro exemplo, um modo/algoritmo de renderização pode ser pré-selecionado e os parâmetros para uma renderização podem ser definidos em função do agrupamento. Por exemplo, um algoritmo de formação de feixes pode ser adaptado para refletir o número de alto-falantes existentes no grupo específico.

[0127] Assim, em algumas modalidades, o controlador de renderização 611 é disposto para selecionar entre um número de algoritmos diferentes dependendo do agrupamento, e é especificamente capaz de selecionar algoritmos de renderização diferentes para grupos diferentes.

[0128] Em particular, o renderizador 607 pode ser operado para renderizar os componentes de áudio de acordo com uma pluralidade de modos de renderização com características diferentes. Por exemplo, alguns modos de renderização empregarão algoritmos que fornecem uma renderização que proporciona uma percepção de áudio muito específica e altamente localizada, enquanto outros modos de renderização empregarão algoritmos de renderização que fornecem uma percepção difusa e espalhada. Dessa forma, a renderização e a experiência espacial percebida podem diferir substancialmente dependendo do algoritmo de renderização utilizado. Além disso, os diferentes algoritmos de renderização podem ter requisitos diferentes para os alto- falantes 603 usados para renderizar o áudio. Por exemplo, o processamento de matriz, como formação de feixes ou síntese de campo sonoro, exige uma pluralidade de alto-falantes posicionados próximos uns dos outros, enquanto as técnicas de VBAP podem ser usadas com alto-falantes posicionados mais remotamente uns dos outros.

[0129] Em modalidades específicas, o controlador de renderização 611 é disposto para controlar o modo de renderização usado pelo renderizador 607. Dessa forma, o controlador de renderização 611 controla quais algoritmos de renderização específicos são usados pelo renderizador 607. O controlador de renderização 611 seleciona os modos de renderização com base no agrupamento e, portanto, os algoritmos de renderização empregados pelo aparelho de processamento de áudio 601 dependem das posições dos alto- falantes 603.

[0130] O controlador de renderização 611 não faz simplesmente o ajuste das características de renderização ou a alternância entre os modos de renderização para o sistema como um todo. Ao invés disso, o aparelho de processamento de áudio 601 da Figura 6 é disposto para selecionar modos e algoritmos de renderização para grupos individuais de alto-falantes. A seleção depende, tipicamente, das características específicas dos alto- falantes 603 no grupo. Dessa forma, um modo de renderização pode ser usado para alguns alto-falantes 603, enquanto um outro modo de renderização pode, ao mesmo tempo, ser usado para outros alto-falantes 603 (de um grupo diferente). O áudio renderizado pelo sistema da Figura 6 é, portanto, em tais modalidades, uma combinação da aplicação de diferentes modos de renderização espacial para diferentes subconjuntos dos alto-falantes 603 em que os modos de renderização espacial são selecionados em função do agrupamento.

[0131] O controlador de renderização 611 pode selecionar de maneia especificamente independente o modo de renderização de cada grupo.

[0132] O uso de algoritmos de renderização diferentes para grupos diferentes pode proporcionar desempenho aprimorado em muitas situações e pode permitir uma adaptação aprimorada à configuração de renderização específica e proporcionar, ao mesmo tempo, uma experiência espacial aprimorada em muitos cenários.

[0133] Em algumas modalidades, o controlador de renderização 611 pode ser disposto para selecionar algoritmos de renderização diferentes para componentes de áudio diferentes. Por exemplo, podem ser selecionados algoritmos diferentes dependendo da posição desejada ou do tipo do componente de áudio. Por exemplo, se for desejado que um componente de áudio bem definido espacialmente seja renderizado a partir de uma posição entre dois grupos, o controlador de renderização 611 poderá, por exemplo, selecionar um algoritmo VBAP de renderização usando alto- falantes dos grupos diferentes. Entretanto, no caso de renderização de um componente de áudio mais difuso, poderá ser usada a formação de feixes dentro de um grupo para renderizar o componente de áudio com um feixe que tem uma faixa estreita de supressão de banda na direção da posição de audição atenuando, assim, qualquer trajetória acústica direta.

[0134] A abordagem pode ser usada com um número baixo de alto-falantes, mas ser, em muitas modalidades, particularmente vantajosa para sistemas com um número maior de alto-falantes. A abordagem pode fornecer vantagens mesmo para sistemas com, por exemplo, um número total de quatro alto- falantes. Todavia, a abordagem pode também suportar configurações com um número grande de alto-falantes como, por exemplo, sistemas com não menos que 10 ou 15 alto-falantes. Por exemplo, o sistema pode permitir um cenário de uso no qual o usuário simplesmente deve posicionar um grande número de alto-falantes ao redor do ambiente. O sistema pode, então, executar um agrupamento e usar esse agrupamento para adaptar automaticamente a renderização à configuração específica de alto-falantes resultante do posicionamento de alto-falantes pelo usuário.

[0135] Podem ser usados algoritmos de agrupamento diferentes em modalidades diferentes. A seguir, serão descritos alguns exemplos específicos de algoritmos de agrupamento adequados. O agrupamento baseia-se em distâncias espaciais entre alto-falantes medidas de acordo com uma métrica de distância espacial adequada. Essa métrica de distância pode ser especificamente uma distância Euclidiana (tipicamente uma distância bidimensional ou tridimensional) ou uma distância angular. O agrupamento busca agrupar alto- falantes com uma relação espacial que satisfaça um conjunto de requisitos para distâncias entre os alto-falantes do grupo. Tipicamente, para cada alto-falante, os requisitos podem incluir (ou consistir em) uma exigência de que uma distância a pelo menos um outro alto-falante do grupo seja menor que um limiar.

[0136] Em geral, existem muitas estratégias e algoritmos diferentes para agrupar conjuntos de dados em subconjuntos. Dependendo do contexto e das metas do agrupamento, algumas estratégias e algoritmos de agrupamento são mais adequados que outros.

[0137] No sistema descrito, no qual é utilizado o processamento de matriz, o agrupamento tem por base as distâncias espaciais entre os alto-falantes na configuração, uma vez que a distância espacial entre alto-falantes em uma matriz é o principal parâmetro na determinação da eficácia de qualquer tipo de processamento de matriz. Mais especificamente, o agrupador 609 busca identificar grupos de alto-falantes que satisfaçam uma certa exigência quanto ao espaçamento máximo que ocorre entre os alto-falantes dentro do grupo.

[0138] Tipicamente, o agrupamento compreende um número de iterações pelas quais o conjunto de grupos é modificado.

[0139] Especificamente, a classe das estratégias de agrupamento conhecidas como “agrupamento hierárquico” (ou “agrupamento baseado em conectividade”) é frequentemente vantajosa. Em tais métodos de agrupamento, um grupo é definido essencialmente pela distância máxima necessária para conectar elementos dentro do grupo.

[0140] A principal característica do agrupamento hierárquico é que quando o agrupamento é executado para distâncias máximas diferentes, o resultado é uma hierarquia, ou estrutura em árvore, de grupos, na qual grupos maiores contêm subgrupos menores, os quais, por sua vez, contêm “sub-subgrupos” ainda menores.

[0141] Dentro da classe de agrupamento hierárquico duas abordagens diferentes para execução do agrupamento podem ser distinguidas:

[0142] Agrupamento aglomerativo ou “da base para o topo”, no qual grupos menores são integrados em grupos maiores que podem, por exemplo, satisfazer um critério de distância máxima mais relaxado que os grupos individuais menores.

[0143] Um agrupamento divisivo ou “do topo para a base”, no qual um grupo maior é dividido em grupos menores que podem satisfazer requisitos de distância máxima mais rigorosos que o grupo maior.

[0144] Deve ser entendido que outros métodos e algoritmos de agrupamento além daqueles aqui descritos podem ser usados sem que se desvie do escopo da invenção. Por exemplo, o algoritmo de “cadeia de vizinhos mais próximos”, ou o método de “agrupamento baseado em densidade” podem ser usados em algumas modalidades.

[0145] Serão descritas as primeiras abordagens de agrupamento que usam uma abordagem iterativa na qual o agrupador 609 busca expandir um ou mais dos grupos em cada iteração, isto é, será descrito um método de agrupamento que expande da base para o topo. Nesse exemplo, o agrupamento baseia-se em uma inclusão iterada de transdutores de áudio em grupos de uma iteração anterior. Em algumas modalidades, apenas um grupo é considerado em cada iteração. Em outras modalidades, uma pluralidade de grupos pode ser considerada em cada iteração. Na abordagem, pode ser incluído um alto- falante adicional em um dado grupo caso o alto-falante satisfaça um critério de distância adequado para um ou mais alto-falantes do grupo. Especificamente, um alto-falante poderá ser incluído em um dado grupo se a distância até o alto-falante no dado grupo estiver abaixo de um limiar. Em algumas modalidades, o limiar pode ser um valor fixo, e, portanto, o alto-falante será incluído se estiver mais próximo que um valor predeterminado de um alto-falante do grupo. Em outras modalidades, o limiar pode ser variável e, por exemplo, relativo a distâncias até outros alto-falantes. Por exemplo, o alto-falante poderá ser incluído se estiver abaixo de um limiar fixo que corresponde à distância máxima aceitável e abaixo de um limiar que assegure que o alto- falante é realmente o mais próximo do grupo.

[0146] Em algumas modalidades, o agrupador 609 pode ser disposto para integrar um primeiro e um segundo grupos caso um alto-falante do segundo grupo seja considerado adequado para inclusão no primeiro grupo.

[0147] Para descrever um exemplo dessa abordagem de agrupamento, a configuração exemplificadora da Figura 7 poderá ser considerada. A configuração consiste em 16 alto- falantes para os quais se assume que as posições espaciais sejam conhecidas, isto é, para os quais dados de posição de transdutores de áudio foram fornecidos ao agrupador 609.

[0148] O agrupamento começa identificando-se primeiramente todos os pares de vizinhos mais próximos, isto é, para cada alto-falante é identificado o alto-falante mais próximo daquele. Nesse ponto, deve-se observar que “distância” pode ser definida de maneiras diferentes em modalidades diferentes, isto é, podem ser usadas métricas de distância espacial diferentes. Para facilitar a descrição, será assumido que a métrica de distância espacial é uma “distância Euclidiana”, isto é, a definição mais comum de distância entre dois pontos no espaço.

[0149] Os pares que foram identificados como os grupos ou subconjuntos de nível mais baixo para essa configuração, isto é, aqueles que formam os ramais mais inferiores na estrutura hierárquica em árvore de grupos. Nessa primeira etapa, podemos impor uma exigência adicional de que um par de alto-falantes será considerado um “grupo” apenas se a distância (espaçamento) entre os alto-falantes for menor que um certo valor Dmáx. Esse valor pode ser escolhido em função da aplicação. Por exemplo, se a meta for identificar grupos de alto-falantes que possam ser usados para processamento de matriz, poderão ser excluídos os pares nos quais os dois alto- falantes estão separados, por exemplo, por mais de 50 cm, uma vez que se sabe que não será possível um processamento útil de matriz além desse espaçamento entre alto-falantes. Usando-se esse limite superior de 50 cm, determinam-se os pares mostrados na primeira coluna da tabela da Figura 8. Para cada par é mostrado também o espaçamento δmáx correspondente.

[0150] Na próxima iteração, é determinado o vizinho mais próximo para cada um dos grupos encontrados na primeira etapa, e esse vizinho mais próximo é adicionado ao grupo. O vizinho mais próximo nesse caso é definido como o alto-falante fora do grupo que tem a distância mais curta até qualquer um dos alto-falantes dentro do grupo (isso é conhecido como agrupamento “mínimo“, de “encadeamento simples” ou de “vizinho mais próximo”), em que a distância é determinada de acordo com a métrica de distância.

[0151] Portanto, para cada grupo é encontrado o alto-falante j fora do grupo (identificado por A) para o qual: min{í7(z,j):z’e^} tem o menor valor de todos os alto-falantes fora de A, no qual d(i,j) é a métrica de distância usada entre as posições dos alto-falantes i e j.

[0152] Dessa forma, nesse exemplo, o requisito de incluir um primeiro alto-falante em um primeiro grupo exige que o primeiro alto-falante seja um alto-falante mais próximo de qualquer alto-falante do primeiro grupo.

[0153] Além disso, nessa iteração, podem ser excluídos vizinhos mais próximos que se encontram mais distantes que o valor Dmáx de todos os alto-falantes no grupo, para evitar a adição em um grupo de alto-falantes que já se encontram longe demais. Dessa forma, a inclusão pode estar sujeita a uma exigência de que a distância não exceda um determinado limiar.

[0154] O método conforme descrito acima resulta em grupos que expandem em um único elemento (alto-falante) de cada vez.

[0155] Pode-se permitir que a integração (ou “encadeamento”) de grupos ocorra de acordo com alguma regra de integração (ou “encadeamento”) que possa depender da aplicação.

[0156] Por exemplo, no exemplo em que é utilizado um processamento de matriz de alto-falantes, se o vizinho mais próximo identificado de um grupo A já faz parte de um outro grupo B, então faz sentido que os dois grupos sejam integrados em um único grupo, uma vez que o resultado é uma matriz de alto-falantes maior e, dessa forma, um processamento de matriz mais eficaz do que se fosse adicionado apenas o vizinho mais próximo ao grupo A (note-se que a distância entre os grupos A e B é sempre pelo menos igual ao espaçamento máximo dentro de ambos os grupos A e B, de modo que a integração dos grupos A e B não aumenta o espaçamento máximo no grupo resultante em um valor maior do que apenas adicionar o vizinho mais próximo ao grupo A. Portanto, não pode haver nenhum efeito adverso de integração de grupos no sentido de resultar em um espaçamento máximo maior dentro do grupo integrado do que aquele se apenas o vizinho mais próximo fosse adicionado).

[0157] Dessa forma, em algumas modalidades, o requisito de incluir um primeiro alto-falante em um primeiro grupo exige que o primeiro alto-falante pertença a um grupo que compreende um alto-falante que é um alto-falante mais próximo de qualquer alto-falante do primeiro grupo.

[0158] Deve-se notar que são possíveis variações à regra de integração, por exemplo, dependendo dos requisitos da aplicação.

[0159] Os grupos resultantes dessa segunda iteração de agrupamento (com a regra de integração conforme descrito acima) são mostrados na segunda coluna da tabela da Figura 8, juntamente com seu espaçamento máximo δmáx correspondente.

[0160] A iteração é repetida até que não sejam mais encontrados novos grupos de nível mais alto, após o que o agrupamento estará então concluído.

[0161] A tabela da Figura 8 relaciona todos os grupos que foram identificados para a configuração exemplificadora da Figura 7.

[0162] Pode-se ver que foi identificado um total de dez grupos. N agrupamento de nível mais alto existem dois grupos: um que consiste em seis alto-falantes (1, 2, 3, 4, 15 e 16, indicados pelo elipsoide 701 na Figura 7, resultantes após quatro etapas de agrupamento), e um que consiste em três alto-falantes (8, 9 e 10, indicados pelo elipsoide 703 na Figura 7, resultantes após duas iterações de agrupamento). Existem seis grupos de nível mais baixo que consistem em dois alto-falantes.

[0163] Observe-se que na iteração 3, de acordo com a regra de integração descrita acima, são integrados dois grupos ((1, 2, 16) e (3, 4)) que não têm alto-falantes em comum. Todas as outras integrações envolvem um grupo de dois alto-falantes dos quais um deles já pertence ao outro grupo, de modo que, efetivamente, apenas o outro alto- falante do grupo de dois alto-falantes é adicionado ao outro grupo.

[0164] Para cada grupo, a tabela da Figura 8 também mostra o maior espaçamento δm^x entre alto-falantes que ocorre dentro do grupo. Na abordagem “da base para o topo”, o espaçamento δmáx pode ser definido para cada grupo como o máximo dos valores de δmáx para todos os grupos constituintes da etapa anterior de agrupamento, e a distância entre os dois alto-falantes onde a integração ocorreu na atual etapa de agrupamento. Dessa forma, para cada grupo, o valor de δmáx é sempre igual ou maior que os valores de δmáx de seus subgrupos. Em outras palavras, em iterações consecutivas os grupos expandem de grupos menores para grupos maiores com um espaçamento máximo que aumenta sem variação.

[0165] Em uma versão alternativa da modalidade “da base para o topo” descrita acima, em cada iteração de agrupamento apenas os dois vizinhos mais próximos (grupos e/ou alto-falantes individuais) no conjunto são identificados e integrados. Dessa forma, na primeira iteração, com todos os alto-falantes individuais ainda em um grupo separado, o processo é iniciado identificando-se os dois alto-falantes com a menor distância entre eles, e então ligando-os para formar um grupo de dois alto-falantes. Em seguida, o procedimento é repetido, identificando-se e ligando-se os pares de vizinhos mais próximos (grupos e/ou alto-falantes individuais), e assim por diante. Esse procedimento pode ser executado até que todos os alto-falantes sejam integrados em um único grupo, ou pode ser encerrado quando a distância do vizinho mais próximo exceder um certo limite, por exemplo, 50 cm.

[0166] Dessa forma, nesse exemplo, o requisito de incluir um primeiro alto-falante em um primeiro grupo exige que a distância entre um alto-falante do primeiro grupo e o primeiro alto-falante seja menor que qualquer outra distância entre pares de alto-falantes que compreendem alto-falantes de grupos diferentes, ou que a distância entre um alto-falante do primeiro grupo e um alto-falante de um grupo ao qual o primeiro alto-falante pertence seja menor que qualquer outra distância entre pares de alto-falantes que compreendem alto-falantes de grupos diferentes.

[0167] Para o exemplo da Figura 7, a abordagem específica resulta nas seguintes etapas de agrupamento: 1 + 16 ^ (1, 16); 3 + 4 ^ (3, 4); 8 + 9 ^ (8, 9); (8, 9) + 10 ^ (8, 9, 10); (1, 16) + 2 ^ (1, 2, 16); (1, 2, 16) + (3, 4) ^ (1, 2, 3, 4, 16); (1, 2, 3, 4, 16) + 15 ^ (1, 2, 3, 4, 15, 16).

[0168] Consequentemente, pode-se ver que os grupos que resultam desse procedimento, indicados em negrito na tabela da Figura 8, formam um subconjunto dos grupos que foram identificados com o uso do primeiro exemplo de agrupamento. Isso ocorre porque no primeiro exemplo, os alto-falantes podem ser um membro de múltiplos grupos que não têm uma relação hierárquica, ao passo que no segundo exemplo a associação de grupo é exclusiva.

[0169] Em algumas modalidades, pode não ser necessária uma hierarquia de agrupamento completa, conforme obtida a partir das abordagens “da base para o topo” descritas acima. Em vez disso, pode ser suficiente identificar grupos que satisfaçam um ou mais requisitos específicos sobre espaçamento máximo. Por exemplo, pode-se desejar identificar todos os grupos de nível mais alto que tenham um espaçamento máximo de um determinado limiar Dmáx (por exemplo, 50 cm), por exemplo, porque esse é considerado o espaçamento máximo para o qual um dado algoritmo de renderização pode ser aplicado eficazmente.

[0170] Isso pode ser feito da seguinte forma: Começando com um dos alto-falantes, por exemplo, o alto-falante 1, são identificados todos os alto-falantes com uma distância até esse alto-falante 1 que é menor que o valor máximo Dmáx permitido.

[0171] Os alto-falantes com uma distância maior são considerados excessivamente espaçados do alto-falante 1 para serem usados efetivamente juntos com aquele, com o uso de quaisquer métodos de processamento de renderização sob consideração. O valor máximo poderia ser definido, por exemplo, em 25 ou 50 cm, dependendo de quais tipos de, por exemplo, processamento de matriz são considerados. O grupo de alto-falantes resultante é a primeira iteração na construção do maior subconjunto do qual o alto-falante 1 é membro e que satisfaz o critério de espaçamento máximo.

[0172] Em seguida, o mesmo procedimento é executado para os alto-falantes (se houver) que agora estão no grupo do alto-falante 1. Os alto-falantes que estão identificados agora, com exceção daqueles que já eram parte do grupo, são adicionados ao grupo. Essa etapa é repetida para os alto-falantes recém-incluídos até que nenhum outro alto-falante adicional seja identificado. Nesse ponto, o maior grupo ao qual o alto-falante 1 pertence, e que satisfaz o critério de espaçamento máximo, foi identificado.

[0173] Aplicando-se esse procedimento à configuração da Figura 7 com Dmáx = 0,5 m e começando-se com o alto-falante 1, o resultado é novamente o grupo indicado pelo elipsoide 701 que contém os alto-falantes 1, 2, 3, 4, 15 e 16. Nesse procedimento, esse grupo/subconjunto é construído em apenas duas iterações: após a primeira rodada, o subconjunto contém os alto-falantes 1, 2, 3 e 16, sendo que todos são separados do alto-falante 1 por um espaçamento menor que Dmáx. Na segunda iteração, são incluídos os alto- falantes 4 e 15, que estão separados dos alto-falantes 2 e 3 e do alto-falante 16, respectivamente, por um espaçamento menor que Dmáx. Na próxima iteração, nenhum outro alto- falante é adicionado e, portanto, o agrupamento é então encerrado.

[0174] Em iterações consecutivas, são identificados da mesma maneira outros grupos que não se sobrepõem a nenhum dos subconjuntos identificados anteriormente. Em cada iteração, precisam ser considerados apenas os alto-falantes que ainda não foram identificados como parte de qualquer um dos subconjuntos identificados anteriormente.

[0175] Ao final desse procedimento, terão sido identificados todos os grupos maiores nos quais todos os vizinhos mais próximos têm uma distância entre alto-falantes de um valor máximo de Dmáx.

[0176] Para a configuração exemplificadora da Figura 7, apenas um grupo adicional é identificado, novamente indicado pelo elipsoide 703, e que contém os alto-falantes 8, 9 e 10.

[0177] Para identificar todos os grupos que satisfazem um requisito diferente de espaçamento máximo Dmáx, o procedimento descrito acima pode simplesmente ser conduzido novamente com esse novo valor de Dmáx. Deve ser observado que se o novo valor Dmáx for menor que o valor anterior, os grupos que serão identificados agora serão sempre subgrupos dos grupos identificados com o valor maior de Dmáx. Isto significa que se o procedimento for executado para múltiplos valores de Dmáx, será eficiente começar com o maior valor e então diminuí- lo sem variação, uma vez que cada próxima avaliação precisa ser aplicada apenas aos grupos que resultaram da anterior.

[0178] Por exemplo, se for usado um valor de Dmáx= 0,25 m em vez de 0,5 m para a configuração da Figura 7, dois subgrupos serão identificados. O primeiro é o grupo original que contém o alto-falante 1 menos o alto-falante 15, enquanto o segundo ainda conterá os alto-falantes 8, 9 e 10. Se o valor de Dmáx for diminuído ainda mais para 0,15 m, será identificado apenas um único grupo contendo os alto-falantes 1 e 16.

[0179] Em algumas modalidades, o agrupador 609 pode ser disposto para gerar o conjunto de grupos em resposta a uma geração inicial de grupos seguida de uma divisão iterada de grupos, sendo que cada divisão de grupos é feita em resposta a uma distância entre dois transdutores de áudio de um grupo que excede um limiar. Dessa forma, em algumas modalidades, pode-se considerar um agrupamento do topo para a base.

[0180] O agrupamento do topo para a base pode ser considerado como funcionalmente oposto ao agrupamento da base para o topo. Ele pode ser iniciado colocando-se todos os alto- falantes em um único grupo, e então dividir o grupo em grupos menores com o uso de iterações recursivas. Cada divisão pode ser feita de modo a maximizar a métrica de distância espacial entre os dois novos grupos resultantes. Isso pode ser bastante trabalhoso de implementar para configurações multidimensionais com mais de alguns elementos (alto-falantes), uma vez que, especialmente na fase inicial do processo, o número de divisões possíveis a serem avaliadas pode ser muito grande. Portanto, em algumas modalidades, esse método de agrupamento pode ser usado em combinação com uma etapa de pré-agrupamento.

[0181] A abordagem de agrupamento descrita acima pode ser usada para gerar um agrupamento inicial que possa servir como o ponto de partida de nível mais alto de um procedimento de agrupamento do topo para a base. Assim, em vez de começar com todos os alto-falantes em um único grupo inicial, poderia ser usado primeiro um procedimento de agrupamento de baixa complexidade para identificar os maiores grupos que satisfazem a exigência mais relaxada de espaçamento considerado útil (por exemplo, um espaçamento máximo de 50 cm), e então executar um procedimento de agrupamento do topo para a base nesses grupos, dividindo cada grupo em outros menores em iterações consecutivas até chegar aos grupos (dois alto-falantes) menores possíveis. Isso evita que as primeiras etapas no agrupamento do topo para a base resultem em grupos que não sejam úteis devido a um espaçamento máximo excessivamente grande. Conforme argumentado anteriormente, essas primeiras etapas de agrupamento do topo para a base que agora são evitadas são também as mais exigentes em termos computacionais, uma vez que é necessário avaliar muitas possibilidades de agrupamento e, portanto, remover a necessidade de realmente executá-las poderá melhorar significativamente a eficiência do procedimento.

[0182] Em cada iteração do procedimento do topo para a base, um grupo é dividido na posição do maior espaçamento que ocorre dentro do grupo. A razão disso é que esse maior espaçamento é o fator limitante que determina a frequência máxima com a qual o processamento de matriz pode ser efetivamente aplicado ao grupo. A divisão do grupo nesse maior espaçamento resulta em dois novos grupos que têm, cada um, um maior espaçamento menor, e, portanto, uma frequência máxima eficaz mais alta que o grupo-pai. Os grupos podem ser divididos adicionalmente em grupos menores com a diminuição sem variação do espaçamento máximo até que reste apenas um grupo consistindo em apenas dois alto-falantes.

[0183] Embora seja trivial identificar a posição onde um grupo deve ser dividido no caso de um conjunto unidimensional (matriz linear), esse não é o caso de configurações 2D ou 3D, uma vez que existem muitas possíveis maneiras de dividir um grupo em dois subgrupos. Em princípio, entretanto, é possível considerar todas as possíveis divisões em dois subgrupos, e identificar aquele que resulta no maior espaçamento entre os mesmos. Esse espaçamento entre dois grupos pode ser definido como a menor distância entre qualquer par de alto-falantes em que um alto-falante é um membro de um subgrupo, e o outro alto-falante é um membro do outro subgrupo.

[0184] Consequentemente, para cada possível divisão em subgrupos A e B, pode-se determinar o valor de:

[0185] A divisão é feita de modo que esse valor seja maximizado.

[0186] Como exemplo, considere-se o grupo da configuração mostrada na Figura 7, indicada pelo elipsoide 701 que contém os alto-falantes 1, 2, 3, 4, 15 e 16. O maior espaçamento (0,45 m) nesse grupo é identificado entre o grupo que consiste nos alto-falantes 1, 2, 3, 4 e 16 e o grupo que consiste apenas no alto-falante 15. Portanto, a primeira divisão resulta na remoção do alto-falante 15 do grupo. No novo grupo, o maior espaçamento (0,25 m) é identificado entre o grupo que consiste nos alto-falantes 1, 2 e 16 e o grupo que consiste nos alto-falantes 3 e 4, e o grupo é, portanto, dividido nesses dois grupos menores. Uma divisão final pode ser feita para o grupo de três alto- falantes restante, no qual o maior espaçamento (0,22 m) é identificado entre o grupo que consiste nos alto-falantes 1 e 16 e o grupo que consiste apenas no alto-falante 2. Assim, na divisão final o alto-falante 2 é removido e um grupo final que consiste nos alto-falantes 1 e 16 permanece.

[0187] A aplicação do mesmo procedimento ao grupo indicado pelo elipsoide 703 na Figura 7 resulta em uma divisão entre o grupo que consiste nos alto-falantes 8 e 9 e o grupo que consiste apenas no alto-falante 10.

[0188] No sistema, todas as distâncias são determinadas de acordo com uma métrica de distância adequada.

[0189] No exemplo de agrupamento descrito acima, a métrica de distância era uma distância espacial Euclidiana entre alto-falantes, que tende a ser a maneira mais comum de definir a distância entre dois pontos no espaço.

[0190] Entretanto, o agrupamento pode ser feito também com o uso de outras métricas para a distância espacial. Dependendo dos requisitos e preferências específicos da aplicação individual, uma definição de métrica de distância pode ser mais adequada que outra. Alguns exemplos de casos de uso diferentes e de possíveis métricas de distância espacial correspondentes serão descritos a seguir.

[0191] Primeiramente, a distância Euclidiana entre dois pontos i e j pode ser definida como:

onde in, jn representam as coordenadas do ponto i e j , respectivamente, na dimensão n e N é o número de dimensões.

[0192] A métrica representa a maneira mais comum de definir uma distância espacial entre dois pontos no espaço. Usar a distância Euclidiana como a métrica de distância significa que as distâncias entre os alto-falantes são determinadas sem considerar a orientação relativa entre eles, com outros alto-falantes, ou com alguma posição de referência (por exemplo, uma posição de audição preferencial). Para um conjunto de alto-falantes distribuídos arbitrariamente no espaço, isso significa que estão sendo determinados os grupos e suas características (por exemplo, faixa de frequências úteis ou tipo de processamento adequado) de uma maneira que não tem relação com nenhuma direção específica de observação. Consequentemente, as características nesse caso refletem certas propriedades da própria matriz, independentemente de seu contexto. Isso pode ser útil em algumas aplicações, mas não é a abordagem preferencial em muitos casos de uso.

[0193] Em algumas modalidades, pode ser usada uma métrica de distância angular ou “projetada” em relação a uma posição de audição.

[0194] Os limites de desempenho de uma matriz de alto-falantes são determinados essencialmente pelo espaçamento máximo dentro da matriz e pela extensão espacial total (tamanho) da matriz. Contudo, como o espaçamento máximo e tamanho aparente ou eficaz da matriz dependem da direção da qual a matriz é observada, e o interesse é, geral, o desempenho da matriz em relação a uma certa região ou direção, faz sentido em muitos casos de uso utilizar uma métrica de distância que leve em conta tal região, direção ou ponto de observação.

[0195] Especificamente, em muitos casos de uso pode ser definida uma posição de audição de referência ou preferencial. Nesse caso, seria desejado determinar grupos de alto-falantes que são adequados para se obter uma certa experiência sonora em tal posição de audição, e o agrupamento e a caracterização dos grupos deveriam, portanto, estar relacionados a essa posição de audição.

[0196] Uma maneira de se conseguir isso é definir a posição de cada alto-falante em termos de seu ângulo j em relação à posição de audição, e definir a distância entre dois alto-falantes pela diferença absoluta entre seus respectivos ângulos:

ou alternativamente, em termos do cosseno entre os vetores de posição dos pontos i e j:

[0197] Isso é conhecido como métrica de distância por similaridade angular ou de cosseno. Se o agrupamento for feito com o uso dessa métrica de distância, os alto-falantes situados na mesma linha, conforme visto da posição de audição (portanto, na frente ou atrás uns dos outros) são considerados como sendo co-localizados.

[0198] O espaçamento máximo que ocorre em um subconjunto é agora fácil de determinar, dado que o mesmo foi essencialmente reduzido a um problema unidimensional.

[0199] Como no caso da métrica de distância Euclidiana, o agrupamento pode ser restrito aos alto-falantes que estão a menos de uma certa distância máxima Dmáx uns dos outros. Essa distância Dmáx pode ser definida diretamente em termos de uma diferença máxima de ângulo. Entretanto, como características importantes de desempenho de uma matriz de alto-falantes (por exemplo, sua faixa de frequências úteis) estão relacionadas à distância física entre alto-falantes (através de sua relação com o comprimento de onda do som reproduzido), é frequentemente preferível usar uma distância Dmáx expressa em metros físicos, como no caso da métrica de distância Euclidiana. Para se levar em conta o fato de que o desempenho depende da direção de observação em relação à matriz, pode ser usada uma distância entre alto-falantes projetada em vez da distância Euclidiana direta entre eles. Especificamente, a distância entre dois alto-falantes pode ser definida como a distância na direção ortogonal ao bissetor do ângulo entre os dois alto-falantes (visto da posição de audição).

[0200] Isso é ilustrado na Figura 9 para um grupo de 3 alto-falantes. A métrica de distância é dada por:

onde ri e rj são as distâncias radiais entre a posição de referência e os alto-falantes i e j, respectivamente. Deve ser observado que a métrica de distância projetada é uma forma de distância angular.

[0201] Observe-se que se todos os alto-falantes em um grupo estiverem suficientemente próximos uns dos outros, ou se a posição de audição estiver suficientemente afastada do grupo, os bissetores entre todos os pares do grupo se tornarão paralelos e a definição de distância será consistente dentro do grupo.

[0202] Na caracterização dos grupos identificados, as distâncias projetadas podem ser usadas para determinar o espaçamento máximo δmáx e o tamanho L do grupo. Isso será, então, refletido também na faixa de frequências eficazes determinada e poderá também alterar as decisões sobre quais técnicas de processamento de matriz podem ser efetivamente aplicadas ao grupo.

[0203] Se um procedimento de agrupamento de acordo com a abordagem “da base para o topo” descrita anteriormente for aplicado à configuração da Figura 7 com métrica de distância angular, posição de referência em (0, 2) e uma distância máxima projetada Dmáx entre alto-falantes de 50 cm, o resultado será a seguinte sequência de etapas de agrupamento: 8 + 9 ^ (8, 9); 1 + 16 ^ (1, 16); (8, 9) + 10 ^ (8, 9, 10); 3 + 4 ^ (3, 4); (3, 4) + 2 ^ (2, 3, 4); (1, 16) + (2, 3, 4) ^ (1, 2, 3, 4, 16); (8, 9, 10) +11 ^ (8, 9, 10, 11); (1, 2, 3, 4, 16) + 15 ^ (1, 2, 3, 4, 15, 16); (1, 2, 3, 4, 15, 16) + 5 ^ (1, 2, 3, 4, 5, 15, 16) .

[0204] Pode-se ver que, nesse caso, a ordem de agrupamento é um pouco diferente daquela do exemplo com a métrica de distância Euclidiana e, além disso, é identificado um grupo adicional que satisfaz o critério de distância máxima. Isso se deve ao fato de que agora olhamos para distâncias projetadas que são sempre iguais ou menores que a distância Euclidiana. Figura 10 mostra uma tabela com os grupos e suas características correspondentes.

[0205] No processamento de renderização que será finalmente aplicado aos grupos identificados, quaisquer diferenças nas distâncias radiais de alto-falantes dentro de um grupo podem ser compensadas por meio de atrasos.

[0206] Deve ser notado que, embora o resultado do agrupamento com essa métrica de distância angular seja bastante similar àquele obtido com a métrica de distância Euclidiana, isso ocorre apenas porque nesse exemplo os alto- falantes estão distribuídos mais ou menos em um círculo ao redor da posição de referência. No caso de uso mais geral, os resultados de agrupamento podem ser muito diferentes para as diferentes métricas de distâncias.

[0207] Como a métrica de distância angular é unidimensional, o agrupamento é, nesse caso, essencialmente unidimensional, e será, portanto, substancialmente menos exigente em termos computacionais. De fato, na prática, um procedimento de agrupamento do topo para a base é, nesse caso, tipicamente exequível, porque a definição de vizinho mais próximo é completamente inequívoca nesse caso e o número de possíveis agrupamentos a avaliar é, portanto, limitado.

[0208] Em um caso de uso no qual não existe apenas uma única posição de audição preferencial, mas uma área de audição estendida na qual a experiência sonora deve ser otimizada, a modalidade com a métrica de distância angular ou projetada ainda poderá ser utilizada. Nesse caso, pode-se executar o agrupamento e a caracterização de grupos identificados separadamente para cada posição na área de audição, ou para as posições extremas da área de audição apenas (por exemplo, os quatro cantos no caso de uma área de audição retangular), e deixar que as posições de audição mais críticas determinem o agrupamento e caracterização final dos grupos.

[0209] No exemplo anterior, a métrica de distância foi definida em relação à posição ou área de audição centralizada no usuário. Isso faz sentido em muitos casos de uso onde a intenção é otimizar a experiência sonora em uma certa posição ou área. Entretanto, matrizes de alto-falantes também podem ser usadas para influenciar a interação do som reproduzido com o ambiente. Por exemplo, o som pode ser dirigido para uma parede para gerar uma fonte de som virtual, ou o som pode ser dirigido em uma direção oposta a uma parede, teto ou piso para evitar fortes reflexões do som. Em tal caso de uso faz sentido definir a métrica de distância em relação a alguns aspectos da geometria do ambiente em vez da posição de audição.

[0210] Em particular, pode ser usada a métrica de distância entre alto-falantes projetada conforme descrito na modalidade anterior, mas agora em relação a uma direção ortogonal, por exemplo, a uma parede. Nesse caso, o agrupamento resultante e a caracterização dos subconjuntos serão indicativos do desempenho da matriz do grupo em relação à parede.

[0211] Por uma questão de simplicidade, os exemplos descritos em detalhe anteriormente foram apresentados em 2D. Todavia, os métodos descritos acima aplicam-se também a configurações tridimensionais de alto-falantes. Dependendo do caso de uso, o agrupamento pode ser feito separadamente no plano horizontal bidimensional e/ou em um ou mais planos verticais, ou nas três dimensões simultaneamente. No caso de o agrupamento ser feito separadamente no plano horizontal e na dimensão vertical, métodos de agrupamento e métricas de distâncias diferentes, conforme descrito acima, poderão ser usados para ambos os procedimentos de agrupamento. No caso de o agrupamento ser feito em 3D (nas três dimensões simultaneamente), poderão ser usados critérios diferentes de espaçamento máximo no plano horizontal e na dimensão vertical. Por exemplo, enquanto no plano horizontal dois alto-falantes podem ser considerados como pertencentes ao mesmo grupo se sua distância angular for menor que 10 graus, para dois alto- falantes dispostos verticalmente o requisito pode ser relaxado, por exemplo, para um valor menor que 20 graus.

[0212] A abordagem descrita pode ser usada com vários algoritmos de renderização diferentes. Por exemplo, os possíveis algoritmos de renderização podem incluir: Renderização por formação de feixes

[0213] A formação de feixes é um método de renderização associado a matrizes de alto-falantes, isto é, grupos de múltiplos alto-falantes que são dispostos juntos em proximidade (por exemplo, a distâncias menores que vários decímetros entre eles). Controlar a relação de amplitude e fase entre os alto-falantes individuais permite que o som seja “irradiado” (dirigido) para direções específicas e/ou que fontes sejam “focalizadas” em posições específicas na frente ou atrás da matriz de alto-falantes. Uma descrição desse método pode ser encontrada, por exemplo, em “Beamforming: a versatile approach to spatial filtering”, de Van Veen, B.D, ASSP Magazine, IEEE (Volume: 5, Edição: 2 ), data de publicação: abril de 1988. Embora o artigo seja descrito da perspectiva do emprego se sensores (microfones), os princípios descritos aplicam-se igualmente à formação de feixes a partir de matrizes de alto-falantes devido ao princípio da reciprocidade acústica.

[0214] A formação de feixes é um exemplo de um processamento de matriz.

[0215] Um caso de uso típico no qual esse tipo de renderização é vantajoso é o de uma pequena matriz de alto-falantes posicionada na frente do ouvinte, sem nenhum alto-falante atrás ou mesmo à esquerda ou direita do ouvinte. Em tais casos, é possível criar uma experiência “surround” completa para o usuário “irradiando” alguns dos canais ou objetos de áudio para as paredes laterais do ambiente do ouvinte. O som refletido nas paredes chega ao ouvinte pelas laterais e/ou pela parte posterior, criando assim uma experiência de som “virtual surround” completamente imersiva. Esse é um método de renderização que é empregado em vários produtos do tipo “barra de som” (“soundbar”) destinados ao consumidor.

[0216] Um outro exemplo no qual a renderização por formação de feixes pode ser empregada com vantagem é o caso de um canal ou objeto de som a ser renderizado conter fala. A renderização desses componentes de áudio de fala como um feixe direcionado para o usuário utilizando a formação de feixes pode resultar em melhor inteligibilidade da fala para o usuário, uma vez que será gerada menos reverberação no ambiente.

[0217] Tipicamente, a formação de feixes não seria usada para (subpartes de) configurações de alto- falantes nas quais o espaçamento entre alto-falantes excede vários decímetros.

[0218] Consequentemente, a formação de feixes é adequada para aplicações em cenários onde são identificados um ou mais grupos com um número relativamente alto de alto- falantes com espaçamento muito próximo. Dessa forma, para cada um de tais grupos pode ser usado um algoritmo de formação de feixes de renderização, por exemplo, para gerar fontes de som percebido a partir de direções nas quais não há alto-falante presentes. Renderização por cancelamento de diafonia

[0219] Esse é um método de renderização capaz de criar uma experiência de som 3D “surround” completamente imersiva a partir de dois alto-falantes. O método está estreitamente relacionado à renderização binaural em fones de ouvido com o uso de funções de transferência relativas à cabeça (HRTFs). Como são usados alto-falantes em vez de fones de ouvido, é necessário utilizar circuitos de realimentação para eliminar a diafonia do alto-falante esquerdo para o ouvido direito e vice-versa. Uma descrição detalhada desse método pode ser encontrada, por exemplo, em “Design of Cross-Talk Cancellation Networks by Using Fast Deconvolution”, de Kirkeby, Ole, Rubak, Per, Nelson, Philip A., Farina, Angelo, AES Convention: 106 (maio de 1999), Documento n° 4916.

[0220] Essa abordagem de renderização pode, por exemplo, ser adequada em um caso de uso com apenas dois alto-falantes na região frontal, mas onde ainda é desejada uma experiência espacial completa com tal configuração limitada. É bem conhecido o fato de que é possível criar uma ilusão espacial estável para uma única posição de audição com o uso de cancelamento de diafonia, especialmente quando os alto-falantes encontram-se próximos uns dos outros. Se os alto-falantes estiverem distantes uns dos outros, a imagem espacial produzida se tornará mais instável e os sons “coloridos” devido à complexidade da trajetória de diafonia. O agrupamento proposto nesse exemplo pode ser usado para decidir se um método ‘virtual estéreo’ baseado em cancelamento de diafonia e filtros HRTF ou reprodução estéreo simples devem ser usados. Renderização por dipolo estéreo

[0221] Esse método de renderização usa dois ou mais alto-falantes com espaçamento próximo para renderizar uma imagem de som ampla para um usuário mediante o processamento de um sinal de áudio espacial de modo a reproduzir um sinal comum (soma) monofonicamente, enquanto um sinal de diferença é reproduzido com um padrão de radiação de dipolo. Uma descrição detalhada desse método pode ser encontrada em, por exemplo, Kirkeby, Ole, Nelson, Philip A., Hamada, Hareo, “The 'Stereo Dipole': A Virtual Source Imaging System Using Two Closely Spaced Loudspeakers”, JAES Volume 46, Edição 5, páginas 387 a 395, maio de 1998.

[0222] Tal abordagem de renderização pode, por exemplo, ser adequada para casos de uso nos quais apenas uma configuração muito compacta de poucos (2 ou 3) alto-falantes com espaçamento próximo diretamente na frente do ouvinte está disponível para renderizar uma imagem sonora frontal completa. Renderização por síntese de campo sonoro

[0223] Esse é um método de renderização que usa matrizes de alto-falantes para recriar com precisão um campo sonoro original dentro de um grande espaço de audição. Uma descrição detalhada desse método pode ser encontrada, por exemplo, em “Sound Reproduction Applications with Wave-Field Synthesis”, de Boone, Marinus M., Verheijen, Edwin N. G., AES Convention: 104 (maio de 1998), Documento n° 4689.

[0224] A síntese de campo sonoro é um exemplo de um processamento de matriz.

[0225] Ela é particularmente adequada para cenas de som baseadas em objetos, mas é compatível também com outros tipos de áudio (por exemplo, baseado em canal ou baseado em cena). Uma limitação desse método é que ele é adequado apenas para configurações com um grande número de alto-falantes espaçados a não mais que cerca de 25 cm uns dos outros. Em particular, o algoritmo de renderização poderá ser aplicado se forem detectados grupos com um número suficiente de alto-falantes posicionados muito próximos uns dos outros. Em particular, se o grupo se estender por uma parte substancial de ao menos uma dentre as regiões frontal, traseira ou lateral da área de audição. Nesses casos, o método pode proporcionar uma experiência mais realista do que, por exemplo, uma reprodução estereofônica padrão. Renderização por otimização dos quadrados mínimos

[0226] Trata-se de um método de renderização genérico que tenta alcançar um campo sonoro alvo específico por meio de um procedimento de otimização numérica no qual as posições dos alto-falantes são especificadas como parâmetros e os sinais dos alto-falantes são otimizados de modo a minimizar a diferença entre os campos sonoros alvo e reproduzido dentro de uma área de audição. Uma descrição detalhada desse método pode ser encontrada, por exemplo, em “Efficient 3-D Sound Field Reproduction”, de Shin, Mincheol, Fazi, Filippo M., Seo, Jeongil, Nelson, Philip A., AES Convention: 130 (maio de 2011), Documento n° 8404.

[0227] Tal abordagem de renderização pode, por exemplo, ser adequada para casos de uso similares aos descritos para a renderização por síntese de campo sonoro e por formação de feixes. Renderização por espacialização de amplitude baseada em vetores

[0228] Esse método é basicamente uma generalização do método de renderização estereofônico que suporta configurações de alto-falantes não padronizadas por meio da adaptação da lei de espacialização de amplitude entre pares de alto-falantes a mais de dois alto-falantes colocados em posições bidimensionais ou tridimensionais conhecidas no espaço. Uma descrição detalhada desse método pode ser encontrada, por exemplo, em “Virtual Sound Source Positioning Using Vector Base Amplitude Panning”, de V. Pulkki, J. Audio Eng. Soc., Vol. 45, n° 6, 1997.

[0229] Essa abordagem de renderização pode, por exemplo, ser adequada para ser aplicada entre grupos de alto-falantes onde a distância entre os grupos é grande demais para permitir o uso de processamento de matriz, mas ainda suficientemente pequena para permitir que a espacialização forneça um resultado razoável (em particular para os cenários em que as distâncias dos alto-falantes são relativamente grandes, mas estes estão posicionados (aproximadamente) em uma esfera ao redor da área de audição). Especificamente, VBAP pode ser o modo “padrão” de renderização para subconjuntos de alto-falantes que não pertencem a um grupo comum identificado que satisfaça um critério de espaçamento máximo entre os alto-falantes.

[0230] Conforme descrito anteriormente, em algumas modalidades, o renderizador é capaz de renderizar componentes de áudio de acordo com uma pluralidade de modos de renderização e o controlador de renderização 611 pode selecionar modos de renderização para os alto-falantes 603 dependendo do agrupamento.

[0231] Em particular, o renderizador 607 pode executar o processamento de matriz para renderizar componentes de áudio usando alto-falantes 603 com uma relação espacial adequada. Dessa forma, se o agrupamento identificar um grupo de alto-falantes 603 que atendem a um requisito de distância adequada, o controlador de renderização 611 poderá selecionar o processamento de matriz para renderizar componentes de áudio oriundos dos alto-falantes 603 do grupo específico.

[0232] Um processamento de matriz inclui a renderização de um componente de áudio oriundo de uma pluralidade de alto-falantes mediante o envio do mesmo sinal para uma pluralidade de alto-falantes, exceto um ou mais fatores de peso que podem afetar a fase e a amplitude do alto- falante individual (ou, de maneira correspondente, um atraso de tempo e amplitude no domínio de tempo). O ajuste de fase e amplitude permitirá controlar a interferência entre os diferentes sinais de áudio renderizado, permitindo, assim, o controle da renderização total do componente de áudio. Por exemplo, os pesos podem ser ajustados para fornecer interferência positiva em algumas direções e interferência negativa em outras. Desse modo, as características direcionais podem, por exemplo, ser ajustadas e, por exemplo, a formação de feixes pode ser feita com os feixes principais e as faixas estreitas de supressão de banda nas posições desejadas. Tipicamente, são usados ganhos que dependem da frequência para produzir o efeito geral desejado.

[0233] O renderizador 607 pode, especificamente, ser capaz de executar uma renderização por formação de feixes e uma renderização por síntese de campo sonoro. O primeiro pode fornecer uma renderização particularmente vantajosa em muitas situações, mas exige que os alto-falantes da matriz estejam muito próximos uns dos outros (por exemplo, a não mais que 25 cm). Um algoritmo de síntese de campo sonoro pode ser uma segunda opção preferencial e pode ser adequado para distâncias entre alto- falantes de, talvez, até 50 cm.

[0234] Dessa forma, em tal cenário, o agrupamento poderá identificar um grupo de alto-falantes 603 com uma distância entre alto-falantes menor que 25 cm. Nesse caso, o controlador de renderização 611 pode preferir usar a formação de feixes para renderizar um componente de áudio oriundo dos alto-falantes do grupo. Entretanto, se tal grupo não for identificado, mas, em vez disso, for identificado um grupo de alto-falantes 603 com uma distância entre alto- falantes menor que 50 cm, o controlador de renderização 611 poderá selecionar um algoritmo de síntese de campo sonoro. Se nenhum grupo com tais características for identificado, outro algoritmo de renderização poderá ser usado, como, por exemplo, um algoritmo VBAP.

[0235] Deve ser entendido que em algumas modalidades, uma seleção mais complexa pode ser feita, e que, em particular, podem ser considerados diferentes parâmetros dos grupos. Por exemplo, a síntese de campo sonoro pode ser preferida em relação à formação de feixes no caso de ser identificado um grupo com um grande número de alto-falantes e uma distância entre alto-falantes menor que 50 cm, ao passo que um grupo com uma distância entre alto- falantes menor que 25 cm é formado por apenas alguns alto- falantes.

[0236] Dessa forma, em algumas modalidades, o controlador de renderização pode selecionar uma renderização de processamento de matriz para um primeiro grupo em resposta à condição de uma propriedade do primeiro grupo satisfazer um critério. O critério pode ser, por exemplo, que o grupo compreenda uma quantidade maior que um dado número de alto-falantes e a distância máxima entre os alto- falantes vizinhos mais próximos seja menor que um certo valor. Por exemplo, se mais de três alto-falantes forem identificados em um grupo no qual um dado alto-falante está a uma distância máxima de, por exemplo, 25 cm de outro alto- falante do grupo, então uma renderização por formação de feixes poderá ser selecionada para esse grupo. Caso contrário, mas em vez disso, for identificado um grupo com mais de três alto-falantes e nenhum deles está a uma distância maior que, por exemplo, 50 cm de outro alto- falante do grupo, então uma renderização por síntese de campo sonoro poderá ser selecionada para esse grupo.

[0237] Nesses exemplos, a distância máxima entre vizinhos mais próximos do grupo é considerada especificamente. Um par de vizinhos mais próximos poderá ser considerado um par quando um primeiro alto-falante do grupo for o alto-falante mais próximo do segundo alto-falante do par, de acordo com a métrica de distância. Dessa forma, a distância medida com o uso da métrica de distância entre o segundo alto-falante e o primeiro alto-falante é menor que qualquer distância entre o segundo alto-falante e qualquer outro alto-falante do grupo. Deve ser observado que o fato de o primeiro alto-falante ser o vizinho mais próximo do segundo alto-falante não significa necessariamente que o segundo alto-falante seja também o vizinho mais próximo do primeiro alto-falante. De fato, o alto-falante mais próximo do primeiro alto-falante pode ser um terceiro alto-falante mais próximo do primeiro alto-falante do que o segundo alto- falante, mas mais distante do segundo alto-falante do que o primeiro alto-falante.

[0238] A distância máxima entre vizinhos mais próximos é particularmente significativa para determinar se o processamento de matriz deve ser utilizado, uma vez que a eficiência do processamento de matriz (e especificamente a relação de interferência) depende dessa distância.

[0239] Um outro parâmetro relevante que pode ser usado é a distância máxima entre dois alto-falantes quaisquer do grupo. Em particular, para uma renderização por síntese de campo sonoro eficiente, é necessário que o tamanho geral da matriz utilizada seja suficientemente grande. Portanto, em algumas modalidades, a seleção pode ser feita com base na distância máxima entre qualquer par de transdutores no grupo.

[0240] O número de alto-falantes no grupo corresponde ao número máximo de transdutores que podem ser usados para o processamento de matriz. Esse número fornece uma forte indicação do tipo de renderização que pode ser feita. De fato, o número de alto-falantes na matriz correspondente, tipicamente, ao número máximo de graus de liberdade para o processamento de matriz. Por exemplo, para uma formação de feixes, o número pode indicar o número de feixes e de faixas estreitas de supressão de banda que podem ser gerados. O número pode afetar também quão estreito, por exemplo, o feixe principal pode ser. Dessa forma, o número de alto-falantes em um grupo pode ser útil para selecionar se o processamento de matriz deve ou não ser utilizado.

[0241] Deve ser entendido que essas características do grupo podem ser usadas também para adaptar vários parâmetros do algoritmo de renderização utilizado para o grupo. Por exemplo, o número de alto-falantes pode ser usado para selecionar para onde as faixas estreitas de supressão de banda são direcionadas, a distância entre alto-falantes pode ser usada para determinar os pesos, etc. De fato, em algumas modalidades, o algoritmo de renderização pode ser predeterminado e pode não haver seleção disso com base no agrupamento. Por exemplo, uma renderização de processamento de matriz pode ser pré-selecionada. Contudo, dependendo do agrupamento, os parâmetros para o processamento de matriz podem ser modificados/configurados.

[0242] De fato, em algumas modalidades, o agrupador 609 pode não só gerar um conjunto de grupos de alto-falantes, mas também gerar uma indicação de propriedade para um ou mais dos grupos, e o controlador de renderização 611 pode adaptar a renderização de acordo. Por exemplo, se for gerada uma indicação de propriedade para um primeiro grupo, o controlador de renderização poderá adaptar a renderização para o primeiro grupo em resposta à indicação de propriedade.

[0243] Dessa forma, além de identificar os grupos, estes poderão também ser caracterizados para facilitar a renderização de som otimizada, por exemplo, utilizando-os em uma seleção ou procedimento de decisão e/ou ajustando-se os parâmetros de um algoritmo de renderização.

[0244] Por exemplo, conforme descrito para cada um dos grupos identificados, o espaçamento máximo δmáx dentro desse grupo pode ser determinado, isto é, a distância máxima entre vizinhos mais próximos pode ser determinada. Além disso, a extensão espacial total, ou tamanho, L do grupo pode ser determinada como a distância máxima entre dois dos alto- falantes quaisquer dentro do grupo.

[0245] Esses dois parâmetros (possivelmente em conjunto com outros parâmetros, como o número de alto-falantes dentro do subconjunto e suas características, por exemplo, largura de banda de frequência) podem ser usados para determinar a faixa de frequências úteis para aplicação do processamento de matriz ao subconjunto, bem como para determinar os tipos aplicáveis de processamento de matriz (por exemplo, formação de feixes, síntese de campo sonoro, processamento de dipolo, etc.).

[0246] Em particular, uma frequência útil máxima fmáx de um subconjunto pode ser determinada da seguinte forma:

onde c é a velocidade do som.

[0247] Adicionalmente, um limite inferior da faixa de frequências úteis de um subconjunto pode ser determinado da seguinte forma:

que expressa que o processamento de matriz é eficaz até uma frequência fmín para a qual o comprimento de onda correspondente Amáx é da ordem do tamanho total L do subconjunto.

[0248] Dessa forma, uma restrição da faixa de frequências para um modo de renderização pode ser determinada e alimentada no controlador de renderização 611 que pode adaptar o modo de renderização de acordo (por exemplo, selecionando um algoritmo de renderização adequado).

[0249] Deve ser observado que os critérios específicos para determinar a faixa de frequências podem variar para modalidades diferentes e que as equações acima destinam-se a ser exemplos meramente ilustrativos.

[0250] Em algumas modalidades, cada um dos subconjuntos identificados pode, dessa forma, ser caracterizado por uma faixa de frequências úteis [fmín, fmáx] correspondente para um ou mais modos de renderização. Com isso, pode-se, por exemplo, selecionar um modo de renderização (especificamente um processamento de matriz) para essa faixa de frequências e um outro modo de renderização para outras frequências.

[0251] A relevância da faixa de frequências determinada depende do tipo de processamento de matriz. Por exemplo, enquanto para o processamento de formação de feixes tanto fmín como fmáx devem ser levados em conta, fmín é de menor relevância para o processamento de dipolo. Levando-se em conta essas considerações, os valores de fmín e/ou fmáx podem ser usados para determinar quais tipos de processamento de matriz aplicam-se a um grupo específico, e quais não se aplicam.

[0252] Além dos parâmetros descritos acima, cada grupo pode ser caracterizado por uma ou mais dentre suas características como posição, direção ou orientação em relação a uma posição de referência. Para determinar esses parâmetros, pode ser definida uma posição central de cada grupo, por exemplo, o bissetor do ângulo entre os dois alto-falantes mais afastados do grupo, conforme visto da posição de referência, ou uma posição centroide ponderada do grupo, que é uma média de todos os vetores de posição de todos os alto-falantes no grupo em relação à posição de referência. Além disso, esses parâmetros podem ser usados para identificar técnicas adequadas de processamento de renderização para cada grupo.

[0253] Nos exemplos anteriores, o agrupamento foi feito com base apenas em considerações de distâncias espaciais entre alto-falantes de acordo com a métrica de distância. Entretanto, em outras modalidades, o agrupamento pode levar em conta também outras características ou parâmetros.

[0254] Por exemplo, em algumas modalidades, o agrupador 609 pode receber dados de algoritmo de renderização indicativos de características de algoritmos de renderização que podem ser executados pelo renderizador. Por exemplo, os dados de algoritmo de renderização podem especificar quais algoritmos de renderização o renderizador 607 é capaz de executar e/ou as restrições para cada algoritmo. Por exemplo, os dados de algoritmo de renderização podem indicar que o renderizador 607 pode fazer a renderização usando VBAP para até três alto-falantes, formação de feixes se o número de alto-falantes for maior que 2, mas menor que 6, e a distância máxima vizinha for menor que 25 cm, e síntese de campo sonoro para até 10 alto-falantes se a distância máxima vizinha for menor que 50 cm.

[0255] O agrupamento poderá então ser feito com base nos dados do algoritmo de renderização. Por exemplo, os parâmetros do algoritmo de agrupamento podem ser definidos em função dos dados do algoritmo de renderização. Por exemplo, no exemplo acima, o agrupamento pode limitar o número de alto- falantes para 10 e permitir que novos alto-falantes sejam incluídos em um grupo existente somente se a distância a pelo menos um alto-falante do grupo for menor que 50 cm. Após o agrupamento, os algoritmos de renderização podem ser selecionados. Por exemplo, se o número de alto-falantes for maior que 5 e a distância máxima vizinha for no máximo de 50 cm, a síntese de campo sonoro será selecionada. Caso contrário, se houver mais de 2 alto-falantes no grupo, a formação de feixes será selecionada. De outro modo, a espacialização sonora baseada em vetores, VBAP, é selecionada.

[0256] Se, em vez disso, os dados do algoritmo de renderização indicarem que a renderização pode ser feita apenas por VBAP ou síntese de campo sonoro se o número de alto-falantes na matriz for maior que 2, mas menor que 6, e se a distância máxima vizinha for menor que 25 cm, então o agrupamento poderá limitar o número de alto-falantes para 5 e permitir que novos alto-falantes sejam incluídos em um grupo existente somente se a distância a pelo menos um alto- falante no grupo for menor que 25 cm.

[0257] Em algumas modalidades, o agrupador 609 pode receber dados de renderização indicativos de características de renderização acústica de ao menos alguns alto-falantes 603. Especificamente, os dados de renderização podem indicar uma resposta de frequência dos alto-falantes 603. Por exemplo, os dados de renderização podem indicar se cada alto-falante é um alto-falante de baixa frequência (por exemplo, um “woofer”), um alto-falante de alta frequência (por exemplo, um “tweeter”) ou um alto-falante de banda larga. Essas informações podem então ser levadas em conta para fins de agrupamento. Por exemplo, um requisito pode exigir que apenas alto-falantes com faixas de frequências correspondentes sejam agrupados, evitando, assim, por exemplo, grupos compreendendo “woofers” e “tweeters”, que são inadequados para, por exemplo, processamento de matriz.

[0258] Além disso, os dados de renderização podem indicar um padrão de radiação dos alto-falantes 603 e/ou orientação do eixo acústico principal dos alto-falantes 603. Por exemplo, os dados de renderização podem indicar se cada alto-falante tem um padrão de radiação relativamente amplo ou relativamente estreito, e para qual direção o eixo principal do padrão de radiação está orientado. Essas informações podem então ser levadas em conta para fins de agrupamento. Por exemplo, pode ser necessário que sejam agrupados apenas alto-falantes para os quais os padrões de radiação tenham sobreposição suficiente.

[0259] Como um exemplo mais complexo, o agrupamento pode ser feito com o uso de métodos estatístico de aprendizagem não supervisionada. Cada alto-falante k pode ser representado por um vetor de características em um espaço multidimensional, por exemplo,

onde as coordenadas no espaço 3D são xk,yk, e zk. A resposta de frequência nessa modalidade pode ser caracterizada por um único parâmetro sk que pode representar, por exemplo, um centroide espectral da resposta de frequência. Finalmente, o ângulo horizontal em relação a uma linha entre a posição do alto-falante e a posição de audição é dado por ak.

[0260] No exemplo, o agrupamento é feito levando- se em conta todo o vetor de características.

[0261] Na aprendizagem não supervisionada paramétrica, primeiramente são inicializados N centros de grupos an,n=0..N-1 no espaço de características. Eles são tipicamente inicializados aleatoriamente ou são tomadas amostras a partir das posições dos alto-falantes. Em seguida, as posições de an são atualizadas de modo que representem melhor a distribuição das posições dos alto- falantes no espaço de características. Existem vários métodos para isso, e é possível também dividir e reagrupar grupos durante a iteração de uma maneira similar àquela que foi descrita acima no contexto de agrupamento hierárquico.

[0262] Será entendido que a descrição acima para maior clareza descreveu as modalidades da invenção com referência a diferentes circuitos, unidades e processadores funcionais. Entretanto, será evidente que qualquer distribuição adequada da funcionalidade entre os diferentes circuitos, unidades ou processadores funcionais pode ser usada sem se desviar da invenção. Por exemplo, a funcionalidade ilustrada a ser executada por processadores ou controladores separados pode ser feita pelo mesmo processador ou controlador. Por isso, as referências a unidades ou circuitos funcionais específicos devem ser consideradas apenas como referências a meios adequados de fornecer a funcionalidade descrita e não como indicadoras de uma estrutura física ou organização lógica ou física.

[0263] A invenção pode ser implantada em muitas formas adequadas, incluindo hardware, software, firmware ou qualquer combinação deles. A invenção pode, opcionalmente, ser implementada, ao menos parcialmente, como software de computador sendo executado em um ou mais processadores de dados e/ou processadores de sinal digital. Os elementos e componentes de uma modalidade da invenção podem ser física, funcional e logicamente implementados de qualquer maneira adequada. De fato, a funcionalidade pode ser implementada em uma unidade única, em uma pluralidade de unidades ou como parte de outras unidades funcionais. Dessa forma, a invenção pode ser implementada em uma unidade única ou pode ser física e funcionalmente distribuída entre diferentes unidades, circuitos e processadores.

[0264] Embora a presente invenção tenha sido descrita em conjunto com algumas modalidades, não se pretende limitá-la à forma específica aqui apresentada. Ao invés disso, o escopo da presente invenção é limitado apenas pelas reivindicações anexas. Adicionalmente, embora possa parecer que um dado recurso é descrito em conjunto com modalidades específicas, o versado na técnica reconhecerá que vários recursos das modalidades descritas podem ser combinados de acordo com a invenção. Nas reivindicações, o termo “que compreende” não exclui a presença de outros elementos ou etapas.

[0265] Além disso, embora individualmente mencionados, uma pluralidade de meios, elementos, circuitos ou etapas de métodos pode ser implementada, por exemplo, por um circuito, unidade ou processador único. Adicionalmente, embora recursos individuais possam estar incluídos em reivindicações diferentes, eles podem ser vantajosamente combinados, e sua inclusão em reivindicações diferentes não implica que uma combinação de recursos não seja viável e/ou vantajosa. A inclusão de um recurso em uma categoria das reivindicações também não implica em uma limitação a esta categoria, mas ao invés disso indica que o recurso é igualmente aplicável a outras categorias de reivindicação, conforme for adequado. Além disso, a ordem dos recursos nas reivindicações não implica nenhuma ordem específica em que os recursos precisam ser trabalhados e, em particular, a ordem das etapas individuais em uma reivindicação de método não implica que as etapas precisem ser feitas nessa ordem. Ao invés disso, as etapas podem ser feitas em qualquer ordem adequada. Além disso, referências singulares não excluem uma pluralidade. Dessa forma, referências a “um/a”, “uns/umas”, “primeiro/a”, “segundo/a”, etc., não excluem uma pluralidade. Sinais de referência nas reivindicações são fornecidos meramente como exemplo esclarecedor e não deverão ser interpretados como limitadores do escopo das reivindicações de nenhuma forma.

Claims

1. APARELHO DE ÁUDIO, caracterizado por compreender: um receptor (605) para receber dados de áudio e dados de posição de transdutores de áudio para uma pluralidade de transdutores de áudio (603); um renderizador (607) configurado para renderizar os dados de áudio por meio da geração, a partir dos dados de áudio, de sinais de acionamento de transdutores de áudio para a pluralidade de transdutores de áudio (603); um agrupador (609) configurado para agrupar a pluralidade de transdutores de áudio em um conjunto de grupos de transdutores de áudio em resposta às distâncias entre transdutores de áudio da pluralidade de transdutores de áudio de acordo com uma métrica de distância espacial, sendo que as distâncias são determinadas a partir dos dados de posição de transdutores de áudio e o agrupamento compreende a geração do conjunto de grupos de transdutores de áudio em resposta a uma inclusão iterada de transdutores de áudio em grupos de uma iteração anterior, onde um primeiro transdutor de áudio é incluído em um primeiro grupo do conjunto de grupos de transdutores de áudio em resposta à condição de o primeiro transdutor de áudio satisfazer um critério de distância em relação a um ou mais transdutores de áudio do primeiro grupo, e um controlador de renderização (611) configurado para adaptar a renderização em resposta ao agrupamento.

2. APARELHO DE ÁUDIO, de acordo com a reivindicação 1, caracterizado pelo renderizador (607) ser configurado para renderizar os dados de áudio de acordo com uma pluralidade de modos de renderização, e o controlador de renderização (611) ser configurado para selecionar independentemente modos de renderização a partir da pluralidade de modos de renderização para diferentes grupos de transdutores de áudio coexistentes.

3. APARELHO DE ÁUDIO, de acordo com a reivindicação 2, caracterizado pelo renderizador (607) ser configurado para executar uma renderização de processamento de matriz, e o controlador de renderização (611) ser configurado para selecionar uma renderização de processamento de matriz para um primeiro grupo do conjunto de grupos de transdutores de áudio em resposta à condição de uma propriedade do primeiro grupo satisfazer um critério.

4. APARELHO DE ÁUDIO, de acordo com a reivindicação 1, caracterizado pelo renderizador (607) ser configurado para executar uma renderização de processamento de matriz, e o controlador de renderização (611) ser disposto para adaptar a renderização de processamento de matriz para um primeiro grupo do conjunto de grupos de transdutores de áudio em resposta a uma propriedade do primeiro grupo.

5. APARELHO DE ÁUDIO, de acordo com a reivindicação 3, caracterizado pela propriedade ser ao menos uma dentre: uma distância máxima entre transdutores de áudio do primeiro grupo que são vizinhos mais próximos de acordo com a métrica de distância espacial; uma distância máxima entre transdutores de áudio do primeiro grupo de acordo com a métrica de distância espacial; e um número de transdutores de áudio no primeiro grupo.

6. APARELHO DE ÁUDIO, de acordo com a reivindicação 1, caracterizado pelo agrupador (609) ser configurado para gerar uma indicação de propriedade para um primeiro grupo do conjunto de grupos de transdutores de áudio, e o controlador de renderização (611) ser configurado para adaptar a renderização para o primeiro grupo em resposta à indicação de propriedade.

7. APARELHO DE ÁUDIO, de acordo com a reivindicação 6, caracterizado pela indicação de propriedade ser indicativa de ao menos uma propriedade selecionada do grupo que consiste em: uma distância máxima entre transdutores de áudio do primeiro grupo que são vizinhos mais próximos de acordo com a métrica de distância espacial, e uma distância máxima entre dois transdutores de áudio quaisquer do primeiro grupo.

8. APARELHO DE ÁUDIO, de acordo com a reivindicação 6, caracterizado pela indicação de propriedade ser indicativa de ao menos uma propriedade selecionada do grupo que consiste em: uma resposta de frequência de um ou mais transdutores de áudio do primeiro grupo; um número de transdutores de áudio no primeiro grupo; uma orientação do primeiro grupo em relação a pelo menos uma dentre uma posição de referência e uma propriedade geométrica do ambiente de renderização, e um tamanho espacial do primeiro grupo.

9. APARELHO DE ÁUDIO, de acordo com a reivindicação 1, caracterizado pelo agrupador (609) ser configurado para gerar o conjunto de grupos de transdutores de áudio de acordo com o requisito de que em um grupo não haja dois transdutores de áudio que são vizinhos mais próximos de acordo com a métrica de distância espacial que tenham uma distância que excede um limiar.

10. APARELHO DE ÁUDIO, de acordo com a reivindicação 1, caracterizado pelo agrupador (609) ser adicionalmente configurado para receber dados de renderização indicativos de características de renderização acústica de ao menos alguns transdutores de áudio da pluralidade de transdutores de áudio, e para agrupar a pluralidade de transdutores de áudio no conjunto de grupos de transdutores de áudio em resposta aos dados de renderização.

11. APARELHO DE ÁUDIO, de acordo com a reivindicação 1, caracterizado pelo agrupador (609) ser adicionalmente configurado para receber dados de algoritmo de renderização indicativos de características de algoritmos de renderização que podem ser executados pelo renderizador (607), e para agrupar a pluralidade de transdutores de áudio no conjunto de grupos de transdutores de áudio em resposta aos dados do algoritmo de renderização.

12. APARELHO DE ÁUDIO, de acordo com a reivindicação 1, caracterizado pela métrica de distância espacial ser uma métrica de distância angular que reflete uma diferença angular entre transdutores de áudio em relação a uma posição ou direção de referência.

13. MÉTODO DE PROCESSAMENTO DE ÁUDIO, caracterizado por compreender: receber dados de áudio e dados de posição de transdutores de áudio para uma pluralidade de transdutores de áudio (603); renderizar os dados de áudio por meio da geração, a partir dos dados de áudio, de sinais de acionamento de transdutores de áudio para a pluralidade de transdutores de áudio (603); agrupar a pluralidade de transdutores de áudio em um conjunto de grupos de transdutores de áudio em resposta às distâncias entre transdutores de áudio da pluralidade de transdutores de áudio de acordo com uma métrica de distância espacial, sendo que as distâncias são determinadas a partir dos dados de posição de transdutores de áudio e o agrupamento compreende a geração do conjunto de grupos de transdutores de áudio em resposta a uma inclusão iterada de transdutores de áudio em grupos de uma iteração anterior, onde um primeiro transdutor de áudio é incluído em um primeiro grupo do conjunto de grupos de transdutores de áudio em resposta à condição de o primeiro transdutor de áudio satisfazer um critério de distância em relação a um ou mais transdutores de áudio do primeiro grupo, e adaptar a renderização em resposta ao agrupamento.