BR112015028337B1 - Aparelho de processamento de áudio e método - Google Patents

Aparelho de processamento de áudio e método Download PDF

Info

Publication number
BR112015028337B1
BR112015028337B1 BR112015028337-3A BR112015028337A BR112015028337B1 BR 112015028337 B1 BR112015028337 B1 BR 112015028337B1 BR 112015028337 A BR112015028337 A BR 112015028337A BR 112015028337 B1 BR112015028337 B1 BR 112015028337B1
Authority
BR
Brazil
Prior art keywords
audio
rendering
data
transducer
transducers
Prior art date
Application number
BR112015028337-3A
Other languages
English (en)
Other versions
BR112015028337A2 (pt
Inventor
Werner Paulus Josephus De Bruijn
Aki Sakari Härmä
Arnoldus Werner Johannes Oomen
Original Assignee
Koninklijke Philips N.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips N.V. filed Critical Koninklijke Philips N.V.
Publication of BR112015028337A2 publication Critical patent/BR112015028337A2/pt
Publication of BR112015028337B1 publication Critical patent/BR112015028337B1/pt

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2205/00Details of stereophonic arrangements covered by H04R5/00 but not provided for in any of its subgroups
    • H04R2205/024Positioning of loudspeaker enclosures for spatial sound reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/03Connection circuits to selectively connect loudspeakers or headphones to amplifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/13Application of wave-field synthesis in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/40Visual indication of stereophonic sound image

Abstract

APARELHO DE PROCESSAMENTO DE ÁUDIO, MÉTODO DE PROCESSAMENTO DE ÁUDIO, E, PRODUTO DE PROGRAMA DE COMPUTADOR. A presente revelação se refere a um aparelho de processamento de áudio que compreende um receptor (705) que recebe dados de áudio que incluem componentes de áudio e dados de configuração de renderização incluindo dados de posição de transdutores de áudio para um conjunto de transdutores de áudio (703). Um renderizador (707) que gera, a partir dos dados de áudio, sinais de transdutores de áudio para o conjunto de transdutores de áudio. O renderizador (7010) é capaz de renderizar componentes de áudio de acordo com uma pluralidade de modos de renderização. Um controlador de renderização (709) seleciona os modos de renderização para o renderizador (707) da pluralidade de modos de renderização com base nos dados de posição de transdutores de áudio. O renderizador (707) pode empregar modos de renderização diferentes para subconjuntos diferentes do conjunto de transdutores de áudio, o controlador de renderização (709) pode selecionar de maneira independente modos de renderização para cada um dos diferentes subconjuntos do conjunto de transdutores de áudio (703). O controlador de renderização (709) pode selecionar o modo de renderização de um primeiro transdutor de áudio do conjunto de transdutores de áudio (703) em resposta a uma posição do (...).

Description

CAMPO DA INVENÇÃO
[001] A invenção se refere a um aparelho de processamento de áudio e a um método para o mesmo, e, em particular, porém não exclusivamente, à renderização de áudio espacial que compreende tipos diferentes de componentes de áudio.
ANTECEDENTES DA INVENÇÃO
[002] Nas últimas décadas, a variedade e a flexibilidade de aplicações de áudio aumentaram imensamente com, por exemplo, a grande diversidade de variadas aplicações de renderização de áudio. Somando-se a isso, as configurações de renderização de áudio são usadas em diversos ambientes acústicos e para muitas aplicações diferentes.
[003] Tradicionalmente, os sistemas de reprodução de som espacial são desenvolvidos para uma ou mais configurações específicas de alto-falantes. Como resultado, a experiência espacial depende de quão estreitamente a real configuração de alto-falantes utilizada corresponde à configuração nominal projetada, e uma experiência espacial de alta qualidade é, tipicamente, conseguida apenas para um sistema configurado de maneira substancialmente correta, isto é, de acordo com configurações específicas de alto- falantes.
[004] Entretanto, a exigência de usar configurações específicas de alto-falantes com tipicamente um número relativamente alto de alto-falantes é pouco prática e inconveniente. De fato, uma inconveniência significativa percebida por consumidores ao implantar, por exemplo, um sistema de som “surround” de cinema caseiro é a necessidade de posicionar um número relativamente grande de alto-falantes em locais específicos. Tipicamente, as configurações práticas de caixas de som (alto-falantes) surround serão diferentes da configuração ideal devido ao fato de os usuários concluírem que é impraticável posicionar as caixas de som nas melhores posições. Consequentemente, a experiência, e em particular a experiência espacial, proporcionada por tais configurações fica abaixo da ideal.
[005] Nos últimos anos, tem havido uma forte tendência de os consumidores exigirem requisitos menos rigorosos para a localização de seus alto-falantes. Ademais, sua principal exigência é que a configuração de alto- falantes se ajuste ao seu ambiente doméstico, enquanto, obviamente, esperam que o sistema possa também proporcionar uma experiência de audição de alta qualidade. Essas exigências conflitantes tornam-se mais relevantes com o aumento do número de alto-falantes. Além disso, os problemas tornaram-se mais relevantes devido a uma tendência atual de que a provisão de reprodução de som seja completamente tridimensional, com o som chegando ao ouvinte a partir de múltiplas direções.
[006] Têm sido desenvolvidos formatos de codificação de áudio para fornecer serviços de áudio cada vez mais capazes, variáveis e flexíveis e, em particular, têm sido desenvolvidos formatos de codificação de áudio que suportem serviços espaciais de áudio.
[007] Tecnologias de codificação de áudio bem conhecidas como DTS e Dolby Digital produzem um sinal de áudio multicanal codificado que representa a imagem espacial como um número de canais colocados ao redor do ouvinte em posições fixas. Para uma configuração de alto-falantes diferente da configuração que corresponde ao sinal multicanal, a imagem espacial será inferior à ideal. Além disso, sistemas de codificação de áudio baseados em canal, tipicamente, não são capazes de lidar com um número diferente de alto-falantes.
[008] O formato MPEG-2 (ISO/IEC) fornece uma ferramenta de codificação de áudio multicanal em que o formato da sequência ou fluxo de bits (“bitstream”) compreende uma combinação de 2 canais e de 5 multicanais do sinal de áudio. Quando o fluxo de bits é decodificado com um decodificador MPEG-1 (ISO/IEC), a combinação retrocompatível de 2 canais é reproduzida. Quando o fluxo de bits é decodificado com um decodificador MPEG-2, são decodificados três canais de dados auxiliares que quando combinados (“desmatriciados”) com os canais estéreo resultam na combinação de 5 canais do sinal de áudio.
[009] (ISO/IEC MPEG-D) MPEG Surround fornece uma ferramenta de codificação de áudio multicanal que permite que codificadores existentes mono- ou estéreos sejam estendidos para aplicações de áudio multicanal. A Figura 1 ilustra um exemplo dos elementos de um sistema MPEG Surround. Com o uso de parâmetros espaciais obtidos pela análise da entrada multicanal original, um decodificador MPEG Surround pode recriar a imagem espacial por “upmix” controlado do sinal mono ou estéreo para obter um sinal de saída multicanal.
[010] Como a imagem espacial do sinal de entrada multicanal é parametrizada, o MPEG Surround permite a decodificação do mesmo fluxo de bits multicanal por dispositivos de renderização que não usam uma configuração de alto-falantes multicanais. Um exemplo é a reprodução virtual surround em fones de ouvido, que é chamada de processo de decodificação binaural MPEG Surround. Nesse modo, pode ser fornecida uma experiência de som realística quando são usados fones de ouvido regulares. Outro exemplo é o corte de saídas de multicanal de ordem mais alta, por exemplo, 7.1 canais, para configurações de ordem mais baixa, por exemplo, 5.1 canais.
[011] Como mencionado, a variação e flexibilidade nas configurações de renderização usada para renderizar som espacial aumentaram significativamente nos anos recentes com um número crescente de formatos de reprodução sendo disponibilizados para o consumidor comum. Isso requer uma representação flexível de áudio. Etapas importantes foram alcançadas com a introdução de codec MPEG Surround. No entanto, o áudio ainda é produzido e transmitido para uma configuração específica de alto- falantes, por exemplo, uma configuração de alto-falantes ITU 5.1. A reprodução em diferentes configurações e em configurações de alto-falantes não padrão (isto é, flexível ou definida pelo usuário) não é especificada. De fato, há um desejo de tornar a codificação e a representação de áudio cada vez mais independentes de configurações específicas de alto-falantes, sejam predeterminadas ou nominais. É cada vez mais preferencial que possa ser feita uma adaptação flexível a uma ampla variedade de diferentes configurações de alto- falantes no lado do decodificador/renderização.
[012] De modo a fornecer uma representação de áudio mais flexível, o grupo MPEG padronizou um formato conhecido como SAOC (‘Spatial Audio Object Coding’ - Codificação de Objeto de Áudio Espacial) (MPEG-D SAOC da ISO/IEC). Em contraste com os sistemas de codificação de áudio multicanal como DTS, Dolby Digital e MPEG Surround, SAOC fornece codificação eficiente de objetos de áudio individuais, ao invés de canais de áudio. Enquanto no MPEG Surround cada canal de alto-falante pode ser considerado como tendo origem em uma mistura diferente de objetos de som, o formato SAOC contempla a manipulação interativa do local dos objetos de som individuais em uma mistura multicanal, como ilustrado na Figura 2.
[013] De modo similar ao MPEG Surround, o formato SAOC também cria um “downmix” mono ou estéreo. Além disso, parâmetros de objeto são calculados e incluídos. No lado decodificador, o usuário pode manipular esses parâmetros para controlar várias características dos objetos individuais, como posição, nível, equalização, ou mesmo até aplicar efeitos como reverberação. A Figura 3 ilustra uma interface interativa que permite que o usuário controle os objetos individuais contidos em um fluxo de bits SAOC. Por meio de uma matriz de renderização, objetos de som individuais são mapeados nos canais do alto-falante.
[014] O SAOC permite uma abordagem mais flexível e permite, em particular, maior adaptabilidade baseada em renderização pois transmite objetos de áudio em adição a canais de reprodução apenas. Isso permite que o lado codificador coloque os objetos de áudio em posições arbitrárias no espaço, contanto que o espaço seja adequadamente coberto pelos alto-falantes. Desse modo, não existe relação entre o áudio transmitido e a configuração de reprodução ou renderização, o que permite, portanto, o uso de configurações arbitrárias de alto-falantes. Isso é vantajoso, por exemplo, para configurações de cinema em casa em uma sala de estar típica, onde os alto-falantes quase nunca estão nas posições pretendidas. No formato SAOC, é decidido no lado do decodificador o local onde os objetos são posicionados na cena de som (por exemplo, usando-se uma interface como a mostrada na Figura 3), o que, com frequência, não é desejado de um ponto de vista artístico. O padrão SAOC fornece meios de transmitir uma matriz de renderização predefinida no fluxo de bits, eliminando a responsabilidade do decodificador. Entretanto, os métodos fornecidos se baseiam em configurações de reprodução fixas ou em sintaxe não especificada. Dessa forma, o SAOC não fornece meios normativos para transmitir completamente uma cena de áudio independentemente da configuração de alto-falantes. Além disso, SAOC não é bem equipado para a renderização fiel de componentes de sinais difusos. Embora exista a possibilidade de incluir um assim chamado “Multichannel Background Object” (MBO) para capturar o som difuso, esse objeto é ligado a uma configuração específica de alto-falantes.
[015] Uma outra especificação de formato de áudio para áudio 3D foi desenvolvida pela DTS Inc. (Digital Theater Systems). A DTS, Inc. desenvolveu o MDA™ (MultiDimensional Audio), uma plataforma aberta para criação e autoração de áudio baseada em objetos visando acelerar a criação de conteúdo da próxima geração. A plataforma MDA suporta objetos de canal e de áudio e se adapta a qualquer quantidade e configuração de alto-falantes. O formato MDA permite a transmissão de um “downmix” de multicanais legados juntamente com objetos de som individuais. Além disso, é incluído dado de posicionamento de objeto. O princípio de geração de um fluxo de áudio MDA é mostrado na Figura 4.
[016] Na abordagem MDA, os objetos de som são recebidos separadamente no fluxo de extensão e eles podem ser extraídos do “downmix” multicanal. O downmix multicanal resultante é renderizado junto com os objetos disponíveis individualmente.
[017] Os objetos podem consistir de, assim chamados, troncos. Esses troncos são basicamente trilhas ou objetos agrupados (que passaram por downmix). Assim, um objeto pode consistir de múltiplos subobjetos compactados em um tronco. No MDA, um mix de referência multicanal pode ser transmitido com uma seleção de objetos de áudio. O MDA transmite os dados posicionais 3D de cada objeto. Os objetos podem então ser extraídos usando os dados posicionais 3D. Alternativamente, a matriz de mixagem inversa pode ser transmitida, descrevendo a relação entre os objetos e o mix de referência.
[018] A partir da descrição do MDA, é provável que as informações da cena do som sejam transmitidas mediante a atribuição de um ângulo e distância para cada objeto, indicando onde o objeto deve ser posicionado em relação, por exemplo, à direção à frente predefinida. Dessa forma, a informação posicional é transmitida para cada objeto. Isso é útil para fontes pontuais, mas não consegue descrever fontes amplas (por exemplo, um coro ou aplauso) ou campos de som difuso (como o ambiente). Quando todas as fontes pontuais são extraídas do mix de referência, permanece um mix multicanal ambiente. Similar ao formato SAOC, o residual no MDA é fixo em uma configuração específica de alto-falantes.
[019] Dessa forma, tanto a abordagem SAOC como a MDA incorporam a transmissão de objetos de áudio individuais que podem ser manipulados individualmente no lado do decodificador. Uma diferença entre as duas abordagens é que o formato SAOC fornece informações sobre os objetos de áudio ao fornecer parâmetros que os caracterizam em relação ao “downmix” (isto é, de modo que os objetos de áudio sejam gerados a partir de “downmix” no lado do decodificador), enquanto o formato MDA fornece objetos de áudio como objetos de áudio completos e separados (isto é, que podem ser gerados independentemente do “downmix” no lado do decodificador). Para ambas as abordagens, os dados de posição podem ser comunicados aos objetos de áudio.
[020] Atualmente, dentro do formato ISO/IEC MPEG, um sistema MPEG 3D Audio de áudio 3D padrão está sendo preparado para facilitar o transporte e a renderização de áudio 3D. O sistema MPEG-3D Audio deverá se tornar parte do pacote MPEG-H juntamente com codificação de vídeo HEVC e a camada de sistemas MMT (MPEG Media Transport). A Figura 5 ilustra o diagrama de blocos de alto nível usado atualmente para o sistema MPEG 3D Audio.
[021] Além do tradicional formato baseado em canal, a abordagem visa também suportar formatos baseados em objetos e baseados em cenas. Um aspecto importante do sistema é que sua qualidade deve ser ajustável a um nível ideal para uma taxa de bits (“bitrate”) crescente, isto é, à medida que a taxa de dados aumenta, a degradação causada pela codificação e decodificação deve continuar a se reduzir até se tornar insignificante. Entretanto, tal exigência tende a ser problemática para técnicas de codificação paramétrica que eram usadas extensivamente no passado (a saber, HE-AAC v2, MPEG Surround, SAOC e USAC). Em particular, a perda de informações para os sinais individuais tende a não ser plenamente compensada pelos dados paramétricos, mesmo a taxas de bits muito altas. De fato, a qualidade será limitada pela qualidade intrínseca do modelo paramétrico.
[022] A plataforma MPEG-3D Audio busca, adicionalmente, fornecer um fluxo de bits resultante que independe da configuração de reprodução. As possibilidades de reprodução previstas incluem configurações flexíveis de alto- falantes de até 22.2 canais, bem como som “virtual surround” em fones de ouvido e alto-falantes proximamente espaçados uns dos outros.
[023] A patente US n° 2013/101122 A1 revela um aparelho de geração/reprodução de conteúdo de áudio baseado em objeto que permite que o conteúdo de áudio baseado em objeto seja reproduzido com o uso de ao menos um dentre um esquema de WFS (síntese de campo sonoro) e um esquema de som surround multicanal, independentemente do ambiente de reprodução da audiência.
[024] O documento WO2013/006338 A2 revela um sistema que inclui um novo layout de alto-falantes (configuração de canais) e um formato associado de descrição espacial. O documento WO2013/006338 A2 tem como objetivo fornecer um sistema de áudio adaptável e um formato que suporte múltiplas tecnologias de renderização. Os fluxos de áudio são transmitidos juntamente com metadados que descrevem a “intenção da mesa de mixagem” incluindo a posição desejada do(s) objeto(s) de áudio.
[025] A patente US2010/223552 A1 revela um sistema configurado para capturar e/ou produzir um evento de som gerado por uma pluralidade de fontes de som. Em particular, o sistema pode ser configurado de modo que a captura, o processamento e/ou a saída da produção sonora de objetos de som associados aos de outras fontes de som possam ser controlados individualmente.
[026] Em resumo, a maioria dos sistemas de reprodução de som existentes permite apenas uma quantidade modesta de flexibilidade em termos de configuração de alto- falantes. Como quase todos os sistemas existentes foram desenvolvidos a partir de certas suposições básicas com relação à configuração geral dos alto-falantes (por exemplo, alto-falantes posicionados de maneira mais ou menos equidistante ao redor do ouvinte, ou alto-falantes dispostos em uma linha na frente do ouvinte, ou fones de ouvido), ou com relação à natureza do conteúdo (por exemplo, consistindo em um pequeno número de fontes localizáveis separadas, ou consistindo em uma cena de som altamente difusa), cada sistema é capaz de proporcionar uma experiência ideal apenas em uma faixa limitada de configurações de alto-falantes que pode ocorrer no ambiente de renderização (como o lar de um usuário). Uma nova classe de sistemas de renderização de som que permitem uma configuração flexível de alto-falantes é, portanto, desejada. Essa flexibilidade pode compreender vários elementos incluindo não só as posições dos alto- falantes, mas também o número de alto-falantes e suas características individuais (por exemplo, largura de banda, potência máxima permitida, direcionalidade, etc.).
[027] Portanto, uma abordagem de renderização de áudio aprimorada seria vantajosa e, em particular, uma abordagem que permitisse maior flexibilidade, facilidade de implementação e/ou operação, permitindo um posicionamento mais flexível de alto-falantes, adaptação aprimorada a diferentes configurações de alto-falantes e/ou desempenho aprimorado.
SUMÁRIO DA INVENÇÃO
[028] Consequentemente, a invenção busca, de preferência, mitigar, aliviar ou eliminar uma ou mais das desvantagens mencionadas acima, individualmente ou em qualquer combinação.
[029] De acordo com um aspecto da invenção, é apresentado um aparelho de processamento de áudio que compreende: um receptor para receber dados de áudio e dados de configuração de renderização, sendo que os dados de áudio compreendem dados de áudio para uma pluralidade de componentes de áudio e os dados de configuração de renderização compreendem dados de posição de transdutores de áudio para um conjunto de transdutores de áudio; um renderizador para gerar, a partir dos dados de áudio, sinais de transdutores de áudio para o conjunto de transdutores de áudio, sendo o renderizador capaz de renderizar componentes de áudio de acordo com uma pluralidade de modos de renderização; um controlador de renderização disposto para selecionar modos de renderização para o renderizador dentre a pluralidade de modos de renderização em resposta aos dados de posição de transdutores de áudio; e sendo que o renderizador é disposto para empregar modos de renderização diferentes para subconjuntos diferentes do conjunto de transdutores de áudio, e selecionar de maneira independente modos de renderização para cada um dos diferentes subconjuntos do conjunto de transdutores de áudio.
[030] A invenção pode fornecer renderização aprimorada em muitas situações. Em muitas aplicações práticas, uma experiência para o usuário substancialmente aprimorada pode ser proporcionada. A abordagem permite maior flexibilidade e liberdade de posicionamento de transdutores de áudio (especificamente alto-falantes) usados para renderizar áudio. Por exemplo, a abordagem pode permitir adaptação aprimorada e otimização de transdutores de áudio não posicionados de maneira ideal (por exemplo, de acordo com uma instalação de configuração predeterminada ou predefinida) e, ao mesmo tempo, que os transdutores de áudio posicionados substancialmente de maneira ideal sejam plenamente explorados.
[031] Os diferentes componentes de áudio podem todos, especificamente, fazer parte do mesmo “palco sonoro” ou cena de áudio. Os componentes de áudio podem ser componentes de áudio espacial, por exemplo, por terem informações associadas de posição implícita ou de posição explícita, por exemplo, fornecidas por metadados associados. Os modos de renderização podem ser modos de renderização espacial.
[032] Os sinais de transdutores de áudio podem ser sinais de acionamento dos transdutores de áudio. Os sinais de transdutores de áudio podem ser processados adicionalmente antes de serem alimentados aos transdutores de áudio, por exemplo, por filtragem ou amplificação. De modo equivalente, os transdutores de áudio podem ser transdutores ativos que incluem funcionalidade de amplificação e/ou filtragem do sinal de acionamento fornecido. Um sinal de transdutor de áudio pode ser gerado para cada transdutor de áudio da pluralidade de transdutores de áudio.
[033] O controlador de renderização pode ser disposto para selecionar de maneira independente o modo de renderização para os subconjuntos diferentes no sentido de que podem ser selecionados modos de renderização diferentes para os subconjuntos. A seleção de um modo de renderização para um subconjunto pode considerar características associadas a transdutores de áudio que pertencem ao outro subconjunto.
[034] Os dados de posição de transdutores de áudio podem fornecer uma indicação da posição de cada transdutor de áudio do conjunto de transdutores de áudio, ou pode fornecer indicações de posição para apenas um subconjunto de transdutores.
[035] O renderizador pode ser disposto para gerar, para cada componente de áudio, componentes de sinal de transdutores de áudio para os transdutores de áudio, e para gerar o sinal de transdutor de áudio para cada transdutor de áudio combinando os componentes de sinal de transdutores de áudio para a pluralidade de componentes de áudio.
[036] De acordo com uma característica opcional da invenção, o renderizador pode ser operado para empregar modos de renderização diferentes para objetos de áudio de um primeiro transdutor de áudio do conjunto de transdutores, e o controlador de renderização é disposto para selecionar de maneira independente modos de renderização para cada um dos objetos de áudio do primeiro transdutor de áudio.
[037] Em muitas modalidades, isso pode proporcionar desempenho aprimorado e/ou pode permitir uma experiência aprimorada e/ou maior liberdade e flexibilidade para o usuário. Em particular, a abordagem pode permitir adaptação aprimorada ao cenário de renderização específico em que é considerada a otimização da configuração de renderização específica e do áudio sendo renderizado. Em particular, os subconjuntos de transdutores de áudio para os quais é utilizado um algoritmo de renderização específico podem ser diferentes para componentes de áudio diferentes para refletir as características diferentes dos componentes de áudio.
[038] Em algumas modalidades, o controlador de renderização pode ser disposto para selecionar, para um primeiro componente de áudio, um modo de renderização selecionado da pluralidade de modos de renderização em resposta aos dados de configuração de renderização, e para determinar um conjunto de parâmetros de renderização do modo de renderização selecionado em resposta aos dados de descrição de áudio.
[039] De acordo com uma característica opcional da invenção, ao menos dois da pluralidade de componentes de áudio são tipos de áudio diferentes.
[040] Em muitas modalidades, isso pode proporcionar desempenho aprimorado e/ou pode permitir uma experiência aprimorada e/ou maior liberdade e flexibilidade para o usuário. Em particular, a abordagem pode permitir adaptação aprimorada ao cenário de renderização específico em que é feita a otimização da configuração de renderização específica e do áudio sendo renderizado.
[041] O modo de renderização usado para um dado transdutor de áudio pode ser diferente para componentes de áudio diferentes. Os modos de renderização diferentes podem ser selecionados em função do tipo de áudio dos componentes de áudio. Os dados de descrição de áudio podem indicar o tipo de áudio de um ou mais da pluralidade de componentes de áudio.
[042] De acordo com uma característica opcional da invenção, a pluralidade de componentes de áudio compreende ao menos dois componentes de áudio de tipos de áudio diferentes do grupo que consiste em: componentes de canal de áudio, componentes de objeto de áudio e componentes da cena de áudio, e o renderizador é disposto para usar modos de renderização diferentes para os pelo menos dois componentes de áudio.
[043] Isso pode proporcionar um desempenho particularmente vantajoso e permitir, em particular, desempenho aprimorado para sistemas como MPEG 3D Audio. O controlador de renderização pode selecionar o modo de renderização para um dado subconjunto de transdutores de áudio e um primeiro componente de áudio dependendo de o componente de áudio ser um canal de áudio, objeto de áudio ou objeto de cena de áudio.
[044] Os componentes de áudio podem ser, especificamente, componentes de canal de áudio, componentes de objeto de áudio e/ou componentes da cena de áudio de acordo com o padrão MPEG ISO/IEC 23008-3 MPEG 3D Audio.
[045] De acordo com uma característica opcional da invenção, o receptor é disposto para receber dados de indicação de tipo de áudio indicativos de um tipo de áudio de ao menos um primeiro componente de áudio, e o controlador de renderização é disposto para selecionar o modo de renderização para o primeiro componente de áudio em resposta aos dados de indicação de tipo de áudio.
[046] Isso pode proporcionar desempenho aprimorado e pode permitir uma experiência aprimorada para o usuário, adaptação e/ou flexibilidade aprimoradas e liberdade no posicionamento de transdutores de áudio.
[047] De acordo com uma característica opcional da invenção, o controlador de renderização é disposto para selecionar o modo de renderização de um primeiro transdutor de áudio em resposta a uma posição do primeiro transdutor de áudio em relação a uma posição predeterminada do transdutor de áudio.
[048] Isso pode proporcionar desempenho aprimorado e pode permitir uma experiência aprimorada para o usuário, adaptação e/ou flexibilidade aprimoradas e liberdade no posicionamento de transdutores de áudio.
[049] A posição do primeiro transdutor de áudio e/ou a posição predeterminada podem ser fornecidas como uma posição absoluta ou como uma posição relativa, por exemplo, em relação a uma posição de audição.
[050] A posição predeterminada pode ser uma posição nominal ou predefinida de transdutor de áudio em uma configuração de renderização. A configuração de renderização pode ser uma configuração de renderização associada a uma instalação padrão, como, por exemplo, uma instalação de alto-falantes de som surround 5.1 nominal. Em algumas situações, a configuração de renderização pode corresponder a uma configuração de renderização predefinida associada a um ou mais componentes de áudio, como, por exemplo, uma configuração de renderização associada a canais de áudio. Especificamente, a posição predeterminada pode ser uma posição predefinida de transdutores de áudio assumida ou definida para um canal de áudio.
[051] De acordo com uma característica opcional da invenção, o controlador de renderização é disposto para selecionar um modo de renderização predefinido do primeiro transdutor de áudio a menos que uma diferença entre a posição do primeiro transdutor de áudio e a posição predeterminada exceda um limiar.
[052] Isso pode facilitar a operação e, em muitas modalidades e cenários, permitir confiabilidade e/ou robustez aprimoradas. O modo de renderização predefinido pode, por exemplo, ser associado a uma configuração de renderização predefinida (como um algoritmo de renderização de som surround associado a uma configuração padrão de transdutores de áudio de som surround). O modo de renderização predefinido (por exemplo, o modo de renderização de som surround) pode ser usado para transdutores de áudio posicionados próximos das posições predefinidas da configuração padrão de transdutores de áudio de som surround, enquanto um modo/algoritmo alternativo de renderização pode ser selecionado quando a posição do transdutor de áudio desvia suficientemente da posição predefinida.
[053] De acordo com uma característica opcional da invenção, o controlador de renderização é disposto para dividir o conjunto de transdutores de áudio em um primeiro subconjunto de transdutores de áudio que compreende transdutores de áudio para os quais uma diferença entre a posição do transdutor de áudio e a posição predeterminada excede um limiar e em um segundo subconjunto de transdutores de áudio que compreende ao menos um transdutor de áudio para o qual uma diferença entre a posição do transdutor de áudio e a posição predeterminada não excede um limiar, e para selecionar um modo de renderização para cada transdutor de áudio do primeiro subconjunto a partir de um primeiro subconjunto de modos de renderização e selecionar um modo de renderização para cada transdutor de áudio do segundo subconjunto a partir de um segundo subconjunto de modos de renderização.
[054] A abordagem pode proporcionar operação facilitada e/ou desempenho aprimorado e/ou maior flexibilidade.
[055] O primeiro subconjunto pode incluir transdutores de áudio que são posicionados remotamente em relação à posição predefinida de uma dada configuração de renderização/transdutor de áudio nominal. O segundo subconjunto pode incluir um ou mais transdutores de áudio que são posicionados próximos da posição predefinida da dada configuração de renderização/transdutor de áudio nominal. Os sinais de acionamento do segundo subconjunto podem usar um modo de renderização nominal associado à dada configuração de renderização/transdutor de áudio nominal, ao passo que os sinais de acionamento do primeiro subconjunto podem usar um modo de renderização diferente que compense o fato de os transdutores de áudio não estarem em posições predefinidas. O primeiro subconjunto pode incluir um ou mais transdutores de áudio para os quais a diferença entre a posição do transdutor de áudio e a posição predeterminada não excede um limiar, por exemplo, se tal(is) transdutor(es) de áudio for(em) usado(s) para suportar a renderização a partir dos transdutores de áudio para os quais a diferença excede um limiar.
[056] De acordo com uma característica opcional da invenção, a pluralidade de modos de renderização inclui ao menos um modo de renderização selecionado do grupo que consiste em: uma renderização estereofônica, uma espacialização sonora (“panorama sonoro”) baseada em vetores, uma renderização por formação de feixes, um renderização para cancelamento de diafonia, uma renderização ambissônica, uma renderização por síntese de campo sonoro, e uma renderização otimizada por quadrados mínimos.
[057] A seleção individual de subconjuntos de transdutores de áudio entre esses modos de renderização proporciona um desempenho particularmente vantajoso. De fato, os modos de renderização do grupo têm características que são particularmente adequadas para configurações diferentes de renderização/transdutores de áudio com características diferentes.
[058] De acordo com uma característica opcional da invenção, o receptor é disposto adicionalmente para receber dados de posição de renderização para os componentes de áudio, e o controlador de renderização é disposto para selecionar os modos de renderização em resposta aos dados de posição de renderização.
[059] Isso pode proporcionar desempenho e modalidades e cenários uma experiência aprimorada para o usuário.
[060] De acordo com uma característica opcional da invenção, o renderizador é disposto para empregar modos de renderização diferentes para bandas de frequências diferentes de um componente de áudio dos componentes de áudio, e o controlador de renderização é disposto para selecionar de maneira independente modos de renderização para bandas de frequências diferentes do componente de áudio.
[061] Isso pode proporcionar desempenho e adaptação aprimorados, e irá proporcionar em muitas modalidades e cenários uma experiência aprimorada para o usuário.
[062] De acordo com uma característica opcional da invenção, o controlador de renderização é disposto para sincronizar uma alteração de renderização para ao menos um componente de áudio com uma alteração de conteúdo de áudio no ao menos um componente de áudio.
[063] Isso pode proporcionar desempenho e adaptação aprimorados, e irá proporcionar em muitas modalidades e cenários uma experiência aprimorada para o usuário. O controlador pode, em particular, reduzir a perceptibilidade das alterações na renderização para o usuário.
[064] De acordo com uma característica opcional da invenção, o controlador de renderização é disposto adicionalmente para selecionar os modos de renderização em resposta a dados de configuração de renderização do grupo que consiste em: dados de posição de transdutores de áudio para transdutores de áudio que não são parte do conjunto de transdutores de áudio, dados de posição de audição, dados de características de renderização de áudio de transdutores de áudio para transdutores de áudio do conjunto de transdutores de áudio e preferências de renderização do usuário.
[065] Isso pode proporcionar desempenho e adaptação aprimorados, e irá proporcionar em muitas modalidades e cenários uma experiência aprimorada para o usuário.
[066] De acordo com uma característica opcional da invenção, o controlador de renderização é disposto para selecionar o modo de renderização em resposta à métrica de qualidade gerada por um modelo perceptivo.
[067] Isso pode permitir uma operação particularmente vantajosa e desempenho e/ou adaptação aprimorados. Em particular, isso pode permitir adaptação eficiente e otimizada em muitas modalidades.
[068] De acordo com um aspecto da invenção, é apresentado um método de processamento de áudio que compreende: receber dados de áudio e dados de configuração de renderização, sendo que os dados de áudio compreendem dados de áudio para uma pluralidade de componentes de áudio e os dados de configuração de renderização compreendem dados de posição de transdutores de áudio para um conjunto de transdutores de áudio; gerar, a partir dos dados de áudio, sinais de transdutores de áudio para o conjunto de transdutores de áudio, sendo que a geração compreende a renderização de componentes de áudio de acordo com modos de renderização de uma pluralidade de possíveis modos de renderização; selecionar modos de renderização para o renderizador dentre a pluralidade de possíveis modos de renderização em resposta aos dados de posição de transdutores de áudio, e sendo que a geração de sinais de transdutores de áudio compreende empregar modos de renderização diferentes para subconjuntos diferentes do conjunto de transdutores de áudio e selecionar de maneira independente modos de renderização para cada um dos diferentes subconjuntos do conjunto de transdutores de áudio.
[069] Esses e outros aspectos, recursos e vantagens da invenção serão evidentes a partir de e elucidados com referência à(s) modalidade(s) descrita(s) mais adiante neste documento.
BREVE DESCRIÇÃO DAS FIGURAS
[070] As modalidades da invenção serão descritas, somente a título de exemplo, com referência aos desenhos, nos quais:
[071] A Figura 1 ilustra um exemplo do princípio de um sistema MPEG Surround de acordo com a técnica anterior;
[072] A Figura 2 ilustra um exemplo de elementos de um sistema SAOC de acordo com a técnica anterior;
[073] A Figura 3 ilustra uma interface interativa que permite ao usuário controlar os objetos individuais contidos em um fluxo de bits SAOC;
[074] A Figura 4 ilustra um exemplo do princípio de da codificação de áudio do MDA™ da DTS de acordo com a técnica anterior;
[075] A Figura 5 ilustra um exemplo de elementos de um sistema MPEG 3D Audio de acordo com a técnica anterior;
[076] A Figura 6 ilustra um exemplo de um princípio de uma abordagem de renderização de acordo com algumas modalidades da invenção;
[077] A Figura 7 ilustra um exemplo de um aparelho de processamento de áudio de acordo com algumas modalidades da invenção; e
[078] A Figura 8 ilustra um exemplo de elementos de um renderizador para o aparelho de processamento de áudio da Figura 7.
DESCRIÇÃO DETALHADA DE ALGUMAS MODALIDADES DA INVENÇÃO
[079] A descrição a seguir concentra-se em modalidades da invenção aplicáveis a um sistema de renderização disposto para renderizar uma pluralidade de componentes de áudio de tipos diferentes e, em particular, para renderizar canais de áudio, objetos de áudio e objetos de cena de áudio de um fluxo de áudio MPEG. Entretanto, será entendido que a invenção não se limita a essa aplicação, mas pode ser aplicada a muitos outros sistemas de renderização de áudio, bem como a outros fluxos de áudio.
[080] O sistema de renderização descrito é um sistema de renderização adaptável capaz de adaptar sua operação à configuração de renderização de transdutores de áudio utilizada, e especificamente às posições específicas dos transdutores de áudio usados na renderização.
[081] A maioria dos sistemas de reprodução de som existentes permite apenas uma quantidade muito modesta de flexibilidade na configuração de alto-falantes. Como os sistemas convencionais são, em geral, desenvolvidos a partir de suposições básicas com relação à configuração geral de seus alto-falantes (por exemplo, que os alto-falantes sejam posicionados de maneira mais ou menos equidistante ao redor do ouvinte, ou dispostos em uma linha na frente do ouvinte, etc.) e/ou com relação à natureza do conteúdo de áudio (por exemplo, que o mesmo consista em um pequeno número de fontes localizáveis separadas, ou que o mesmo consista em uma cena de som altamente difusa, etc.), os sistemas existentes são, tipicamente, capazes de proporcionar uma experiência ideal específica por uma faixa limitada de configurações de alto- falante. Isso resulta em uma redução significativa na experiência para o usuário e, em particular, na experiência espacial em muitos casos de uso do mundo real, e/ou reduz gravemente a liberdade e a flexibilidade do usuário para posicionar os alto-falantes.
[082] O sistema de renderização descrito a seguir fornece um sistema de renderização adaptável que é capaz de proporcionar uma experiência espacial de alta qualidade e tipicamente otimizada para uma grande faixa de configurações de alto-falantes diversificadas. O sistema fornece, portanto, a liberdade e a flexibilidade procuradas em muitas aplicações, como aplicações domésticas de renderização.
[083] O sistema de renderização tem por base o uso de um algoritmo de decisão que seleciona um ou mais métodos de renderização (espacial) dentre um conjunto de modos de métodos de renderização de som (espacial) diferentes de modo a criar uma experiência aprimorada e frequentemente ideal para o(s) usuário(s). A decisão de seleção baseia-se na real configuração de alto-falantes utilizada para a renderização. Os dados de configuração usados para selecionar o modo de renderização incluem ao menos as posições (possivelmente tridimensionais) dos alto-falantes, e pode, em algumas modalidades, considerar também outras características dos alto-falantes (como tamanho, características de frequência e padrão de direcionalidade). Em muitas modalidades, a decisão de seleção pode ter ainda como base as características do conteúdo de áudio, por exemplo, conforme especificado nos metadados que acompanham os dados de áudio reais.
[084] Em algumas modalidades, o algoritmo de seleção pode usar adicionalmente outras informações disponíveis para ajustar ou determinar os parâmetros do(s) método(s) de renderização selecionado(s).
[085] A Figura 6 ilustra um exemplo do princípio de uma abordagem de renderização de acordo com algumas modalidades da invenção. No exemplo, uma variedade de dados é considerada ao selecionar um modo de renderização adequado para os componentes de áudio de um fluxo de entrada de áudio.
[086] A Figura 7 ilustra um exemplo de um aparelho de processamento de áudio 701 de acordo com algumas modalidades da invenção. O aparelho de processamento de áudio 701 é especificamente um renderizador de áudio que gera sinais para um conjunto de transdutores de áudio, os quais no exemplo específico são alto-falantes 703. Dessa forma, o aparelho de processamento de áudio 701 gera sinais de transdutores de áudio que, no exemplo específico, são sinais de acionamento de um conjunto de alto-falantes 703. A Figura 7 ilustra especificamente um exemplo de seis alto- falantes (como uma configuração de alto-falantes de 5.1 canais), mas deve ser entendido que a figura ilustra simplesmente um exemplo específico e que qualquer quantidade de alto-falantes pode ser usada.
[087] O aparelho de processamento de compreende um receptor 705 que recebe dados compreendendo uma pluralidade de componentes de áudio a serem renderizados a partir dos alto-falantes 703. Os componentes de áudio são tipicamente renderizados para proporcionar ao usuário uma experiência espacial e podem, por exemplo, incluir canais de áudio, objetos de áudio e/ou objetos de cena de áudio.
[088] O aparelho de processamento de áudio 701 compreende adicionalmente um renderizador 707 que é disposto para gerar, a partir dos dados de áudio, sinais de transdutores de áudio, isto é, sinais de acionamento dos alto-falantes 703. Especificamente, o renderizador pode gerar componentes de sinais de acionamento para os alto-falantes 703 a partir de cada um dos componentes de áudio e então combinar os componentes de sinais de acionamento dos diferentes componentes de áudio em sinais únicos de transdutores de áudio, isto é, nos sinais de acionamento finais que são alimentados nos alto-falantes 703. Para fins de brevidade e clareza, a Figura 7 e a descrição a seguir não detalharão as operações padrão de processamento de sinal que podem ser aplicadas aos sinais de acionamento ou na geração de sinais de acionamento. Todavia, será entendido que o sistema pode incluir, por exemplo, funções de filtragem e amplificação.
[089] O receptor 705 pode, em algumas modalidades, receber dados de áudio codificados que compreendem dados de áudio codificados de uma pluralidade de componentes de áudio, e pode ser disposto para decodificar os dados de áudio e fornecer fluxos de áudio decodificados ao renderizador 707. Especificamente, pode ser fornecido um fluxo de áudio para cada componente de áudio. Alternativamente, um fluxo de áudio pode ser um “downmix” de múltiplos objetos de som (como, por exemplo, para um fluxo de bits SAOC). Em algumas modalidades, o receptor 705 pode ser adicionalmente disposto para fornecer ao renderizador 707 dados de posição dos componentes de áudio, e o renderizador 707 pode posicionar os componentes de áudio de acordo. Em algumas modalidades, a posição de alguns ou todos dentre os componentes de áudio pode ser alternativa ou adicionalmente assumida ou predeterminada, como a posição predefinida da fonte de áudio de um canal de áudio de, por exemplo, uma configuração de som surround nominal. Em algumas modalidades, os dados de posição podem alternativa ou adicionalmente ser fornecidos, por exemplo, a partir de uma entrada de dados pelo usuário, por um algoritmo separado, ou gerados pelo próprio renderizador.
[090] Ao contrário dos sistemas convencionais, o aparelho de processamento de áudio 701 da Figura 7 não apenas gera os sinais de acionamento com base em uma posição predeterminada ou assumida dos alto-falantes 703. Ao invés disso, o sistema adapta a renderização à configuração específica dos alto-falantes. Especificamente, o sistema é disposto para selecionar entre vários algoritmos diferentes dependendo das posições dos alto-falantes e é adicionalmente capaz de selecionar algoritmos de renderização diferentes para alto-falantes diferentes.
[091] Deve ser entendido que os diferentes algoritmos de renderização incluem a variedade de algoritmos de aprimoramento de renderização de áudio que podem estar disponíveis em muitos dispositivos de áudio. Frequentemente, tais algoritmos são desenvolvidos para proporcionar, por exemplo, um melhor envolvimento espacial, clareza de voz aprimorada, ou uma área de audição mais ampla para um ouvinte. Tais recursos de aprimoramento podem ser considerados como algoritmos de renderização e/ou podem ser considerados componentes de algoritmos de renderização específicos.
[092] Em particular, o renderizador 707 pode ser operado para renderizar os componentes de áudio de acordo com uma pluralidade de modos de renderização com características diferentes. Por exemplo, alguns modos de renderização empregarão algoritmos que fornecem uma renderização que proporciona uma percepção de áudio muito específica e altamente localizada, enquanto outros modos de renderização empregarão algoritmos de renderização que fornecem uma percepção difusa e espalhada. Dessa forma, a renderização e a experiência espacial percebida podem diferir substancialmente dependendo do algoritmo de renderização utilizado.
[093] O renderizador 707 é controlado por um controlador de renderização 709 que é acoplado ao receptor 705 e ao renderizador 707. O receptor 705 recebe dados de configuração de renderização que compreendem dados indicativos da configuração de renderização e especificamente da instalação/configuração de transdutores de áudio/alto-falantes. Os dados de configuração de renderização compreendem especificamente dados de posição de transdutores de áudio que são indicativos das posições de ao menos alguns dos alto-falantes 703.
[094] Deve ser entendido que os dados de posição de transdutores de áudio podem ser quaisquer dados que forneçam uma indicação de uma posição de um ou mais alto- falantes 703, incluindo posições absolutas ou relativas (como, por exemplo, posições relativas às posições de outros alto-falantes 703, relativas às posições nominais (por exemplo, predeterminadas) dos alto-falantes 703, relativas a um posição de audição, ou à posição de um dispositivo separado ou outro dispositivo no ambiente). Deve ser entendido também que os dados de posição de transdutores de áudio podem ser fornecidos ou gerados de qualquer maneira adequada. Por exemplo, em algumas modalidades os dados de posição de transdutores de áudio podem ser inseridos manualmente por um usuário, por exemplo, como posições reais em relação a uma posição de referência (como uma posição de audição), ou como distâncias e ângulos entre alto-falantes. Em outros exemplos, o próprio aparelho de processamento de áudio 701 pode compreender uma funcionalidade para estimar posições dos alto-falantes 703 com base nas medições. Por exemplo, os alto-falantes 703 podem ser dotados de microfones e esses podem ser usados para estimar as posições. Por exemplo, cada alto-falante 703 pode, por sua vez, renderizar um sinal de teste, e as diferenças de tempo entre os componentes do sinal de teste nos sinais dos microfones podem ser determinadas e usadas para estimar as distâncias ao alto- falante 703 que renderiza o sinal de teste. O conjunto completo de distâncias obtidas a partir dos testes de uma pluralidade (e tipicamente todos) de alto-falantes 703 pode então ser usado para estimar as posições relativas dos alto- falantes 703.
[095] O controlador de renderização 709 é disposto para controlar o modo de renderização usado pelo renderizador 707. Dessa forma, o controlador de renderização 709 controla quais algoritmos de renderização específicos são usados pelo renderizador 707. O controlador de renderização 709 seleciona os modos de renderização com base nos dados de posição de transdutores de áudio, e, dessa forma, os algoritmos de renderização empregados pelo aparelho de processamento de áudio 701 dependem das posições dos alto- falantes 703.
[096] Entretanto, em vez de simplesmente ajustar as características de renderização ou alternar entre os modos de renderização do sistema como um todo, o aparelho de processamento de áudio 701 da Figura 7 é disposto para selecionar modos e algoritmos de renderização de subconjuntos de alto-falantes individuais em função das posições dos alto-falantes individuais 703. Dessa forma, um modo de renderização pode ser usado para alguns alto- falantes 703, enquanto um outro modo de renderização pode, ao mesmo tempo, ser usado para outros alto-falantes 703. O áudio renderizado pelo sistema da Figura 7 é, dessa forma, uma combinação da aplicação de modos de renderização espacial diferentes para subconjuntos diferentes dos alto- falantes 703 onde os modos de renderização espacial são selecionados em função da localização dos alto-falantes 703.
[097] O controlador de renderização 709 pode especificamente dividir os alto-falantes 703 em vários subconjuntos e selecionar de maneira independente o modo de renderização para cada um desses subconjuntos dependendo da posição dos alto-falantes 703 no subconjunto.
[098] O uso de algoritmos de renderização diferentes para alto-falantes diferentes 703 pode proporcionar desempenho aprimorado em muitas situações e pode permitir uma adaptação aprimorada à configuração de renderização específica e proporcionar, ao mesmo tempo, uma experiência espacial aprimorada em muitos cenários.
[099] Especificamente, os inventores perceberam que, em muitos casos, um consumidor irá procurar dispor os alto-falantes de maneira tão ideal quanto possível, mas também que, tipicamente, isso é possível ou conveniente apenas para alguns alto-falantes. Dessa forma, em muitas situações práticas, o posicionamento dos alto- falantes é comprometido para um subconjunto dos alto- falantes. Por exemplo, ao instalar um sistema de som surround, os usuários frequentemente tentarão posicionar os alto-falantes em posições adequadas (por exemplo, equidistantes) ao redor das principais áreas de audição. Contudo, muito frequentemente, isso é possível para alguns alto-falantes, mas não para todos. Por exemplo, para muitos sistemas de cinema caseiro, os alto-falantes frontais podem ser dispostos em posições altamente adequadas ao redor da tela, e tipicamente correspondendo à posição nominal desses alto-falantes. Entretanto, em muitas situações, não é possível ou conveniente posicionar os alto-falantes surround ou traseiros adequadamente, e as posições desses pode ser altamente comprometida. Por exemplo, os alto-falantes traseiros podem ser posicionados assimetricamente e, por exemplo, tanto os alto-falantes traseiros esquerdo e direito podem ser posicionados em um lado da posição de audição. Na maioria dos sistemas convencionais, a experiência espacial degradada resultante é simplesmente aceita e, de fato, para os alto-falantes surround traseiros isso pode ser, com frequência, considerado aceitável devido à relevância reduzida de fontes de som traseiras.
[0100] Todavia, no sistema da Figura 7, o desvio em relação a uma configuração de renderização ideal pode ser detectado, e o controlador de renderização 709 pode alternar o modo de renderização para os alto-falantes traseiros. Especificamente, a renderização de áudio a partir dos alto-falantes frontais pode não ser alterada e seguir o algoritmo padrão de renderização de som surround. Contudo, ao detectar que um ou mais dos alto-falantes traseiros está posicionado longe da posição predefinida ou ideal, o controlador de renderização 709 pode alternar para usar um algoritmo de renderização diferente com características diferentes. Especificamente, o controlador de renderização 709 pode controlar o renderizador 707 de modo que, para os alto-falantes traseiros, o controlador passe da execução da renderização de som surround predefinida para a execução de um algoritmo de renderização diferente que forneça ao usuário uma experiência perceptiva mais adequada.
[0101] Por exemplo, o controlador de renderização 709 pode alternar o renderizador 707 para aplicar uma renderização que introduza difusão e remova a definitude espacial das fontes de som. O algoritmo de renderização pode, por exemplo, adicionar descorrelação aos componentes de áudio dos canais traseiros de modo que fontes de som localizadas não mais serão definidas e altamente localizadas, mas parecerão difusas e espalhadas. Dessa forma, se o controlador de renderização 709 detectar que todos os alto-falantes 703 estão em posições predefinidas, adequadas ele aplicará um algoritmo de renderização de som surround padrão para gerar os sinais de acionamento. Entretanto, se detectar que um ou mais alto-falantes traseiros estão posicionados longe da posição predefinida, o controlador mudará o algoritmo de renderização usado para gerar os sinais de acionamento desses alto-falantes para um algoritmo de renderização que introduza difusão. Assim, ao invés de perceber fontes de som bem definidas e localizadas em posições incorretas, o ouvinte perceberá que as fontes de som não estão localizadas, mas sim, por exemplo, que o som emitido pelas fontes chega a ele de maneira difusa a partir da parte traseira. Em muito casos, isso proporcionará uma experiência mais preferencial para o usuário. Além disso, o sistema pode se adaptar automaticamente para proporcionar tal experiência aprimorada sem comprometer o desempenho em ambientes nos quais os alto-falantes traseiros estão de fato dispostos nas posições desejadas. Adicionalmente, como a adaptação é limitada ao subconjunto de alto-falantes diretamente afetados pela posição abaixo da ideal, o aprimoramento é conseguido sem comprometer o desempenho dos outros alto-falantes. Em particular, a cena acústica frontal não é afetada substancialmente e, em particular, fontes de áudio altamente localizadas permanecem fontes de áudio frontais altamente localizadas nas mesmas posições.
[0102] Entretanto, como uma modalidade alternativa, pode-se considerar um caso em que um usuário prefira som claramente localizável em vez de renderização difusa, mesmo que as localizações não sejam exatamente corretas. Nesse caso, pode ser selecionado um método de renderização com um método de reprodução menos difusa com base na preferência do usuário.
[0103] Como outro exemplo, o renderizador 707 pode ser controlado para usar modos de renderização que reflitam quão separável é a percepção dos alto-falantes 703. Por exemplo, se for detectado que alguns alto-falantes estão posicionados tão próximos entre si que possam ser percebidos essencialmente como uma única fonte de som (ou ao menos duas fontes de som correlacionadas), o controlador de renderização 709 poderá selecionar para esses alto-falantes 703 um algoritmo de renderização diferente do algoritmo selecionado para os alto-falantes que estão suficientemente distantes uns dos outros e funcionando como fontes de som separadas. Por exemplo, pode ser usado um modo de renderização que usa um elemento de formação de feixes para alto-falantes suficientemente próximos uns dos outros, ao passo que não é usada a formação de feixes para alto-falantes distantes entre si.
[0104] Deve ser entendido que podem ser usados muitos modos e algoritmos de renderização diferentes em modalidades diferentes. A seguir será descrito um exemplo de algoritmos de renderização que podem estar compreendidos no conjunto de modos de renderização e que podem ser selecionados pelo controlador de renderização 709. Entretanto, deve ser entendido que essas são apenas modalidades exemplificadoras e que o conceito não se limita a tais algoritmos.
RENDERIZAÇÃO ESTEREOFÔNICA PADRONIZADA
[0105] Essa renderização se refere à renderização clássica baseada em espacialização sonora em configurações de alto-falantes padronizadas, nas quais assume-se que cada canal de áudio corresponde diretamente a um dos alto-falantes. Ela pode se referir à estereofonia de dois canais (com dois alto-falantes em azimutes simétricos em relação à posição de audição), bem como a extensões multicanais do mesmo conceito, como som surround ITU de 5.1 canais e de 7 canais, além de extensões 3D como 22.2.
[0106] Esse método funciona bem em casos onde os alto-falantes são posicionados de acordo com a configuração padronizada assumida, e o ouvinte posiciona-se no centro (o “ponto ideal”). Se essas condições não forem satisfeitas, é fato conhecido que a renderização estereofônica ficará em um nível abaixo do ideal.
RENDERIZAÇÃO POR ESPACIALIZAÇÃO SONORA BASEADA EM VETORES
[0107] Esse método é basicamente uma generalização do método de renderização estereofônico que suporta configurações de alto-falantes não padronizadas mediante a adaptação da lei de espacialização sonora entre pares de alto-falantes a mais de dois alto-falantes colocados em posições bidimensionais ou tridimensionais conhecidas no espaço. Uma descrição detalhada desse método pode ser encontrada, por exemplo, em “Virtual Sound Source Positioning Using Vector Base Amplitude Panning”, de V. Pulkki, J. Audio Eng. Soc.,Vol. 45, n° 6, 1997.
[0108] A abordagem é particularmente adequada em casos de uso nos quais os alto-falantes são distribuídos mais ou menos aleatoriamente ao redor do ouvinte, sem nenhum vão extremamente grandes ou extremamente pequenos entre eles. Um exemplo típico é o caso em que os alto-falantes de um sistema de som surround são colocados “mais ou menos” de acordo com as especificações, mas com algum desvio em relação a cada alto-falante.
[0109] Uma limitação do método é que o desempenho de localização é degradado nos casos em que existem grandes “vãos” entre pares de alto-falantes, especialmente nas laterais, e que as fontes não podem ser posicionadas fora das regiões “cobertas” pelos pares de alto-falantes.
RENDERIZAÇÃO POR FORMAÇÃO DE FEIXES
[0110] A formação de feixes é um método de renderização associado a matrizes de alto-falantes, isto é, grupos de múltiplos alto-falantes que são dispostos juntos em proximidade (por exemplo, a distâncias menores que vários decímetros entre eles). Controlar a relação de amplitude e fase entre os alto-falantes individuais permite que o som seja “irradiado” (dirigido) para direções específicas e/ou que fontes sejam “focalizadas” em posições específicas na frente ou atrás da matriz de alto-falantes. Uma descrição desse método pode ser encontrada, por exemplo, em “Beamforming: a versatile approach to spatial filtering”, de Van Veen, B.D, ASSP Magazine, IEEE (Volume: 5, Edição: 2), data de publicação: abril de 1988.
[0111] Um caso de uso típico no qual esse tipo de renderização é vantajoso é o de uma pequena matriz de alto- falantes posicionada na frente do ouvinte, sem nenhum alto- falante atrás ou mesmo à esquerda ou à direita do ouvinte. Em tais casos, é possível criar uma experiência surround completa para o usuário “irradiando” alguns dos canais ou objetos de áudio para as paredes laterais do ambiente do ouvinte. O som refletido nas paredes chega ao ouvinte pelas laterais e/ou pela parte posterior, criando assim uma experiência de som “virtual surround” completamente imersiva. Esse é um método de renderização que é empregado em vários produtos do tipo “barra de som” (“soundbar”) destinados ao consumidor.
[0112] Um outro exemplo no qual a renderização por formação de feixes pode ser empregada com vantagem é o caso de um canal ou objeto de som a ser renderizado conter fala. A renderização desses componentes de áudio de fala como um feixe direcionado para o usuário utilizando a formação de feixes pode resultar em melhor inteligibilidade da fala para o usuário, uma vez que será gerada menos reverberação no ambiente.
[0113] Tipicamente, a formação de feixes não seria usada para (subpartes de) configurações de alto- falantes nas quais o espaçamento entre alto-falantes excede vários decímetros.
RENDERIZAÇÃO PARA CANCELAMENTO DE DIAFONIA
[0114] Esse é um método de renderização capaz de criar uma experiência de som 3D surround completamente imersiva a partir de dois alto-falantes. O método está estreitamente relacionado à renderização binaural em fones de ouvido com o uso de funções de transferência relativas à cabeça (HRTFs). Como são usados alto-falantes em vez de fones de ouvido, é necessário utilizar circuitos de realimentação para eliminar a diafonia do alto-falante esquerdo para o ouvido direito e vice-versa. Uma descrição detalhada desse método pode ser encontrada, por exemplo, em “Design of Cross-Talk Cancellation Networks by Using Fast Deconvolution”, de Kirkeby, Ole, Rubak, Per, Nelson, Philip A., Farina, Angelo, AES Convention: 106 (maio de 1999), Documento n° 4916.
[0115] Isso é particularmente útil em situações nas quais existem dois alto-falantes colocados em azimutes simétricos em relação ao ouvinte. Em particular, esse método de renderização pode ser usado para proporcionar uma experiência surround completa a partir de uma configuração estereofônica padrão de dois alto-falantes.
[0116] Como é muito sensível à posição do ouvinte, esse método é menos adequado no caso de haver múltiplos ouvintes ou posições de audição.
RENDERIZAÇÃO POR DIPOLO ESTÉREO
[0117] Esse método de renderização usa dois ou mais alto-falantes proximamente espaçados uns dos outros para criar uma imagem de som ampla para um usuário mediante o processamento de um sinal de áudio espacial de modo a reproduzir um sinal comum (soma) monofonicamente, enquanto um sinal de diferença é reproduzido com um padrão de radiação de dipolo. Uma descrição detalhada desse método pode ser encontrada em, por exemplo, Kirkeby, Ole, Nelson, Philip A., Hamada, Hareo, “The Stereo Dipole: A Virtual Source Imaging System Using Two Closely Spaced Loudspeakers”, JAES Volume 46, Edição 5, páginas 387 a 395, maio de 1998.
[0118] Isso é útil em situações nas quais a configuração de alto-falante frontal consiste em dois alto- falantes proximamente espaçados um do outro, como ocorre quando se usa um tablet para assistir a um filme.
RENDERIZAÇÃO AMBISSÔNICA
[0119] Ambissônica é uma codificação de áudio espacial e método de renderização baseado na decomposição (no lado de gravação) e reconstrução (no lado de renderização) de um campo sonoro espacial em uma única posição. Na gravação, uma configuração de microfone especial é frequentemente usada para capturar “componentes harmônicos esféricos” individuais do campo sonoro. Na reprodução, o campo sonoro original é reconstruído mediante a renderização dos componentes gravados a partir de uma configuração de microfone especial. Uma descrição detalhada desse método pode ser encontrada em, por exemplo, “Further Investigations of High Order Ambisonics and Wavefield Synthesis for Holophonic Sound Imaging”, de Jérôme Daniel, Rozenn Nicol e Sébastien Moreau, apresentado na 114a Convenção de 22 a 25 março de 2003.
[0120] Esse método de renderização é particularmente útil em casos nos quais a configuração de alto-falantes é distribuída de maneira essencialmente equidistante ao redor do ouvinte. Nesses casos, a renderização ambissônica pode proporcionar uma experiência mais imersiva do que qualquer um dos métodos descritos anteriormente, e a área de audição na qual se obtém uma boa experiência pode ser maior.
[0121] Em particular, isso pode ser útil para renderizar componentes de áudio difuso (ambiente).
[0122] O método é menos adequado para configurações com alto-falantes dispostos irregularmente.
RENDERIZAÇÃO POR SÍNTESE DE CAMPO SONORO
[0123] Esse é um método de renderização que usa matrizes de alto-falantes para recriar com precisão um campo sonoro original dentro de um grande espaço de audição. Uma descrição detalhada desse método pode ser encontrada, por exemplo, em “Sound Reproduction Applications with Wave-Field Synthesis”, de Boone, Marinus M., Verheijen, Edwin N. G., AES Convention: 104 (maio de 1998), Documento n° 4689.
[0124] O método é particularmente adequado para cenas de som baseadas em objetos, mas é compatível também com outros tipos de áudio (por exemplo, áudio baseado em canal ou cena). Uma limitação desse método é que ele é adequado apenas para configurações com um grande número de alto-falantes espaçados a não mais que cerca de 25 cm uns dos outros. Em um caso típico, esse método tem por base matrizes de alto-falantes ou dispositivos onde múltiplos acionadores individuais são encerrados no mesmo gabinete.
RENDERIZAÇÃO OTIMIZADA POR QUADRADOS MÍNIMOS
[0125] Trata-se de um método de renderização genérico que tenta criar um campo sonoro alvo específico por meio de um procedimento de otimização numérica no qual as posições dos alto-falantes são especificadas como parâmetros e os sinais dos alto-falantes são otimizados de modo a minimizar a diferença entre os campos sonoros alvo e reproduzido dentro de uma área de audição. Uma descrição detalhada desse método pode ser encontrada, por exemplo, em “Efficient 3-D Sound Field Reproduction”, de Shin, Mincheol, Fazi, Filippo M., Seo, Jeongil, Nelson, Philip A., AES Convention: 130 (maio de 2011), Documento n° 8404.
[0126] Em alguns casos, esses métodos exigem a colocação de um microfone na posição de audição desejada para capturar o campo sonoro reproduzido.
[0127] Deve ser entendido que em algumas modalidades, pode ser implementado um mecanismo de renderização completamente separado para cada modo de renderização. Em outras modalidades, alguns dos algoritmos/modos de renderização podem compartilhar ao menos a mesma funcionalidade. Em muitas modalidades, cada modo de renderização pode ser implementado como um algoritmo firmware de renderização sendo todos os algoritmos executados na mesma plataforma de processamento de sinais. Por exemplo, o controlador de renderização 709 pode controlar quais sub- rotinas de renderização são chamadas pelo renderizador 707 para cada sinal de transdutor de áudio e componente de áudio.
[0128] Um exemplo de como o renderizador 707 pode ser implementado para um único componente de áudio e um único sinal de transdutor de áudio é mostrado na Figura 8.
[0129] No exemplo, o componente de áudio é alimentado em uma pluralidade de mecanismos de renderização 801 (o exemplo específico mostra quatro mecanismos de renderização, mas deve ser entendido que em outras modalidades pode-se usar um número maior ou menor). Cada um dos mecanismos de renderização 801 é acoplado a uma chave que é controlada pelo controlador de renderização 709. No exemplo, cada mecanismo de renderização 801 pode executar um algoritmo de renderização para gerar o sinal de acionamento correspondente para o alto-falante 703. Dessa forma, a chave 803 recebe sinais de acionamento gerados de acordo com todos os possíveis modos de renderização. A chave seleciona, então, o sinal de acionamento que corresponde ao modo de renderização que foi selecionado pelo controlador de renderização 709 e o emite. A saída da chave 803 é acoplada a um combinador 805 que no exemplo específico é uma unidade de soma. O combinador 805 pode receber componentes de sinais de acionamento correspondentes gerados para outros componentes de áudio e pode, então, combinar os componentes de sinais de acionamento para gerar o sinal de acionamento alimentado no alto-falante 703.
[0130] Deve ser entendido que em outros exemplos, pode ser feita um chaveamento antes da renderização, isto é, a chave pode estar na entrada para os mecanismos de renderização 801. Dessa forma, apenas o mecanismo de renderização correspondente ao modo de renderização selecionado pelo controlador de renderização 709 será ativado para gerar um sinal de acionamento para o componente de áudio, e a saída resultante do mecanismo de renderização será acoplada ao combinador 805.
[0131] Deve ser entendido que a Figura 8, para maior clareza e brevidade, mostra os mecanismos de renderização 801 operando independentemente em cada componente de áudio. Entretanto, na maioria das aplicações, o algoritmo de renderização pode ser um algoritmo mais complexo que leva em conta simultaneamente mais de um componente de áudio ao gerar os sinais de áudio.
[0132] De modo similar, deve ser entendido que muitos algoritmos de renderização geram saídas para uma pluralidade de alto-falantes 703. Por exemplo, uma espacialização sonora pode gerar ao menos dois componentes de sinais de acionamento para cada componente de áudio. Esses sinais de acionamento diferentes podem, por exemplo, ser alimentados em chaves de saída ou combinadores diferentes correspondendo a transdutores de áudio diferentes.
[0133] Em muitas modalidades, os modos e algoritmos de renderização diferentes podem ser predeterminados e implementados como parte do aparelho de processamento de áudio 701. Contudo, em algumas modalidades, o algoritmo de renderização pode ser fornecido como parte do fluxo de entrada, isto é, juntamente com os dados de áudio.
[0134] Em muitas modalidades, os algoritmos de renderização podem ser implementados como operações de matriz aplicadas aos ladrilhos (“tiles”) do plano tempo-frequência dos dados de áudio, como conhecido pelo versado na técnica.
[0135] Em algumas modalidades, os mesmos modos de renderização podem ser selecionados para todos os componentes de áudio, ou seja, para um dado alto-falante 703 pode ser selecionado um único modo de renderização e este pode ser aplicado a todos os componentes de áudio que contribuem de alguma forma para o som renderizado a partir desse alto-falante 703. Entretanto, em outras modalidades, o modo de renderização para um dado alto-falante 703 pode ser diferente para componentes de áudio diferentes.
[0136] Esse pode ser o caso, por exemplo, em uma situação onde os componentes de áudio correspondem a cinco canais espaciais de um sistema de som surround. Em um possível cenário, os dados de posição de transdutores de áudio podem indicar que, por exemplo, o alto-falante direito posterior está posicionado muito mais à frente do que a posição nominal e que está de fato posicionado na frente e na lateral do ouvinte. Ao mesmo tempo, o alto-falante direito anterior pode estar em uma posição mais central que o alto-falante esquerdo anterior. Nesse exemplo, pode ser vantajoso renderizar o canal direito anterior usando um algoritmo de espacialização sonora entre o alto-falante direito anterior e o alto-falante direito posterior. Isso pode resultar em uma posição percebida para o canal direito anterior mais à direita do alto-falante direito anterior e pode resultar especificamente em posições simetricamente percebidas para o canais direito anterior e esquerdo anterior. Simultaneamente, o canal direito posterior pode ser renderizado a partir do canal direito posterior, mas com o uso de um algoritmo de renderização que introduza um alto grau de difusão para obscurecer o fato de que o alto- falante direito posterior está posicionado excessivamente à frente. Assim, os modos de renderização selecionados para o alto-falante direito posterior serão diferentes para o componente de áudio do canal direito anterior e o componente de áudio do canal direito posterior.
[0137] Em algumas modalidades, todos os componentes de áudio podem ser do mesmo tipo de áudio. Contudo, o aparelho de processamento de áudio 701 pode resultar em um desempenho particularmente vantajoso nas modalidades em que os componentes de áudio podem ser de tipos diferentes.
[0138] Especificamente, os dados de áudio podem fornecer vários componentes de áudio que podem incluir uma pluralidade de tipos de áudio a partir do grupo de componentes de canal de áudio, componentes de objeto de áudio e componentes da cena de áudio.
[0139] Em muitas modalidades, os dados de áudio podem incluir vários componentes que podem ser codificados como objetos de áudio individuais, como, por exemplo, objetos de áudio específicos gerados sinteticamente ou microfones dispostos para capturar uma fonte de áudio específica, como, por exemplo, um único instrumento.
[0140] Cada objeto de áudio corresponde tipicamente a uma única fonte de som. Dessa forma, ao contrário dos canais de áudio e, em particular, dos canais de áudio de um sinal multicanal espacial convencional, os objetos de áudio tipicamente não compreendem componentes de uma pluralidade de fontes de som que podem ter posições substancialmente diferentes. De modo similar, cada objeto de áudio fornece, tipicamente, uma representação completa da fonte de som. Cada objeto de áudio é, dessa forma, tipicamente associado a dados de posição espacial para uma única fonte de som apenas. Especificamente, cada objeto de áudio pode, tipicamente, ser considerado uma representação única e completa de uma fonte de som e pode ser associado a uma única posição espacial.
[0141] Os objetos de áudio não estão associados a nenhuma configuração de renderização específica e não estão especificamente associados a nenhuma configuração espacial específica de transdutores de som/alto-falantes. Dessa forma, ao contrário dos canais de áudio que estão associados a uma configuração de renderização como uma configuração específica de alto-falantes espaciais (por exemplo, uma configuração de som surround), os objetos de áudio não são definidos em relação a nenhuma configuração de renderização espacial específica.
[0142] Um objeto de áudio é, dessa forma, tipicamente uma fonte de som única ou combinada tratada como um caso individual, por exemplo, um cantor(a), um instrumento ou um coro. Tipicamente, o objeto de áudio tem informações de posição espacial associadas que definem uma posição específica para o objeto de áudio, e especificamente uma posição de fonte pontual para o objeto de áudio. Entretanto, essa posição independe de uma configuração de renderização específica. O sinal (áudio) de um objeto é o sinal que representa um objeto de áudio. O sinal de um objeto pode conter múltiplos objetos, por exemplo, não simultaneamente.
[0143] Um único objeto de áudio podem conter, também, múltiplos sinais de áudio individuais, por exemplo, gravações simultâneas do mesmo instrumento musical a partir de direções diferentes.
[0144] Em contraste, um canal de áudio está associado à posição nominal de uma fonte de áudio. Dessa forma, um canal de áudio não tem, tipicamente, nenhum dado de posição associado, mas está associado a uma posição nominal de um alto-falante em uma configuração nominal de alto-falantes associada. Assim, enquanto um canal de áudio está, tipicamente, associado à posição de um alto-falante em uma configuração associada, um objeto de áudio não está associado a nenhuma configuração de alto-falantes. O canal de áudio representa, dessa forma, o áudio combinado que deve ser renderizado a partir da posição nominal específica quando a renderização é feita com o uso da configuração nominal de alto-falantes. O canal de áudio representa, portanto, todas as fontes de áudio da cena de áudio que exigem um componente de som para serem renderizados a partir da posição nominal associada ao canal para que a configuração nominal de alto- falantes renderize espacialmente a fonte de áudio. Um objeto de áudio, em contraste, não está tipicamente associado a nenhuma configuração de renderização específica e, em vez disso, fornece o áudio que deve ser renderizado a partir da posição de uma fonte de som para que o componente de som associado seja percebido como sendo originado naquela posição.
[0145] Um componente de cena de áudio é caracterizado por ser um dentre um conjunto de componentes espaciais ortogonais nos quais um campo sonoro do áudio original pode ser decomposto matematicamente.
[0146] Especificamente, pode ser um dentre um conjunto de componentes harmônicos esféricos ortogonais do campo sonoro original que juntos descrevem completamente o campo sonoro original em uma posição definida dentro do campo sonoro original. Mais especificamente ainda, pode ser um componente único de um conjunto de componentes de ambissônica de alta ordem (HOA).
[0147] Um componente de cena de áudio é diferenciado de um canal de componente de áudio pelo fato de que não representa diretamente um sinal de alto-falante. Em vez disso, cada componente de cena de áudio contribui para cada sinal de alto-falante de acordo com uma matriz de espacialização específica. Além disso, um componente de áudio é diferenciado de um objeto de áudio pelo fato de que não contém informações sobre uma única fonte de som, mas sim informações sobre todas as fontes de som que estão presentes no campo sonoro original (tanto fontes “físicas” como fontes “ambientes”, como reverberação).
[0148] Como um exemplo prático, um componente de cena de áudio pode conter o sinal de um microfone unidirecional em uma posição de gravação, enquanto três outros componentes da cena de áudio contêm os sinais de microfones de três velocidades (bidirecionais) posicionados ortogonalmente na mesma posição que o microfone unidirecional. Componentes da cena de áudio adicionais podem conter sinais de microfones de ordem mais alta (físicos ou sintetizados a partir dos sinais da matriz de microfones esféricos). Alternativamente, os componentes da cena de áudio podem ser gerados sinteticamente a partir de uma descrição sintética do campo sonoro.
[0149] Em algumas modalidades, os dados de áudio podem compreender componentes de áudio que podem ser canais de áudio, objetos de áudio e cenas de áudio de acordo com o padrão MPEG ISO/IEC 23008-3 MPEG 3D Audio.
[0150] Em algumas modalidades, a seleção dos modos de renderização depende adicionalmente do tipo de áudio do componente de áudio. Especificamente, quando os dados de áudio de entrada compreendem componentes de áudio de tipos diferentes, o controlador de renderização 709 pode levar esse fato em conta e pode selecionar modos de renderização diferentes para tipos de áudio diferentes para um dado alto- falante 703.
[0151] Como um exemplo simples, o controlador de renderização 709 pode selecionar o uso de um modo de renderização de espacialização sonora para compensar erros de posição do alto-falante para um objeto de áudio que deve corresponder a uma fonte altamente localizada e pode usar um modo de renderização descorrelacionado para um objeto de cena de áudio que não deve fornecer uma fonte altamente localizada.
[0152] Em muitas modalidades, o tipo de áudio será indicado por metadados recebidos com o objeto de áudio. Em algumas modalidades, os metadados podem indicar diretamente o tipo de áudio, enquanto em outras modalidades eles podem ser uma indicação direta, por exemplo, ao compreender dados posicionais que se aplicam apenas a um tipo de áudio.
[0153] O receptor 705 pode, dessa forma, receber tais dados de indicação de tipo de áudio e passá-los para o controlador de renderização 709 que os utiliza para selecionar os modos de renderização adequados. Consequentemente, o controlador de renderização 709 pode selecionar modos de renderização diferentes para um alto-falante 703 para ao menos dois componentes de áudio que sejam de tipos diferentes.
[0154] Em algumas modalidades, o controlador de renderização 709 pode compreender um conjunto de modos de renderização diferentes para escolher para os tipos de áudio diferentes. Por exemplo, para um canal de áudio, um primeiro conjunto de modos de renderização pode estar disponível para seleção pelo controlador de renderização 709, para um objeto de áudio, um conjunto diferente de modos de renderização pode estar disponível, e para um objeto de cena de áudio ainda outro conjunto de modos de renderização pode estar disponível.
[0155] Como outro exemplo, o controlador de renderização 709 pode primeiramente gerar um subconjunto que compreende os métodos de renderização disponíveis que são genericamente adequados para a real configuração de alto- falantes. Dessa forma, os dados de configuração de renderização podem ser usados para determinar um subconjunto de modos de renderização disponíveis. O subconjunto dependerá, então, da distribuição espacial dos alto- falantes. Como exemplo, se a configuração de alto-falantes consistir em vários alto-falantes distribuídos de maneira mais ou menos equidistante ao redor do ouvinte, o módulo poderá “concluir” que a espacialização sonora baseada em vetores e os modos de renderização ambissônica são possíveis métodos adequados, ao contrário da formação de feixes.
[0156] Como próxima etapa, as outras informações disponíveis são usadas pelo sistema para decidir entre os modos de renderização do subconjunto gerado. Especificamente, pode ser considerado o tipo de áudio dos objetos de áudio. Por exemplo, para canais de áudio, a espacialização sonora baseada em vetores pode ser selecionada em relação à renderização ambissônica, enquanto para objetos de áudio que (por exemplo, conforme indicado pelos metadados) devem ser renderizados como altamente difusos, a renderização ambissônica pode ser selecionada.
[0157] A seguir são relacionados alguns possíveis exemplos: • A renderização estereofônica padrão pode ser selecionada no caso de a configuração de alto-falantes se conformar essencialmente a uma configuração de alto-falantes estereofônica (multicanal) padrão e o tipo de áudio ser “baseado em canal” ou “baseado em objeto”. • A espacialização sonora baseada em vetores (VBAP) pode ser selecionada quando os alto-falantes são distribuídos mais ou menos aleatoriamente ao redor do ouvinte, sem nenhum “vão” extremamente grande ou extremamente pequeno entre eles, e o tipo de áudio é “baseado em canal” ou “baseado em objeto”. • A renderização por formação de feixes poderá ser selecionada se os alto-falantes estiverem agrupados em uma matriz proximamente espaçados uns dos outros (por exemplo, a distâncias menores que vários decímetros entre eles). • A renderização para cancelamento de diafonia pode ser selecionada quando há dois alto-falantes colocados em azimutes simétricos em relação ao ouvinte e há apenas um único usuário. • A renderização por dipolo estéreo pode ser selecionada em situações nas quais a configuração de alto- falante frontal consiste em dois alto-falantes proximamente espaçados um do outro, como ocorre quando se usa um tablet para assistir a um filme. • A renderização ambissônica pode ser selecionada quando a configuração de alto-falantes é distribuída de maneira essencialmente equidistante ao redor do ouvinte e o áudio é do tipo “componente de cena de áudio” ou um “objeto de áudio” “difuso” (ambiente). • A renderização por síntese de campo sonoro pode ser selecionada para qualquer tipo de áudio para configurações de alto-falantes com um número maior de alto- falantes espaçados a não mais que cerca de 25 cm uns dos outros, e quando uma grande área de audição é desejada. • A renderização otimizada por quadrados mínimos pode ser selecionada para qualquer tipo de áudio em situações nas quais outros métodos de renderização disponíveis não fornecem resultados satisfatórios.
[0158] A combinação de uma seleção individual e independente de um modo de renderização adequado para tipos de áudio individuais e subconjuntos de alto-falantes individuais que dependem das posições desses alto-falantes fornece uma operação particularmente vantajosa e uma experiência espacial de alta qualidade.
[0159] Entretanto, deve ser entendido que a seleção de algoritmos de renderização com base em um tipo de áudio não está, em princípio, restrita a cenários em que são selecionados algoritmos de renderização diferentes para subconjuntos de alto-falantes diferentes.
[0160] Por exemplo, um aparelho de processamento de áudio poderia compreender um receptor para receber dados de áudio, dados de descrição de áudio e dados de configuração de renderização, sendo que os dados de áudio compreendem dados de áudio para uma pluralidade de componentes de áudio de tipos de áudio diferentes, os dados de descrição de áudio são indicativos de ao menos um tipo de áudio de ao menos alguns componentes de áudio, e os dados de configuração de renderização compreendem dados de posição de transdutores de áudio para um conjunto de transdutores de áudio; um renderizador para gerar sinais de transdutores de áudio para o conjunto de transdutores de áudio, sendo o renderizador capaz de renderizar componentes de áudio de acordo com uma pluralidade de modos de renderização; um controlador de renderização disposto para selecionar um modo de renderização para o renderizador dentre a pluralidade de modos de renderização para cada componente de áudio da pluralidade de componentes de áudio em resposta aos dados de descrição de áudio e aos dados de configuração de renderização/dados de posição de transdutores de áudio.
[0161] Dessa forma, em tal sistema, os modos de renderização podem não ser selecionados individualmente para diferentes subconjuntos de transdutores de áudio, mas poderiam ser selecionados para todos os transdutores de áudio. Nesse sistema, a operação descrita seguiria os princípios descritos para o aparelho de processamento de áudio 701 da Figura 7, mas consideraria simplesmente o conjunto de transdutores de áudio como um todo e possivelmente selecionaria o mesmo algoritmo de renderização para todos os alto-falantes 703. Assim, a descrição é, grosso modo, aplicável também a tal sistema.
[0162] Contudo, no sistema da Figura 7, a seleção de modos de renderização com base nos dados de descrição de áudio, e especificamente com base no tipo de dados de áudio, é feita de modo independente para subconjuntos diferentes de alto-falantes 703 de forma que os modos de renderização para os subconjuntos diferentes possam ser diferentes. Consequentemente, obtém-se uma adaptação aprimorada à configuração de renderização específica e à configuração de alto-falantes, bem como ao áudio renderizado.
[0163] Deve ser entendido que em modalidades diferentes podem ser usados algoritmos e critérios de seleção diferentes para selecionar o modo de renderização de alto-falantes individuais.
[0164] Em muitas modalidades, o controlador de renderização 709 é disposto para selecionar o modo de renderização para um dado alto-falante com base em uma posição desse alto-falante em relação a uma posição predeterminada. Especificamente, em muitas modalidades o modo de renderização pode ser selecionado dependendo de quanto a posição real desvia de uma posição nominal ou predefinida.
[0165] Por exemplo, para a renderização da maioria dos canais de áudio, é assumida uma configuração de alto-falantes predefinida. Por exemplo, em muitos sistemas assume-se um conjunto de alto-falantes substancialmente equidistantes ao redor da posição de audição a distâncias iguais. Para tal objeto de áudio, o controlador de renderização 709 pode ser disposto para selecionar o modo de renderização dos alto-falantes dependendo de quão próximos eles se encontram da posição predefinida.
[0166] Em muitas modalidades, pode ser designado um modo de renderização predefinido para cada tipo de áudio. O modo de renderização predefinido pode proporcionar uma experiência espacial vantajosa aos usuários em cenários onde os alto-falantes são colocados em suas posições predefinidas corretas, ou onde possam se desviar das mesmas apenas uma pequena quantidade. Entretanto, se um ou mais alto-falantes forem colocados longe da posição adequada, o som renderizado poderá não proporcionar a experiência de áudio espacial desejada. Por exemplo, se o alto-falante direito posterior for posicionado no lado esquerdo do usuário, o palco sonoro traseiro será distorcido. Esse caso particular fornece um exemplo de como uma possível abordagem de seleção de modo de renderização pode aprimorar a experiência percebida. Por exemplo, se os alto-falantes traseiros estiverem essencialmente nos ângulos corretos, mas os canais surround esquerdo e direito forem trocados, em geral será melhor selecionar um método de renderização que simplesmente retorne os dois canais aos seus locais corretos em vez de usar, por exemplo, um método baseado na espacialização sonora, o que pode levar adicionalmente a “vazamento” de som entre os canais.
[0167] Dessa forma, em algumas modalidades, o controlador de renderização 709 pode determinar a posição de cada alto-falante em relação à posição predefinida. Se a diferença estiver abaixo de um dado limiar (que pode ser predeterminado ou adaptado dinamicamente), o modo de renderização predefinido será selecionado. Por exemplo, para um componente de canal de áudio, o modo de renderização pode ser simplesmente um que alimente o canal de áudio do alto- falante adequado colocado na posição predefinida assumida. Entretanto, se a posição do alto-falante se desviar em um valor maior que um dado limiar, será selecionado um modo de renderização diferente. Por exemplo, nesse caso, um modo de renderização por espacialização sonora é selecionado com base no alto-falante e em um segundo alto-falante no outro lado da posição predefinida. Nesse caso, a renderização por espacialização sonora pode ser usada para renderizar som que corresponde à posição predefinida mesmo que o alto-falante não esteja nessa posição.
[0168] Como um exemplo específico, se o alto- falante direito posterior for posicionado à esquerda do ouvinte, o cana surround direito posterior poderá ser renderizado com o uso de espacialização sonora entre o alto- falante direito posterior e o alto-falante direito anterior. Dessa forma, o modo de renderização pode ser alterado tanto para o alto-falante que não está na posição correta (o alto- falante direito posterior), mas também para um outro alto- falante que pode estar na posição predefinida (o alto- falante direito anterior). Todavia, o modo de renderização para outros alto-falantes pode ainda usar a abordagem de renderização predefinida (os alto-falantes central, esquerdo anterior e esquerdo posterior). Além disso, enquanto o modo de renderização para um alto-falante na posição predefinida possa ser alterado devido à posição de outro alto-falante colocado mais distante de sua posição predefinida, essa renderização modificada pode ser aplicada somente a alguns componentes de áudio. Por exemplo, a renderização de um objeto de áudio frontal pode usar a renderização predefinida para o alto-falante direito anterior.
[0169] Em algumas modalidades, para um dado objeto de áudio o controlador de renderização 709 pode dividir os alto-falantes 703 em ao menos dois subconjuntos. O primeiro subconjunto pode incluir ao menos um alto-falante 703 para o qual a diferença entre a posição do transdutor de áudio e a posição predeterminada excede um dado limiar. O segundo subconjunto pode incluir ao menos um alto-falante 703 para o qual a diferença entre a posição do transdutor de áudio e a posição predeterminada não excede um limiar. Nessa modalidade, o conjunto de modos de renderização que podem ser selecionados pelo controlador de renderização 709 pode ser diferente. Especificamente, para o segundo subconjunto, o modo de renderização pode ser selecionado de um conjunto de modos de renderização predefinidos. De fato, em alguns cenários, o conjunto de modos de renderização predefinidos pode compreender apenas um único modo de renderização predefinido. Para o primeiro subconjunto, entretanto, o modo de renderização pode ser selecionado de um conjunto diferente de modos de renderização que pode compreender especificamente apenas modos de renderização não predefinidos. Deve ser entendido que o primeiro subconjunto de alto-falantes pode, potencialmente, incluir também um ou mais alto-falantes que estão na posição predefinida. Por exemplo, para um alto- falante direito posterior posicionado à esquerda do usuário, o primeiro subconjunto pode incluir não só o alto-falante direito posterior, mas também o alto-falante direito anterior.
[0170] Como outro exemplo, um sistema pode consistir em um pequeno número de alto-falantes proximamente espaçados na frente do ouvinte, e dois alto-falantes traseiros nas posições surround esquerda e direita “padrão”. Nesse caso, o segundo subconjunto pode consistir nos dois alto-falantes frontais proximamente espaçados, o posterior e o central, e os canais surround esquerdo e direito e central de um sinal baseado em canal podem ser enviados diretamente para os alto-falantes correspondentes. Os alto-falantes frontais proximamente espaçados, incluindo o “central” do segundo subconjunto, formam o primeiro subconjunto nesse caso, e a renderização por formação de feixes pode ser aplicada aos mesmos para reproduzir um canal frontal esquerdo e direito do sinal baseado em canal.
[0171] Em algumas modalidades, o controlador de renderização 709 pode considerar outros dados de configuração de renderização ao selecionar os modos de renderização adequados.
[0172] Por exemplo, o controlador de renderização 709 pode receber informações sobre a posição de audição e pode usá-las para selecionar um algoritmo adequado. Por exemplo, se a posição de audição passar a ser assimétrica em relação à configuração de alto-falantes, o controlador de renderização 709 poderá favorecer a seleção em direção ao uso da espacialização sonora baseada em vetores para compensar tal assimetria.
[0173] Como outro exemplo, em casos onde a posição de audição é dinâmica e a configuração de alto- falantes consiste em matrizes de alto-falantes ao redor do ouvinte, a renderização por síntese de campo sonoro pode ser usada para proporcionar uma experiência de audição ideal em todas as posições dentro de uma grande área de audição.
[0174] Como outro exemplo ainda, se a posição do usuário puder ser rastreada e apenas alguns alto-falantes na frente do ouvinte estiverem disponíveis, a renderização para cancelamento de diafonia poderá ser usada e controlada de modo adaptável de acordo com os dados de posição do ouvinte.
[0175] Deve ser entendido que em modalidades diferentes podem ser usadas abordagens diferentes para selecionar e avaliar modos de renderização diferentes ou combinações de modos de renderização.
[0176] Por exemplo, em muitas modalidades, o controlador de renderização 709 pode ser disposto para selecionar o modo de renderização em resposta à métrica de qualidade gerada por um modelo perceptivo. Especificamente, o controlador de renderização 709 pode ser disposto para selecionar o modo de renderização com base em uma métrica de qualidade resultante de um modelo perceptivo computacional. Por exemplo, o controlador de renderização 709 pode ser disposto para usar uma simulação computacional da experiência de audição esperada para um usuário para avaliar qual método de renderização fornece uma imagem sonora mais próxima da renderização ideal dos dados de áudio. A abordagem pode, por exemplo, ser baseada em métodos como aqueles descritos em “A Model of Sound Localisation Applied to the Evaluation of Systems for Stereophony”, de M. Park, P. A. Nelson, e K. Kang, Acta Acustica United with Acustica, 94(6), 825-839, (2008).
[0177] Tais modelos perceptivos podem ser especificamente capazes de calcular uma medida de qualidade ou métrica com base nas entradas para os ouvidos de um ouvinte. Dessa forma, para uma dada entrada, para cada ouvido de um ouvinte, o modelo pode estimar a qualidade da experiência espacial percebida.
[0178] Como exemplo, o controlador de renderização 709 pode avaliar de acordo as diferentes combinações de modos de renderização, em que cada combinação corresponde a uma seleção de modos de renderização para subconjuntos diferentes de alto-falantes. Para cada uma dessas combinações, poderão ser calculados os sinais resultantes nos ouvidos de um ouvinte em uma posição de audição predefinida. Esse cálculo leva em conta as posições dos alto-falantes 703 incluindo, possivelmente, características do ambiente, etc.
[0179] Por exemplo, pode ser calculado primeiramente o áudio renderizado de cada alto-falante (assumindo-se que são avaliados os modos de renderização específico da combinação). Uma função de transferência pode ser estimada a partir de cada alto-falante para cada ouvido de um ouvinte com base nas posições específicas dos alto- falante, e os sinais de áudio resultantes nos ouvidos de um usuário podem ser estimados de acordo combinando-se as contribuições de cada alto-falante e levando-se em conta as funções de transferência estimadas. O sinal binaural resultante é então inserido como entrada em um modelo perceptivo computacional (como o proposto no artigo mencionado acima) e uma métrica de qualidade resultante é calculada. A abordagem é repetida para todas as combinações, resultando em um conjunto de métricas de qualidade. O controlador de renderização 709 pode, então, selecionar a combinação de modos de renderização que forneça a melhor métrica de qualidade.
[0180] Cada combinação de modos de renderização pode corresponder a uma possível seleção de modos de renderização para uma pluralidade de subconjuntos de alto- falantes 703, onde o modo de renderização para cada subconjunto pode ser selecionado individualmente. Além disso, combinações diferentes podem corresponder a divisões em subconjuntos diferentes. Por exemplo, uma combinação pode considerar uma renderização estereofônica para os alto- falantes frontais e uma renderização por quadrados mínimos para os alto-falantes traseiros; uma outra pode considerar uma renderização por formação de feixes para os alto-falantes frontais e uma renderização por quadrados mínimos para os alto-falantes posteriores; uma outra pode considerar uma espacialização sonora para os alto-falantes esquerdos e uma renderização estereofônica para os alto-falantes traseiros e centrais, etc.
[0181] De fato, em princípio e em algumas modalidades, as combinações podem incluir todas as possíveis divisões em subconjuntos e todas as possíveis seleções de modos de renderização para esses subconjuntos. Entretanto, deve ser entendido que em muitas modalidades, essa avaliação pode ser complexa demais e computacionalmente exigente. Em muitas modalidades, o número de combinações pode ser reduzido substancialmente, por exemplo, dividindo-se os alto-falantes em subconjuntos com base em sua posição (por exemplo, com um subconjunto consistindo em todos os alto- falantes próximos de sua posição predefinida e um outro consistindo em todos os alto-falantes não próximos de sua posição predefinida), e apenas esses subconjuntos serem considerados. Alternativa ou adicionalmente, podem ser usados outros requisitos ou critérios para reduzir o número de modos de renderização que são considerados para cada subconjunto. Por exemplo, a formação de feixes pode ser descartada para todos os subconjuntos nos quais os alto- falantes não estão posicionados suficientemente próximos uns dos outros.
[0182] Em algumas modalidades, o controlador de renderização 709 pode ser disposto para gerar estimativas de sinal binaural para uma pluralidade de combinações de modos de renderização para subconjuntos diferentes de alto- falantes, para determinar uma métrica de qualidade para cada combinação em resposta às estimativas de sinal binaural, e para selecionar os modos de renderização como a combinação de modos de renderização que a métrica de qualidade indicar como de qualidade mais alta.
[0183] Em muitas modalidades, o modo de renderização para um dado subconjunto de alto-falantes é selecionado com base nas posições dos alto-falantes no subconjunto. Entretanto, em algumas modalidades, o controlador de renderização 709 pode considerar adicionalmente a posição de alto-falantes que não são parte do subconjunto. Por exemplo, em uma situação em que a renderização de um objeto de áudio deve ser feita em uma posição onde não haja um único alto-falante nas proximidades (por exemplo, uma fonte atrás do ouvinte embora existam alto-falantes presentes apenas na frente do ouvinte), pode ser empregado um algoritmo de “renderização virtual” como o de cancelamento de diafonia, ou de renderização por formação de feixes, sendo que a seleção final entre essas opções depende das características das configuração real de alto-falantes (por exemplo, espaçamento).
[0184] Em algumas modalidades, o controlador de renderização 709 pode ser disposto para considerar adicionalmente os dados de características de renderização de áudio de alto-falantes 703 na seleção do modo de renderização. Por exemplo, se um alto-falante suspenso de uma configuração de alto-falantes 3D for um pequeno “tweeter” incapaz de reproduzir baixas frequências (plausível, uma vez que montar um grande alto-falante de faixa ampla no teto não é tarefa simples), a parte de baixa frequência do sinal pretendida para o alto-falante suspenso pode ser distribuída igualmente para todos os alto-falantes de faixa ampla ao redor do ouvinte no plano horizontal.
[0185] Em algumas modalidades, o controlador de renderização 709 pode ser disposto para selecionar o modo de renderização em resposta a preferências de renderização do usuário. As preferências do usuário podem, por exemplo, ser fornecidas como informações inseridas manualmente pelo usuário. Em algumas modalidades, as preferências do usuário podem ser determinadas em resposta a informações inseridas pelo usuário fornecidas durante o funcionamento. Por exemplo, o aparelho de processamento de áudio 701 pode renderizar áudio enquanto alterna entre possíveis modos de renderização. O usuário pode indicar sua renderização preferida e o aparelho de processamento de áudio 701 pode armazenar tal preferência e usá-la para adaptar o algoritmo de seleção. Por exemplo, um limiar para a seleção entre dois possíveis modos de renderização pode ser “inclinado” na direção das preferências do usuário.
[0186] Em algumas modalidades, o receptor 705 pode, adicionalmente, receber dados de posição de renderização para um ou mais dos componentes de áudio e a seleção do modo de renderização para o um ou mais componentes de áudio pode depender da posição.
[0187] Por exemplo, um objeto de áudio para uma fonte de som localizada pode ser recebido juntamente com dados de posição indicando uma posição na qual o objeto de áudio deve ser renderizado. O controlador de renderização 709 pode, então, avaliar se a posição corresponde a uma que para a atual configuração de alto-falantes específica possa ser renderizada com exatidão na posição desejada com o uso de espacialização sonora baseada em vetores. Em caso afirmativo, o controlador continua o processo para selecionar um algoritmo de renderização por espacialização sonora baseada em vetores para o objeto de áudio. Contudo, se a atual configuração de renderização não permitir a espacialização sonora para fornecer um posicionamento adequado da fonte de som (por exemplo, devido aos alto-falantes relevantes estarem dispostos apenas no outro lado do usuário), o controlador de renderização 709 pode, em vez disso, selecionar uma abordagem de renderização que descorrelaciona os sinais de acionamento entre dois ou mais alto-falantes para gerar uma percepção espacial difusa do posicionamento da fonte de som.
[0188] Em algumas modalidades, a abordagem pode ser aplicada em bandas de frequências individuais. Especificamente, em algumas modalidades, o aparelho de processamento de áudio 701 pode ser disposto para potencialmente usar algoritmos de renderização diferentes para bandas de frequências diferentes de um componente de áudio. Em tais modalidades, o controlador de renderização 709 pode ser disposto para executar uma seleção independente de modos de renderização para as diferentes bandas de frequências.
[0189] Por exemplo, o renderizador 707 pode ser disposto para dividir um dado componente de áudio em um componente de alta frequência e um componente de baixa frequência (por exemplo, com uma frequência de transição (“crossover”) de cerca de 500 Hz). A renderização de cada um desses componentes pode ser feita individualmente e, portanto, podem ser usados algoritmos de renderização diferentes para as diferentes bandas. Essa liberdade adicional permite ao controlador de renderização 709 otimizar a seleção de modos de renderização de acordo com a importância espacial específica dos componentes de áudio nas diferentes bandas. Especificamente, a percepção espacial humana é, em geral, mais dependente de indicações espaciais em frequências mais altas do que em frequências mais baixas. Dessa forma, o controlador de renderização 709 pode selecionar um modo de renderização para a banda de altas frequências que proporcione a experiência espacial desejada, enquanto para a banda de baixas frequências o controlador pode selecionar um algoritmo de renderização diferente e mais simples, com pouca demanda de recursos.
[0190] Como outro exemplo, o controlador de renderização 709 pode detectar que um subconjunto dos alto- falantes pode ser considerado disposto como uma matriz com um certo espaçamento definido como a distância máxima entre dois alto-falantes vizinhos quaisquer do subconjunto. Nesse caso, o espaçamento da matriz determina uma frequência mais alta para a qual o subconjunto pode ser usado eficazmente e com vantagem como uma matriz para, por exemplo, uma renderização por formação de feixes, por síntese de campo sonoro ou otimizada por quadrados mínimos. O controlador de renderização 709 pode, então, dividir o componente de áudio para gerar um componente de baixa frequência que é renderizado com o uso de qualquer um dos métodos de renderização do tipo matriz.
[0191] Em muitas modalidades, o aparelho de processamento de áudio 701 pode ser disposto para alterar dinamicamente a seleção dos modos de renderização. Por exemplo, com a alteração das características dos componentes de áudio (por exemplo, da passando da representação de uma fonte de som específica para ruído de fundo geral quando, por exemplo, um alto-falante cessa a emissão de áudio), o controlador de renderização 709 pode alterar o modo de renderização utilizado.
[0192] Em algumas modalidades, a alteração do modo de renderização pode ser uma transição gradual. Por exemplo, em vez de simplesmente alternar entre as saídas de diferentes mecanismos de renderização, como no exemplo da Figura 8, podem ser executados o aumento gradual (“fade-in”) de um sinal e a diminuição gradual (“fade-out”) do outro sinal.
[0193] Em algumas modalidades, o controlador de renderização 709 pode ser disposto para sincronizar uma alteração do modo de renderização para um componente de áudio com as alterações no conteúdo de áudio do componente de áudio.
[0194] Dessa forma, em algumas modalidades, a seleção do modo de renderização pode ser dinâmica e mudar com as alterações no conteúdo. As alterações da seleção podem ser sincronizadas com as transições no áudio, como, por exemplo, com alterações de cena. Por exemplo, o aparelho de processamento de áudio 701 pode ser disposto para detectar transições substanciais e instantâneas no conteúdo de áudio, como, por exemplo, uma alteração no nível de amplitude (com filtragem passa-baixo) ou uma alteração substancial no espectro de frequências (média calculada por tempo). Sempre que for detectada uma alteração como essa, o controlador de renderização 709 poderá executar uma reavaliação para determinar um modo de renderização adequado a partir da alteração.
[0195] Será entendido que para maior clareza a descrição acima descreveu as modalidades da invenção com referência a diferentes circuitos, unidades e processadores funcionais. Entretanto, será evidente que qualquer distribuição adequada de funcionalidade entre os diferentes circuitos, unidades ou processadores funcionais pode ser usada sem se desviar da invenção. Por exemplo, a funcionalidade ilustrada a ser executada por processadores ou controladores separados pode ser executada pelo mesmo processador ou controlador. Por isso, as referências a unidades ou circuitos funcionais específicos devem ser consideradas apenas como referências a meios adequados de fornecer a funcionalidade descrita e não como indicadoras de uma estrutura física ou uma organização lógica ou física estrita.
[0196] A invenção pode ser implementada em qualquer forma adequada, incluindo hardware, software, firmware ou qualquer combinação deles. A invenção pode, opcionalmente, ser implementada, ao menos parcialmente, como software de computador sendo executado em um ou mais processadores de dados e/ou processadores de sinal digital. Os elementos e componentes de uma modalidade da invenção podem ser fisicamente, funcionalmente e logicamente implementados de qualquer forma adequada. De fato, a funcionalidade pode ser implementada em uma unidade única, em uma pluralidade de unidades ou como parte de outras unidades funcionais. Dessa forma, a invenção pode ser implementada em uma unidade única ou pode ser fisicamente e funcionalmente distribuída entre diferentes unidades, circuitos e processadores.
[0197] Embora a presente invenção tenha sido descrita em conjunto com algumas modalidades, não se pretende limitá-la à forma específica aqui apresentada. Ao invés disso, o escopo da presente invenção é limitado apenas pelas reivindicações anexas. Adicionalmente, embora possa parecer que um dado recurso é descrito em conjunto com modalidades específicas, o versado na técnica reconhecerá que vários recursos das modalidades descritas podem ser combinados de acordo com a invenção. Nas reivindicações, o termo “que compreende” não exclui a presença de outros elementos ou etapas.
[0198] Além disso, embora individualmente mencionados, uma pluralidade de meios, elementos, circuitos ou etapas de métodos pode ser implementada, por exemplo, por um circuito, uma unidade ou um processador único. Adicionalmente, embora recursos individuais possam estar incluídos em reivindicações diferentes, eles podem ser vantajosamente combinados, e sua inclusão em reivindicações diferentes não implica que uma combinação de recursos não seja viável e/ou vantajosa. A inclusão de um recurso em uma categoria das reivindicações também não implica em uma limitação a esta categoria, mas ao invés disso indica que o recurso é igualmente aplicável a categorias de outras reivindicações, conforme for adequado. Além disso, a ordem dos recursos nas reivindicações não implica em nenhuma ordem específica na qual os recursos precisam ser trabalhados e, em particular, a ordem das etapas individuais em uma reivindicação de método não implica que as etapas precisem ser executadas nessa ordem. Ao invés disso, as etapas podem ser executadas em qualquer ordem adequada. Além disso, referências singulares não excluem uma pluralidade. Dessa forma, referências a “um/a”, “uns/umas”, “primeiro/a”, “segundo/a”, etc., não excluem uma pluralidade. Sinais de referência nas reivindicações são fornecidos meramente como exemplo esclarecedor e não deverão ser interpretados como limitadores do escopo das reivindicações de nenhuma forma.

Claims (16)

1. APARELHO DE PROCESSAMENTO DE ÁUDIO, caracterizado por compreender: um receptor (705), em que o receptor é configurado para receber dados de áudio para uma pluralidade de componentes de áudio e para receber dados de configuração de renderização, sendo que os dados de configuração de renderização compreendem dados de posição de transdutores de áudio para um conjunto de transdutores de áudio(703), e em que dados de posição de transdutores de áudio são dados variáveis que não são predeterminados pelos dados de áudio; um renderizador (707), sendo que o renderizador é configurado para gerarsinais de transdutores de áudio para o conjunto de transdutores de áudio a partir dos dados de áudio, sendo que o renderizador (707) é configurado para renderizar simultaneamente a pluralidade de componentes de áudio de acordo com uma pluralidade de modos de renderização espacial diferentes, e sendo que o renderizador (707) é configurado para selecionar e empregar modos de renderização espacial selecionados correspondentes, entre a pluralidade de diferentes modos de renderização espacial, para cada subconjunto entre uma pluralidade de subconjuntos do conjunto de transdutores de áudio, incluindo dois ou mais modos de renderização espacial diferentes respectivos para dois ou mais diferentes subconjuntos do conjunto de transdutores de áudio (703), e um controlador de renderização (709), em que o controlador de renderização é configurado para selecionar os dois ou mais modos de renderização espacial diferentes respectivos para dois ou mais subconjuntos diferentes do conjunto de transdutores de áudio em resposta aos dados recebidos de posição de transdutores de áudio, e para controlar o renderizador para selecionar os dois ou mais diferentes modos de renderização espacial respectivos para os dois ou mais subconjuntos diferentes do conjunto de transdutores de áudio,sendo que o controlador de renderização (709) é configurado para escolher o modo de renderização espacial para um primeiro transdutor de áudio do conjunto de transdutores de áudio (703) em resposta a uma posição variável do primeiro transdutor de áudio em relação a uma posição predefinida para o primeiro transdutor de áudio para um ou mais da pluralidade de componentes de áudio em uma configuração predefinida de renderização que é associada com um ou mais da pluralidade de componentes de áudio, sendo que a posição variável no primeiro transdutor de áudio é inclusa nos dados variáveis que são recebidos pelo receptor.
2. APARELHO DE PROCESSAMENTO DE ÁUDIO, de acordo com a reivindicação 1, caracterizado por ao menos dois da pluralidade de componentes de áudio serem tipos de áudio diferentes.
3. APARELHO DE PROCESSAMENTO DE ÁUDIO, de acordo com a reivindicação 2, caracterizado pela pluralidade de componentes de áudio compreender ao menos dois componentes de áudio de tipos de áudio diferentes do grupo que consiste em: - componentes de canal de áudio, - componentes de objeto de áudio, e - componentes da cena de áudio; em que o renderizador é configurado para usar modos de renderização espacial diferentes para os pelo menos dois componentes de áudio.
4. APARELHO DE PROCESSAMENTO DE ÁUDIO, de acordo com a reivindicação 2, caracterizado pelo receptor (705) ser configurado para receber dados de indicação de tipo de áudio indicativos de um tipo de áudio de ao menos um primeiro componente de áudio, e em que o controlador de renderização (709) é configurado para escolher um modo de renderização espacial para o primeiro componente de áudio em resposta aos dados de indicação de tipo de áudio.
5. APARELHO DE PROCESSAMENTO DE ÁUDIO, de acordo com a reivindicação 1, caracterizado pelo controlador de renderização (709) ser configurado para selecionar um modo de renderização espacial predefinido para o primeiro transdutor de áudio a menos que uma diferença entre a posição variável do primeiro transdutor de áudio e a posição predeterminada exceda um limiar.
6. APARELHO DE PROCESSAMENTO DE ÁUDIO, de acordo com a reivindicação 1, caracterizado pelo controlador de renderização (709) ser configurado para dividir o conjunto de transdutores de áudio (703) em um primeiro subconjunto de transdutores de áudio e um segundo subconjunto de transdutores de áudio, em que o primeiro subconjunto de transdutores de áudio compreende transdutores de áudio para os quais uma diferença entre a posição do transdutor de áudio e a posição predeterminada excede um limiar, em que o segundo subconjunto de transdutores de áudio que compreende ao menos um transdutor de áudio para o qual uma diferença entre a posição variável do transdutor de áudio e a posição predeterminada não excede um limiar, e em que o controlador de renderização é configurado para selecionar um primeiro modo de renderização espacial para cada transdutor de áudio do primeiro subconjunto a partir de um primeiro subconjunto de modos de renderização espacial e escolher um segundo modo de renderização espacial para cada transdutor de áudio do segundo subconjunto a partir de um segundo subconjunto de modos de renderização espacial.
7. APARELHO DE PROCESSAMENTO DE ÁUDIO, de acordo com a reivindicação 1, caracterizado pela pluralidade de modos de renderização espacial incluir ao menos um modo de renderização espacial selecionado do grupo que consiste em: - uma renderização estereofônica; - uma espacialização sonora baseada em vetores; - uma renderização por formação de feixes; - uma renderização para cancelamento de diafonia; - uma renderização ambissônica; - uma renderização por síntese de campo sonoro, e - uma renderização otimizada por quadrados mínimos.
8. APARELHO DE PROCESSAMENTO DE ÁUDIO, de acordo com a reivindicação 1, caracterizado pelo receptor (705) ser configurado adicionalmente para receber dados de posição de renderização para os componentes de áudio, em que o controlador de renderização (709) é configurado para escolher independentemente os modos de renderização espacial em resposta aos dados de posição de renderização.
9. APARELHO DE PROCESSAMENTO DE ÁUDIO, de acordo com a reivindicação 1, caracterizado pelo renderizador (707) ser configurado para empregar modos de renderização espacial diferentes para bandas de frequências diferentes de um componente de áudio dos componentes de áudio, e em que o controlador de renderização (709) é configurado para escolher de maneira independente modos de renderização espacial para bandas de frequências diferentes do componente de áudio.
10. APARELHO DE PROCESSAMENTO DE ÁUDIO, de acordo com a reivindicação 1, caracterizado pelo controlador de renderização (709) ser configurado para sincronizar uma alteração de renderização para ao menos um componente de áudio com uma alteração de conteúdo de áudio no ao menos um componente de áudio.
11. APARELHO DE PROCESSAMENTO DE ÁUDIO, de acordo com a reivindicação 1, caracterizado pelo controlador de renderização (709) ser configurado adicionalmente para selecionar os modos de renderização espacial em resposta a dados de configuração de renderização do grupo que consiste em: - dados de posição de transdutores de áudio para transdutores de áudio que não são parte do conjunto de transdutores de áudio, - dados de posição de audição; - dados de características de renderização de áudio de transdutores de áudio para transdutores de áudio do conjunto de transdutores de áudio, e - preferências de renderização do usuário.
12. APARELHO DE PROCESSAMENTO DE ÁUDIO, de acordo com a reivindicação 1, caracterizado pelo controlador de renderização (709) ser configurado para selecionar o modo de renderização espacial em resposta à métrica de qualidade gerada por um modelo perceptivo.
13. APARELHO DE PROCESSAMENTO DE ÁUDIO, de acordo com a reivindicação 1, caracterizado pelos modos de renderização espacial diferentes serem simultaneamente providos para diferentes subconjuntos de transdutores.
14. APARELHO DE PROCESSAMENTO DE ÁUDIO, de acordo com a reivindicação 1, caracterizado pelo controlador de renderização (709) ser configurado para escolher um modo de renderização espacial para o primeiro transdutor de áudio e um segundo modo de renderização espacial para um segundo transdutor de áudio localizado em uma posição diferente da posição variável do primeiro transdutor de áudio para renderização simultânea dos componentes de audio usando o primeiro e o segundo modos de renderização espacial para o primeiro e o segundo transdutore de áudio.
15. MÉTODO, caracterizado por compreender: Receber, por um receptor, dados de áudio e dados de configuração de renderização, em que os dados de áudio compreendem dados de áudio para uma pluralidade de componentes de áudio; em que os dados de configuração de renderização compreendem dados de posição de transdutores de áudio para diferentes transdutores de áudio respectivos de um conjunto de transdutores de áudio (703); e em que os dados de posição do transdutor de áudio são dados variáveis que não são predeterminados pelos dados de áudio; em resposta aos dados de posição do transdutor de áudio recebidos, escolher, através de um controlador de renderização, dentre uma pluralidade de modos de renderização possíveis de um renderizador, modos de renderização escolhidos para serem selecionados pelo renderizador e empregados pelo renderizador para uma pluralidade de diferentes subconjuntos do conjunto de transdutores de áudio, em que os modos de renderização escolhidos incluem dois ou mais modos de renderização respectivos diferentes para dois ou mais subconjuntos diferentes do conjunto de transdutores de áudio; e o renderizador, sob controle do controlador de renderização, aplica os modos de renderização espacial selecionados para cada um dos diferentes subconjuntos do conjunto de transdutores de áudio para gerar sinais do transdutor de áudio para o conjunto de transdutores de áudio a partir dos dados de áudio, em que o renderizador renderiza simultaneamente a pluralidade de componentes de áudio de acordo com os modos de renderização espacial selecionados, em que o controlador de renderização escolhe o modo de renderização espacial para um primeiro transdutor de áudio do conjunto de transdutores de áudio em resposta a uma posição variável do primeiro transdutor de áudio em relação a uma posição predeterminada para o primeiro transdutor de áudio para um ou mais da pluralidade de componentes de áudio em uma configuração de renderização predefinida que é associada a um ou mais da pluralidade de componentes de áudio, e em que a posição variável do primeiro transdutor de áudio está incluída nos dados variáveis que são recebidos pelo receptor.
16. MÉTODO, caracterizado por compreender: receber, por um receptor, dados de áudio e dados de configuração de renderização, em que os dados de áudio compreendem dados de áudio para uma pluralidade de componentes de áudio; em que os dados de configuração de renderização compreendem dados de posição de transdutores de áudio para transdutores de áudio respectivos diferentes, e em que os dados de posição de transdutores de áudio são dados variáveis e não são predeterminados pelos dados de áudio; em resposta aos dados de posição do transdutor de áudio recebidos, escolher, através de um controlador de renderização, dentre uma pluralidade de modos de renderização possíveis de um renderizador, modos de renderização escolhidos para serem selecionados pelo renderizador e empregados pelo renderizador para uma pluralidade de diferentes subconjuntos do conjunto de transdutores de áudio, em que os modos de renderização escolhidos incluem dois ou mais modos de renderização respectivos diferentes para dois ou mais subconjuntos diferentes do conjunto de transdutores de áudio; e o renderizador, sob controle do controlador de renderização, aplica os modos de renderização espacial selecionados para cada um dos diferentes subconjuntos do conjunto de transdutores de áudio para gerar sinais do transdutor de áudio para o conjunto de transdutores de áudio a partir dos dados de áudio, em que o renderizador renderiza simultaneamente a pluralidade de componentes de áudio de acordo com os modos de renderização espacial selecionados, em que o controlador de renderização escolhe o modo de renderização espacial para um primeiro transdutor de áudio do conjunto de transdutores de áudio para ser um modo de renderização espacial predefinido, associado a uma configuração de renderização espacial predefinida, quando uma diferença entre uma posição atual do primeiro transdutor de áudio e uma posição predefinida para o primeiro transdutor de áudio na configuração de renderização predefinida for menor que um limiar, e em que o controlador de renderização escolhe o modo de renderização espacial para o primeiro transdutor de áudio do conjunto de transdutores de áudio para ser um segundo modo de renderização espacial que é diferente do modo de renderização espacial predefinida quando a diferença entre a posição atual do primeiro transdutor de áudio e a posição predefinida para o primeiro transdutor de áudio na configuração de renderização predefinida for maior que o limiar.
BR112015028337-3A 2013-05-16 2014-05-16 Aparelho de processamento de áudio e método BR112015028337B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP13168064 2013-05-16
EP13168064.7 2013-05-16
PCT/EP2014/060109 WO2014184353A1 (en) 2013-05-16 2014-05-16 An audio processing apparatus and method therefor

Publications (2)

Publication Number Publication Date
BR112015028337A2 BR112015028337A2 (pt) 2017-07-25
BR112015028337B1 true BR112015028337B1 (pt) 2022-03-22

Family

ID=48482916

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112015028337-3A BR112015028337B1 (pt) 2013-05-16 2014-05-16 Aparelho de processamento de áudio e método

Country Status (8)

Country Link
US (4) US10582330B2 (pt)
EP (1) EP2997742B1 (pt)
JP (1) JP6515087B2 (pt)
CN (1) CN105191354B (pt)
BR (1) BR112015028337B1 (pt)
ES (1) ES2931952T3 (pt)
RU (1) RU2667630C2 (pt)
WO (1) WO2014184353A1 (pt)

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2997742B1 (en) * 2013-05-16 2022-09-28 Koninklijke Philips N.V. An audio processing apparatus and method therefor
US9854377B2 (en) 2013-05-29 2017-12-26 Qualcomm Incorporated Interpolation for decomposed representations of a sound field
WO2015087490A1 (ja) * 2013-12-12 2015-06-18 株式会社ソシオネクスト オーディオ再生装置及び遊技装置
US9866986B2 (en) 2014-01-24 2018-01-09 Sony Corporation Audio speaker system with virtual music performance
US9922656B2 (en) * 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
CN105376691B (zh) 2014-08-29 2019-10-08 杜比实验室特许公司 感知方向的环绕声播放
US9578439B2 (en) * 2015-01-02 2017-02-21 Qualcomm Incorporated Method, system and article of manufacture for processing spatial audio
CN107980225B (zh) * 2015-04-17 2021-02-12 华为技术有限公司 使用驱动信号驱动扬声器阵列的装置和方法
WO2016172254A1 (en) * 2015-04-21 2016-10-27 Dolby Laboratories Licensing Corporation Spatial audio signal manipulation
US20160337755A1 (en) * 2015-05-13 2016-11-17 Paradigm Electronics Inc. Surround speaker
CN106303897A (zh) * 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
WO2017022461A1 (ja) * 2015-07-31 2017-02-09 ソニー株式会社 受信装置、送信装置、及び、データ処理方法
EP3346728A4 (en) 2015-09-03 2019-04-24 Sony Corporation SOUND PROCESSING DEVICE, METHOD AND PROGRAM
US9961467B2 (en) * 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from channel-based audio to HOA
US9961475B2 (en) * 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from object-based audio to HOA
US10249312B2 (en) 2015-10-08 2019-04-02 Qualcomm Incorporated Quantization of spatial vectors
JP6841229B2 (ja) * 2015-12-10 2021-03-10 ソニー株式会社 音声処理装置および方法、並びにプログラム
US10278000B2 (en) 2015-12-14 2019-04-30 Dolby Laboratories Licensing Corporation Audio object clustering with single channel quality preservation
EP3188504B1 (en) 2016-01-04 2020-07-29 Harman Becker Automotive Systems GmbH Multi-media reproduction for a multiplicity of recipients
US9924291B2 (en) 2016-02-16 2018-03-20 Sony Corporation Distributed wireless speaker system
KR102519902B1 (ko) 2016-02-18 2023-04-10 삼성전자 주식회사 오디오 데이터를 처리하는 방법 및 이를 제공하는 전자 장치
WO2017153872A1 (en) 2016-03-07 2017-09-14 Cirrus Logic International Semiconductor Limited Method and apparatus for acoustic crosstalk cancellation
US9826330B2 (en) 2016-03-14 2017-11-21 Sony Corporation Gimbal-mounted linear ultrasonic speaker assembly
CN105959905B (zh) * 2016-04-27 2017-10-24 北京时代拓灵科技有限公司 混合模式空间声生成系统与方法
JP6663490B2 (ja) * 2016-05-31 2020-03-11 シャープ株式会社 スピーカシステム、音声信号レンダリング装置およびプログラム
US9794724B1 (en) 2016-07-20 2017-10-17 Sony Corporation Ultrasonic speaker assembly using variable carrier frequency to establish third dimension sound locating
JP7003924B2 (ja) * 2016-09-20 2022-01-21 ソニーグループ株式会社 情報処理装置と情報処理方法およびプログラム
US9980078B2 (en) * 2016-10-14 2018-05-22 Nokia Technologies Oy Audio object modification in free-viewpoint rendering
WO2018072214A1 (zh) * 2016-10-21 2018-04-26 向裴 混合现实音频系统
GB2557218A (en) * 2016-11-30 2018-06-20 Nokia Technologies Oy Distributed audio capture and mixing
EP3373604B1 (en) * 2017-03-08 2021-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for providing a measure of spatiality associated with an audio stream
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
GB2563635A (en) * 2017-06-21 2018-12-26 Nokia Technologies Oy Recording and rendering audio signals
EP3704875B1 (en) * 2017-10-30 2023-05-31 Dolby Laboratories Licensing Corporation Virtual rendering of object based audio over an arbitrary set of loudspeakers
WO2019116890A1 (ja) 2017-12-12 2019-06-20 ソニー株式会社 信号処理装置および方法、並びにプログラム
EP3506661A1 (en) * 2017-12-29 2019-07-03 Nokia Technologies Oy An apparatus, method and computer program for providing notifications
KR20190083863A (ko) * 2018-01-05 2019-07-15 가우디오랩 주식회사 오디오 신호 처리 방법 및 장치
WO2019197404A1 (en) * 2018-04-11 2019-10-17 Dolby International Ab Methods, apparatus and systems for 6dof audio rendering and data representations and bitstream structures for 6dof audio rendering
WO2019197349A1 (en) * 2018-04-11 2019-10-17 Dolby International Ab Methods, apparatus and systems for a pre-rendered signal for audio rendering
JP6998823B2 (ja) * 2018-04-13 2022-02-04 日本放送協会 マルチチャンネル客観評価装置及びプログラム
WO2019208012A1 (ja) * 2018-04-24 2019-10-31 ソニー株式会社 信号処理装置、チャネル設定方法、プログラム、スピーカシステム
US10999693B2 (en) * 2018-06-25 2021-05-04 Qualcomm Incorporated Rendering different portions of audio data using different renderers
WO2020030303A1 (en) * 2018-08-09 2020-02-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An audio processor and a method for providing loudspeaker signals
WO2020030769A1 (en) * 2018-08-09 2020-02-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An audio processor and a method considering acoustic obstacles and providing loudspeaker signals
WO2020030768A1 (en) * 2018-08-09 2020-02-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An audio processor and a method for providing loudspeaker signals
EP3617871A1 (en) * 2018-08-28 2020-03-04 Koninklijke Philips N.V. Audio apparatus and method of audio processing
US11798569B2 (en) * 2018-10-02 2023-10-24 Qualcomm Incorporated Flexible rendering of audio data
US11019449B2 (en) * 2018-10-06 2021-05-25 Qualcomm Incorporated Six degrees of freedom and three degrees of freedom backward compatibility
EP3868129B1 (en) 2018-10-16 2023-10-11 Dolby Laboratories Licensing Corporation Methods and devices for bass management
GB201818959D0 (en) 2018-11-21 2019-01-09 Nokia Technologies Oy Ambience audio representation and associated rendering
WO2020227140A1 (en) * 2019-05-03 2020-11-12 Dolby Laboratories Licensing Corporation Rendering audio objects with multiple types of renderers
EP3984249A1 (en) * 2019-06-12 2022-04-20 Google LLC Three-dimensional audio source spatialization
US10972852B2 (en) * 2019-07-03 2021-04-06 Qualcomm Incorporated Adapting audio streams for rendering
WO2021021707A1 (en) * 2019-07-30 2021-02-04 Dolby Laboratories Licensing Corporation Managing playback of multiple streams of audio over multiple speakers
CN114208209B (zh) * 2019-07-30 2023-10-31 杜比实验室特许公司 音频处理系统、方法和介质
GB2587357A (en) * 2019-09-24 2021-03-31 Nokia Technologies Oy Audio processing
US20230010466A1 (en) * 2019-12-09 2023-01-12 Dolby Laboratories Licensing Corporation Adjusting audio and non-audio features based on noise metrics and speech intelligibility metrics
US11443737B2 (en) 2020-01-14 2022-09-13 Sony Corporation Audio video translation into multiple languages for respective listeners
US10945090B1 (en) * 2020-03-24 2021-03-09 Apple Inc. Surround sound rendering based on room acoustics
AT523644B1 (de) * 2020-12-01 2021-10-15 Atmoky Gmbh Verfahren für die Erzeugung eines Konvertierungsfilters für ein Konvertieren eines multidimensionalen Ausgangs-Audiosignal in ein zweidimensionales Hör-Audiosignal
EP4252432A1 (en) * 2020-12-15 2023-10-04 Syng, Inc. Systems and methods for audio upmixing
US11477600B1 (en) * 2021-05-27 2022-10-18 Qualcomm Incorporated Spatial audio data exchange

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000358294A (ja) * 1999-06-15 2000-12-26 Yamaha Corp オーディオ音響装置
US7567845B1 (en) * 2002-06-04 2009-07-28 Creative Technology Ltd Ambience generation for stereo signals
US7257231B1 (en) * 2002-06-04 2007-08-14 Creative Technology Ltd. Stream segregation for stereo signals
KR100542129B1 (ko) * 2002-10-28 2006-01-11 한국전자통신연구원 객체기반 3차원 오디오 시스템 및 그 제어 방법
US7706544B2 (en) * 2002-11-21 2010-04-27 Fraunhofer-Geselleschaft Zur Forderung Der Angewandten Forschung E.V. Audio reproduction system and method for reproducing an audio signal
WO2006131894A2 (en) * 2005-06-09 2006-12-14 Koninklijke Philips Electronics N.V. A method of and system for automatically identifying the functional positions of the loudspeakers of an audio-visual system
RU2383941C2 (ru) * 2005-06-30 2010-03-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для кодирования и декодирования аудиосигналов
CN101411214B (zh) 2006-03-28 2011-08-10 艾利森电话股份有限公司 用于多信道环绕声音的解码器的方法和装置
WO2007119500A1 (ja) * 2006-03-31 2007-10-25 Pioneer Corporation 音声信号処理装置
US9697844B2 (en) * 2006-05-17 2017-07-04 Creative Technology Ltd Distributed spatial audio decoder
KR20090028610A (ko) * 2006-06-09 2009-03-18 코닌클리케 필립스 일렉트로닉스 엔.브이. 복수의 오디오 재생 유닛들로의 전송을 위한 오디오 데이터를 생성하는 디바이스 및 방법
WO2008120933A1 (en) * 2007-03-30 2008-10-09 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi object audio signal with multi channel
US20110002469A1 (en) * 2008-03-03 2011-01-06 Nokia Corporation Apparatus for Capturing and Rendering a Plurality of Audio Channels
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
EP2194527A3 (en) * 2008-12-02 2013-09-25 Electronics and Telecommunications Research Institute Apparatus for generating and playing object based audio contents
US20100223552A1 (en) 2009-03-02 2010-09-02 Metcalf Randall B Playback Device For Generating Sound Events
US20110091055A1 (en) * 2009-10-19 2011-04-21 Broadcom Corporation Loudspeaker localization techniques
JP5597975B2 (ja) * 2009-12-01 2014-10-01 ソニー株式会社 映像音響装置
JP6013918B2 (ja) * 2010-02-02 2016-10-25 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 空間音声再生
US20120113224A1 (en) * 2010-11-09 2012-05-10 Andy Nguyen Determining Loudspeaker Layout Using Visual Markers
WO2012164444A1 (en) 2011-06-01 2012-12-06 Koninklijke Philips Electronics N.V. An audio system and method of operating therefor
BR112013033835B1 (pt) * 2011-07-01 2021-09-08 Dolby Laboratories Licensing Corporation Método, aparelho e meio não transitório para autoria e renderização aperfeiçoadas de áudio em 3d
US20140214431A1 (en) * 2011-07-01 2014-07-31 Dolby Laboratories Licensing Corporation Sample rate scalable lossless audio coding
US9118999B2 (en) * 2011-07-01 2015-08-25 Dolby Laboratories Licensing Corporation Equalization of speaker arrays
EP2727380B1 (en) * 2011-07-01 2020-03-11 Dolby Laboratories Licensing Corporation Upmixing object based audio
KR101845226B1 (ko) 2011-07-01 2018-05-18 돌비 레버러토리즈 라이쎈싱 코오포레이션 적응형 오디오 신호 생성, 코딩 및 렌더링을 위한 시스템 및 방법
KR101547809B1 (ko) 2011-07-01 2015-08-27 돌비 레버러토리즈 라이쎈싱 코오포레이션 적응형 오디오 시스템을 위한 동기화 및 전환 방법과 시스템
US8811630B2 (en) * 2011-12-21 2014-08-19 Sonos, Inc. Systems, methods, and apparatus to filter audio
EP2637427A1 (en) * 2012-03-06 2013-09-11 Thomson Licensing Method and apparatus for playback of a higher-order ambisonics audio signal
US10356356B2 (en) * 2012-10-04 2019-07-16 Cute Circuit LLC Multimedia communication and display device
EP2725818A1 (en) * 2012-10-23 2014-04-30 GN Store Nord A/S A hearing device with a distance measurement unit
US9609141B2 (en) * 2012-10-26 2017-03-28 Avago Technologies General Ip (Singapore) Pte. Ltd. Loudspeaker localization with a microphone array
US9277321B2 (en) * 2012-12-17 2016-03-01 Nokia Technologies Oy Device discovery and constellation selection
JP6328662B2 (ja) * 2013-01-15 2018-05-23 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. バイノーラルのオーディオ処理
US9860669B2 (en) * 2013-05-16 2018-01-02 Koninklijke Philips N.V. Audio apparatus and method therefor
EP2997742B1 (en) * 2013-05-16 2022-09-28 Koninklijke Philips N.V. An audio processing apparatus and method therefor
CN114554387A (zh) * 2015-02-06 2022-05-27 杜比实验室特许公司 用于自适应音频的混合型基于优先度的渲染系统和方法
EP3465678B1 (en) * 2016-06-01 2020-04-01 Dolby International AB A method converting multichannel audio content into object-based audio content and a method for processing audio content having a spatial position

Also Published As

Publication number Publication date
JP2016521532A (ja) 2016-07-21
EP2997742B1 (en) 2022-09-28
US20160080886A1 (en) 2016-03-17
US11197120B2 (en) 2021-12-07
BR112015028337A2 (pt) 2017-07-25
US10582330B2 (en) 2020-03-03
US11743673B2 (en) 2023-08-29
RU2667630C2 (ru) 2018-09-21
WO2014184353A1 (en) 2014-11-20
ES2931952T3 (es) 2023-01-05
CN105191354B (zh) 2018-07-24
EP2997742A1 (en) 2016-03-23
CN105191354A (zh) 2015-12-23
US20210136512A1 (en) 2021-05-06
JP6515087B2 (ja) 2019-05-15
US20200186956A1 (en) 2020-06-11
RU2015153540A (ru) 2017-06-21
US11503424B2 (en) 2022-11-15
US20210144507A1 (en) 2021-05-13

Similar Documents

Publication Publication Date Title
US11503424B2 (en) Audio processing apparatus and method therefor
US11178503B2 (en) System for rendering and playback of object based audio in various listening environments
EP2805326B1 (en) Spatial audio rendering and encoding
EP2997743B1 (en) An audio apparatus and method therefor
EP2891335B1 (en) Reflected and direct rendering of upmixed content to individually addressable drivers
US9299353B2 (en) Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
ES2871224T3 (es) Sistema y método para la generación, codificación e interpretación informática (o renderización) de señales de audio adaptativo
RU2643630C1 (ru) Способ и устройство для рендеринга акустического сигнала и машиночитаемый носитель записи
BR112015004288B1 (pt) sistema para renderizar som com o uso de elementos de som refletidos
WO2014087277A1 (en) Generating drive signals for audio transducers

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B350 Update of information on the portal [chapter 15.35 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 16/05/2014, OBSERVADAS AS CONDICOES LEGAIS.