BR112013033835B1

BR112013033835B1 - Método, aparelho e meio não transitório para autoria e renderização aperfeiçoadas de áudio em 3d

Info

Publication number: BR112013033835B1
Application number: BR112013033835-0A
Authority: BR
Inventors: Nicolas R. Tsingos; Charles Q. Robinson; Jurgen W. Scharpf
Original assignee: Dolby Laboratories Licensing Corporation
Priority date: 2011-07-01
Filing date: 2012-06-27
Publication date: 2021-09-08
Also published as: KR20150018645A; MX2020001488A; CA3025104C; ES2909532T3; KR20230096147A; CN106060757A; TW201316791A; EP4132011A2; BR112013033835A2; EP4135348B1; US20180077515A1; US10609506B2; JP2024156923A; TWI607654B; AU2018204167A1; CA3238161A1; MX349029B; US9204236B2; KR101958227B1; TWI816597B

Abstract

sistema e ferramentas para autoria e renderização aperfeiçoadas de áudio em 3d. a presente invenção refere-se a ferramentas aperfeiçoadas para dados de reprodução de áudio de renderização e de autoria. algumas de tais ferramentas de autoria permitem que dados de reprodução de áudio sejam generalizados para uma variedade ampla de ambientes de reprodução. os dados de reprodução de áudio podem ser de autoria mediante a criação de metadados para objetos de áudio. os metadados podem ser criados com referência a zonas de alto-falante. durante o processo de renderização, os dados de reprodução de áudio podem ser reproduzidos de acordo com o gabarito de alto-falante de reprodução de um ambiente de reprodução particular.

Description

REFERÊNCIA CRUZADA AOS PEDIDOS RELACIONADOS

[0001] Este pedido reivindica prioridade do Pedido Provisório de n° U.S. 61/504,005 depositado em 1 de julho de 2011 e Pedido Provisório de n° U.S. 61/636,102 depositado em 20 de abril 2012, ambos os quais são aqui incorporados a título de referência em sua integridade para todos os fins.

CAMPO DA TÉCNICA

[0002] Esta descrição refere-se à autoria e renderização de dados de reprodução de áudio. Em particular, esta descrição se refere à autoria e renderização de dados de reprodução de áudio para ambientes de reprodução tais como sistemas de reprodução de som de cinema.

ANTECEDENTES

[0003] Desde a introdução de som com filme em 1927, houve uma evolução constante da tecnologia usada para capturar a intenção artística da trilha sonora de filmes cinematográficos e para reproduzi-la em um ambiente de cinema. Na década de 1930, o som sincronizado em disco abriu caminho para som de área variável em filme, que foi adicionalmente aprimorado na década de 1940s com considerações acústicas de cinema e projetos aprimorados de alto-falantes, junto à introdução precoce de gravação de múltiplas faixas e reprodução orientável (com o uso de tons de controle para mover sons). Nas décadas de 1950 e 1960, a segmentação magnética de reprodução de múltiplos canais permitida de filme em cinema, introduzindo em canais surround e até cinco canais de tela em cinemas Premium.

[0004] Na década de 1970, redução de ruído introduzido Dolby, ambos em pós-produção e no filme, junto a um meio de custo-benefício de codificação e distribuição de mixagens com 3 canais de tela e um canal mono surround. A qualidade de som de cinema foi adicionalmente aprimorada na década de 1980 com a redução de ruído de Gravação Espectral (SR) Dolby e programas de certificação tais como THX. Dolby trouxeram som digital ao cinema durante a década de 1990s com um formato de canal 5.1 que fornece canais de tela distintos esquerda, central e direita, distintos, arranjos surround esquerda e direita e um canal de subwoofer para efeitos de baixa frequência. Dolby Surround 7.1, introduzidos em 2010, aumentou o número de canais surround dividindo os canais surround esquerda e direita existentes em quatro "zonas".

[0005] À medida que o número de canais aumenta e a disposições de alto-falantes transita de um arranjo bidimensional (2D) plano a um arranjo tridimensional (3D) incluindo elevação, a tarefa de posicionar e renderizar sons torna-se cada vez mais difícil. Os métodos de autoria e renderização aprimorada de áudio seriam desejáveis.

SUMÁRIO

[0006] Alguns aspectos da matéria descrito nesta descrição podem ser implantados em ferramentas para autoria e renderização de dados de reprodução de áudio. Algumas tais ferramentas de autoria permitem que os dados de reprodução de áudio sejam gerados para uma ampla variedade de ambientes de reprodução. De acordo com algumas tais implantações, dados de reprodução de áudio podem ser iniciados criando-se metadados para objetos de áudio. Os metadados podem ser criados em referência às zonas de alto-falante. Durante o processo de renderização, os dados de reprodução de áudio podem ser produzidos de acordo com a disposição de alto-falante de reprodução de um ambiente de reprodução particular.

[0007] Algumas implantações descritas no presente document fornecem um aparelho que inclui um sistema de interface e um sistema lógico. O sistema lógico pode ser configurado para receber, por meio do sistema de interface, dados de reprodução de áudio que incluem um ou mais objetos de áudio e metadados associados e dados de ambiente de reprodução. Os dados de ambiente de reprodução podem incluir uma indicação de uma série de alto-falantes de reprodução no ambiente de reprodução e uma indicação da localização de cada alto-falante de reprodução dentro do ambiente de reprodução. O sistema lógico pode ser configurado para renderizar os objetos de áudio em um ou mais sinais de alimentação de alto-falante com base, pelo menos em parte, nos metadados associados e nos dados de ambiente de reprodução, em que cada sinal de alimentação de alto-falante corresponde a pelo menos um dos alto-falantes de reprodução dentro do ambiente de reprodução. O sistema lógico pode ser configurado para computar ganhos de alto-falante que correspondem às posições virtuais de alto- falante.

[0008] O ambiente de reprodução pode ser, por exemplo, um ambiente de sistema de som de cinema. O ambiente de reprodução pode ter uma configuração Dolby Surround 5.1, uma Configuração Dolby Surround 7.1 ou uma configuração de som Hamasaki 22.2. Os dados de ambiente de reprodução podem incluir os dados de disposição de alto-falante de reprodução que indicam os locais de alto-falante de reprodução. Os dados de ambiente de reprodução podem incluir dados de disposição de zona de alto-falante de reprodução que indicam áreas de alto-falante de reprodução e locais de alto-falante de reprodução que correspondem às áreas de alto-falante de reprodução.

[0009] Os metadados podem incluir informações para mapear uma posição de objeto de áudio a uma única localização de alto-falante de reprodução. A renderização pode envolver criar um ganho agregado com base em um ou mais dentre uma posição desejada de objeto de áudio, uma distância da posição desejada de objeto de áudio a uma posição de referência, uma velocidade de um objeto de áudio ou um tipo de conteúdo de objeto de áudio. Os metadados podem incluir dados para restringir uma posição de um objeto de áudio a uma curva unidimensional ou uma superfície bidimensional. Os metadados podem incluir dados de trajetória para um objeto de áudio.

[00010] A renderização pode envolver impor restrições de zona de alto-falante. Por exemplo, o aparelho pode incluir um sistema de entrada de usuário. De acordo com algumas implantações, a renderização pode envolver aplicar controle de equilíbrio tela à sala de acordo com dados de controle de equilíbrio tela à sala recebidos do sistema de entrada de usuário.

[00011] O aparelho pode incluir um sistema de exibição. O sistema lógico pode ser configurado para controlar o sistema de exibição para exibir uma vista tridimensional dinâmica do ambiente de reprodução.

[00012] A renderização pode envolver controlar o objeto de áudio espalhado em uma ou mais de três dimensões. A renderização pode envolver blobbing de objeto dinâmico em resposta à sobrecarga de alto- falante. A renderização pode envolver mapear localizações de objeto aos planos de arranjos de alto-falante do ambiente de reprodução.

[00013] O aparelho pode incluir um ou mais meios de armazenamento não transitórios, tais como dispositivos de memória de um sistema de memória. Os dispositivos de memória podem, por exemplo, incluir memória de acesso randômico (RAM), memória somente de leitura (ROM), memória flash, um ou mais discos rígidos, etc. O sistema de interface pode incluir uma interface entre o sistema lógico e um ou mais tais dispositivos de memória. O sistema de interface também pode incluir uma interface de rede.

[00014] Os metadados podem incluir metadados de restrição de zona de alto-falante. O sistema lógico pode ser configurado para atenuar sinais de alimentação de alto-falante selecionados realizando- se as seguintes operações: computar primeiros ganhos que incluem contribuições dos alto-falantes selecionados; computar segundos ganhos que não incluem contribuições dos alto-falantes selecionados; e mesclar os primeiros ganhos com os segundos ganhos. O sistema lógico pode ser configurado para determinar se aplicar regras de posicionamento panorâmico para uma posição de objeto de áudio ou mapear uma posição de objeto de áudio a uma única localização de alto-falante. O sistema lógico pode ser configurado para suavizar transições de ganhos de alto-falante ao transitar de mapear uma posição de objeto de áudio de uma primeira localização única de alto- falante a uma segunda localização única de alto-falante. O sistema lógico pode ser configurado para suavizar transições de ganhos de alto- falante ao transitar entre mapear uma posição de objeto de áudio a uma única localização de alto-falante e aplicar regras de posicionamento panorâmico para a posição de objeto de áudio. O sistema lógico pode ser configurado para computar ganhos de alto-falante para as posições de objeto de áudio ao longo de uma curva unidimensional entre as posições virtuais de alto-falante.

[00015] Alguns métodos descritos no presente documento envolvem receber os dados de reprodução de áudio que incluem um ou mais objetos de áudio e metadados associados e receber os dados de ambiente de reprodução que incluem uma indicação de uma série de alto-falantes de reprodução no ambiente de reprodução. Os dados de ambiente de reprodução podem incluir uma indicação da localização de cada alto-falante de reprodução dentro do ambiente de reprodução. Os métodos podem envolver renderizar os objetos de áudio em um ou mais sinais de alimentação de alto-falante com base, pelo menos em parte, nos metadados associados. Cada sinal de alimentação de alto-falante pode corresponder a pelo menos um dos alto-falantes de reprodução dentro o ambiente de reprodução. O ambiente de reprodução pode ser um ambiente de sistema de som de cinema.

[00016] A renderização pode envolver criar um ganho agregado com base em um ou mais dentre uma posição desejada de objeto de áudio, uma distância da posição desejada de objeto de áudio a uma posição de referência, uma velocidade de um objeto de áudio ou um tipo de conteúdo de objeto de áudio. Os metadados podem incluir dados para restringir uma posição de um objeto de áudio a uma curva unidimensional ou uma superfície bidimensional. A renderização pode envolver impor restrições de zona de alto-falante.

[00017] Algumas implantações podem ser manifestadas em um ou mais meios não transitórios que têm software armazenado nos mesmos. O software pode incluir instruções para controlar um ou mais dispositivos para realizar as seguintes operações: receber os dados de reprodução de áudio que compreendem um ou mais objetos de áudio e metadados associados; receber os dados de ambiente de reprodução que compreendem uma indicação de uma série de alto-falantes de reprodução no ambiente de reprodução e uma indicação da localização de cada alto-falante de reprodução dentro do ambiente de reprodução; e renderizar os objetos de áudio em um ou mais sinais de alimentação de alto-falante com base, pelo menos em parte, nos metadados associados. Cada sinal de alimentação de alto-falante pode corresponder a pelo menos um dos alto-falantes de reprodução dentro do ambiente de reprodução. O ambiente de reprodução pode, por exemplo, ser um ambiente de sistema de som de cinema.

[00018] A renderização pode envolver criar um ganho agregado com base em um ou mais de uma posição desejada de objeto de áudio, uma distância da posição desejada de objeto de áudio a uma posição de referência, uma velocidade de um objeto de áudio ou um tipo de conteúdo de objeto de áudio. Os metadados podem incluir dados para restringir uma posição de um objeto de áudio a uma curva unidimensional ou uma superfície bidimensional. A renderização pode envolver impor restrições de zona de alto-falante. A renderização pode envolver blobbing de objeto dinâmico em resposta à sobrecarga de alto- falante.

[00019] Os dispositivos alternativos e aparelho são descritos no presente documento. Algum tal aparelho pode incluir um sistema de interface, um sistema de entrada de usuário e um sistema lógico. O sistema lógico pode ser configurado para receber dados de áudio por meio do sistema de interface, que recebe uma posição de um objeto de áudio por meio do sistema de entrada de usuário ou do sistema de interface e determina uma posição do objeto de áudio em um espaço tridimensional. A determinação pode envolver restringir a posição a uma curva unidimensional ou uma superfície bidimensional dentro do espaço tridimensional. O sistema lógico pode ser configurado para criar metadados associados ao objeto de áudio com base, pelo menos em parte, na entrada de usuário recebida por meio do sistema de entrada de usuário, sendo que os metadados incluem dados que indicam a posição do objeto de áudio no espaço tridimensional.

[00020] Os metadados podem incluir dados de trajetória que indicam uma posição variável de tempo do objeto de áudio dentro do espaço tridimensional. O sistema lógico pode ser configurado para computar os dados de trajetória de acordo com a entrada de usuário recebida por meio do sistema de entrada de usuário. Os dados de trajetória podem incluir um conjunto de posições dentro do espaço tridimensional em múltiplas instâncias de tempo. Os dados de trajetória podem incluir uma posição inicial, dados de velocidade e dados de aceleração. Os dados de trajetória podem incluir uma posição inicial e uma equação que define as posições no espaço tridimensional e tempos correspondentes.

[00021] O aparelho pode incluir um sistema de exibição. O sistema lógico pode ser configurado para controlar o sistema de exibição para exibir uma trajetória de objeto de áudio de acordo com os dados de trajetória.

[00022] O sistema lógico pode ser configurado para criar metadados de restrição de zona de alto-falante de acordo com a entrada de usuário recebida por meio do sistema de entrada de usuário. Os metadados de restrição de zona de alto-falante podem incluir dados para desativar os alto-falantes selecionados. O sistema lógico pode ser configurado para criar metadados de restrição de zona de alto-falante mapeando-se uma posição de objeto de áudio a um único alto-falante.

[00023] O aparelho pode incluir um sistema de reprodução de som. O sistema lógico pode ser configurado para controlar o sistema de reprodução de som, pelo menos em parte, de acordo com os metadados.

[00024] A posição do objeto de áudio pode ser restrita a uma curva unidimensional. O sistema lógico pode ser adicionalmente configurado para criar posições virtuais de alto-falante ao longo da curva unidimensional.

[00025] Os métodos alternativos são descritos no presente documento. Alguns tais métodos envolvem receber dados de áudio, receber uma posição de um objeto de áudio e determinar uma posição do objeto de áudio em um espaço tridimensional. A determinação pode envolver restringir a posição a uma curva unidimensional ou uma superfície bidimensional dentro do espaço tridimensional. Os métodos podem envolver criar metadados associados ao objeto de áudio baseado, pelo menos em parte, na entrada de usuário.

[00026] Os metadados podem incluir dados que indicam a posição do objeto de áudio no espaço tridimensional. Os metadados podem incluir dados de trajetória que indicam uma posição variável de tempo do objeto de áudio dentro do espaço tridimensional. A criação dos metadados pode envolver criar metadados de restrição de zona de alto- falante, por exemplo, de acordo com a entrada de usuário. Os metadados de restrição de zona de alto-falante podem incluir dados para desativar os alto-falantes selecionados.

[00027] A posição do objeto de áudio pode ser restrita a uma curva unidimensional. Os métodos podem envolver criar posições virtuais de alto-falante ao longo da curva unidimensional.

[00028] Outros aspectos desta descrição podem ser implantados em um ou mais meios não transitórios que têm software armazenado nos mesmos. O software pode incluir instruções para controlar um ou mais dispositivos para realizar as seguintes operações: receber dados de áudio; receber uma posição de um objeto de áudio; e determinar uma posição do objeto de áudio em um espaço tridimensional. A determinação pode envolver restringir a posição a uma curva unidimensional ou uma superfície bidimensional dentro do espaço tridimensional. O software pode incluir instruções para controlar um ou mais dispositivos para criar metadados associados ao objeto de áudio. Os metadados podem ser criados com base, pelo menos em parte, na entrada de usuário.

[00029] Os metadados podem incluir dados que indicam a posição do objeto de áudio no espaço tridimensional. Os metadados podem incluir dados de trajetória que indicam uma posição variável de tempo do objeto de áudio dentro do espaço tridimensional. A criação dos metadados pode envolver criar metadados de restrição de zona de alto- falante, por exemplo, de acordo com a entrada de usuário. Os metadados de restrição de zona de alto-falante podem incluir dados para desativar os alto-falantes selecionados.

[00030] A posição do objeto de áudio pode ser restrita a uma curva unidimensional. O software pode incluir instruções para controlar um ou mais dispositivos para criar posições virtuais de alto-falante ao longo da curva unidimensional.

[00031] Os detalhes de um ou mais implantações da matéria descrita neste relatório descritivo são apresentados nos desenhos anexos e na descrição abaixo. Outros recursos, aspectos e vantagens se tornarão evidentes a partir da descrição, dos desenhos e das concretizações. Observe que as dimensões relativas das Figuras a seguir podem não ser desenhadas em escala.

BREVE DESCRIÇÃO DOS DESENHOS

[00032] A Figura 1 mostra um exemplo de um ambiente de reprodução que tem uma configuração Dolby Surround 5.1.

[00033] A Figura 2 mostra um exemplo de um ambiente de reprodução que tem uma configuração Dolby Surround 7.1.

[00034] A Figura 3 mostra um exemplo de um ambiente de reprodução que tem uma configuração de som surround Hamasaki 22.2.

[00035] A Figura 4A mostra um exemplo de uma interface gráfica de usuário (GUI) que retrata zonas de alto-falante em elevações variadas em um ambiente de reprodução virtual.

[00036] A Figura 4B mostra um exemplo de outro ambiente de reprodução.

[00037] As Figuras 5A a 5C mostram exemplos de respostas de alto- falantes que correspondem a um objeto de áudio que tem uma posição que é restrita a uma superfície bidimensional de um espaço tridimensional.

[00038] As Figuras 5D e 5E mostram exemplos de superfícies bidimensionais às quais um objeto de áudio pode ser restrito.

[00039] A Figura 6A é um fluxograma que destaca um exemplo de um processo de restrição de posições de um objeto de áudio a uma superfície bidimensional.

[00040] A Figura 6B é um fluxograma que destaca um exemplo de um processo de mapeamento de uma posição de objeto de áudio em uma única localização de alto-falante ou uma única zona de alto-falante.

[00041] A Figura 7 é um fluxograma que destaca um processo de estabelecimento e uso de alto-falantes virtuais.

[00042] As Figuras 8A a 8C mostram exemplos de alto-falantes virtuais mapeados aos pontos finais de linha e respostas de alto-falantes correspondentes.

[00043] As Figuras 9A a 9C mostram exemplos de uso de um cabo virtual para mover um objeto de áudio.

[00044] A Figura 10A é um fluxograma que destaca um processo de uso de um cabo virtual para mover um objeto de áudio.

[00045] A Figura 10B é um fluxograma que destaca um processo alternativo de uso de um cabo virtual para mover um objeto de áudio.

[00046] As Figuras 10C a 10E mostram exemplos do processo destacado na Figura 10B.

[00047] A Figura 11 mostra um exemplo de aplicação de restrição de zona de alto-falante em um ambiente de reprodução virtual.

[00048] A Figura 12 é um fluxograma que destaca alguns exemplos de aplicação de regras de restrição de zona de alto-falante.

[00049] As Figuras 13A e 13B mostram um exemplo de uma GUI que pode comutar entre uma vista bidimensional e uma vista tridimensional de um ambiente de reprodução virtual.

[00050] As Figuras 13C-13E mostram combinações de descrições bidimensionais e tridimensionais de ambientes de reprodução.

[00051] A Figura 14A é um fluxograma que destaca um processo de controle de um aparelho para apresentar GUIs tais como aqueles mostrados nas Figuras 13C a 13E.

[00052] A Figura 14B é um fluxograma que destaca um processo de renderização de objetos de áudio para um ambiente de reprodução.

[00053] A Figura 15A mostra um exemplo de um objeto de áudio e largura de objeto de áudio associada em um ambiente de reprodução virtual.

[00054] A Figura 15B mostra um exemplo de um perfil de espalhamento correspondente à largura de objeto de áudio mostrada na Figura 15A.

[00055] A Figura 16 é um fluxograma que destaca um processo de blobbing de objetos de áudio.

[00056] As Figuras 17A e 17B mostram exemplos de um objeto de áudio posicionado em um ambiente de reprodução virtual tridimensional.

[00057] A Figura 18 mostra exemplos de zonas que correspondem a modos de posicionamento panorâmico.

[00058] As Figuras 19A a 19D mostram exemplos de aplicação de técnicas de posicionamento panorâmico de campo próximo e campo distante para objetos de áudio em diferentes localizações.

[00059] A Figura 20 indica zonas de alto-falante de um ambiente de reprodução que pode ser usado em um processo de controle de ajuste de tela para sala.

[00060] A Figura 21 é um diagrama em bloco que fornece exemplos de componentes de um aparelho de autoria e/ou renderização.

[00061] A Figura 22A é um diagrama em bloco que representa alguns componentes que podem ser usados para criação de conteúdo de áudio.

[00062] A Figura 22B é um diagrama em bloco que representa alguns componentes que podem ser usados para reprodução de áudio em um ambiente de reprodução.

[00063] Numerais de referência e designações similares nos vários desenhos indicam os mesmos elementos.

DESCRIÇÃO DAS MODALIDADES EXEMPLIFICATIVAS

[00064] A descrição a seguir é direcionada às determinadas implantações para os propósitos de descrição de alguns aspectos inovadores desta descrição, assim como exemplos de contextos nos quais esses aspectos inovadores podem ser implantados. No entanto, os ensinamentos no presente documento podem ser aplicados de várias formas diferentes. Por exemplo, embora várias implantações tenham sido descritas em termos de ambientes particulares de reprodução, os ensinamentos no presente documento são amplamente aplicáveis a outros ambientes de reprodução conhecidos, assim como ambientes de reprodução que podem ser introduzidos no futuro. De forma similar, enquanto exemplos de interfaces gráfica de usuário (GUIs) são apresentados no presente documento, alguns dos quais fornecem exemplos de localizações de alto-falantes, zonas de alto-falante, etc., outras implantações são contempladas pelos inventores. Ademais, as implantações descritas podem ser implantadas em várias ferramentas de autoria e/ou renderização, que podem ser implantadas em uma variedade de hardware, software, firmware, etc. Consequentemente, os ensinamentos desta descrição não são destinados a serem limitados às implantações mostradas nas Figuras e/ou descritas no presente documento, mas, em vez disso, têm ampla aplicabilidade.

[00065] A Figura 1 mostra um exemplo de um ambiente de reprodução que tem uma configuração Dolby Surround 5.1. Dolby Surround 5.1 foi desenvolvido na década de 1990, porém, sua configuração ainda é amplamente empregada em ambientes de sistema de som de cinema. Um projetor 105 pode ser configurado para projetar imagens de vídeo, por exemplo, para um filme, na tela 150. Os dados de reprodução de áudio podem ser sincronizados com as imagens de vídeo e processados pelo processador de som 110. Os amplificadores de potência 115 podem fornecer sinais de alimentação de alto-falante aos alto-falantes do ambiente de reprodução 100.

[00066] A configuração Dolby Surround 5.1 inclui arranjo surround esquerdo 120, arranjo surround direito 125, cada dos quais é acionado em série por um único canal. A configuração Dolby Surround 5.1 também inclui canais separados para o canal de tela esquerdo 130, o canal de tela central 135 e o canal de tela direito 140. Um canal separado para o subwoofer 145 é fornecido para os efeitos de baixa frequência (LFE).

[00067] Em 2010, a Dolby forneceu aperfeiçoamentos ao som de cinema digital introduzindo o Dolby Surround 7.1. A Figura 2 mostra um exemplo de um ambiente de reprodução que tem uma configuração Dolby Surround 7.1. Um projetor digital 205 pode ser configurado para receber dados de vídeo digital e para projetar imagens de vídeo na tela 150. Os dados de reprodução de áudio podem ser processados pelo processador de som 210. Os amplificadores de potência 215 podem fornecer sinais de alimentação de alto-falante aos alto-falantes do ambiente de reprodução 200.

[00068] A configuração Dolby Surround 7.1 inclui o arranjo surround de lado esquerdo 220 e o arranjo surround de lado direito 225, cada um dos quais pode ser direcionado por um único canal. Similar ao Dolby Surround 5.1, a configuração Dolby Surround 7.1 inclui canais separados para o canal de tela esquerdo 230, o canal de tela central 235, o canal de tela direito 240 e o subwoofer 245. No entanto, Dolby Surround 7.1 aumenta o número de canais surround dividindo-se os canais surround esquerdo e direito do Dolby Surround 5.1 em quatro zonas: adicionalmente ao arranjo surround de lado esquerdo 220 e o arranjo surround de lado direito 225, canais separados são incluídos para os alto-falantes surround traseiros esquerdos 224 e os alto-falantes surround traseiros direitos 226. O aumento do número de zonas surround dentro do ambiente de reprodução 200 pode aprimorar significativamente a localização do som.

[00069] Em um esforço para criar um ambiente mais imersivo, alguns ambientes de reprodução podem ser configurados com elevados números de alto-falantes, acionados por elevados números de canais. Ademais, alguns ambientes de reprodução podem incluir alto-falantes empregados em várias elevações, alguns dos quais podem estar acima de uma área de assentamento do ambiente de reprodução.

[00070] A Figura 3 mostra um exemplo de um ambiente de reprodução que tem uma configuração de som surround Hamasaki 22.2. Hamasaki 22.2 foi desenvolvido nos Laboratórios de Pesquisa de Ciência e Tecnologia NHK (NHK Science & Technology Research Laboratories) No Japão à medida que o componente de som surround de Televisão de Ultra Alta Definição. Hamasaki 22.2 fornece 24 canais de alto-falante, que podem ser usados para acionar alto-falantes dispostos em três camadas. A camada de alto-falante superior 310 do ambiente de reprodução 300 pode ser acionada por 9 canais. A camada de alto-falante intermediária 320 pode ser acionada por 10 canais. A camada de alto-falante inferior 330 pode ser acionada por 5 canais, dois dos quais são para os subwoofers 345a e 345b.

[00071] Consequentemente, a tendência moderna é incluir não somente mais alto-falantes e mais canais, mas também incluir alto- falantes em diferentes alturas. À medida que o número de canais aumenta e a disposição de alto-falante transita de um arranjo 2D a um arranjo 3D, as tarefas de posicionar e renderizar sons torna-se crescentemente difícil.

[00072] Esta descrição fornece várias ferramentas, assim como interfaces de usuário relacionadas, que aumentam a funcionalidade e/ou reduzem a complexidade de autoria para um sistema de som de áudio 3D.

[00073] A Figura 4A mostra um exemplo de uma interface gráfica de usuário (GUI) que retrata zonas de alto-falante em elevações variadas em um ambiente de reprodução virtual. A GUI 400 pode, por exemplo, ser exibida em um dispositivo de exibição de acordo com as instruções de um sistema lógico, de acordo com os sinais recebidos dos dispositivos de entrada de usuário, etc. Alguns tais dispositivos são descritos abaixo em referência à Figura 21.

[00074] Conforme usado no presente documento em referência aos ambientes de reprodução virtuais tais como o ambiente de reprodução virtual 404, o termo "zona de alto-falante" refere-se, em geral, a uma construção lógica que pode ou não ter uma correspondência de um para um com um alto-falante de reprodução de um ambiente de reprodução real. Por exemplo, uma "localização de zona de alto-falante" pode ou não corresponder a uma localização particular de alto-falante de reprodução de um ambiente de reprodução de cinema. Em vez disso, o termo "localização de zona de alto-falante" pode se referir, em geral, a uma zona de um ambiente de reprodução virtual. Em algumas implantações, uma zona de alto-falante de um ambiente de reprodução virtual pode corresponder a um alto-falante virtual, por exemplo, por meio do uso de tecnologia de virtualização tal como a Dolby Headphone,TM (algumas vezes denominada como Mobile Surround(TM)), que cria um ambiente de som surround virtual em tempo real com o uso de um conjunto de fones de ouvido estéreo de dois canais. Na GUI 400, há sete zonas de alto-falante 402a em uma primeira elevação e duas zonas de alto-falante 402b em uma segunda elevação, criando um total de nove zonas de alto-falante no ambiente de reprodução virtual 404. Nesse exemplo, as zonas de alto-falante 1-3 estão na área frontal 405 do ambiente de reprodução virtual 404. A área frontal 405 pode corresponder, por exemplo, a uma área de um ambiente de reprodução de cinema no qual uma tela 150 está localizada, a uma área de uma casa na qual uma tela de televisão está localizada, etc.

[00075] Aqui, a zona de alto-falante 4 corresponde geralmente a alto- falantes na área esquerda 410 e a zona de alto-falante 5 corresponde a alto-falantes na área direita 415 do ambiente de reprodução virtual 404. A zona de alto-falante 6 corresponde a uma área traseira esquerda 412 e a zona de alto-falante 7 corresponde a uma área traseira direita 414 do ambiente de reprodução virtual 404. A zona de alto-falante 8 corresponde a alto-falantes em uma área superior 420a e a zona de alto-falante 9 corresponde a alto-falantes em uma área superior 420b, que podem ser uma área de teto virtual tais como uma área do teto virtual 520 mostrado nas Figuras 5D e 5E. Consequentemente e conforme descrito em mais detalhes abaixo, as localizações de zonas de alto-falante 1-9 que são mostradas na Figura 4A podem ou não corresponder às localizações de alto-falantes de reprodução de um ambiente de reprodução real. Ademais, outras implantações podem incluir mais ou menos zonas de alto-falante e/ou elevações.

[00076] Em várias implantações descritas no presente documento, uma interface de usuário, tal como a GUI 400 pode ser usada como parte de uma ferramenta de autoria e/ou uma ferramenta de renderização. Em algumas implantações, a ferramenta de autoria e/ou a ferramenta de renderização podem ser implantadas por meio de software armazenado em um ou mais meios não transitórios. A ferramenta de autoria e/ou ferramenta de renderização podem ser implantadas (pelo menos em parte) por hardware, firmware, etc., tais como o sistema lógico e outros dispositivos descritos abaixo em referência à Figura 21. Em algumas implantações de autoria, uma ferramenta de autoria associada pode ser usada para criar metadados para dados de áudio associados. Os metadados podem, por exemplo, incluir dados que indicam a posição e/ou trajetória de um objeto de áudio em um espaço tridimensional, dados de restrição de zona de alto- falante, etc. Os metadados podem ser criados em relação às zonas de alto-falante 402 do ambiente de reprodução virtual 404, ao invés de em relação a uma particular disposição de alto-falante de um ambiente de reprodução real. Uma ferramenta de renderização pode receber dados e metadados de áudio associados e pode computar ganhos de áudio e sinais de alimentação de alto-falante para um ambiente de reprodução. Tais ganhos de áudio e sinais de alimentação de alto-falante podem ser computados de acordo com um processo de posicionamento panorâmico de amplitude, que pode criar uma percepção de que um som vem de uma posição P no ambiente de reprodução. Por exemplo, os sinais de alimentação de alto-falante podem ser fornecidos aos alto- falantes de reprodução 1 através de N do ambiente de reprodução de acordo com a equação a seguir: xi(t) = gix(t), i = 1, . . . N (Equação 1)

[00077] Na Equação 1, Xj(t) representa o sinal de alimentação de alto-falante a ser aplicado ao alto-falante i, gi representa o fator de ganho do canal correspondente, x(t) representa o sinal de áudio e t representa o tempo. Os fatores de ganho podem ser determinados, por exemplo, de acordo com os métodos de posicionamento panorâmico de amplitude descrito na Seção 2, páginas 3 e 4 de V. Pulkki, Compensating Displacement of Amplitude-Panned Virtual Sources (Sociedade de Engenharia Acústica (AES) Conferência Internacional de Acústica Virtual, sintética e de Entretenimento), que é aqui incorporada a título de referência. In some implantações, os ganhos podem ser de frequências dependentes. Em algumas implantações, um atraso de tempo pode ser introduzido substituindo-se x( t) por x( t-Δt).

[00078] Em algumas implantações de renderização, os dados de reprodução de áudio criados em referência às zonas de alto-falante 402 podem ser mapeados às localizações de alto-falantes de uma ampla faixa de ambientes de reprodução, que podem estar em uma configuração Dolby Surround 5.1, uma configuração Dolby Surround 7.1, uma configuração Hamasaki 22.2 ou outra configuração. Por exemplo, em referência à Figura 2, uma ferramenta de renderização pode mapear os dados de reprodução de áudio para zonas de alto- falante 4 e 5 ao arranjo surround de lado esquerdo 220 e ao arranjo surround de lado direito 225 de um ambiente de reprodução que tem uma configuração Dolby Surround 7.1. Os dados de reprodução de áudio para as zonas de alto-falante 1, 2 e 3 podem ser mapeados ao canal de tela esquerdo 230, o canal de tela direito 240 e ao canal de tela central 235, respectivamente. Os dados de reprodução de áudio para as zonas de alto-falante 6 e 7 podem ser mapeados aos alto-falantes surround traseiros esquerdos 224 e aos alto-falantes surround traseiros direitos 226.

[00079] A Figura 4B mostra um exemplo de outro ambiente de reprodução. Em algumas implantações, uma ferramenta de renderização pode mapear os dados de reprodução de áudio para as zonas de alto-falante 1, 2 e 3 aos alto-falantes de tela 455 correspondentes do ambiente de reprodução 450. Um ferramenta de renderização pode mapear os dados de reprodução de áudio para as zonas de alto-falante 4 e 5 ao arranjo surround de lado esquerdo 460 e ao arranjo surround de lado direito 465 e pode mapear os dados de reprodução de áudio para as zonas de alto-falante 8 e 9 aos alto- falantes superiores esquerdos 470a e alto-falantes superiores direitos 470b. Os dados de reprodução de áudio para as zonas de alto-falante 6 e 7 podem ser mapeados aos alto-falantes surround traseiros esquerdos 480a e alto-falantes surround traseiros direitos 480b.

[00080] Em algumas implantações de autoria, uma ferramenta de autoria pode ser usada para criar metadados para objetos de áudio. Conforme usado no presente documento, o termo "objeto de áudio"pode se referir a uma corrente de dados e metadados de áudio associados. Os metadados indicam tipicamente a posição 3D do objeto, restrições de renderização assim como tipo de conteúdo (por exemplo, diálogo, efeitos, etc.). Dependendo da implantação, os metadados podem incluir outros tipos de dados, tais como dados de largura, dados de ganho, dados de trajetória, etc. alguns objetos de áudio podem ser estáticos, enquanto outros se movem. Os detalhes de objeto de áudio podem ser autorados ou renderizados de acordo com os metadados associados que, entre outras coisas, podem indicar a posição do objeto de áudio em um espaço tridimensional em um dado ponto de tempo. Quando objetos de áudio são monitorados ou reproduzidos em um ambiente de reprodução, os objetos de áudio podem ser renderizados de acordo com os metadados posicionais com o uso dos alto-falantes de reprodução que estão presentes no ambiente de reprodução, ao invés de serem liberados a um canal físico predeterminado, como é o caso com sistemas tradicionais baseados em canal tais como Dolby 5.1 e Dolby 7.1.

[00081] Várias ferramentas de autoria e renderização são descritos no presente documento em referência a uma GUI que é substancialmente a mesma GUI 400. No entanto, várias outras interfaces de usuário, incluindo, porém, sem limitação, GUIs, podem ser usadas em associação a essas ferramentas de autoria e renderização. Algumas tais ferramentas podem simplificar o processo de autoria aplicando-se vários tipos de restrições. Algumas implantações serão agora descritas em referência às Figuras 5A et seq.

[00082] As Figuras 5A a 5C mostram exemplos de respostas de alto- falantes que correspondem a um objeto de áudio que tem uma posição que é restrita a uma superfície bidimensional de um espaço tridimensional, que é um hemisfério nesse exemplo. Nesses exemplos, as respostas de alto-falantes foram computadas por um renderizador que assume uma configuração de 9 alto-falantes, com cada alto-falante correspondendo a uma das zonas de alto-falante 1 a 9. No entanto, conforme observado em outro lugar no presente documento, pode não haver geralmente um mapeamento de um para um entre as zonas de alto-falante de um ambiente de reprodução virtual e alto-falantes de reprodução em um ambiente de reprodução. Primeiramente, em referência à Figura 5 A, o objeto de áudio 505 é mostrado em uma localização na porção frontal esquerda do ambiente de reprodução virtual 404. Consequentemente, o alto-falante correspondente à zona de alto-falante 1 indica um ganho substancial e os alto-falantes correspondentes às zonas de alto-falante 3 e 4 indicam ganhos moderados.

[00083] Nesse exemplo, a localização do objeto de áudio 505 pode ser mudada colocando-se um cursor 510 no objeto de áudio 505 e "arrastando" o objeto de áudio 505 a uma localização desejada no plano x,y do ambiente de reprodução virtual 404. À medida que o objeto é arrastado em direção ao meio do ambiente de reprodução, o mesmo também é mapeado à superfície de um hemisfério e sua elevação aumenta. Aqui, os aumentos na elevação do objeto de áudio 505 são indicados por um aumento no diâmetro do círculo que representa o objeto de áudio 505: conforme mostrado nas Figuras 5B e 5C, à medida que o objeto de áudio 505 é arrastado ao centro de topo do ambiente de reprodução virtual 404, o objeto de áudio 505 aparece crescentemente maior. Alternativa ou adicionalmente, a elevação do objeto de áudio 505 pode ser indicada por mudanças de cor, brilho, uma indicação de elevação numérica, etc. Quando o objeto de áudio 505 é posicionado no centro de topo do ambiente de reprodução virtual 404, conforme mostrado na Figura 5C, os alto-falantes correspondentes às zonas de alto-falante 8 e 9 indicam ganhos substanciais e os outros alto- falantes indicam pouco ou nenhum.

[00084] Nessa implantação, a posição do objeto de áudio 505 é restrita a uma superfície bidimensional, tal como uma superfície esférica, uma superfície elíptica, uma superfície cônica, uma superfície cilíndrica, uma cunha, etc. As Figuras 5D e 5E mostram exemplos de superfícies bidimensionais às quais um objeto de áudio pode ser restrito. As Figuras 5D e 5E são vistas em corte transversal através do ambiente de reprodução virtual 404, com a área frontal 405 mostrada à esquerda. Nas Figuras 5D e 5E, os valores y do eixo geométrico y-z aumentam na direção da área frontal 405 do ambiente de reprodução virtual 404, para reter consistência com as orientações dos eixos geométricos x-y mostrado nas Figuras 5A a 5C.

[00085] No exemplo mostrado na Figura 5D, a superfície bidimensional 515a é uma seção de um elipsoide. No exemplo mostrado na Figura 5E, a superfície bidimensional 515b é uma seção de uma cunha. No entanto, os formatos, orientações e posições das superfícies bidimensionais 515 mostrado nas Figuras 5D e 5E são meramente exemplos. Em implantações alternativas, pelo menos uma porção da superfície bidimensional 515 pode se estender fora do ambiente de reprodução virtual 404. Em algumas tais implantações, a superfície bidimensional 515 pode se estender acima do teto virtual 520. Consequentemente, o espaço tridimensional dentro do qual a superfície bidimensional 515 se estende não é necessariamente coextensivo com o volume do ambiente de reprodução virtual 404. Em ainda outras implantações, um objeto de áudio pode ser restrito a recursos unidimensionais tais como curvas, linhas retas, etc.

[00086] A Figura 6A é um fluxograma que destaca um exemplo de um processo de restrição de posições de um objeto de áudio a uma superfície bidimensional. Assim como com outros fluxogramas que são fornecidos no presente documento, as operações do processo 600 não são necessariamente realizadas na ordem mostrada. Ademais, o processo 600 (e outros processos fornecidos no presente documento) pode incluir mais ou menos operações do que aquelas que são indicadas nos desenhos e/ou descritas. Nesse exemplo, os blocos 605 a 622 são realizados por uma ferramenta de autoria e os blocos 624 a 630 são realizados por uma ferramenta de renderização. A ferramenta de autoria e a ferramenta de renderização podem ser implantadas em um único aparelho ou em mais do que um aparelho. Embora a Figura 6 A (e outros fluxogramas fornecidos no presente documento) possa criar a impressão de que os processos de autoria e renderização são realizados de maneira sequencial, em muitas implantações, os processos de autoria e renderização são realizados substancialmente ao mesmo tempo. Os processos de autoria e processos de renderização podem ser interativos. Por exemplo, os resultados de uma operação de autoria podem ser enviados à ferramenta de renderização, os resultados correspondentes da ferramenta de renderização podem ser avaliados por um usuário, que pode realizar autoria adicional com base nesses resultados, etc.

[00087] No bloco 605, uma indicação é recebida de que uma posição de objeto de áudio deve ser restrita a uma superfície bidimensional. A indicação pode, por exemplo, ser recebida por um sistema lógico de um aparelho que é configurado para fornecer ferramentas de autoria e/ou renderização. Assim como com outras implantações descritas no presente documento, o sistema lógico pode operar de acordo com as instruções de software armazenadas em um meio não transitório, de acordo com firmware, etc. A indicação pode ser um sinal de um dispositivo de entrada de usuário (tal como uma tela sensível ao toque, um mouse, uma trackball, um dispositivo de reconhecimento de gesto, etc.) em resposta à entrada de um usuário.

[00088] No bloco opcional 607, os dados de áudio são recebidos. O bloco 607 é opcional nesse exemplo, à medida que os dados de áudio também podem seguir diretamente a um renderizador de outra fonte (por exemplo, um console de mixagem) que é sincronizado por tempo à ferramenta de autoria de metadados. Em algumas tais implantações, um mecanismo implícito pode existir para atrelar cada corrente de dados a uma corrente de metadados de chegada correspondente para formar um objeto de áudio. Por exemplo, a corrente de metadados pode conter um identificador para o objeto de áudio que o mesmo representa, por exemplo, um valor numérico de 1 a N. Se o aparelho de renderização é configurado com entradas de áudio que também são numeradas de 1 a N, a ferramenta de renderização pode assumir automaticamente que um objeto de áudio seja formado pela corrente de metadados identificada com um valor numérico (por exemplo, 1) e os dados de áudio recebidos na primeira entrada de áudio. De forma similar, qualquer corrente de metadados identificada como o número 2 pode formar um objeto com o áudio recebido no segundo canal de entrada de áudio. Em algumas implantações, o áudio e os metadados podem ser pré-empacotados pela ferramenta de autoria para formar objetos de áudio e os objetos de áudio podem ser fornecidos à ferramenta de renderização, por exemplo, enviados a uma rede como pacotes de TCP/IP.

[00089] Em implantações alternativas, a ferramenta de autoria pode enviar somente os metadados na rede e a ferramenta de renderização pode receber áudio de outra fonte (por exemplo, por meio de uma corrente de modulação de código de pulso (PCM), por meio de áudio análogo, etc.). Em tais implantações, a ferramenta de renderização pode ser configurada para agrupar os dados e metadados de áudio para formar os objetos de áudio. Os dados de áudio podem ser, por exemplo, recebidos pelo sistema lógico por meio de uma interface. A interface pode ser, por exemplo, uma interface de rede, uma interface de áudio (por exemplo, uma interface configurada para comunicação por meio do padrão AES3 desenvolvido pela Sociedade de Engenharia Acústica e a União Europeia de Radiodifusão, também conhecida como AES/EBU, por meio do protocolo Interface Digital de Áudio Multicanal (MADI), por meio de sinais análogos, etc.) ou uma interface entre o sistema lógico e um dispositivo de memória. Nesse exemplo, os dados recebidos pelo renderizador incluem pelo menos um objeto de áudio.

[00090] No bloco 610, as coordenadas (x,y) ou (x,y,z) de uma posição de objeto de áudio são recebidas. O bloco 610 pode, por exemplo, envolver receber uma posição inicial do objeto de áudio. O bloco 610 também pode envolver receber uma indicação de que um usuário posicionou ou reposicionou o objeto de áudio, por exemplo, conforme descrito acima em referência às Figuras 5A-5C. As coordenadas do objeto de áudio são mapeadas a uma superfície bidimensional no bloco 615. A superfície bidimensional pode ser similar a uma daquelas descritas acima em referência às Figuras 5D e 5E ou a mesma pode ser uma superfície bidimensional diferente. Nesse exemplo, cada ponto do plano x-y será mapeado a um único valor z, então o bloco 615 envolve mapear as coordenadas x e y recebidas no bloco 610 a um valor de z. Em outras implantações, diferentes processos de mapeamento e/ou sistemas de coordenada podem ser usados. O objeto de áudio pode ser exibido (bloco 620) na localização (x,y,z) que é determinada no bloco 615. Os dados e metadados de áudio, que incluem a localização (x,y,z) mapeada que é determinada no bloco 615, podem ser armazenados no bloco 621. Os dados e metadados de áudio podem ser enviados a uma ferramenta de renderização (bloco 622). Em algumas implantações, os metadados podem ser enviados de forma contínua enquanto algumas operações de autoria são realizadas, por exemplo, enquanto o objeto de áudio é posicionado, restrito, exibido na GUI 400, etc.

[00091] No bloco 623, é determinado se o processo de autoria continuará. Por exemplo, o processo de autoria pode terminar (bloco 625) mediante recebimento de entrada de uma interface de usuário que indica que um usuário não deseja mais restringir as posições de objeto de áudio a uma superfície bidimensional. De outro modo, o processo de autoria pode continuar, por exemplo, revertendo ao bloco 607 ou bloco 610. Em algumas implantações, as operações de renderização podem continuar se o processo de autoria continua ou não. Em algumas implantações, os objetos de áudio podem ser registrados no disco na plataforma de autoria e então reproduzidos de um processador de som dedicado ou servidor de cinema conectado a um processador de som, por exemplo, um processador de som similar ao processador de som 210 da Figura 2, para fins de exibição.

[00092] Em algumas implantações, a ferramenta de renderização pode ser o software que é executado em um aparelho que é configurado para fornecer a funcionalidade de autoria. Em outras implantações, a ferramenta de renderização pode ser fornecida em outro dispositivo. O tipo de protocolo de comunicação usado para comunicação entre a ferramenta de autoria e a ferramenta de renderização pode variar de acordo como se ambas as ferramentas são executadas no mesmo dispositivo ou se as mesmas se comunicam em uma rede.

[00093] No bloco 626, os dados e metadados de áudio (incluindo as posiões (x,y,z) determinadas no bloco 615) são recebidos pela ferramenta de renderização. Em implantações alternativas, os dados e metadados de áudio podem ser recebidos separadamente e interpretados pela ferramenta de renderização como um objeto de áudio através de um mecanismo implícito. Conforme observado acima, por exemplo, uma corrente de metadados pode conter um código de identificação de objeto de áudio (por exemplo, 1,2,3, etc.) e pode ser fixado respectivamente com a primeira, segunda e terceira entradas de áudio (isto é, conexão de áudio digital ou análogo) no sistema de renderização para formar um objeto de áudio que pode ser renderizado aos alto-falantes

[00094] Durante as operações de renderização do processo 600 (e outras operações de renderização descritas no presente documento, as Equações de ganho de posicionamento panorâmico podem ser aplicadas de acordo com a disposição de alto-falante de reprodução de um ambiente de reprodução particular. Consequentemente, o sistema lógico da ferramenta de renderização pode receber dados de ambiente de reprodução que compreendem uma indicação de uma série de alto- falantes de reprodução no ambiente de reprodução e uma indicação da localização de cada alto-falante de reprodução dentro do ambiente de reprodução. Esses dados podem ser recebidos, por exemplo, acessando-se uma estrutura de dados que é armazenada em uma memória acessível pelo sistema lógico ou recebida por meio de um sistema de interface.

[00095] Nesse exemplo, as equações de ganho de posicionamento panorâmico são aplicadas para as posições (x,y,z) para determinar valores de ganho (bloco 628) para se aplicarem aos dados de áudio (bloco 630). Em algumas implantações, os dados de áudio que foram ajustados no nível em resposta aos valores de ganho podem ser reproduzidos pelos alto-falantes de reprodução, por exemplo, por alto- falantes de fones de ouvido (ou outros alto-falantes) que são configurados para comunicação com um sistema lógico da ferramenta de renderização. Em algumas implantações, os locais de alto-falante de reprodução podem corresponder às localizações das zonas de alto- falante de um ambiente de reprodução virtual, tais como o ambiente de reprodução virtual 404 descrito acima. As respostas de alto-falantes correspondentes podem ser exibidas em um dispositivo de exibição, por exemplo, conforme mostrado nas Figuras 5A a 5C.

[00096] No bloco 635, é determinado se o processo continuará. Por exemplo, o processo pode terminar (bloco 640) mediante recebimento de entrada de uma interface de usuário que indica que um usuário não deseja mais continuar o processo de renderização. De outro modo, o processo pode continuar, por exemplo, revertendo ao bloco 626. Se o sistema lógico recebe uma indicação der que o usuário deseja reverter ao processo de autoria correspondente, o processo 600 pode reverter ao bloco 607 ou bloco 610.

[00097] Outras implantações podem envolver impor vários outros tipos de restrições e criar outros tipos de metadados de restrição para objetos de áudio. A Figura 6B é um fluxograma que destaca um exemplo de um processo de mapeamento de uma posição de objeto de áudio em uma única localização de alto-falante. Esse processo também pode ser denominado no presente documento como "alinhamento." No bloco 655, uma indicação é recebida der que uma posição de objeto de áudio pode ser alinhada a uma única localização de alto-falante ou uma única zona de alto-falante. Nesse exemplo, a indicação é que a posição de objeto de áudio será alinhada a uma única localização de alto-falante, quando apropriado. A indicação pode, por exemplo, ser recebida por um sistema lógico de um aparelho que é configurado para fornecer ferramentas de autoria. A indicação pode corresponder com entrada recebida de um dispositivo de entrada de usuário. No entanto, a indicação também pode corresponder com uma categoria do objeto de áudio (por exemplo, as um som de bala, uma vocalização, etc.) e/ou uma largura do objeto de áudio. As informações relacionadas à categoria e/ou largura podem, por exemplo, ser recebidas como metadados para o objeto de áudio. Em tais implantações, o bloco 657 pode ocorrer antes do bloco 655.

[00098] No bloco 656, os dados de áudio são recebidos. As coordenadas de uma posição de objeto de áudio são recebidas no bloco 657. Nesse exemplo, a posição de objeto de áudio é exibida (bloco 658) de acordo com as coordenadas recebidas no bloco 657. Os metadados que incluem as coordenadas de objeto de áudio e um indicador de alinhamento, que indicam a funcionalidade de alinhamento, são salvos no bloco 659. Os dados e metadados de áudio são enviados pela ferramenta de autoria a uma ferramenta de renderização (bloco 660).

[00099] No bloco 662, é determinado se o processo de autoria continuará. Por exemplo, o processo de autoria pode terminar (bloco 663) mediante recebimento de entrada de uma interface de usuário que indica que um usuário não deseja mais alinhar as posições de objeto de áudio a uma localização de alto-falante. De outro modo, o processo de autoria pode continuar, por exemplo, revertendo ao bloco 665. Em algumas implantações, as operações de renderização podem continuar se o processo de autoria continua ou não.

[000100] Os dados e metadados de áudio enviados pela ferramenta de autoria são recebidos pela ferramenta de renderização no bloco 664. No bloco 665, é determinado (por exemplo, pelo sistema lógico) alinhar a posição de objeto de áudio a uma localização de alto-falante. Essa determinação pode ser baseada, pelo menos em parte, na distância entre a posição de objeto de áudio e a localização mais próxima de alto- falante de reprodução de um ambiente de reprodução.

[000101] Nesse exemplo, se alinhar a posição de objeto de áudio para uma localização de alto-falante for determinado no bloco 665, a posição de objeto de áudio será mapeada para uma localização de alto-falante no bloco 670, geralmente o mais próximo à posição pretendida (x, y, x) recebida para o objeto de áudio. Nesse caso, o ganho para dados de áudio reproduzidos através dessa localização de alto-falante será 1,0, enquanto que o ganho para dados de áudio reproduzidos por outros alto-falantes será zero. Em implantações alternativas, a posição de objeto de áudio pode ser mapeada para um grupo de locais de alto- falante no bloco 670.

[000102] Por exemplo, em relação novamente à Figura 4B, o bloco 670 pode envolver alinhamento da posição do objeto de áudio a um dentre os alto-falantes suspensos da esquerda 470a.

[000103] De modo alternativo, o bloco 670 pode envolver um alinhamento da posição do objeto de áudio a um único alto-falante e a alto-falantes vizinhos, por exemplo, 1 ou 2 alto-falantes vizinhos. Consequentemente, os metadados correspondentes podem se aplicar a um pequeno grupo de alto-falantes de reprodução e/ou a um alto- falante de reprodução individual.

[000104] No entanto, se for determinado no bloco 665 que a posição de objeto de áudio não será alinhada a uma localização de alto-falante, por exemplo, se isso pode resultar em uma grande discrepância de posição em relação à posição original pretendida recebida para o objeto, serão aplicadas regras de posicionamento panorâmico (bloco 675). As regras de posicionamento panorâmico podem ser aplicadas de acordo com a posição de objeto de áudio, assim como outras características do objeto de áudio (tais como largura, volume, etc.).

[000105] Os dados de ganho determinados no bloco 675 podem ser aplicados aos dados de áudio no bloco 681 e o resultado pode ser salvo. Em algumas implantações, os dados de áudio resultantes podem ser reproduzidos através de alto-falantes que são configurados para uma comunicação com o sistema lógico. Se for determinado no bloco 685 que o processo 650 irá continuar, o processo 650 pode reverter para o bloco 664 para continuar as operações de renderização. De modo alternativo, o processo 650 pode reverter para o bloco 655 para retomar as operações de autoria.

[000106] O processo 650 pode envolver vários tipos de operações de suavização. Por exemplo, o sistema lógico pode ser configurado para suavizar as transições nos ganhos aplicados a dados de áudio quando transiciona de mapear uma posição de objeto de áudio de uma primeira localização de único alto-falante para uma segunda localização de único alto-falante. Em relação novamente à Figura 4B, se a posição do objeto de áudio foi inicialmente mapeada para um dentre os alto-falantes suspensos da esquerda 470a e posteriormente mapeada para um dentre os alto-falantes surround traseiros da direita 480b, o sistema lógico pode ser configurado para suavizar a transição entre os alto- falantes de maneira que o objeto de áudio não pareça "pular" repentinamente de um alto-falante (ou zona de alto-falante) para outro. Em algumas implantações, a suavização pode ser implantada de acordo com um parâmetro de taxa de crossfade.

[000107] Em algumas implantações, o sistema lógico pode ser configurado para suavizar as transições nos ganhos aplicados a dados de áudio quando transiciona entre mapear uma posição de objeto de áudio para um único local de alto-falante e aplicar regras de posicionamento panorâmico para a posição de objeto de áudio. Por exemplo, se foi subsequentemente determinado no bloco 665 que a posição do objeto de áudio foi movida para uma posição que foi determinada como sendo muito longe do alto-falante mais próximo, as regras de posicionamento panorâmico para a posição de objeto de áudio podem ser aplicadas no bloco 675. No entanto, quando se transiciona de travamento para posicionamento panorâmico (ou vice- versa), o sistema lógico pode ser configurado para suavizar as transições nos ganhos aplicados a dados de áudio. O processo pode terminar no bloco 690, por exemplo, mediante um recibo de uma entrada correspondente de uma interface de usuário.

[000108] Algumas implantações alternativas podem envolver criar restrições lógicas. Em alguns casos, por exemplo, um mixer de som pode desejar um controle mais explícito sobre o conjunto de alto- falantes que é usado durante uma operação de posicionamento panorâmico em particular. Algumas implantações permitem que um usuário gere "mapeamentos lógicos uni ou bidimensionais entre conjuntos de alto-falantes e uma interface de posicionamento panorâmico.

[000109] A Figura 7 é um fluxograma que destaca um processo de estabelecer e usar alto-falantes virtuais. As Figuras 8A a 8C mostram exemplos de alto-falantes virtuais mapeados para alinhar respostas de pontos finais e de zona de alto-falante correspondentes. Em relação primeiro ao processo 700 da Figura 7, uma indicação é recebida no bloco 705 para criar alto-falantes virtuais. A indicação pode ser recebida, por exemplo, por um sistema lógico de um aparelho de autoria e pode corresponder a uma entrada recebida de um dispositivo de entrada de usuário.

[000110] No bloco 710, uma indicação de uma localização de alto- falante virtual é recebida. Por exemplo, em relação à Figura 8A, um usuário pode usar um dispositivo de entrada de usuário para posicionar o cursor 510 na posição do alto-falante virtual 805a e para selecionar a mesma localização, por exemplo, por meio de um clique de mouse. No bloco 715, é determinado (por exemplo, de acordo com uma entrada de usuário) que alto-falantes virtuais adicionais serão selecionados nesse exemplo. O processo reverte para o bloco 710 e o usuário seleciona a posição do alto-falante virtual 805b, mostrada na Figura 8A, nesse exemplo.

[000111] Nesse caso, o usuário apenas deseja estabelecer dois locais de alto-falante virtual. Portanto, no bloco 715, é determinado (por exemplo, de acordo com uma entrada de usuário) que nenhum alto- falante virtual será selecionado. Uma linha poligonal 810 pode ser exibida, conforme mostrado na Figura 8A, de modo a conectar as posições do alto-falante virtual 805a e 805b. Em algumas implantações, a posição do objeto de áudio 505 será restrita à linha poligonal 810. Em algumas implantações, a posição do objeto de áudio 505 pode ser restrita a uma curva paramétrica. Por exemplo, um conjunto de pontos de controle pode ser fornecido de acordo com uma entrada de usuário e um algoritmo de ajuste de curva, tal como um spline, pode ser usado para determinar a curva paramétrica. No bloco 725, é recebida uma indicação de uma posição de objeto de áudio ao longo da linha poligonal 810. Em algumas tais implantações, a posição será indicada como um valor em escala entre zero e um. No bloco 725, as coordenadas (x, y, z) do objeto de áudio e a linha poligonal definida pelos alto-falantes virtuais podem ser exibidas. Os dados de áudio e os metadados associados, que inclui a posição em escala e as coordenadas (x, y, z) dos alto- falantes virtuais obtidas, podem ser exibidos. (bloco 727). Aqui, os dados e os metadados de áudio podem ser enviados para uma ferramenta de renderização por meio de um protocolo de comunicação apropriado no bloco 728.

[000112] No bloco 729, é determinado se o processo de autoria irá continuar. Se não continuar, o processo 700 pode terminar (bloco 730) ou pode continuar para as operações de renderização, de acordo com uma entrada de usuário. Conforme observado acima, no entanto, em muitas implantações pelo menos algumas operações de renderização podem ser realizadas concomitantemente com as operações de autoria.

[000113] No bloco 732, os dados e os metadados de áudio são recebidos pela ferramenta de renderização. No bloco 735, os ganhos a serem aplicados aos dados de áudio são computados para cada posição de alto-falante virtual. A Figura 8B mostra as respostas de alto- falante para a posição do alto-falante virtual 805a. A Figura 8C mostra as respostas de alto-falante para a posição do alto-falante virtual 805b. Nesse exemplo, como em muitos outros exemplos descritos no presente documento, as respostas indicadas de alto-falante são para alto- falantes de reprodução que têm locais que correspondem aos locais mostrados para as zonas de alto-falante dum GUI 400. Aqui, os alto- falantes virtuais 805a e 805b e a linha 810 foram posicionados em um plano que não é próximo aos alto-falantes de reprodução que têm locais que correspondem às zonas de alto-falante 8 e 9. Portanto, nenhum ganho para esses alto-falantes é indicado nas Figuras 8B ou 8C.

[000114] Quando o usuário move o objeto de áudio 505 para outras posições ao longo da linha 810, o sistema lógico irá calcular uma atenuação cruzada que corresponde a essas posições (bloco 740), por exemplo, de acordo com o parâmetro de posição em escala de objeto de áudio. Em algumas implantações, uma lei de posicionamento panorâmico em pares (por exemplo, uma lei de potência ou seno de preservação de energia) pode ser usada para mesclar entre os ganhos a serem aplicados aos dados de áudio para a posição do alto-falante virtual 805a e os ganhos a serem aplicados aos dados de áudio para a posição do alto-falante virtual 805b.

[000115] No bloco 742, pode então ser determinado (por exemplo, de acordo com uma entrada de usuário) se deve ou não continuar o processo 700. Um usuário pode, por exemplo, ser apresentado (por exemplo, por meio de um GUI) à opção de continuar com as operações de renderização ou de reverter para as operações de autoria. Se for determinado que o processo 700 não irá continuar, o processo termina (bloco 745).

[000116] Quando se posiciona de modo panorâmico objetos de áudio que se movem rapidamente (por exemplo, objetos de áudio que correspondem a carros, jatos, etc.), pode ser difícil iniciar uma trajetória suave se as posições de objeto de áudio são selecionadas por um usuário uma de cada vez. A falta de suavidade na trajetória de objeto de áudio pode influenciar a imagem de som percebida. Consequentemente, algumas implantações de autoria fornecidas no presente documento aplicam um filtro passa baixo para a posição de um objeto de áudio a fim de suavizar os ganhos de posicionamento panorâmico resultantes. As implantações alternativas de autoria aplicam um filtro passa baixo ao ganho aplicado aos dados de áudio.

[000117] Outras implantações de autoria podem permitir que um usuário estimule pegar, empurrar, arremessar ou interagir de modo similar com objetos de áudio. Algumas tais implantações podem envolver a aplicação de leis da física simuladas, tais como conjuntos de regra que são usados para descrever velocidade, aceleração, momento, energia cinética, a aplicação de forças, etc.

[000118] As Figuras 9A a 9C mostram exemplos para usar um cabo virtual para arrastar um objeto de áudio. Na Figura 9A, um cabo virtual 905 foi formado entre o objeto de áudio 505 e o cursor 510. Nesse exemplo, o cabo virtual 905 tem uma constante de mola virtual. Em algumas tais implantações, a constante de mola virtual pode ser selecionável de acordo com uma entrada de usuário.

[000119] A Figura 9B mostra o objeto de áudio 505 e o cursor 510 em um tempo subsequente, após o qual o usuário moveu o cursor 510 no sentido da zona de alto-falante 3. O usuário pode ter movido o cursor 510 com o uso de um mouse, um controle, um trackball, um aparelho de detecção de gesto, ou outro tipo de um dispositivo de entrada de usuário. O cabo virtual 905 foi esticado e o objeto de áudio 505 foi movido próximo da zona de alto-falante 8. O objeto de áudio 505 é aproximadamente do mesmo tamanho nas Figuras 9A e 9B, o que indica (nesse exemplo) que a elevação do objeto de áudio 505 não se alterou substancialmente.

[000120] A Figura 9C mostra o objeto de áudio 505 e o cursor 510 em um tempo posterior, após o qual o usuário moveu o cursor ao redor da zona de alto-falante 9. O cabo virtual 905 foi esticado ainda mais. O objeto de áudio 505 foi movido para baixos, conforme indicado pela diminuição de tamanho do objeto de áudio 505. O objeto de áudio 505 foi movido em um arco suave. Esse exemplo ilustra um benefício em potencial de tais implantações, que é o fato de que o objeto de áudio 505 pode ser movido em uma trajetória mais suave do que se um usuário está meramente selecionando posições para o objeto de áudio 505 ponto a ponto.

[000121] A Figura 10A é um fluxograma que destaca um processo para usar um cabo virtual para mover um objeto de áudio. O processo 1000 inicia com o bloco 1005, no qual dados de áudio são recebidos. No bloco 1007, uma indicação é recebida para fixar um cabo virtual entre um objeto de áudio e um cursor. A indicação pode ser recebida por um sistema lógico de um aparelho de autoria e pode corresponder a uma entrada recebida de um dispositivo de entrada de usuário. Em relação à Figura 9 A, por exemplo, um usuário pode posicionar o cursor 510 sobre o objeto de áudio 505 e então indicar, por meio de um dispositivo de entrada de usuário ou um GUI, que o cabo virtual 905 deve ser formado entre o cursor 510 e o objeto de áudio 505. Os dados de cursor e de posição de objeto podem ser recebidos. (bloco 1010).

[000122] Nesse exemplo, os dados de velocidade e/ou aceleração de cursor podem ser computados pelo sistema lógico de acordo com dados de posição de cursor, conforme o cursor 510 é movido. (bloco 1015). Os dados de posição e/ou os dados de trajetória para o objeto de áudio 505 podem ser computados de acordo com a constante de mola virtual do cabo virtual 905 e os dados de posição, velocidade e aceleração de cursor. Algumas tais implantações podem envolver designar uma massa virtual para o objeto de áudio 505. (bloco 1020). Por exemplo, se o cursor 510 é movido a uma velocidade relativamente constante, o cabo virtual 905 pode não esticar e o objeto de áudio 505 pode ser puxado juntamente na velocidade relativamente constante. Se o cursor 510 acelera, o cabo virtual 905 pode ser esticado e uma força correspondente pode ser aplicada ao objeto de áudio 505 através do cabo virtual 905. Pode haver um atraso de tempo entre a aceleração do cursor 510 e a força aplicada através do cabo virtual 905. Em implantações alternativas, a posição e/ou trajetória do objeto de áudio 505 pode ser determinada de maneira diferente, por exemplo, sem designar uma constante de mola virtual para o cabo virtual 905, aplicando-se regras de atrito e/ou de inércia ao objeto de áudio 505, etc.

[000123] A trajetória e/ou as posições distintas do objeto de áudio 505 e do cursor 510 podem ser exibidas (bloco 1025). Nesse exemplo, o sistema lógico amostra posições de objeto de áudio em um intervalo de tempo (bloco 1030). Em algumas tais implantações, o usuário pode determinar o intervalo de tempo para amostragem. Os metadados de trajetória e/ou de localização de objeto de áudio, etc., podem ser salvos. (bloco 1034).

[000124] No bloco 1036 é determinado se esse modo de autoria irá continuar. O processo pode continuar se o usuário assim desejar, por exemplo, revertendo-se para o bloco 1005 ou para o bloco 1010. De outro modo, o processo 1000 pode terminar (bloco 1040).

[000125] A Figura 10B é um fluxograma que destaca um processo alternativo para usar um cabo virtual para mover um objeto de áudio. As Figuras 10C a 10E mostram exemplos do processo destacado na Figura 10B. Em relação primeiro à Figura 10B, o processo 1050 começa com o bloco 1055, no qual dados de áudio são recebidos. No bloco 1057, uma indicação é recebida para fixar um cabo virtual entre um objeto de áudio e um cursor. A indicação pode ser recebida por um sistema lógico de um aparelho de autoria e pode corresponder a uma entrada recebida de um dispositivo de entrada de usuário. Em relação à Figura 10C, por exemplo, um usuário pode posicionar o cursor 510 sobre o objeto de áudio 505 e então indicar, por meio de um dispositivo de entrada de usuário ou um GUI, que o cabo virtual 905 deve ser formado entre o cursor 510 e o objeto de áudio 505.

[000126] Os dados de posição de cursor e de objeto de áudio podem ser recebidos no bloco 1060. No bloco 1062, o sistema lógico pode receber uma indicação (por meio de um dispositivo de entrada de usuário ou um GUI, por exemplo), que o objeto de áudio 505 deve ser retido em uma posição indicada, por exemplo, uma posição indicada pelo cursor 510. No bloco 1065, o dispositivo lógico recebe uma indicação de que o cursor 510 foi movido para uma nova posição, que pode ser exibida juntamente com a posição do objeto de áudio 505 (bloco 1067). Em relação à Figura 10D, por exemplo, o cursor 510 foi movido do lado esquerdo para o lado direito do ambiente de reprodução virtual 404. No entanto, o objeto de áudio 510 ainda é retido na mesma posição indicada na Figura 10C. Como um resultado, o cabo virtual 905 foi substancialmente esticado.

[000127] No bloco 1069, o sistema lógico recebe uma indicação (por meio de um dispositivo de entrada de usuário ou um GUI, por exemplo) que o objeto de áudio 505 será liberado. O sistema lógico pode computar a posição de objeto de áudio e/ou os dados de trajetória resultantes, que podem ser exibidos (bloco 1075). A exibição resultante pode ser similar à mesma mostrada na Figura 10E, que mostra o objeto de áudio 505 se movendo suave e rapidamente através do ambiente de reprodução virtual 404. O sistema lógico pode salvar os metadados de localização e/ou trajetória de objeto de áudio em um sistema de memória (bloco 1080).

[000128] No bloco 1085, é determinado se o processo de autoria 1050 irá continuar. O processo pode continuar se o sistema lógico recebe uma indicação de que o usuário deseja fazer o mesmo. Por exemplo, o processo 1050 pode continuar revertendo-se para o bloco 1055 ou o bloco 1060. De outra maneira, a ferramenta de autoria pode enviar os dados e os metadados de áudio para uma ferramenta de renderização (bloco 1090), sendo que após o qual o processo 1050 pode terminar (bloco 1095).

[000129] A fim de otimizar a verossimilhança do movimento percebido de um objeto de áudio, pode ser desejável deixar que o usuário de uma ferramenta de autoria (ou uma ferramenta de renderização) selecione um subconjunto dos alto-falantes em um ambiente de reprodução e limite o conjunto de alto-falantes ativos para o subconjunto escolhido. Em algumas implantações, as zonas de alto-falante e/ou os grupos de zonas de alto-falante podem ser designados ativos ou inativos durante uma operação de autoria ou de renderização. Por exemplo, em relação à Figura 4A, as zonas de alto-falante da área de frente 405, a área da esquerda 410, a área da direita 415 e/ou a área superior 420 podem ser controladas como um grupo. as zonas de alto-falante de uma área posterior que inclui as zonas de alto-falante 6 e 7 (e, em outras implantações, uma ou mais outras zonas de alto-falante localizadas entre as zonas de alto-falante 6 e 7) também podem ser controladas como um grupo. Uma interface de usuário pode ser fornecida para dinamicamente habilitar ou desabilitar todos os alto-falantes que correspondem a uma zona de alto-falante em particular ou a uma área que inclui uma pluralidade de zonas de alto-falante.

[000130] Em algumas implantações, o sistema lógico de um dispositivo de autoria (ou um dispositivo de renderização) pode ser configurado para criar metadados de restrição de zona de alto-falante de acordo com uma entrada de usuário recebida por meio de um sistema de entrada de usuário. Os metadados de restrição de zona de alto-falante podem incluir dados para desabilitar as zonas de alto-falante selecionadas. Algumas das tais implantações serão agora descritas em referência às Figuras 11 e 12.

[000131] A Figura 11 mostra um exemplo de aplicar uma restrição de zona de alto-falante em um ambiente de reprodução virtual. Em algumas tais implantações, um usuário pode ter a capacidade de selecionar zonas de alto-falante clicando-se em suas representações em um GUI, tal como o GUI 400, com o uso de um dispositivo de entrada de usuário tal como um mouse. Aqui, um usuário desabilitou as zonas de alto- falante 4 e 5, nos lados do ambiente de reprodução virtual 404. As zonas de alto-falante 4 e 5 podem corresponder à maioria (ou todos) dos alto- falantes em um ambiente de reprodução física, tal como um ambiente de sistema de som de cinema. Nesse exemplo, o usuário também restringiu as posições do objeto de áudio 505 para posições ao longo da linha 1105. Com a maioria ou todos os alto-falantes ao longo das paredes laterais desabilitados, um posicionamento panorâmico da tela 150 para a parte posterior do ambiente de reprodução virtual 404 pode ser restringido para não usar os alto-falantes laterais. Isso pode criar um movimento percebido aprimorado de frente para trás para uma área de audiência ampla, particularmente para membros de audiência que se sentam próximos aos alto-falantes de reprodução que correspondem às zonas de alto-falante 4 e 5.

[000132] Em algumas implantações, as restrições de zona de alto- falante podem ser realizadas através de todos os modos de nova renderização. Por exemplo, as restrições de zona de alto-falante podem ser realizadas em situações quando menos zonas são disponíveis para renderizar, por exemplo, quando se renderiza para uma configuração Dolby Surround 7.1 ou 5.1 que expõe apenas 7 ou 5 zonas. As restrições de zona de alto-falante também podem ser realizadas quando mais zonas são disponíveis para renderizar. Sendo assim, as restrições de zona de alto-falante podem também ser vistas como uma maneira para guiar uma nova renderização, fornecer uma solução não cega para o processo tradicional de "mixagem pra cima/mixagem pra baixo".

[000133] A Figura 12 é um fluxograma que destaca alguns exemplos de aplicar regras de restrição de zona de alto-falante. O processo 1200 começa com o bloco 1205, no qual uma ou mais indicações são recebidas para aplicar regras de restrição de zona de alto-falante. A(s) indicação(s) pode(m) ser recebida(s) por um sistema lógico de um aparelho de autoria ou de renderização e pode corresponder a uma entrada recebida de um dispositivo de entrada de usuário. Por exemplo, as indicações podem corresponder a uma seleção do usuário de uma ou mais zonas de alto-falante para desativar. Em algumas implantações, o bloco 1205 pode envolver receber uma indicação de qual tipo de regras de restrição de zona de alto-falante devem ser aplicadas, por exemplo, conforme descrito abaixo.

[000134] No bloco 1207, os dados de áudio são recebidos por uma ferramenta de autoria. Os dados de posição de objeto de áudio podem ser recebidos (bloco 1210), por exemplo, de acordo com uma entrada de um usuário da ferramenta de autoria, e exibidos (bloco 1215). Os dados de posição são as coordenadas (x, y, z) nesse exemplo. Aqui, as zonas de alto-falante ativas e inativas para as regras de restrição de zona de alto-falante selecionadas são também exibidas no bloco 1215. No bloco 1220, os dados de áudio e os metadados associados são salvos. Nesse exemplo, os metadados incluem os metadados de posição de objeto de áudio e de restrição de zona de alto-falante, que podem incluir uma bandeira de identificação de zona de alto-falante.

[000135] Em algumas implantações, os metadados de restrição de zona de alto-falante podem indicar que uma ferramenta de renderização deve aplicar equações de posicionamento panorâmico para computar ganhos de maneira binária, por exemplo, relacionando-se todos os alto- falantes das zonas de alto-falante selecionadas (desabilitadas) como estando "desligados" e todas as outras zonas de alto-falante como estando "ligadas". O sistema lógico pode ser configurado para criar metadados de restrição de zona de alto-falante que inclui dados para desabilitar as zonas de alto-falante selecionadas.

[000136] Em implantações alternativas, os metadados de restrição de zona de alto-falante podem indicar que a ferramenta de renderização pode aplicar equações de posicionamento panorâmico para computar ganhos de maneira mesclada que inclui algum grau de contribuição dos alto-falantes das zonas de alto-falante desabilitadas. Por exemplo, o sistema lógico pode ser configurado para criar metadados de restrição de zona de alto-falante que indicam que a ferramenta de renderização deve atenuar as zonas de alto-falante selecionadas realizando-se as operações a seguir: computar os primeiros ganhos que incluem contribuições das zonas de alto-falante selecionadas (desabilitadas); computar os segundos ganhos que não incluem contribuições das zonas de alto-falante selecionadas; e mesclar os primeiros ganhos com os segundos ganhos. Em algumas implantações, um ajuste pode ser aplicado aos primeiros ganhos e/ou aos segundos ganhos (por exemplo, de um valor mínimo selecionado para um valor máximo selecionado) a fim de permitir uma faixa de contribuições em potencial de zonas de alto-falante selecionadas.

[000137] Nesse exemplo, a ferramenta de autoria envia os dados e os metadados de áudio para uma ferramenta de renderização no bloco 1225. O sistema lógico pode então determinar se o processo de autoria irá continuar (bloco 1227). O processo de autoria pode continuar se o sistema lógico receber uma indicação de que o usuário deseja fazer o mesmo. De outra maneira, o processo de autoria pode terminar (bloco 1229). Em algumas implantações, as operações de renderização podem continuar, de acordo com uma entrada de usuário.

[000138] Os objetos de áudio, inclusive os dados e os metadados de áudio criados pela ferramenta de autoria, são recebidos pela ferramenta de renderização no bloco 1230. Os dados de posição para um objeto de áudio em particular são recebidos no bloco 1235 nesse exemplo. O sistema lógico da ferramenta de renderização pode aplicar equações de posicionamento panorâmico para computar ganhos para a posição de objeto de dados de áudio, de acordo com as regras de restrição de zona de alto-falante.

[000139] No bloco 1245, os ganhos computados são aplicados aos dados de áudio. O sistema lógico pode salvar o ganho, a localização de objeto de áudio e os metadados de restrição de zona de alto-falante em um sistema de memória. Em algumas implantações, os dados de áudio podem ser reproduzidos através de um sistema de alto-falante. As respostas de alto-falante correspondentes podem ser mostradas em um visor em algumas implantações.

[000140] No bloco 1248, é determinado se o processo 1200 irá continuar. O processo pode continuar se o sistema lógico receber uma indicação de que o usuário deseja fazer o mesmo. Por exemplo, o processo de renderização pode continuar revertendo-se para o bloco 1230 ou o bloco 1235. Se uma indicação é recebida de que um usuário deseja reverter para o processo de autoria correspondente, o processo pode reverter para o bloco 1207 ou o bloco 1210. De outra maneira, o processo 1200 pode terminar (bloco 1250).

[000141] As tarefas de posicionar e renderizar objetos de áudio em um ambiente de reprodução virtual tridimensional estão se tornando cada vez mais difíceis. Parte da dificuldade refere-se a desafios em representar o ambiente de reprodução virtual em um GUI. Algumas implantações de autoria e renderização fornecidas no presente documento permitem que um usuário comute entre um posicionamento panorâmico bidimensional em espaço de tela e um posicionamento panorâmico tridimensional em espaço de tela. Tal funcionalidade pode ajudar a preservar a precisão de um posicionamento de objeto de áudio enquanto fornece um GUI que seja conveniente para o usuário.

[000142] As Figuras 13A e 13B mostram um exemplo de um GUI que pode comutar entre uma vista bidimensional e uma vista tridimensional de um ambiente de reprodução virtual. Em relação primeiro à Figura 13 A, o GUI 400 retrata uma imagem 1305 na tela. Nesse exemplo, a imagem 1305 é a de um tigre de dente de sabre. Nessa vista de topo do ambiente de reprodução virtual 404, um usuário pode prontamente observar que o objeto de áudio 505 está próximo da zona de alto-falante 1. A elevação pode ser inferida, por exemplo, pelo tamanho, pela cor ou por algum outro atributo do objeto de áudio 505. No entanto, a relação da posição para a mesma da imagem 1305 pode ser difícil de determinar nesta vista.

[000143] Nesse exemplo, o GUI 400 pode parecer ser dinamicamente girado ao redor de um eixo geométrico, tal como o eixo geométrico 1310. A Figura 13B mostra o GUI 1300 após o processo de giro. Nesta vista, um usuário pode ver mais claramente a imagem 1305 e pode usar informações da imagem 1305 para posicionar o objeto de áudio 505 mais precisamente. Nesse exemplo, o objeto de áudio corresponde a um som no sentido o qual o tigre dentre de sabre está olhando. Poder comutar entre a vista de topo e uma vista de tela do ambiente de reprodução virtual 404 permite que um usuário rápida e precisamente selecione a elevação apropriada para o objeto de áudio 505, com o uso de informações de material em tela.

[000144] Vários outros GUIs convenientes para autoria e/ou renderização são fornecidos no presente documento. As Figuras 13C a 13E mostram combinações de retratações bidimensionais e tridimensionais de ambientes de reprodução. Em relação primeiro à Figura 13C, uma vista de topo do ambiente de reprodução virtual 404 é retratada em uma área esquerda do GUI 1310. O GUI 1310 também inclui uma retratação tridimensional 1345 de um ambiente de reprodução virtual (ou real). A área 1350 da retratação tridimensional 1345 corresponde à tela 150 do GUI 400. A posição do objeto de áudio 505, particularmente sua elevação, pode ser claramente vista na retratação tridimensional 1345. Nesse exemplo, a largura do objeto de áudio 505 é também mostrada na retratação tridimensional 1345.

[000145] A disposição de alto-falante 1320 retrata as localizações de alto-falante 1324 até 1340, sendo que cada uma das quais pode indicar um ganho que corresponde à posição do objeto de áudio 505 no ambiente de reprodução virtual 404. Em algumas implantações, a disposição de alto-falante 1320 pode, por exemplo, representar locais de alto-falante de reprodução de um ambiente de reprodução real, tal como uma configuração Dolby Surround 5.1, uma configuração Dolby Surround 7.1, uma configuração Dolby 7.1 acrescida de alto-falantes suspensos, etc. Quando um sistema lógico recebe uma indicação de uma posição do objeto de áudio 505 no ambiente de reprodução virtual 404, o sistema lógico pode ser configurado para mapear essa posição para ganhos para as localizações de alto-falante 1324 até 1340 da disposição de alto-falante 1320, por exemplo, através do processo de posicionamento panorâmico de amplitude descrito acima. Por exemplo, na Figura 13C, as localizações de alto-falante 1325, 1335 e 1337 têm, cada, uma alteração de cor que indica ganhos que correspondem à posição do objeto de áudio 505.

[000146] Em relação agora à Figura 13D, o objeto de áudio foi movido para uma posição atrás da tela 150. Por exemplo, um usuário pode ter movido o objeto de áudio 505 colocando-se um cursor no objeto de áudio 505 no GUI 400 e arrastado o mesmo para uma nova posição. Essa nova posição é também mostrada na retratação tridimensional 1345, que foi girada para uma nova orientação. As respostas da disposição de alto-falante 1320 podem parecer substancialmente as mesmas nas Figuras 13C e 13D. No entanto, em um GUI real, as localizações de alto-falante 1325, 1335 e 1337 podem ter uma aparência diferente (tal como uma cor ou um brilho diferente) para indicar diferenças de ganho correspondentes causadas pela nova posição do objeto de áudio 505.

[000147] Em relação agora à Figura 13E, o objeto de áudio 505 foi movido rapidamente para uma posição na porção traseira direita do ambiente de reprodução virtual 404. No momento retratado na Figura 13E, a localização de alto-falante 1326 responde à posição atual do objeto de áudio 505 e as localizações de alto-falante 1325 e 1337 ainda respondem à posição anterior do objeto de áudio 505.

[000148] A Figura 14A é um fluxograma que destaca um processo de controlar um aparelho para apresentar GUIs tais como os mesmos mostrados nas Figuras 13C a 13E. O processo 1400 começa com o bloco 1405, no qual uma ou mais indicações são recebidos para exibir localizações de objeto de áudio, localizações de zona de alto-falante e locais de alto-falante de reprodução para um ambiente de reprodução. As localizações de zona de alto-falante podem corresponder a um ambiente de reprodução virtual e/ou um ambiente de reprodução real, por exemplo, conforme mostrado nas Figuras 13C a 13E. A(s) indicação(s) pode(m) ser recebida(s) por um sistema lógico de um aparelho de renderização e/ou autoria e pode corresponder a uma entrada recebida de um dispositivo de entrada de usuário. Por exemplo, as indicações podem corresponder a uma seleção do usuário de uma configuração de ambiente de reprodução.

[000149] No bloco 1407, os dados de áudio são recebidos. Os dados e a largura de posição de objeto de áudio são recebidos no bloco 1410, por exemplo, de acordo com uma entrada de usuário. No bloco 1415, o objeto de áudio, as localizações de zona de alto-falante e os locais de alto-falante de reprodução são exibidos. A posição de objeto de áudio pode ser exibida em vistas bidimensionais e/ou tridimensionais, por exemplo, conforme mostrado nas Figuras 13C a 13E. Os dados de largura podem ser usados não apenas para renderização de objeto de áudio, mas também pode afetar como o objeto de áudio é exibido (consulte a retratação do objeto de áudio 505 na retratação tridimensional 1345 das Figuras 13C a 13E).

[000150] Os dados de áudio e os metadados associados podem ser gravados. (bloco 1420). No bloco 1425, a ferramenta de autoria envia os dados e os metadados de áudio para uma ferramenta de renderização. O sistema lógico pode então determinar (bloco 1427) se o processo de autoria irá continuar. O processo de autoria pode continuar (por exemplo, revertendo-se para o bloco 1405) se o sistema lógico receber uma indicação de que o usuário deseja fazer o mesmo. De outra maneira, o processo de autoria pode terminar. (bloco 1429).

[000151] Os objetos de áudio, que inclui os dados e os metadados de áudio criados pela ferramenta de autoria, são recebidos pela ferramenta de renderização no bloco 1430. Os dados de posição para um objeto de áudio em particular são recebidos no bloco 1435 nesse exemplo. O sistema lógico da ferramenta de renderização pode aplicar equações de posicionamento panorâmico para computar ganhos para a posição de objeto de dados de áudio, de acordo com os metadados de largura.

[000152] Em algumas implantações de renderização, o sistema lógico pode mapear as zonas de alto-falante para alto-falantes de reprodução do ambiente de reprodução. Por exemplo, o sistema lógico pode acessar uma estrutura de dados que inclui zonas de alto-falante e locais de alto-falante de reprodução correspondentes. Mais detalhes e exemplos são descritos abaixo em referência à Figura 14B.

[000153] Em algumas implantações, as equações de posicionamento panorâmico podem ser aplicadas, por exemplo, por um sistema lógico, de acordo com a posição, a largura e/ou outras informações de objeto de áudio, tais como as localizações de alto-falante do ambiente de reprodução (bloco 1440). No bloco 1445, os dados de áudio são processados de acordo com os ganhos que são obtidos no bloco 1440. Pelo menos parte dos dados de áudio resultantes pode ser armazenada, se assim desejado, juntamente com os dados de posição de objeto de áudio e outros metadados correspondentes recebidos da ferramenta de autoria. Os dados de áudio podem ser reproduzidos através de alto- falantes.

[000154] O sistema lógico pode então determinar (bloco 1448) se o processo 1400 irá continuar. O processo 1400 pode continuar se, por exemplo, o sistema lógico receber uma indicação de que o usuário deseja fazer o mesmo. De outra maneira, o processo 1400 pode terminar (bloco 1449).

[000155] A Figura 14B é um fluxograma que destaca um processo de renderizar objetos de áudio para um ambiente de reprodução. O processo 1450 começa com o bloco 1455, no qual uma ou mais indicações são recebidas para renderizar objetos de áudio para um ambiente de reprodução. A(s) indicação(s) pode(m) ser recebida(s) por um sistema lógico de um aparelho de renderização e pode corresponder a uma entrada recebida de um dispositivo de entrada de usuário. Por exemplo, as indicações podem corresponder a uma seleção do usuário de uma configuração de ambiente de reprodução.

[000156] No bloco 1457, os dados de reprodução de áudio (que incluem um ou mais objetos de áudio e os metadados associados) são recebidos. Os dados de ambiente de reprodução podem ser recebidos no bloco 1460. Os dados de ambiente de reprodução podem incluir uma indicação de uma quantidade de alto-falantes de reprodução no ambiente de reprodução e uma indicação da localização de cada alto- falante de reprodução dentro do ambiente de reprodução. O ambiente de reprodução pode ser um ambiente de sistema de som de cinema, um ambiente de cinema em casa, etc. Em algumas implantações, os dados de ambiente de reprodução podem incluir dados de disposição de zona de alto falante de reprodução que indicam zonas de alto-falante de reprodução e locais de alto-falante de reprodução que correspondem às zonas de alto-falante.

[000157] O ambiente de reprodução pode ser exibido no bloco 1465. Em algumas implantações, o ambiente de reprodução pode ser exibido de uma maneira similar à disposição de alto-falante 1320 mostrada nas Figuras 13C a 13E.

[000158] No bloco 1470, os objetos de áudio podem ser renderizados em um ou mais sinais de alimentação de alto-falante para o ambiente de reprodução. Em algumas implantações, os metadados associados aos objetos de áudio podem ter sido autorados de uma maneira tal como a mesma descrita acima, de maneira que os metadados podem incluir dados de ganho que correspondem a zonas de alto-falante (por exemplo, que correspondem a zonas de alto-falante 1 a 9 do GUI 400). O sistema lógico pode mapear as zonas de alto-falante para alto- falantes de reprodução do ambiente de reprodução. Por exemplo, o sistema lógico pode acessar uma estrutura de dados, armazenada em uma memória, que inclui zonas de alto-falante e locais de alto-falante de reprodução correspondentes. O dispositivo de renderização pode ter uma variedade de tais estruturas de dados, sendo que cada uma das quais corresponde a uma configuração de alto-falante diferente. Em algumas implantações, um aparelho de renderização pode ter tais estruturas de dados para uma variedade de configurações padrão de ambiente de reprodução, tais como uma configuração Dolby Surround 5.1, uma configuração Dolby Surround 7.1 e/ou uma configuração de som surround Hamasaki 22.2.

[000159] Em algumas implantações, os metadados para os objetos de áudio podem incluir outras informações do processo de autoria. Por exemplo, os metadados podem incluir dados de restrição de alto- falante. Os metadados podem incluir informações para mapear uma posição de objeto de áudio para uma única localização de alto-falante de reprodução ou uma única zona de alto-falante de reprodução. Os metadados podem incluir dados que restringem uma posição de um objeto de áudio a uma curva unidimensional ou uma superfície bidimensional. Os metadados podem incluir os dados de trajetória para um objeto de áudio. Os metadados podem incluir um identificador para tipo de conteúdo (por exemplo, diálogo, música ou efeitos).

[000160] Consequentemente, o processo de renderização pode envolver o uso dos metadados, por exemplo, para impor as restrições de zona de alto-falante. Em algumas tais implantações, o aparelho de renderização pode dotar um usuário da opção de modificar restrições indicadas pelos metadados, por exemplo, de modificar restrições de alto-falante e novamente renderizar consequentemente. A renderização pode envolver criar um ganho agregado com base em um ou mais dentre uma posição de objeto de áudio desejada, uma distância da posição de objeto de áudio desejado para uma posição de referência, uma velocidade de um objeto de áudio ou um tipo de conteúdo de objeto de áudio. As respostas correspondentes dos alto-falantes de reprodução podem ser exibidas. (bloco 1475). Em algumas implantações, o sistema lógico pode controlar alto-falantes para reproduzir um som que correspondem a resultados do processo de renderização.

[000161] No bloco 1480, o sistema lógico pode determinar se o processo 1450 irá continuar. O processo 1450 pode continuar se, por exemplo, o sistema lógico receber uma indicação de que o usuário deseja fazer o mesmo. Por exemplo, o processo 1450 pode continuar revertendo-se para o bloco 1457 ou o bloco 1460. De outra maneira, o processo 1450 pode terminar (bloco 1485).

[000162] O controle de largura de fonte aparente e de espalhamento são recursos de alguns sistemas existentes de renderização/autoria de som surround. Nessa descrição, o termo "espalhamento" refere-se a distribuir o mesmo sinal por múltiplos alto-falantes para borrar a imagem de som. O termo "largura" refere-se a descorrelacionar os sinais de saída para cada canal para um controle de largura aparente. A largura pode ser um valor em escala adicional que controla a quantidade de descorrelação aplicada a cada sinal de alimentação de alto-falante.

[000163] Algumas implantações descritas no presente documento fornecem um controle de espalhamento orientado em um eixo geométrico 3D. Tal implantação será agora descrita em referência às Figuras 15A e 15B. A Figura 15A mostra um exemplo de um objeto de áudio e uma largura de objeto de áudio associada em um ambiente de reprodução virtual. Aqui, o GUI 400 indica um elipsoide 1505 que se estende ao redor do objeto de áudio 505, o que indica a largura de objeto de áudio. A largura de objeto de áudio pode ser indicada por metadados de objetos áudio e/ou recebida de acordo com uma entrada de usuário. Nesse exemplo, as dimensões x e y do elipsoide 1505 são diferentes, mas em outras implantações essas dimensões podem ser as mesmas. As dimensões z do elipsoide 1505 não são mostradas na Figura 15 A.

[000164] A Figura 15B mostra um exemplo de um perfil de espalhamento que corresponde à largura de objeto de áudio mostrada na Figura 15 A. O espalhamento pode ser representado como um parâmetro de vetor tridimensional. Nesse exemplo, o perfil de espalhamento 1507 pode ser independentemente controlado ao longo de 3 dimensões, por exemplo, de acordo com uma entrada de usuário. Os ganhos ao longo dos eixos geométricos x e y são representados na Figura 15B pela respectiva altura das curvas 1510 e 1520. O ganho para cada amostra 1512 é também indicado pelo tamanho dos círculos correspondentes 1515 dentro do perfil de espalhamento 1507. As respostas dos alto-falantes 1510 são indicadas por um sombreamento cinza na Figura 15B.

[000165] Em algumas implantações, o perfil de espalhamento 1507 pode ser implantado por um número integral separável para cada eixo geométrico. De acordo com algumas implantações, um valor mínimo de espalhamento pode ser definido automaticamente como uma função de colocação de alto-falante para evitar discrepâncias de timbre quando se posiciona de modo panorâmico. De modo alternativo, ou adicionalmente, um valor mínimo de espalhamento pode ser definido automaticamente como uma função da velocidade do objeto de áudio posicionado de modo panorâmico, de maneira que conforme uma velocidade de objeto de áudio aumenta, um objeto se torna mais espalhado espacialmente, de modo similar a quão rapidamente as imagens em movimento em uma película parecem borrar.

[000166] Ao usar implantações de renderização de áudio com base em objeto de áudio tais como as mesmas descritas no presente documento, uma quantidade potencialmente grande de faixas de áudio e metadados acompanhantes (inclusive, mas não limitadamente a, metadados que indicam posições de objeto de áudio em um espaço tridimensional) pode ser entregue não mixada para o ambiente de reprodução. Uma ferramenta de renderização em tempo real pode usar tais metadados e informações referentes ao ambiente de reprodução para computar os sinais de alimentação de alto-falante para otimizar a reprodução de cada objeto de áudio.

[000167] Quando uma grande quantidade de objetos de áudio são mixados juntamente com as saídas de alto-falante, uma sobrecarga pode ocorrer seja no domínio digital (por exemplo, o sinal digital pode ser cortado antes da conversão analógica) ou no domínio analógico, quando o sinal analógico amplificado é reproduzido de volta pelos alto- falantes de reprodução. Ambos os casos podem resultar em distorção audível, que é indesejável. Uma sobrecarga no domínio analógico também pode danificar os alto-falantes de reprodução.

[000168] Consequentemente, algumas implantações descritas no presente documento envolvem um "blobbing"dinâmico de objeto em resposta a uma sobrecarga de alto-falante de reprodução. Quando os objetos de áudio são renderizados com um dado perfil de espalhamento, em algumas implantações a energia pode ser direcionada para uma quantidade aumentada de alto-falantes de reprodução vizinhos enquanto mantém uma energia geral constante. Por exemplo, se a energia para o objeto de áudio foi uniformemente espalhada por N alto- falantes de reprodução, a mesma pode contribuir para cada saída de alto-falante de reprodução com um ganho l/sqrt(N). Essa abordagem fornece um espaço livre de mixagem adicional e pode aliviar ou impedir distorção de alto-falante de reprodução, tais como cortes.

[000169] Para usar um exemplo numérico, supondo-se que um alto- falante irá cortar se o mesmo receber uma entrada maior do que 1,0. Presume-se que dois objetos são indicados para serem mixados no alto- falante A, um no nível 1,0 e o outro no nível 0,25. Se nenhum blobbing foi observado, o nível mixado no alto-falante A irá totalizar 1,25 e cortes ocorrem. No entanto, se o primeiro objeto é blobbed com outro alto- falante B, então (de acordo com algumas implantações) cada alto- falante pode receber o objeto a 0,707, resultando em um espaço vazio adicional no alto-falante A para mixar objetos adicionais. O segundo objeto pode então ser seguramente mixado no alto-falante A sem cortes, visto o nível mixado para o alto-falante A será 0,707 + 0,25 = 0,957.

[000170] Em algumas implantações, durante a fase de autoria cada objeto de áudio pode ser mixado para um subconjunto das zonas de alto-falante (ou todas as zonas de alto-falante) com um dado ganho de mixagem. Uma lista dinâmica de todos os objetos que contribuem para cada alto-falante pode, portanto, ser construído. Em algumas implantações, essa lista pode ser ordenada por níveis de energia decrescentes, por exemplo, com o uso do produto do nível original de raiz quadrada média (RMS) do sinal multiplicado pelo ganho de mixagem. Em outras implantações, a lista pode ser ordenada de acordo com outros critérios, tais como a importância relativa designada ao objeto de áudio.

[000171] Durante o processo de renderização, se uma sobrecarga é detectada para uma dada saída de alto-falante de reprodução, a energia de objetos de áudio pode ser espalhada por muitos alto-falantes de reprodução. Por exemplo, a energia de objetos de áudio pode ser espalhada com o uso de um fator de espalhamento ou de largura que é proporcional à quantidade de sobrecarga e à contribuição relativa de cada objeto de áudio para o dado alto-falante de reprodução. Se o mesmo objeto de áudio contribui para muitos alto-falantes de reprodução em sobrecarga, seu fator de espalhamento ou de largura pode, em algumas implantações, ser aumentado de modo aditivo e aplicado ao próximo quadro renderizado de dados de áudio.

[000172] Geralmente, um limitador a duro (hard limiter) irá cortar qualquer valor que exceda um limiar para o valor limite. Como no exemplo acima, se um alto-falante recebe um objeto mixado no nível 1,25, e pode apenas permitir um nível máximo de 1,0, o objeto será ""limitado a duro" para 1,0. Um limitador a macio começará a aplicar uma limitação antes de alcançar o limiar absoluto a fim de fornecer um resultado mais macio e audivelmente prazeroso. Os limitadores a macio (soft limiters) podem também usar um recurso "olhar à frente" para predizer quando cortes futuros podem ocorrer a fim de suavemente reduzir o ganho antes de quando os cortes podem ocorrer e desse modo evitar cortes.

[000173] Várias implantações do tipo "blobbing" fornecidas no presente documento podem ser usados em conjunto com um limitador a duro ou a macio para limitar uma distorção audível enquanto evita uma degradação de precisão/agudeza espacial. Em oposição a um espalhamento global ou o uso apenas de limitadores, as implantações do tipo blobbing podem seletivamente alvejar objetos de som alto ou objetos de um dado tipo de conteúdo. Tais implantações podem ser controladas pelo mixer. Por exemplo, se os metadados de restrição de zona de alto-falante para um objeto de áudio indicam que um subconjunto dos alto-falantes de reprodução não deve ser usado, o aparelho de renderização pode aplicar as regras de restrição de zona de alto-falante correspondentes além de implantar um método blobbing.

[000174] A Figura 16 é um fluxograma que destaca um processo de blobbing os objetos de áudio. O processo 1600 começa com o bloco 1605, em que uma ou mais indicações são recebidos para ativar uma funcionalidade de blobbing de objeto de áudio. A(s) indicação(s) pode(m) ser recebida(s) por um sistema lógico de um aparelho de renderização e pode(m) corresponder a uma entrada recebida de um dispositivo de entrada de usuário. Em algumas implantações, as indicações podem incluir uma seleção do usuário de uma configuração de ambiente de reprodução. Em implantações alternativas, o usuário pode selecionado anteriormente uma configuração de ambiente de reprodução.

[000175] No bloco 1607, os dados de reprodução de áudio (incluindo um ou mais objetos de áudio e metadados associados) são recebidos. Em algumas implantações, os metadados podem incluir metadados de restrição de zona de alto-falante, por exemplo, conforme descrito acima. Nesse exemplo, dados de espalhamento, tempo e posição de objeto de áudio são analisados a partir dos dados de reprodução de áudio (ou recebidos de outra forma, por exemplo, por meio da entrada a partir de uma interface de usuário) no bloco 1610.

[000176] As respostas de alto-falante de reprodução são determinadas para a configuração de ambiente de reprodução mediante a aplicação de equações posicionamento panorâmico para os dados de objeto de áudio, por exemplo, conforme descrito acima (bloco 1612). No bloco 1615, as respostas de alto-falante de reprodução e posição de objeto de áudio são exibidas (bloco 1615). As respostas de alto-falante de reprodução também podem ser reproduzidas por meio de alto- falantes que são configurados para comunicação com o sistema lógico.

[000177] No bloco 1620, o sistema lógico determina se uma sobrecarga é detectada ou não para qualquer alto-falante de reprodução do ambiente de reprodução. Se for, as regras de blobbling de objeto de áudio tais como aquelas descritas acima podem ser aplicadas até que nenhuma sobrecarga seja detectada (bloco 1625). A emissão de dados de áudio no bloco 1630 pode ser salva, se for desejado, e pode ser emitida para os alto-falantes de reprodução.

[000178] No bloco 1635, o sistema lógico pode determinar se o processo 1600 irá continuar ou não. O processo 1600 pode continuar se, por exemplo, o sistema lógico receber uma indicação de que o usuário deseja continuar. Por exemplo, o processo 1600 pode continuar ao reverter para o bloco 1607 ou o bloco 1610. De outra forma, o processo 1600 pode terminar (bloco 1640).

[000179] Algumas implantações fornecem equações de ganho de posicionamento panorâmico estendido que podem ser utilizadas para formar uma imagem de uma posição de objeto de áudio no espaço tridimensional. Alguns exemplos serão descritos agora com referência às Figuras 17 A e 17B. As Figuras 17 A e 17B mostram exemplos de uma posição de objeto de áudio em um ambiente de reprodução virtual tridimensional. Referindo-se primeiro à Figura 17A, a posição do objeto de áudio 505 pode ser vista no ambiente de reprodução virtual 404. Nesse exemplo, as zonas de alto-falante 1 a 7 se encontram em um plano e as zonas de alto-falante 8 e 9 se encontram em outro plano, conforme mostrado na Figura 17B. No entanto, os números de zonas de alto-falante, planos, etc., são meramente apresentados formulados a título de exemplo; os conceitos descritos no presente documento podem ser estendidos a diferentes números de zonas de alto-falante (ou alto- falantes individuais) e mais de dois planos de elevação.

[000180] Nesse exemplo, um parâmetro de elevação "z," que pode se encontrar na faixa de zero a 1, mapeia a posição de um objeto de áudio nos planos de elevação. Nesse exemplo, o valor z = 0 corresponde ao plano de base que inclui as zonas de alto-falante 1 a 7, enquanto que o valor z = 1 corresponde ao plano de sobrecarga que inclui as zonas de alto-falante 8 e 9. Os valores de e entre zero e 1 correspondem a uma mesclagem entre uma imagem de som gerada com uso somente dos alto-falantes no plano de base e uma imagem de som gerada com uso somente dos alto-falantes no plano de sobrecarga.

[000181] No exemplo mostrado na Figura 17B, o parâmetro de elevação para o objeto de áudio 505 tem um valor de 0,6. Consequentemente, em uma implantação, uma primeira imagem de som pode ser gerada com uso de equações de posicionamento panorâmico para o plano de base, de acordo com as coordenadas (x,y) do objeto de áudio 505 no plano de base. Uma segunda imagem de som pode ser gerada com uso de equações de posicionamento panorâmico para o plano de sobrecarga, de acordo com as coordenadas (x,y) do objeto de áudio 505 no plano de sobrecarga. Uma imagem de som resultante pode ser produzida mediante a combinação da primeira imagem de som com a segunda imagem de som, de acordo com a proximidade do objeto de áudio 505 a cada plano. Uma função de preservação de energia ou amplitude da elevação z pode ser aplicada. Por exemplo, assumindo que z pode se encontrar na faixa de zero a um, os valores de ganho da primeira imagem de som podem ser multiplicados por Cosseno(z*7i/2) e os valores de ganho da segunda imagem de som podem ser multiplicados por Seno(z*7i/2), de modo que a soma dos quadrados seja 1 (preservação de energia).

[000182] Outras implantações descritas no presente documento podem envolver computar ganhos com base em duas ou mais técnicas de posicionamento panorâmico e criar um ganho agregado com base em um ou mais parâmetros. Os parâmetros podem incluir um ou mais dentre os seguintes: posição desejada de objeto de áudio; distância da posição desejada de objeto de áudio a uma posição de referência; a rapidez ou velocidade do objeto de áudio; ou tipo de conteúdo de objeto de áudio.

[000183] Algumas dessas implantações serão descritas agora com referência às Figuras 18 et seq. A Figura 18 mostra exemplos de zonas que correspondem a diferentes modos de posicionamento panorâmico. Os tamanhos, formatos e extensão dessas zonas são meramente formulados a de exemplo. Nesse exemplo, métodos de posicionamento panorâmico próximo ao campo são aplicados a objetos de áudio que se localizam na zona 1805 e métodos de posicionamento panorâmico distantes do campo são aplicados a objetos de áudio que se localizam na zona 1815, fora da zona 1810.

[000184] As Figuras 19A a 19D mostram exemplos de aplicação de técnicas de posicionamento panorâmico próximo ao campo e distante do campo a objetos de áudio em localizações diferentes. Referindo-se primeiro à Figura 19A, o objeto de áudio está substancialmente fora do ambiente de reprodução virtual 1900. Essa localização corresponde à zona 1815 da Figura 18. Portanto, um ou mais métodos de posicionamento panorâmico distante do campo serão aplicados nessa instância. Em algumas implantações, os métodos de posicionamento panorâmico distante do campo podem ser baseados em equações de posicionamento panorâmico de amplitude com base em vetor (VBAP) que são conhecidas por aqueles de habilidade comum na técnica. Por exemplo, os métodos de posicionamento panorâmico distante do campo podem ser baseados nas equações de VBAP descritas na Seção 2.3, página 4 de V. Pulkki, Compensating Displacement of Amplitude- Panned Virtual Sources (AES International Conference on Virtual, Synthetic and Entertainment Audio), que é incorporado a título de referência. Em implantações alternativas, outros métodos podem ser utilizados para o posicionamento panorâmico de objetos de áudio próximos ao campo e distantes do campo, por exemplo, métodos que envolvem a síntese de onda esférica ou planos acústicos correspondentes. D. de Vries, Wave Field Synthesis (AES Monograph 1999), que é incorporado à título de referência, descreve métodos relevantes.

[000185] Referindo-se agora à Figura 19B, o objeto de áudio está dentro do ambiente de reprodução virtual 1900. Essa localização corresponde à zona 1805 da Figura 18. Portanto, um ou mais métodos de posicionamento panorâmico próximo ao campo serão aplicados nessa instância. Alguns desses métodos de posicionamento panorâmico próximo ao campo irão utilizar um número de zonas de alto- falante que englobam o objeto de áudio 505 no ambiente de reprodução virtual 1900.

[000186] Em algumas implantações, o método de posicionamento panorâmico próximo ao campo pode envolver posicionamento panorâmico de "equilíbrio dual" e combinação de dois conjuntos de ganhos. No exemplo representado na Figura 19B, o primeiro conjunto de ganhos corresponde a um equilíbrio frontal/posterior entre dois conjuntos de zonas de alto-falante que englobam posições do objeto de áudio 505 ao longo do eixo y. As respostas correspondentes envolvem todas as zonas de alto-falante do ambiente de reprodução virtual 1900, com exceção das zonas de alto-falante 1915 e 1960.

[000187] No exemplo representado na Figura 19C, o segundo conjunto de ganhos corresponde a um equilibro esquerdo/direito entre dois conjuntos de zonas de alto-falante que englobam posições do objeto de áudio 505 ao longo do eixo x. As respostas correspondentes envolvem as zonas de alto-falante 1905 a 1925. A Figura 19D indica o resultado da combinação das respostas indicadas nas Figuras 19B e 19C.

[000188] Pode ser desejável mesclar entre diferentes modos de posicionamento panorâmico conforme um objeto de áudio entra ou deixa o ambiente de reprodução virtual 1900. Consequentemente, uma mesclagem de ganhos computados de acordo com métodos de posicionamento panorâmico próximo ao campo e métodos de posicionamento panorâmico distante do campo é aplicada a objetos de áudio que se encontram na zona 1810 (consulte a Figura 18). Em algumas implantações, uma lei de posicionamento panorâmico em par (por exemplo um seno de preservação de energia ou lei de potência) pode ser utilizada para mesclar entre os ganhos computados de acordo com métodos de posicionamento panorâmico próximo ao campo e métodos de posicionamento panorâmico distante do campo. Em implantações alternativas, a lei de posicionamento panorâmico em par pode ser de preservação de amplitude ao invés de preservação de energia, de modo que a soma seja igual a um ao invés de a soma dos quadrados ser igual a um. É possível mesclar os sinais processados resultantes, por exemplo, para processar o sinal de áudio com uso de ambos os métodos de posicionamento panorâmico independentemente e para realizar crossfade dos dois sinais de áudio resultantes.

[000189] Pode ser desejável fornecer um mecanismo que permite que o criador de conteúdo e/ou o reprodutor de conteúdo a facilmente sintonizar de modo preciso as diferentes novas renderizações para uma dada trajetória de autoria. No contexto de mixagem para películas, o conceito de equilíbrio de energia de tela para sala é considerado ser importante. Em algumas instâncias, uma nova renderização automática de uma dada trajetória de som (ou 'posição panorâmica) irá resultar em um equilíbrio de tela para sala diferente, dependendo do número de alto- falantes de reprodução no ambiente de reprodução. De acordo com algumas implantações, o ajuste de tela para sala pode ser controlado de acordo com metadados criados durante um processo de autoria. De acordo com implantações alternativas, o ajuste de tela para sala pode ser controlado unicamente no lado de renderização (isto é, sobre o controle do reprodutor de conteúdo), e não em respostas a metadados.

[000190] Em conformidade, algumas implantações descritas no presente documento fornecem uma ou mais formas de controle de ajuste de tela para sala. Em algumas dessas implantações, o ajuste de tela para sala pode ser implantado como uma operação de redimensionamento. Por exemplo, a operação de redimensionamento pode envolver a trajetória pretendida original de um objeto de áudio dentre uma direção da frente para trás e/ou um redimensionamento das posições de alto-falante utilizados na renderizador para determinar os ganhos de posicionamento panorâmico. Em algumas dessas implantações, o controle de ajuste de tela para sala pode ser um valor variável entre zero e um valor máximo (por exemplo, um). A variação pode, por exemplo, ser controlável com uma GUI, um controle deslizante virtual ou físico, um botão, etc.

[000191] Alternativamente, ou adicionalmente, o controle de ajuste de tela para sala pode ser implantado com uso de alguma forma de restrição de área de alto-falante. A Figura 20 indica zonas de alto-falante de um ambiente de reprodução que podem ser utilizadas em um processo de controle de ajuste de tela para sala. Nesse exemplo, a área de alto-falante frontal 2005 e a área de alto-falante posterior 2010 (ou 2015) podem ser estabelecidas. O ajuste de tela para sala pode ser ajustado como uma função das áreas de alto-falante selecionadas. Em algumas dessas implantações, um ajuste de tela para sala pode ser implantado como uma operação de redimensionamento entre a área de alto-falante frontal 2005 e a área de alto-falante posterior 2010 (ou 2015). Em implantações alternativas, o ajuste de tela para sala pode ser implantado de uma maneira binária, por exemplo, ao permitir que um usuário selecione um ajuste de lado frontal, um ajuste de lado posterior ou nenhum ajuste. As definições de ajuste para cada caso podem corresponder com níveis de ajuste predeterminados (e geralmente diferentes de zero) para a área de alto-falante frontal 2005 e a área de alto-falante posterior 2010 (ou 2015). Em essência, tais implantações podem fornecer três predefinições para o controle de ajuste de tela para sala ao invés de (ou além de) uma operação de redimensionamento.

[000192] De acordo com algumas dessas implantações, duas zonas de alto-falante lógicas adicionais podem ser criadas em uma GUI de autoria (por exemplo, 400) ao separar as paredes laterais em uma parede frontal e uma parede posterior. Em algumas implantações, as duas zonas de alto-falante lógicas adicionais correspondem às áreas de parede esquerda/som surround esquerdo e parede direita/som surround direito do renderizador. Dependendo da seleção de um usuário de quais dessas duas zonas de alto-falante lógicas estão ativas, a ferramenta de renderização pode aplicar fatores de redimensionamento predeterminados (por exemplo, conforme descrito acima) durante a renderização para configurações Dolby 5.1 ou Dolby 7.1. a ferramenta de renderização pode aplicar também tais fatores de redimensionamento predeterminados durante a renderização para ambientes de reprodução que não suportam a definição dessas duas zonas lógicas extras, por exemplo, devido ao fato de que suas configurações de alto-falante físicas não têm mais que um alto-falante físico na parede lateral.

[000193] A Figura 21 é um diagrama de blocos que fornece exemplos de componentes de um aparelho de autoria e/ou renderização. Nesse exemplo, o dispositivo 2100 inclui um sistema de interface 2105. O sistema de interface 2105 pode incluir uma interface de rede, tal como uma interface de rede sem fio. Alternativamente, ou adicionalmente, o sistema de interface 2105 pode incluir uma interface de barramento serial universal (USB) ou outra interface.

[000194] O dispositivo 2100 inclui um sistema lógico 2110. O sistema lógico 2110 pode incluir um processador, tal como um processador como um processador de propósito geral ou de múltiplos chips. O sistema lógico 2110 pode incluir um processador de sinal digital (DSP), um circuito integrado de aplicação especifica (ASIC), um arranjo de portas programáveis em campo (FPGA) ou outro dispositivo lógico programável, lógica de transistor ou porta discreta, ou componentes de hardware discretos, ou combinações dos mesmos. O sistema lógico 2110 pode ser configurado para controlar os outros componentes do dispositivo 2100. Apesar de nenhuma interface entre os componentes do dispositivo 2100 ser mostrada na Figura 21, o sistema lógico 2110 pode ser configurado com interfaces para comunicação com os outros componentes. Os outros componentes podem ou não ser configurados para comunicação um com outro, conforme apropriado.

[000195] O sistema lógico 2110 pode ser configurado para realizar funcionalidade de autoria e/ou renderização de áudio, incluindo, porém sem limitação, os tipos funcionalidade de autoria e/ou renderização de áudio descritas no presente documento. Em algumas dessas implantações, o sistema lógico 2110 pode ser configurado para operar (pelo menos em parte) de acordo com software armazenado em um ou mais meios não transitórios. Os meios não transitórios podem incluir uma memória associada ao sistema lógico 2110, tal como memória de acesso aleatório (RAM) e/ou memória somente de leitura (ROM). Os meios não transitórios podem incluir memórias do sistema de memória 2115. O sistema de memória 2115 pode incluir um ou mais tipos adequados de meios de armazenamento não transitórios, tais como memória flash, um disco rígido, etc.

[000196] O sistema de exibição 2130 pode incluir um ou mais tipos de adequados de visor, dependendo da manifestação do dispositivo 2100. Por exemplo, o sistema de exibição 2130 pode incluir um visor de cristal líquido, um visor de plasma, um visor biestável, etc.

[000197] O sistema de entrada de usuário 2135 pode incluir um ou mais dispositivos configurados para aceitar entrada de um usuário. Em algumas implantações, o sistema de entrada de usuário 2135 pode incluir uma tela sensível a toque que sobrepõe um visor do sistema de exibição 2130. O sistema de entrada de usuário 2135 pode incluir um mouse, um trackball, um sistema de detecção de gesto, um controle, uma ou mais GUIs e/ou menus apresentados no sistema de exibição 2130, botões, um teclado, comutadores, etc. Em algumas implantações, o sistema de entrada de usuário 2135 pode incluir o microfone 2125: um usuário pode fornecer comandos de voz para o dispositivo 2100 por meio do microfone 2125. O sistema lógico pode ser configurado para reconhecimento de fala e para controlar pelo menos algumas operações do dispositivo 2100 de acordo com tais comandos de voz.

[000198] O sistema de potência 2140 pode incluir um ou mais dispositivos de armazenamento de energia adequados, tais como uma bateria de níquel-cádmio ou uma bateria de lítio-íon. O sistema de potência 2140 pode ser configurado para receber potência de uma saída elétrica.

[000199] A Figura 22A é um diagrama de blocos que representa alguns componentes que podem ser utilizados para criação de conteúdo de áudio. O sistema 2200 pode, por exemplo, ser utilizado para criação de conteúdo de áudio em estúdios de mixagem e/ou estágios de dublagem. Nesse exemplo, o sistema 2200 inclui uma ferramenta de autoria de metadados e áudio 2205 e uma ferramenta de renderização 2210. Nessa implantação, a ferramenta de autoria de metadados e áudio 2205 e a ferramenta de renderização 2210 incluem interfaces de conexão de áudio 2207 e 2212, respectivamente, que pode ser configurado para comunicação por meio de AES/EBU, MADI, comunicação analógica, etc. a ferramenta de autoria de metadados e áudio 2205 e a ferramenta de renderização 2210 incluem interfaces de rede 2209 e 2217, respectivamente, que podem ser configuradas para enviar e receber metadados por meio de TCP/IP ou qualquer outro protocolo adequado. A interface 2220 é configurada para enviar dados de áudio para alto-falantes.

[000200] O sistema 2200 pode, por exemplo, incluir um sistema de autoria existente, tal como um sistema de Pro ToolsTM, que executa uma ferramenta de criação de metadados (isto é, um posicionador panorâmico conforme descrito no presente documento) como um plugin. O posicionador panorâmico pode ser executado em um sistema independente (por exemplo, um PC ou um console de mixagem) conectada à ferramenta de renderização 2210 ou pode ser executado no mesmo dispositivo físico como a ferramenta de renderização 2210. No caso anterior, o posicionador panorâmico e renderizador podem utilizar uma conexão local, por exemplo, através de memória compartilhada. A GUI de posicionador panorâmico pode ser remota também em um dispositivo do tipo tablet, um computador do tipo laptop, etc. a ferramenta de renderização 2210 pode compreender um sistema de renderização que inclui um processador de som que é configurado para executar um software de renderização. O sistema de renderização pode incluir, por exemplo, um computador pessoa, um computador do tipo laptop, etc., que inclui interfaces para entrada/saída de áudio e um sistema lógico apropriado.

[000201] A Figura 22B é um diagrama de blocos que representa alguns componentes que podem ser utilizados para reprodução de áudio em um ambiente de reprodução (por exemplo, um cinema). O sistema 2250 inclui um servidor de cinema 2255 e um sistema de renderização 2260 nesse exemplo. O servidor de cinema 2255 e o sistema de renderização 2260 incluem interfaces de rede 2257 e 2262, respectivamente, que podem ser configuradas para enviar e receber objetos de áudio por meio de TCP/IP ou de qualquer outro protocolo adequado. A interface 2264 é configurada para emitir dados de áudio para alto-falantes.

[000202] Várias modificações às implantações descritas nessa descrição podem ser prontamente aparentes para aqueles de habilidade comum na técnica. Os princípios gerais definidos no presente documento podem ser aplicados a outras implantações sem se separar do espírito ou escopo desta descrição. Assim, as concretizações não são destinadas a serem limitadas às implantações mostradas no presente documento, porém devem estar de acordo com o escopo mais amplo consistente com esta descrição, os princípios e os recursos da invenção revelados no presente documento.

Claims

1. Método compreendendo as etapas de: receber dados de reprodução de áudio compreendendo um ou mais objetos de áudio e metadados associados com cada um dentre os um ou mais objetos de áudio; receber dados de ambiente de reprodução compreendendo uma indicação de um número de alto-falantes de reprodução no ambiente de reprodução e uma indicação da localização de cada alto- falante de reprodução dentro do ambiente de reprodução; e renderizar os objetos de áudio em um ou mais sinais de alimentação de alto-falante ao aplicar um processo de posicionamento panorâmico de amplitude a cada objeto de áudio, em que o processo de posicionamento panorâmico de amplitude é baseado, pelo menos em parte, nos metadados associados com cada objeto de áudio e no local de cada alto-falante de reprodução dentro do ambiente de reprodução, e em que cada sinal de alimentação de alto-falante corresponde a pelo menos um dos alto-falantes de reprodução dentro do ambiente de reprodução; caracterizado pelo fato de que os metadados associados com cada objeto de áudio incluem coordenadas de objeto de áudio indicando a posição de reprodução pretendida do objeto de áudio dentro do ambiente de reprodução e um indicador de alinhamento indicando se o processo de posicionamento panorâmico de amplitude deve renderizar o objeto de áudio em um único sinal de alimentação de alto- falante ou aplicar regras de posicionamento panorâmico para renderizar o objeto de áudio em uma pluralidade de sinais de alimentação de alto- falante.

2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que: o indicador de alinhamento indica que o processo de posicionamento panorâmico de amplitude deve renderizar o objeto de áudio em um único sinal de alimentação de alto-falante; e o processo de posicionamento panorâmico de amplitude renderiza o objeto de áudio em um sinal de alimentação de alto-falante correspondendo ao alto-falante de reprodução mais próximo à posição de reprodução pretendida do objeto de áudio.

3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que: o indicador de alinhamento indica que o processo de posicionamento panorâmico de amplitude deve renderizar o objeto de áudio em um único sinal de alimentação de alto-falante; uma distância entre a posição de reprodução pretendida do objeto de áudio e o alto-falante de reprodução mais próximo à posição de reprodução pretendida do objeto de áudio excede um limite; e o processo de posicionamento panorâmico de amplitude substitui o indicador de alinhamento e aplica regras de posicionamento panorâmico para renderizar o objeto de áudio em uma pluralidade de sinais de alimentação de alto-falante.

4. Método, de acordo com a reivindicação 2, caracterizado pelo fato de que: os metadados são variáveis no tempo; as coordenadas de objeto de áudio indicando a posição de reprodução pretendida do objeto de áudio dentro do ambiente de reprodução diferem em um primeiro instante e em um segundo instante; no primeiro instante o alto-falante de reprodução mais próximo à posição de reprodução pretendida do objeto de áudio corresponde a um primeiro alto-falante de reprodução; no segundo instante o alto-falante de reprodução mais próximo à posição de reprodução pretendida do objeto de áudio corresponde a um segundo alto-falante de reprodução; e o processo de posicionamento panorâmico de amplitude suavemente transiciona entre renderizar o objeto de áudio em um primeiro sinal de alimentação de alto-falante correspondendo ao primeiro alto-falante de reprodução e renderizar o objeto de áudio em um segundo sinal de alimentação de alto-falante correspondendo ao segundo alto-falante de reprodução.

5. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que: os metadados são variáveis no tempo; em um primeiro instante o indicador de alinhamento indica que o processo de posicionamento panorâmico de amplitude deve renderizar o objeto de áudio em um único sinal de alimentação de alto- falante; em um segundo instante o indicador de alinhamento indica que o processo de posicionamento panorâmico de amplitude deve aplicar regras de posicionamento panorâmico para renderizar o objeto de áudio em uma pluralidade de sinais de alimentação de alto-falante; e o processo de posicionamento panorâmico de amplitude suavemente transiciona entre renderizar o objeto de áudio em um sinal de alimentação de alto-falante correspondendo ao alto-falante de reprodução mais próximo à posição de reprodução pretendida do objeto de áudio e aplicar regras de posicionamento panorâmico para renderizar o objeto de áudio em uma pluralidade de sinais de alimentação de alto-falante.

6. Aparelho compreendendo: um sistema de interface (2105); e um sistema lógico (2110) configurado para: receber, por meio do sistema de interface (2105), dados de reprodução de áudio compreendendo um ou mais objetos de áudio e metadados associados com cada um dentre os um ou mais objetos de áudio; receber, por meio do sistema de interface (2105), dados de ambiente de reprodução compreendendo uma indicação de um número de alto-falantes de reprodução no ambiente de reprodução e uma indicação da localização de cada alto-falante de reprodução dentro do ambiente de reprodução; e renderizar os objetos de áudio em um ou mais sinais de alimentação de alto-falante ao aplicar um processo de posicionamento panorâmico de amplitude a cada objeto de áudio, em que o processo de posicionamento panorâmico de amplitude é baseado, pelo menos em parte, nos metadados associados com cada objeto de áudio e no local de cada alto-falante de reprodução dentro do ambiente de reprodução, e em que cada sinal de alimentação de alto- falante corresponde a pelo menos um dos alto-falantes de reprodução dentro do ambiente de reprodução; caracterizado pelo fato de que os metadados associados com cada objeto de áudio incluem coordenadas de objeto de áudio indicando a posição de reprodução pretendida do objeto de áudio dentro do ambiente de reprodução e um indicador de alinhamento indicando se o processo de posicionamento panorâmico de amplitude deve renderizar o objeto de áudio em um único sinal de alimentação de alto-falante ou aplicar regras de posicionamento panorâmico para renderizar o objeto de áudio em uma pluralidade de sinais de alimentação de alto-falante.

7. Aparelho, de acordo com a reivindicação 6, caracterizado pelo fato de que: o indicador de alinhamento indica que o processo de posicionamento panorâmico de amplitude deve renderizar o objeto de áudio em um único sinal de alimentação de alto-falante; e o processo de posicionamento panorâmico de amplitude renderiza o objeto de áudio em um sinal de alimentação de alto-falante correspondendo ao alto-falante de reprodução mais próximo à posição de reprodução pretendida do objeto de áudio.

8. Aparelho, de acordo com a reivindicação 6, caracterizado pelo fato de que: o indicador de alinhamento indica que o processo de posicionamento panorâmico de amplitude deve renderizar o objeto de áudio em um único sinal de alimentação de alto-falante; uma distância entre a posição de reprodução pretendida do objeto de áudio e o alto-falante de reprodução mais próximo à posição de reprodução pretendida do objeto de áudio excede um limite; e o processo de posicionamento panorâmico de amplitude substitui o indicador de alinhamento e aplica regras de posicionamento panorâmico para renderizar o objeto de áudio em uma pluralidade de sinais de alimentação de alto-falante.

9. Aparelho, de acordo com a reivindicação 7, caracterizado pelo fato de que: os metadados são variáveis no tempo; as coordenadas de objeto de áudio indicando a posição de reprodução pretendida do objeto de áudio dentro do ambiente de reprodução diferem em um primeiro instante e em um segundo instante; no primeiro instante o alto-falante de reprodução mais próximo à posição de reprodução pretendida do objeto de áudio corresponde a um primeiro alto-falante de reprodução; no segundo instante o alto-falante de reprodução mais próximo à posição de reprodução pretendida do objeto de áudio corresponde a um segundo alto-falante de reprodução; e o processo de posicionamento panorâmico de amplitude suavemente transiciona entre renderizar o objeto de áudio em um primeiro sinal de alimentação de alto-falante correspondendo ao primeiro alto-falante de reprodução e renderizar o objeto de áudio em um segundo sinal de alimentação de alto-falante correspondendo ao segundo alto-falante de reprodução.

10. Aparelho, de acordo com a reivindicação 6, caracterizado pelo fato de que: os metadados são variáveis no tempo; em um primeiro instante o indicador de alinhamento indica que o processo de posicionamento panorâmico de amplitude deve renderizar o objeto de áudio em um único sinal de alimentação de alto- falante; em um segundo instante o indicador de alinhamento indica que o processo de posicionamento panorâmico de amplitude deve aplicar regras de posicionamento panorâmico para renderizar o objeto de áudio em uma pluralidade de sinais de alimentação de alto-falante; e o processo de posicionamento panorâmico de amplitude suavemente transiciona entre renderizar o objeto de áudio em um sinal de alimentação de alto-falante correspondendo ao alto-falante de reprodução mais próximo à posição de reprodução pretendida do objeto de áudio e aplicar regras de posicionamento panorâmico para renderizar o objeto de áudio em uma pluralidade de sinais de alimentação de alto-falante.

11. Meio não transitório tendo um método armazenado no mesmo, o método realizando as seguintes etapas: receber dados de reprodução de áudio compreendendo um ou mais objetos de áudio e metadados associados com cada um dentre os um ou mais objetos de áudio; receber dados de ambiente de reprodução compreendendo uma indicação de um número de alto-falantes de reprodução no ambiente de reprodução e uma indicação da localização de cada alto- falante de reprodução dentro do ambiente de reprodução; e renderizar os objetos de áudio em um ou mais sinais de alimentação de alto-falante ao aplicar um processo de posicionamento panorâmico de amplitude a cada objeto de áudio, em que o processo de posicionamento panorâmico de amplitude é baseado, pelo menos em parte, nos metadados associados com cada objeto de áudio e no local de cada alto-falante de reprodução dentro do ambiente de reprodução, e em que cada sinal de alimentação de alto-falante corresponde a pelo menos um dos alto-falantes de reprodução dentro do ambiente de reprodução; caracterizado pelo fato de que os metadados associados com cada objeto de áudio incluem coordenadas de objeto de áudio indicando a posição de reprodução pretendida do objeto de áudio dentro do ambiente de reprodução e um indicador de alinhamento indicando se o processo de posicionamento panorâmico de amplitude deve renderizar o objeto de áudio em um único sinal de alimentação de alto- falante ou aplicar regras de posicionamento panorâmico para renderizar o objeto de áudio em uma pluralidade de sinais de alimentação de alto- falante.