BR112015004288B1 - sistema para renderizar som com o uso de elementos de som refletidos - Google Patents

sistema para renderizar som com o uso de elementos de som refletidos Download PDF

Info

Publication number
BR112015004288B1
BR112015004288B1 BR112015004288-0A BR112015004288A BR112015004288B1 BR 112015004288 B1 BR112015004288 B1 BR 112015004288B1 BR 112015004288 A BR112015004288 A BR 112015004288A BR 112015004288 B1 BR112015004288 B1 BR 112015004288B1
Authority
BR
Brazil
Prior art keywords
audio
speaker
sound
driver
content
Prior art date
Application number
BR112015004288-0A
Other languages
English (en)
Other versions
BR112015004288A2 (pt
Inventor
Brett G. Crockett
Spencer Hooks
Alan Seefeldt
Joshua B. Lando
C. Phillip Brown
Sripal S. Mehta
Stewart Murrie
Original Assignee
Dolby Laboratories Licensing Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corporation filed Critical Dolby Laboratories Licensing Corporation
Publication of BR112015004288A2 publication Critical patent/BR112015004288A2/pt
Publication of BR112015004288B1 publication Critical patent/BR112015004288B1/pt

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2205/00Details of stereophonic arrangements covered by H04R5/00 but not provided for in any of its subgroups
    • H04R2205/024Positioning of loudspeaker enclosures for spatial sound reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2205/00Details of stereophonic arrangements covered by H04R5/00 but not provided for in any of its subgroups
    • H04R2205/026Single (sub)woofer with two or more satellite loudspeakers for mid- and high-frequency band reproduction driven via the (sub)woofer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Abstract

RENDERIZAÇÃO DE SOM REFLETIDO PARA ÁUDIO À BASE DE OBJETO. Trata-se de modalidades que são descritas para renderizar conteúdo de áudio espacial através de um sistema que é configurado para refletir áudio de uma ou mais superfícies de um ambiente de escuta. O sistema inclui um arranjo de drivers de áudio distribuídos ao redor de um cômodo, sendo que pelo menos um driver do arranjo de drivers é configurado para projetar ondas de som em direção a uma ou mais superfícies do ambiente de escuta para reflexão para uma área de escuta dentro do ambiente de escuta e um renderizador configurado para receber e processar fluxos de áudio e um ou mais conjuntos de metadados que são associados a cada um dos fluxos de áudio e que especificam um local de reprodução no ambiente de escuta.

Description

REFERÊNCIA CRUZADA A PEDIDOS RELACIONADOS
[001] Este pedido reivindica o benefício de prioridade sobre o Pedido de Patente Provisório no U.S. 61/695.893 depositado em 31 de agosto de 2012, incorporado através do presente documento a título de referência em sua totalidade.
CAMPO DA INVENÇÃO
[002] Uma ou mais implantações referem-se geralmente a pro cessamento de sinal de áudio, e mais especificamente a renderizar conteúdo de áudio adaptativo através de drivers diretos e refletidos em determinados ambientes de escuta.
ANTECEDENTES DA INVENÇÃO
[003] A matéria discutida na seção de antecedentes não deve ser assumida como sendo técnica frontal meramente como resultado de sua menção na seção de antecedentes. Similarmente, um problema mencionado na seção de antecedentes ou associado à matéria da seção de antecedentes não deve ser assumido como tendo sido previamente reconhecido na técnica frontal. A matéria na seção de antecedentes meramente representa diferentes abordagens, que por si só também podem ser invenções.
[004] Trilhas sonoras de cinema normalmente compreendem muitos elementos de som diferentes que correspondem a imagens na tela, diálogo, ruídos, e efeitos de som que emanam de diferentes lugares na tela e combinam com música de fundo e efeitos de ambiente para criar a experiência de audiência como um todo. A reprodução precisa exige que sons sejam reproduzidos em um modo que corresponde o mais próximo possível ao que é mostrado na tela em relação à posição, intensidade, movimento, e profundidade de fonte de som. Os sistemas de áudio à base de canal tradicionais enviam conteúdo de áudio na forma de alimentações de alto-falante para alto-falantes individuais em um ambiente de reprodução. A introdução de cinema digital criou novos padrões para som de cinema, como a incorporação de múltiplos canais de áudio para permitir maior criatividade para criadores de conteúdo, e uma experiência auditiva mais envolvente e realista para audiências. Expandir para além de alimentações de alto-falante tradicionais e áudio à base de canal como um meio para distribuir áudio espacial é crítico, e tem havido interesse considerável em uma descrição de áudio à base de modelo que permite ao ouvinte para selecionar uma configuração de reprodução desejada com o áudio ren- derizado especificamente para sua configuração escolhida. Para apri-morar adicionalmente a experiência de ouvinte, a reprodução de som em ambientes tridimensionais verdadeiros (3D) ou 3D virtuais se tornou uma área de crescente pesquisa e desenvolvimento. A apresentação espacial de som utiliza objetos de áudio, que são sinais de áudio com descrições de fonte paramétrica associada de posição de fonte aparente (por exemplo, coordenadas em 3D), largura de fonte aparente, e outros parâmetros. Áudio à base de objeto pode ser usado para muitas aplicações multimídia, como filmes digitais, video games, simuladores, e é de importância particular em um ambiente doméstico em que o número de alto-falantes e sua colocação são geralmente limitados ou restritos pelos confinamentos de um ambiente de escuta relativamente pequeno.
[005] Várias tecnologias têm sido desenvolvidas para aprimorar sistemas de som em ambientes de cinema e para capturar e reproduzir de modo mais preciso a intenção artística do criador para uma trilha sonora de filme cinematográfico. Por exemplo, um formato de áudio espacial de próxima geração (também referido como "áudio adaptati- vo") foi desenvolvido que compreende uma mistura de objetos de áu- dio e alimentações de alto-falante à base de canal tradicionais juntamente com metadados posicionais para os objetos de áudio. Em um decodificador de áudio espacial, os canais são enviados diretamente a seus alto-falantes associados (se os alto-falantes adequados existirem) ou realizaram down-mix para um conjunto de alto-falantes existente, e objetos de áudio são renderizados pelo decodificador de maneira flexível. A descrição de fonte paramétrica associada a cada objeto, como uma trajetória posicional em espaço 3D, é tomada como uma entrada juntamente com o número e posição de alto-falantes conectados ao decodificador. O renderizador então utiliza determinados algoritmos, como uma lei de movimento panorâmico, para distribuir o áudio associado a cada objeto através do conjunto anexado de alto-falantes. Desse modo, a intenção espacial autorada de cada objeto é idealmen-te apresentada sobre a configuração de alto-falante específica que está presente no ambiente de escuta.
[006] Sistemas de áudio espacial atuais têm sido geralmente de senvolvidos para uso em cinema e, assim, envolvem o emprego em grandes cômodos e o uso de equipamento relativamente custoso, incluindo arranjos de múltiplos alto-falantes distribuídos ao redor do ambiente de escuta. Uma quantidade crescente de conteúdo de cinema que está sendo atualmente produzido está disponível para reprodução no ambiente doméstico através de tecnologia de streaming e tecnologia de mídia avançada, como blu-ray, e assim em diante. Além disso, tecnologias emergentes, como televisão 3D e jogos de computador avançados e simuladores têm encorajado o uso de equipamento relativamente sofisticado, como monitores de tela grande, arranjos de alto- falante e receptores de som ambiente em casas e outros ambientes de escuta (não cinema/teatro). Entretanto, o custo de equipamento, complexidade de instalação, e tamanho de cômodo são restrições realistas que impedem a exploração completa de áudio espacial na maioria dos ambientes domésticos. Por exemplo, sistemas de áudio à base de objeto avançados tipicamente empregam alto-falantes de altura ou suspensos para reproduzir som que se destina a originar acima da cabeça de um ouvinte. Em muitos casos, e especialmente no ambiente doméstico, tais alto-falantes de altura podem não estar disponíveis. Nesse caso, as informações de altura são perdidas se tais objetos de som são executados apenas através de alto-falantes montados na parede ou no solo.
[007] O que é necessário, portanto, é um sistema que permite que informações espaciais completas de um sistema de áudio adapta- tivo para ser reproduzido em um ambiente de escuta que pode incluir apenas uma porção do arranjo de alto-falante completo destinado para reprodução, como alto-falantes limitados ou não suspensos, e que pode utilizar alto-falantes refletidos para emanar som de lugares em que alto-falantes diretos podem não existir.
BREVE SUMÁRIO DE MODALIDADES
[008] Sistemas e métodos são descritos para um formato de áu dio e sistema que inclui ferramentas de criação de conteúdo atualizadas, métodos de distribuição e uma experiência de usuário acentuada com base em um sistema de áudio adaptativo que inclui novas configurações de alto-falante e canal, assim como um novo formato de descrição espacial tornado possível por um conjunto de ferramentas de criação de conteúdo avançadas criado para misturadores de som de cinema. As modalidades incluem um sistema que expande o conceito de áudio adaptativo com base em cinema para um ecossistema de reprodução de áudio particular, incluindo home theater (por exemplo, receptor A/V, barra de som, e tocador de blu-ray), E-media (por exemplo, reprodução de PC, tablet, dispositivo móvel, e fone de ouvido), difusão (por exemplo, TV e decodificador de sinais), música, jogos, som ao vivo, conteúdo gerado por usuário ("UGC"), e assim em diante. O sistema de ambiente doméstico inclui componentes que fornecem compatibilidade com o conteúdo teatral, e definições de metadados de recursos que incluem informações de criação de conteúdo para transportar intenção criativa, informações de inteligência de mídia em relação a objetos de áudio, alimentações de alto-falante, informações de renderização espacial e metadados dependentes de conteúdo que indicam tipo de conteúdo, como diálogo, música, ambiência, e assim em diante. As definições de áudio adaptativo podem incluir alimentações de alto-falante padrão por meio de canais de áudio, mais objetos de áudio com informações de renderização espacial associadas (como tamanho, velocidade e local em espaço tridimensional). Uma configuração de alto-falante inovadora (ou configuração de canal) e um formato de descrição espacial novo que acompanha que irá suportar múltiplas tecnologias de renderização são também descritos. Fluxos de áudio (geralmente incluindo canais e objetos) são transmitidos juntamente com metadados que descrevem a intenção do misturador de som ou do criador de conteúdo, incluindo posição desejada do fluxo de áudio. A posição pode ser expressa como um canal nomeado (de dentro da configuração de canal predefinida) ou como informações de posição espacial em 3D. Esse formato de canais mais objetos fornece o melhor de ambos os métodos de descrição de cena de áudio à base de modelo e à base de canal.
[009] Modalidades são especificamente direcionadas a um siste ma para renderizar som com o uso de elementos de som refletidos que compreendem um arranjo de drivers de áudio para distribuição ao redor de um ambiente de escuta, sendo que alguns dos drivers são drivers diretos e outros são drivers refletidos que são configurados para projetar ondas de som em direção a uma ou mais superfícies do ambiente de escuta para reflexão para uma área de escuta específica; um renderizador para processar fluxos de áudio e um ou mais conjun- tos de metadados que são associados a cada fluxo de áudio e que es-pecificam um local de reprodução no ambiente de escuta de um respectivo fluxo de áudio, sendo que os fluxos de áudio compreendem um ou mais fluxos de áudio refletidos e um ou mais fluxos de áudio diretos; e um sistema de reprodução para renderizar os fluxos de áudio para o arranjo de drivers de áudio em conformidade com o um ou mais conjuntos de metadados, e sendo que o um ou mais fluxos de áudio refletidos são transmitidos para os drivers refletidos de áudio.
INCORPORAÇÃO A TÍTULO DE REFERÊNCIA
[0010] Qualquer publicação, patente, e/ou pedido de patente men cionado neste relatório descritivo é incorporado no presente documento a título de referência em sua totalidade como se cada publicação e/ou pedido de patente individual fosse especificamente e individualmente indicado como sendo incorporado a título de referência.
BREVE DESCRIÇÃO DOS DESENHOS
[0011] Nos desenhos a seguir, números de referência similares são usados para se referir a elementos similares. Embora as seguintes Figuras retratem vários exemplos, a uma ou mais implantações não se limitam aos exemplos retratados nas Figuras.
[0012] A Figura 1 ilustra uma colocação de alto-falante exemplifi- cativa em um sistema ambiente (por exemplo, 9.1 surround) que fornece alto-falantes de altura para reprodução de canais de altura.
[0013] A Figura 2 ilustra a combinação de dados à base de objeto e canal para produzir uma mistura de áudio adaptativo, sob uma modalidade.
[0014] A Figura 3 é um diagrama de blocos de uma arquitetura de reprodução para uso em um sistema de áudio adaptativo, sob uma modalidade.
[0015] A Figura 4A é um diagrama de blocos que ilustra os com ponentes funcionais para adaptar conteúdo de áudio com base em ci- nema para uso em um ambiente de escuta sob uma modalidade.
[0016] A Figura 4B é um diagrama de blocos detalhado dos com ponentes da Figura 3A, sob uma modalidade.
[0017] A Figura 4C é um diagrama de blocos dos componentes funcionais de um ambiente de áudio adaptativo, sob uma modalidade.
[0018] A Figura 5 ilustra o emprego de um sistema de áudio adap- tativo em um ambiente de home theater exemplificativo.
[0019] A Figura 6 ilustra o uso de um driver de disparo para cima com o uso de som refletido para simular um alto-falante suspenso em um ambiente de escuta.
[0020] A Figura 7A ilustra um alto-falante que tem uma pluralidade de drivers em uma primeira configuração para uso em um sistema de áudio adaptativo que tem um renderizador de som refletido, sob uma modalidade.
[0021] A Figura 7B ilustra um sistema de alto-falante que tem dri vers distribuídos em múltiplos invólucros para uso em um sistema de áudio adaptativo que tem um renderizador de som refletido, sob uma modalidade.
[0022] A Figura 7C ilustra uma configuração exemplificativa para uma barra de som usada em um sistema de áudio adaptativo com o uso de um renderizador de som refletido, sob uma modalidade.
[0023] A Figura 8 ilustra uma colocação exemplificativa de alto- falantes que tem drivers individualmente endereçáveis, incluindo drivers de disparo para cima colocados dentro de um ambiente de escuta.
[0024] A Figura 9A ilustra uma configuração de alto-falante para um sistema de áudio adaptativo 5.1 que utiliza múltiplos drivers endereçáveis para áudio refletido, sob uma modalidade.
[0025] A Figura 9B ilustra uma configuração de alto-falante para um sistema de áudio adaptativo 7.1 que utiliza múltiplos drivers ende- reçáveis para áudio refletido, sob uma modalidade.
[0026] A Figura 10 é um diagrama que ilustra a composição de uma interconexão bidirecional, sob uma modalidade.
[0027] A Figura 11 ilustra uma configuração automática e processo de calibração de sistema para uso em um sistema de áudio adaptativo, sob uma modalidade.
[0028] A Figura 12 é um fluxograma que ilustra etapas de proces so para um método de calibração usado em um sistema de áudio adaptativo, sob uma modalidade.
[0029] A Figura 13 ilustra o uso de um sistema de áudio adaptativo em um caso de uso de barra de som e televisão exemplificativo.
[0030] A Figura 14 ilustra uma representação simplificada de uma virtualização de fone de ouvido binaural tridimensional em um sistema de áudio adaptativo, sob uma modalidade.
[0031] A Figura 15 é uma tabela que ilustra determinadas defini ções de metadados para uso em um sistema de áudio adaptativo que utiliza um renderizador de som refletido para ambientes de escuta, sob uma modalidade.
[0032] A Figura 16 é um gráfico que ilustra a resposta de frequên cia para um filtro combinado, sob uma modalidade.
DESCRIÇÃO DETALHADA DA INVENÇÃO
[0033] Sistemas e métodos são descritos para um sistema de áu dio adaptativo que renderiza som refletido para sistemas de áudio adaptativo que carecem de alto-falantes suspensos. Aspectos da uma ou mais modalidades descritas no presente documento podem ser implantados em um sistema de áudio ou audiovisual que processa informações de áudio de fonte em um sistema de reprodução, renderiza- ção e mistura que inclui um ou mais computadores ou dispositivos de processamento que executam instruções de software. Qualquer uma das modalidades descritas pode ser usada sozinha ou juntamente uma com a outra em qualquer combinação. Embora várias modalidades possam ter sido motivadas por várias deficiências com a técnica frontal, que pode ser discutida ou aludida em um ou mais lugares no relatório descritivo, as modalidades não necessariamente tratam qualquer uma dessas deficiências. Em outras palavras, diferentes modalidades podem tratar diferentes deficiências que podem ser discutidas no relatório descritivo. Algumas modalidades podem tratar apenas parcialmente algumas deficiências ou apenas uma deficiência que pode ser discutida no relatório descritivo, e algumas modalidades podem não tratar qualquer uma dessas deficiências.
[0034] Para fins da presente descrição, os seguintes termos têm os significados associados: o termo "canal" significa um sinal de áudio mais metadados nos quais a posição é codificada como um identificador de canal, por exemplo, arredores de esquerda-parte frontal ou direita-topo; "áudio à base de canal" é áudio formatado para reprodução através de um conjunto predefinido de zonas de alto-falante com locais nominais associados, por exemplo, 5.1, 7.1, e assim em diante; o termo "objeto" ou "áudio à base de objeto" significa um ou mais canais de áudio com uma descrição de fonte paramétrica, como posição de fonte aparente (por exemplo, coordenadas em 3D), largura de fonte aparente, etc.; e "áudio adaptativo" significa sinais de áudio à base de canal e/ou à base de objeto mais metadados que renderizam os sinais de áudio com base no ambiente de reprodução com o uso de um fluxo de áudio mais metadados nos quais a posição é codificada como uma posição em 3D no espaço; e "ambiente de escuta" significa qualquer área aberta, parcialmente fechada, ou completamente fechada, como um cômodo que pode ser usado para reprodução de conteúdo de áudio sozinho ou com vídeo ou outro conteúdo, e pode ser incorporado em um domicílio, cinema, teatro, auditório, estúdio, console de jogo, e similares. Tal área pode ter uma ou mais superfícies dispostas na mesma, como paredes ou defletores que podem refletir de modo direto ou difuso ondas de som.
SISTEMA E FORMATO DE ÁUDIO ADAPTATIVO
[0035] Modalidades são direcionadas a uma renderização de sis tema de som refletido que é configurado para funcionar com um formato de som e sistema de processamento que pode ser referido como um "sistema de áudio espacial" ou "sistema de áudio adaptativo" que é com base em um formato de áudio e tecnologia de renderização para permitir imersão de audiência acentuada, maior controle artístico, e flexibilidade e capacidade de variação de escala de sistema. Um sistema de áudio adaptativo como um todo geralmente compreende um sistema de codificação, distribuição e decodificação de áudio configurado para gerar um ou mais fluxos de bits que contêm elementos de áudio à base de canal convencionais e elementos de codificação de objeto de áudio. Tal abordagem combinada fornece maior eficácia de codificação e flexibilidade de renderização comparada a abordagens à base de canal ou à base de objeto tomadas separadamente. Um exemplo de um sistema de áudio adaptativo que pode ser usado em conjunto com presentes modalidades é descrito no Pedido de Patente Provisório Pendente No U.S. 61/636.429, depositado em 20 de abril de 2012 e intitulado "System and Method for Adaptive Audio Signal Generation, Coding and Rendering", que é incorporado através do presente documento a título de referência em sua totalidade.
[0036] Uma implantação exemplificativa de um sistema de áudio adaptativo e formato de áudio associado é a plataforma Dolby® Atmos™. Tal sistema incorpora uma dimensão de altura (para cima/para baixo) que pode ser implantada como um sistema ambiente 9.1, ou configuração de som ambiente similar. A Figura 1 ilustra a colocação de alto-falante em um presente sistema ambiente (por exemplo, 9.1 surround) que fornece alto-falantes de altura para reprodução de ca- nais de altura. A configuração de alto-falante do sistema 9.1 100 é composta por cinco alto-falantes 102 no plano de solo e quatro alto- falantes 104 no plano de altura. Em geral, esses alto-falantes podem ser usados para produzir som que é projetado para emanar de qualquer posição de modo mais ou menos preciso dentro do ambiente de escuta.Configurações de alto-falante predefinidas, como aquelas mostradas na Figura 1, podem naturalmente limitar a capacidade de representar com precisão a posição de uma dada fonte de som. Por exemplo, uma fonte de som não pode ser feito movimento panorâmico mais para a esquerda do que o próprio alto-falante esquerdo. Isso se aplica a todo alto-falante, formando, portanto um formato geométrico unidi-mensional (por exemplo, esquerda-direita), bidimensional (por exemplo, frente-trás), ou tridimensional (por exemplo, esquerda-direita, fren- te-trás, para cima-para baixo), no qual o downmix é restrito. Vários configurações e tipos de alto-falante diferentes podem ser usados em tal configuração de alto-falante. Por exemplo, determinados sistemas de áudio acentuados podem usar alto-falantes em uma configuração de 9.1, 11.1, 13.1, 19.4, ou outros. Os tipos de alto-falante podem incluir alto-falantes diretos de faixa completa, arranjos de alto-falante, alto-falantes ambiente, subwoofers, tweeters, e outros tipos de alto- falantes.
[0037] Objetos de áudio podem ser considerados como grupos de elementos de som que podem ser percebidos por emanar de um local físico particular ou locais no ambiente de escuta. Tais objetos podem ser estáticos (isto é, estacionário) ou dinâmicos (isto é, em movimento). Objetos de áudio são controlados por metadados que definem a posição do som em um dado ponto no tempo, juntamente com outras funções. Quando objetos são executados de volta, os mesmos são renderizados de acordo com os metadados posicionais com o uso dos alto-falantes que estão presentes, ao invés de necessariamente ser emitido a um canal físico predefinido. Uma faixa em uma sessão pode ser um objeto de áudio, e dados de movimento panorâmico padrões são análogos a metadados posicionais. Desse modo, o conteúdo colocado na tela pode realizar movimento panorâmico efetivamente do mesmo jeito com conteúdo à base de canal, mas conteúdo colocado nos surrounds pode ser renderizado para um alto-falante individual caso seja desejado. Embora o uso de objetos de áudio forneça o controle desejado para efeitos distintos, outros aspectos de uma trilha sonora podem funcionar efetivamente em um ambiente à base de canal. Por exemplo, muitos efeitos de ambiente ou reverberação realmente se beneficiam de serem alimentados a arranjos de alto-falantes. Embora esses possam ser tratados como objetos com largura o suficiente para preencher um arranjo, é benéfico reter alguma funcionalidade à base de canal.
[0038] O sistema de áudio adaptativo é configurado para suportar "sedes" além de objetos de áudio, em que sedes são efetivamente troncos ou submisturas à base de canal. Esses podem ser entregues para reprodução final (renderizar) individualmente, ou combinados em uma única sede, dependendo da intenção do criador de conteúdo. Essas sedes podem ser criadas em diferentes configurações à base de canal como 5.1, 7.1, e 9.1, e arranjos que incluem alto-falantes suspensos, como mostrado na Figura 1. A Figura 2 ilustra a combinação de dados à base de objeto e canal para produzir uma mistura de áudio adaptativo, sob uma modalidade. Conforme mostrado no processo 200, os dados à base de canal 202, que, por exemplo, podem ser da-dos de som ambiente 5.1 ou 7.1 fornecidos na forma de dados modulados de código de pulso (PCM) são combinados com dados de objeto de áudio 204 para produzir uma mistura de áudio adaptativo 208. Os dados de objeto de áudio 204 são produzidos combinando-se os elementos dos dados à base de canal originais com metadados associa- dos que especificam determinados parâmetros que pertencem ao local dos objetos de áudio. Conforme mostrado conceitualmente na Figura 2, as ferramentas de autoria fornecem a capacidade para criar áudio programas que contêm uma combinação de grupos de canal de alto- falante e canais de objeto simultaneamente. Por exemplo, um programa de áudio poderia conter um ou mais canais de alto-falante opcionalmente organizados em grupos (ou faixas, por exemplo, um estéreo ou faixa 5.1), metadados descritivos para um ou mais canais de alto- falante, um ou mais canais de objeto, e metadados descritivos para um ou mais canais de objeto.
[0039] Um sistema de áudio adaptativo efetivamente se move para além de simples "alimentações de alto-falante" como um meio para distribuir áudio espacial, e descrições avançadas de áudio à base de modelos foram desenvolvidas que permitem ao ouvinte a liberdade de selecionar uma configuração de reprodução que atende a suas necessidades individuais ou orçamento e têm o áudio renderizado especificamente para sua configuração individualmente escolhida. Em um nível alto, há quatro formatos de descrição de áudio espacial principais: (1) alimentação de alto-falante, em que o áudio é descrito como sinais destinados para alto-falantes localizados em posições de alto-falantes nominais; (2) alimentação de microfone, em que o áudio é descrito como sinais capturados por microfones de fato ou virtuais em uma configuração predefinida (o número de microfones e sua posição relativa); (3) descrição à base de modelo, em que o áudio é descrito em termos de uma sequência de eventos de áudio em tempos e posições descritos; e (4) binaural, em que o áudio é descrito pelos sinais que chegam às duas orelhas de um ouvinte.
[0040] Os quatro formatos de descrição são frequentemente asso ciados às seguintes tecnologias de renderização comuns, em que o termo "renderizar" significa conversão em sinais elétricos usados como alimentações de alto-falante: (1) movimento panorâmico, em que o fluxo de áudio é convertido em alimentações de alto-falante com o uso de um conjunto de leis de movimento panorâmico e posições de alto- falante conhecidas ou assumidas (tipicamente renderizado antes de distribuição); (2) Ambissônica, em que os sinais de microfone são convertidos em alimentações para um arranjo escalável de alto-falantes (tipicamente renderizado após a distribuição); (3) Síntese de Campo de Onda (WFS), em que eventos de som são convertidos nos sinais de alto-falante adequados para sintetizar um campo de som (tipicamente renderizado após a distribuição); e (4) binaural, em que os sinais binaurais E/D são entregues à orelha E/D, tipicamente através de fones de ouvido, mas também através de alto-falantes em conjunto com cancelamento de diafonia.
[0041] Em geral, qualquer formato pode ser convertido em outro formato (embora isso possa exigir separação de fonte cega ou tecnologia similar) e renderizado com o uso de qualquer uma das tecnologias previamente mencionadas; entretanto, nem todas as transformações rendem bons resultados na prática. O formato de alimentação de alto-falante é o mais comum visto que é simples e eficaz. Os melhores resultados sônicos (isto é, o mais preciso e confiável) são alcançados misturando/monitorando-se e então distribuindo-se as alimentações de alto-falante diretamente visto que não há processamento exigido entre o criador de conteúdo e o ouvinte. Se o sistema de reprodução for conhecido antecipadamente, uma descrição de alimentação de alto- falante fornece a maior fidelidade; entretanto, o sistema de reprodução e sua configuração não são frequentemente conhecidos antecipadamente. Em contraste, a descrição à base de modelo é a mais adaptável visto que não faz pressupostos sobre o sistema de reprodução e é, portanto, mais facilmente aplicado a múltiplas tecnologias de renderi- zação. A descrição à base de modelo pode eficazmente capturar in- formações espaciais, mas se torna muito ineficaz conforme o número de fontes de áudio aumenta.
[0042] O sistema de áudio adaptativo combina os benefícios de ambos os sistemas à base de canal e modelo, com benefícios específicos, incluindo qualidade de alto timbre, reprodução ideal de intenção artística quando da mistura e renderização com o uso da mesma configuração de canal, único inventário com adaptação "para baixo" para a configuração de renderização, relativamente baixo impacto em tubulação de sistema, e maior imersão por meio de resolução espacial de alto-falante horizontal mais fina e novos canais de altura. O sistema de áudio adaptativo fornece diversos novos recursos, incluindo: um único inventário com adaptação para baixo e para cima para uma configuração de renderização de cinema específica, isto é, atraso de renderiza- ção e uso ideal de alto-falantes disponíveis em um ambiente de reprodução; maior envolvimento, incluindo realizar o downmix aprimorado para evitar artefatos de correlação intercanal (ICC); maior resolução espacial por meio de arranjos de condução atravessante (por exemplo, permitir que um objeto de áudio seja dinamicamente designado a um ou mais alto-falantes dentro de um arranjo ambiente); e maior resolução de canal frontal por meio de um centro de alta resolução ou configuração de alto-falante similar.
[0043] Os efeitos espaciais de sinais de áudio são críticos em for necer uma experiência imersiva para o ouvinte. Sons que se destinam a emanar de uma região específica de uma tela de visualização ou ambiente de escuta devem ser executados através de alto-falante(s) localizado(s) no mesmo local relativo. Assim, o dado de áudio primário de um evento de som em uma descrição à base de modelo é posição, embora outros parâmetros como tamanho, orientação, velocidade e dispersão acústica possam ser também descritos. Para transportar a posição, uma descrição espacial de áudio 3D à base de modelo exige um sistema de coordenadas em 3D. O sistema de coordenadas usado para transmissão (Euclidiano, esférico, cilíndrico) é geralmente escolhido para fins de conveniência ou compacidade; entretanto, outros sistemas de coordenadas podem ser usados para o processamento de renderização. Além de um sistema de coordenadas, um quadro de referência é exigido para representar os locais de objetos no espaço. Para que sistemas reproduzam precisamente o som com base em posição em uma variedade de ambientes diferentes, selecionar o quadro de referência adequado pode ser crítico. Com um quadro de referência alocêntrico, uma posição de fonte de áudio é definida em relação a recursos dentro do ambiente de renderização, como paredes e cantos de cômodo, locais de alto-falante padrão, e local de tela. Em um quadro de referência egocêntrico, locais são representados em relação à perspectiva do ouvinte, como "na minha frente", "um pouco para a esquerda", e assim em diante. Estudos científicos de percepção espacial (áudio e de outro modo) mostraram que a perspectiva egocêntrica é usada quase universalmente. Para o cinema, entretanto, o quadro de referência alocêntrico é geralmente mais adequado. Por exemplo, o local preciso de um objeto de áudio é o mais importante quando há um objeto associado na tela. Quando do uso de uma referência alocêntri- ca, para cada posição de escuta e para qualquer tamanho de tela, o som irá se localizar na mesma posição relativa na tela, por exemplo, "um terço à esquerda do meio da tela." Outra razão é que misturadores tendem a pensar e misturar em termos alocêntricos, e ferramentas de movimento panorâmico são expostos com um quadro alocêntrico (isto é, as paredes de cômodo), e os misturadores esperam que os mesmos sejam renderizados desse modo, por exemplo, "esse som deve estar na tela", "esse som deve estar fora da tela", ou "da parede esquerda", e assim em diante.
[0044] Apesar do uso do quadro de referência alocêntrico no am- biente de cinema, há alguns casos em que um quadro de referência egocêntrico pode ser útil e mais adequado. Esses incluem sons não diegéticos, isto é, aqueles que não estão presentes no "espaço da estória", por exemplo, música de fundo, para a qual uma apresentação uniforme de forma egocêntrica pode ser desejável. Outro caso é o de efeitos de campo próximo (por exemplo, um mosquito zunindo na orelha esquerda do ouvinte) que exigem uma representação egocêntrica. Além disso, fontes de som infinitamente longes (e as ondas de plano resultantes) podem parecer vir de uma posição egocêntrica constante (por exemplo, 30 graus para a esquerda), e tais sons são mais fáceis de descrever em termos egocêntricos do que in termos alocêntricos. Em alguns casos, é possível usar um quadro de referência alocêntrico, desde que uma posição de escuta nominal seja definida, enquanto que alguns exemplos exigem uma representação egocêntrica que ainda não é possível de renderizar. Embora uma referência alocêntrica possa ser mais útil e adequada, a representação de áudio deve ser extensível, visto que muitos novos recursos, incluindo representação egocêntrica, podem ser mais desejáveis em determinadas aplicações e ambientes de escuta.
[0045] Modalidades do sistema de áudio adaptativo incluem uma abordagem de descrição espacial híbrida que inclui uma configuração de canal recomendada para fidelidade ideal e para renderizar fontes de múltiplos pontos complexas ou difusas (por exemplo, multidão de estádio, ambiância) com o uso de uma referência egocêntrica, mais uma descrição de som à base de modelo, alocêntrica, para eficazmente permitir maior resolução espacial e escalabilidade. A Figura 3 é um diagrama de blocos de uma arquitetura de reprodução para uso em um sistema de áudio adaptativo, sob uma modalidade. O sistema da Figura 3 inclui blocos de processamento que realizam legado, decodi- ficação de áudio de objeto e canal, renderização de objeto, remapea- mento de canal e processamento de sinal antes do áudio ser enviado para pós-processamento e/ou amplificação e estágios de alto-falante.
[0046] O sistema de reprodução 300 é configurado para renderizar e reproduzir conteúdo de áudio que é gerado através de um ou mais componentes de captura, pré-processamento, autoria e codificação. Um pré-processador de áudio adaptativo pode incluir separação de fonte e funcionalidade de detecção de tipo de conteúdo que automaticamente gera metadados adequados através de análise de áudio de entrada. Por exemplo, metadados posicionais podem ser derivados de uma gravação por múltiplos canais através de uma análise dos níveis relativos de entrada correlacionada entre pares de canal. A detecção de tipo de conteúdo, como "fala" ou "música", pode ser alcançada, por exemplo, por classificação e extração de recurso. Determinadas ferramentas de autoria permitem a autoria de programas de áudio aperfeiçoando-se a entrada e codificação da intenção criativa do engenheiro de som, permitindo que o mesmo crie a mistura de áudio final uma vez que isto seja aprimorado para reprodução em praticamente qualquer ambiente de reprodução. Isso pode ser realizado através do uso de objetos de áudio e dados posicionais que são associados e codificados com o conteúdo de áudio original. A fim de colocar precisamente sons ao redor de um auditório, o engenheiro de som precisa controlar sobre como o som será por fim renderizado com base nas restrições de fato e recursos do ambiente de reprodução. O sistema de áudio adaptativo fornece esse controle ao permitir que o engenheiro de som mude como o conteúdo de áudio é projetado e misturado através do uso de objetos de áudio e dados posicionais. Uma vez que o conteúdo de áudio adaptativo tenha sido autorado e codificado nos dispositivos codec adequados, o mesmo é decodificado e renderizado nos vários componentes de sistema de reprodução 300.
[0047] Conforme mostrado na Figura 3, (1) áudio de som ambiente de legado 302, (2) áudio de objeto, incluindo metadados de objeto 304, e (3) áudio de canal, incluindo metadados de canal 306 são inseridos em estados de decodificador 308, 309 dentro de bloco de processamento 310. Os metadados de objeto são renderizados em renderiza- dor de objeto 312, enquanto os metadados de canal podem ser rema- peados conforme for necessário. Informações de configuração de ambiente de escuta 307 são fornecidas ao renderizador de objeto e componente de remapeamento de canal. Os dados de áudio híbridos são então processados através de um ou mais estágios de processamento de sinal, como equalizadores e limitadores 314 antes de emitidos para o estágio de processamento de cadeia B 316 e reprodução através de alto-falantes 318. O sistema 300 representa um exemplo de um sistema de reprodução para áudio adaptativo, e outras configurações, componentes, e interconexões são também possíveis.
[0048] O sistema da Figura 3 ilustra uma modalidade na qual o renderizador compreende um componente que aplica metadados de objeto aos canais de áudio de entrada para processar conteúdo de áudio à base de objeto em conjunto com conteúdo de áudio à base de canal opcional. Modalidades também podem ser direcionadas a um caso em que os canais de áudio de entrada compreendem conteúdo à base de canal de legado apenas, e o renderizador compreende um componente que gera alimentações de alto-falante para transmissão para um arranjo de drivers em uma configuração de som ambiente. Nesse caso, a entrada não é necessariamente conteúdo à base de objeto, mas conteúdo de legado 5.1 ou 7.1 (ou outros com base em não objeto), como fornecido em Dolby Digital ou Dolby Digital Mais, ou sistemas similares.
APLICAÇÕES DE REPRODUÇÃO
[0049] Conforme mencionado acima, uma implantação inicial do sistema e formato de áudio adaptativo está no contexto de cinema di- gital (cinema D) que inclui captura de conteúdo (objetos e canais) que são autorados com o uso de ferramentas de autoria inovadoras, empacotados com o uso de um codificador de cinema de áudio adaptati- vo, e distribuídos com o uso de PCM ou um codec sem perdas proprietário com o uso do mecanismo de distribuição de Iniciativa Digital de Cinema (DCI) existente. Nesse caso, o conteúdo de áudio se destina a ser decodificado e renderizado em um cinema digital para criar uma experiência de cinema de áudio espacial imersiva. Entretanto, como com aprimoramentos de cinema frontais, como som ambiente analógico, áudio de múltiplos canais digital, etc., há um imperativo de entregar a experiência de usuário acentuada fornecida pelo áudio adaptativo formato diretamente para usuários em seus domicílios. Isso exige que determinadas características do formato e sistema sejam adaptadas para uso em ambientes de escuta mais limitados. Por exemplo, domicílios, cômodos, auditório pequeno ou lugares similares podem ter espaço reduzido, propriedades acústicas, e capacidades de equipamento em comparação a um ambiente de cinema ou teatro. Para fins de descrição, o termo "ambiente à base de consumidor" se destina a incluir qualquer ambiente de não cinema que compreende um ambiente de escuta para uso por profissionais ou consumidores regulares, como uma casa, estúdio, cômodo, área de console, auditório, e similares. O conteúdo de áudio pode ser proveniente e renderizado sozinho ou pode ser associado a conteúdo gráfico, por exemplo, imagens estáticas, visores com luz, vídeo, e assim em diante.
[0050] A Figura 4A é um diagrama de blocos que ilustra os com ponentes funcionais para adaptar conteúdo de áudio com base em cinema para uso em um ambiente de escuta sob uma modalidade. Conforme mostrado na Figura 4A, o conteúdo de cinema que tipicamente compreende uma trilha sonora de filme é capturado e/ou autorado com o uso de equipamento e ferramentas adequados no bloco 402. Em um sistema de áudio adaptativo, esse conteúdo é processado através de interfaces e componentes de renderização e codificação/decodificação no bloco 404. As alimentações de áudio de objeto e canal resultantes são então enviadas para os alto-falantes adequados no cinema ou teatro, 406. No sistema 400, o conteúdo de cinema é também processado para reprodução em um ambiente de escuta, como um sistema de home theater, 416. Presume-se que o ambiente de escuta não é tão compreensivo ou capaz de reproduzir todo o conteúdo de som conforme destinado pelo criador de conteúdo devido a espaço limitado, contagem de alto-falante reduzida, e assim em diante. Entretanto, modalidades são direcionadas a sistemas e métodos que permitem que o conteúdo de áudio original seja renderizado de maneira que minimiza as restrições impostas pela capacidade reduzida do ambiente de escuta, e permitem que as indicações posicionais sejam processadas em um modo que maximize o equipamento disponível. Conforme mostrado na Figura 4A, o conteúdo de áudio de cinema é processado através de cinema para componente de tradutor de consumidor 408 em que é processado na cadeia de renderização e codificação de conteúdo de consumidor 414. Essa cadeia também processa conteúdo de áudio original que é capturado e/ou autorado no bloco 412. O conteúdo original e/ou o conteúdo de cinema traduzido são então executados de volta no ambiente de escuta, 416. Dessa maneira, as informações espaciais relevantes que são codificadas no conteúdo de áudio podem ser usadas para renderizar o som de maneira mais imersiva, mesmo com o uso da configuração de alto-falante possivelmente limitada do domicílio ou ambiente de escuta 416.
[0051] A Figura 4B ilustra os componentes da Figura 4A em maio res detalhes. A Figura 4B ilustra um mecanismo de distribuição exem- plificativo para conteúdo de cinema de áudio adaptativo por todo um ecossistema de reprodução de áudio. Conforme mostrado no diagra- ma 420, conteúdo de cinema e TV original é capturado 422 e autorado 423 para reprodução em uma variedade de ambientes diferentes para fornecer uma experiência de cinema 427 ou experiências de ambiente de consumidor 434. Do mesmo modo, determinados conteúdos gerados por usuário (UGC) ou conteúdo de consumidor é capturado 423 e autorado 425 para reprodução no ambiente de escuta 434. O conteúdo de cinema para reprodução no ambiente de cinema 427 é processado através de processos de cinema conhecidos 426. Entretanto, no sistema 420, o emitido da caixa de ferramentas de autoria de cinema 423 também consiste em objetos de áudio, canais de áudio e metadados que transportam a intenção artística do misturador de som. Isso pode ser pensado como um pacote de áudio de estilo mezanino que pode ser usado para criar múltiplas versões do conteúdo de cinema para reprodução. Em uma modalidade, essa funcionalidade é fornecida por um tradutor adaptativo de áudio de cinema-para-consumidor 430. Esse tradutor tem uma entrada para o conteúdo de áudio adaptativo e destila do mesmo o conteúdo de áudio e metadados adequado para os pontos finais de consumidor desejados 434. O tradutor cria emissões de áudio e metadados separados, e possivelmente diferentes, dependendo do mecanismo de distribuição e ponto final.
[0052] Conforme mostrado no exemplo do sistema 420, o tradutor de cinema-para-consumidor 430 alimenta som para módulos de criação de fluxo de bits de áudio de imagem (difusão, disco, OTT, etc.) e jogo 428. Esses dois módulos, que são adequados para entregar conteúdo de cinema, pode ser alimentados em múltiplas tubulações de distribuição 432, em que todas podem entregar ao consumidor pontos finais. Por exemplo, o conteúdo de cinema de áudio adaptativo pode ser codificado com o uso de um codec adequado para fins de difusão, como Dolby Digital Mais, que pode ser modificado para transportar canais, objetos e metadados associados, e é transmitido através da ca- deia de difusão por meio de cabo ou satélite e então decodificado e renderizado em um domicílio para reprodução de home theater ou televisão. Similarmente, o mesmo conteúdo poderia ser codificado com o uso de um codec adequado para distribuição online em que largura de banda é limitada, em que o mesmo é então transmitido através de uma rede móvel 3G ou 4G e então decodificado e renderizado para reprodução por meio de um dispositivo móvel com o uso de fones de ouvido. Outras fontes de conteúdo, como TV, difusão ao vivo, jogos e música também podem usar o formato de áudio adaptativo para criar e fornecer conteúdo para um formato de áudio de próxima geração.
[0053] O sistema da Figura 4B fornece uma experiência de usuário acentuada por todo o ecossistema de áudio de consumidor, que pode incluir home theater (receptor A/V, barra de som, e BluRay), E-mídia (PC, Tablet, Telefone móvel, incluindo reprodução de fone de ouvido), difusão (TV e decodificador de sinais), música, jogos, som ao vivo, conteúdo gerado por usuário ("UGC"), e assim em diante. Tal sistema fornece: imersão acentuada para a audiência para todos os dispositivos de ponto final, controle artístico expandido para criadores de conteúdo de áudio, metadados dependentes de conteúdo aprimorado (descritivos) para renderização aprimorada, flexibilidade expandida e escalabilidade para sistemas de reprodução, preservação e correspondência de timbre, e a oportunidade para renderização dinâmica de conteúdo com base em posição de usuário e interação. O sistema inclui diversos componentes, incluindo novas ferramentas de misturador para criadores de conteúdo, empacotamento novo e atualizado e ferramentas de codificação para distribuição e reprodução, renderização e misturador dinâmicos em domicílio (adequado para diferentes configurações), locais e projetos de alto-falante adicionais.
[0054] O ecossistema de áudio adaptativo é configurado para ser um sistema de áudio de próxima geração, ponta-a-ponta, completa- mente compreensivo com o uso do formato de áudio adaptativo que inclui criação de conteúdo, empacotamento, distribuição e reprodu- ção/renderização através de um amplo número de dispositivos de ponto final e casos de uso. Conforme mostrado na Figura 4B, o sistema origina com conteúdo capturado de e para um número de diferentes casos de uso, 422 e 424. Esses pontos de captura incluem todos os formatos de conteúdo relevantes, incluindo cinema, TV, difusão ao vivo (e som), UGC, jogos e música. O conteúdo, conforme passa através do ecossistema, passa através de diversas fases-chave, como pré-processamento e ferramentas de autoria, ferramentas de tradução (isto é, tradução de conteúdo de áudio adaptativo para aplicações de distribuição de conteúdo de cinema para consumidor), empacotamento de áudio adaptativo específica/codificação de fluxo de bits (que captura dados de essência de áudio, assim como informações de reprodução de áudio e metadados adicionais), codificação de distribuição com o uso de codecs novos ou existentes (por exemplo, DD+, TrueHD, Dolby Pulse) para distribuição eficaz através de vários canais de áudio, transmissão através dos canais de distribuição relevantes (difusão, disco, telefone móvel, Internet, etc.) e finalmente renderização dinâmica consciente de ponto final para reproduzir e transportar a ex-periência de usuário de áudio adaptativo definida pelo criador de conteúdo que fornece os benefícios da experiência de áudio espacial. O sistema de áudio adaptativo pode ser usado durante a renderização para um número amplamente variado de pontos finais de consumidor, e o conjunto de procedimentos de renderização que é aplicado pode ser aprimorado dependendo do dispositivo de ponto final. Por exemplo, sistemas de home theater e barras de som podem ter 2, 3, 5, 7 ou mesmo 9 alto-falantes separados em vários locais. Muitos outros tipos de sistemas têm apenas dois alto-falantes (TV, laptop, base de música) e quase todos os dispositivos comumente usados têm um fone de ouvido emitido (PC, laptop, tablet, telefone celular, tocador de música, e assim em diante).
[0055] Sistemas de autoria e distribuição atuais para áudio de som ambiente criam e entregam áudio que se destina à reprodução para locais de alto-falante fixados e predefinidos com conhecimento limitado do tipo de conteúdo transportado na essência de áudio (isto é, o áudio real que é executado de volta pelo sistema de reprodução). O sistema de áudio adaptativo, entretanto, fornece uma nova abordagem híbrida para a criação de áudio que inclui a opção para ambos áudio específico de local de alto-falante fixado (canal esquerdo, canal direito, etc.) e elementos de áudio à base de objeto que generalizaram informações espaciais em 3D, incluindo posição, tamanho e velocidade. Essa abordagem híbrida fornece uma abordagem equilibrada para fidelidade (fornecida por locais de alto-falante fixados) e flexibilidade em renderi- zar (objetos de áudio generalizados). Esse sistema também fornece informações úteis adicionais sobre o conteúdo de áudio por meio de novos metadados que são pareados com a essência de áudio pelo cri-ador de conteúdo no momento da criação/autoria de conteúdo. Essas informações fornecem informações detalhadas sobre os atributos do áudio que podem ser usados durante renderização. Tais atributos podem incluir tipo de conteúdo (diálogo, música, efeito, Foley, antece- dentes/ambiência, etc.) assim como informações de objeto de áudio, como atributos espaciais (posição em 3D, objeto tamanho, velocidade, etc.) e informações de renderização úteis (encaixe para local de alto- falante, pesos de canal, ganho, informações de gerenciamento de baixo, etc.). Os metadados de conteúdo de áudio e intenção de reprodução podem ser manualmente criados pelo criador de conteúdo ou criados através do uso de algoritmos de inteligência de mídia, automáticos, que podem ser executados no plano de fundo durante o processo de autoria e ser revisados pelo criador de conteúdo durante uma fase de controle de qualidade final caso seja desejado.
[0056] A Figura 4C é um diagrama de blocos dos componentes funcionais de um ambiente de áudio adaptativo sob uma modalidade. Conforme mostrado no diagrama 450, o sistema processa um fluxo de bits codificado 452 que porta ambos um fluxo de áudio à base de canal e objeto híbrido. O fluxo de bits é processado por renderiza- ção/processamento de sinal bloco 454. Em uma modalidade, pelo menos porções desse bloco funcional podem ser implantadas no bloco de renderização 312 ilustrado na Figura 3. A função de renderização 454 implanta vários algoritmos de renderização para áudio adaptativo, assim como determinados algoritmos de pós-processamento, como realização de upmix, processar som direto versus refletido, e similares. A emissão do renderizador é fornecida aos alto-falantes 458 através de interconectores bidirecionais 456. Em uma modalidade, os alto- falantes 458 compreendem um número de drivers individuais que pode ser disposto em um som ambiente, ou configuração similar. Os drivers são individualmente endereçáveis e podem ser incorporados em invólucros individuais ou gabinetes ou arranjos de múltiplos drivers. O sistema 450 também pode incluir microfones 460 que fornecem medições de ambiente de escuta ou características de cômodo que podem ser usadas para calibrar o processo de renderização. Funções de configuração e calibração de sistema são fornecidas no bloco 462. Essas funções podem ser incluídas como parte dos componentes de renderiza- ção, ou podem ser implantadas como componentes separados que são funcionalmente acoplados aos renderizador. Os interconectores bidirecionais 456 fornecem o trajeto de sinal de retroalimentação dos alto-falantes no ambiente de escuta de volta para o componente de calibração 462.
AMBIENTES DE ESCUTA
[0057] Implantações do sistema de áudio adaptativo podem ser empregadas em uma variedade de diferentes ambientes de escuta. Esses incluem três áreas primárias de aplicações de reprodução de áudio: sistemas de home theater, televisões e barras de som, e fones de ouvido. A Figura 5 ilustra o emprego de um sistema de áudio adap- tativo em um ambiente de home theater exemplificativo. O sistema da Figura 5 ilustra um superconjunto de componentes e funções que pode ser fornecido por um sistema de áudio adaptativo, e determinados aspectos podem ser reduzidos ou removidos com base nas necessidades do usuário, enquanto ainda fornece uma experiência acentuada. O sistema 500 inclui vários alto-falantes e drivers diferentes em uma variedade de diferentes gabinetes ou arranjos 504. Os alto-falantes incluem drivers individuais que fornecem opções de disparo frontal, lateral e para cima, assim como virtualização dinâmica de áudio com o uso de determinados conjuntos de procedimentos de processamento de áudio. O diagrama 500 ilustra um número de alto-falantes empregados em uma configuração de alto-falante 9.1 padrão. Esses incluem alto-falantes de altura esquerdo e direito (LH, RH), alto-falantes esquerdo e direito (L, R), um alto-falante central (mostrado como um alto- falante central modificado), e alto-falantes traseiro e ambiente esquerdo e direito (LS, RS, LB, e RB, o elemento de baixa frequência LFE não é mostrado).
[0058] A Figura 5 ilustra o uso de um alto-falante de canal central 510 usado em um local central do ambiente de escuta. Em uma modalidade, esse alto-falante é implantado com o uso de um canal central modificado ou canal central de alta resolução 510. Tal alto-falante pode ser um arranjo de canal central de disparo frontal com alto-falantes individualmente endereçáveis que permitem panoramas distintos de objetos de áudio através do arranjo que corresponde ao movimento de objetos de vídeo na tela. O mesmo pode ser incorporado como um alto-falante de canal central de alta resolução (HRC), como aquele des- crito no Pedido Internacional Número PCT/US2011/028783, que é incorporado através do presente documento a título de referência em sua totalidade. O alto-falante de HRC 510 também pode incluir alto- falantes de disparo lateral, conforme mostrado. Esses poderiam ser ativados e usados se o alto-falante de HRC for usado não apenas como um alto-falante central, mas também como um alto-falante com capacidades de barra de som. O alto-falante de HRC também pode ser incorporado acima e/ou nos lados da tela 502 para fornecer uma opção de movimento panorâmico de alta resolução bidimensional para objetos de áudio. O alto-falante central 510 poderia também incluir drivers adicionais e implantar um feixe de som orientável com zonas de som separadamente controladas.
[0059] O sistema 500 também inclui um alto-falante de efeito de campo próximo (NFE) 512 que pode ser localizado logo em frente, ou próximo à frente do ouvinte, como na mesa na frente de um local de assento. Com áudio adaptativo é possível trazer objetos de áudio para o cômodo e não apenas preso ao perímetro do cômodo. Portanto, fazer com que objetos atravessem através do espaço tridimensional é uma opção. Um exemplo é quando um objeto pode originar no alto- falante L, percorrer através do ambiente de escuta através do alto- falante NFE, e terminar no alto-falante RS. Vários alto-falantes diferentes podem ser adequados para uso como um alto-falante NFE, como um alto-falante sem fio alimentado por bateria.
[0060] A Figura 5 ilustra o uso de virtualização de alto-falante di nâmico para fornecer uma experiência de usuário imersiva no ambiente de home theater. A virtualização de alto-falante dinâmico é habilitada através de controle dinâmico dos parâmetros de algoritmos de vir- tualização de alto-falante com base em informações espaciais de objeto fornecidas pelo conteúdo de áudio adaptativo. Essa virtualização dinâmica é mostrada na Figura 5 para os alto-falantes L e R em que é natural considerar a mesma para criar a percepção de objetos em movimento ao longo dos lados do ambiente de escuta. Um virtualizador separado pode ser usado para cada objeto relevante e o sinal combinado pode ser enviado para os alto-falantes L e R para criar um efeito de virtualização de múltiplos objetos. Os efeitos de virtualização dinâmica são mostrados para os alto-falantes L e R, assim como o alto- falante NFE, que se destina a ser um alto-falante estéreo (com duas entradas independentes). Esse alto-falante, juntamente com informações de tamanho e posição de objeto de áudio, poderia ser usado para criar uma experiência de áudio de campo próximo de fonte difusa ou pontual. Efeitos de virtualização similares também podem ser aplicados a qualquer um ou todos os outros alto-falantes no sistema. Em uma modalidade, uma câmera pode fornecer informações de identidade e posição de ouvinte adicionais que poderiam ser usadas pelo ren- derizador de áudio adaptativo para fornecer uma experiência mais convincente, mais verdadeira à intenção artística do misturador.
[0061] O renderizador de áudio adaptativo entende a relação es pacial entre a mistura e o sistema de reprodução. Em alguns casos de um ambiente de reprodução, alto-falantes distintos podem estar disponíveis em todas as áreas relevantes do ambiente de escuta, incluindo posições suspensas, conforme mostrado na Figura 1. Nesses casos em que alto-falantes distintos são disponíveis em determinados locais, o renderizador pode ser configurado para "encaixar" objetos nos alto- falantes mais próximos ao invés de criar uma imagem fantasma entre dois ou mais alto-falantes através de movimento panorâmico ou o uso de algoritmos de virtualização de alto-falante. Embora o mesmo distorça ligeiramente a representação espacial da mistura, o mesmo também permite que o renderizador evite imagens fantasmas não intencionais. Por exemplo, se a posição angular do alto-falante esquerdo do palanque do misturador não corresponder à posição angular do alto- falante esquerdo do sistema de reprodução, habilitar essa função evitaria ter uma imagem fantasma constante do canal esquerdo inicial.
[0062] Em muitos casos, entretanto, e especialmente em um am biente doméstico, determinados alto-falantes, como alto-falantes suspensos montados no teto não estão disponíveis. Nesse caso, determinados conjuntos de procedimentos de virtualização são implantados pelo renderizador para reproduzir conteúdo de áudio suspenso através de alto-falantes montados em parede ou solo existentes. Em uma modalidade, o sistema de áudio adaptativo inclui uma modificação na configuração padrão através da inclusão de uma capacidade de disparo frontal e uma capacidade de disparo de topo (ou "para cima") para cada alto-falante. Em aplicações domésticas tradicionais, fabricantes de alto-falante tentaram introduzir novas configurações de driver além de transdutores de disparo frontal e têm sido confrontados com o pro-blema de tentar identificar quais dos sinais de áudio originais (ou modificações nos mesmos) devem ser enviados para esses novos drivers. Com o sistema de áudio adaptativo há muitas informações específicas em relação a quais objetos de áudio devem ser renderizados acima do plano horizontal padrão. Em uma modalidade, informações de altura presentes no sistema de áudio adaptativo são renderizadas com o uso dos drivers de disparo para cima. Do mesmo modo, alto-falantes de disparo lateral podem ser usados para renderizar outro conteúdo determinado, como efeitos de ambiência.
[0063] Uma vantagem dos drivers de disparo para cima é que po dem ser usados para refletir som de uma superfície de teto dura para simular a presença de alto-falantes suspensos/de altura posicionados no teto. Um atributo convincente do conteúdo de áudio adaptativo é que o áudio espacialmente diverso é reproduzido com o uso de um arranjo de alto-falantes suspensos. Conforme afirmado acima, entretanto, em muitos casos, instalar alto-falantes suspensos é muito dis- pendioso ou impraticável em um ambiente doméstico. Ao simular alto- falantes de altura com o uso de alto-falantes normalmente posicionados no plano horizontal, uma experiência 3D convincente pode ser criada com facilidade de posicionar alto-falantes. Nesse caso, o sistema de áudio adaptativo usa os drivers de simulação de altura/disparo para cima de maneira nova em que objetos de áudio e suas informações de reprodução espacial são usados para criar o áudio que é reproduzido pelos drivers de disparo para cima.
[0064] A Figura 6 ilustra o uso de um driver de disparo para cima com o uso de som refletido para simular um único alto-falante suspenso em um home theater. Deve ser notado que qualquer número de drivers de disparo para cima poderia ser usado em combinação para criar múltiplos alto-falantes de altura simulados. Alternativamente, um número de drivers de disparo para cima pode ser configurado para transmitir som para substancialmente o mesmo ponto no teto para alcançar uma determinada intensidade ou efeito de som. O diagrama 600 ilustra um exemplo no qual a posição de escuta normal 602 é localizada em um lugar particular dentro de um ambiente de escuta. O sistema não inclui quaisquer alto-falantes de altura para transmitir conteúdo de áudio que contêm indicações de altura. Ao invés disso, o gabinete de alto-falante ou arranjo de alto-falante 604 inclui um driver de disparo para cima juntamente com o(s) driver(s) de disparo frontal. O driver de disparo para cima é configurado (em relação a local e ângulo de inclinação) para enviar sua onda de som 606 até um ponto particular no teto 608 em que será refletido de volta para baixo para a posição de escuta 602. Assume-se que o teto é produzido a partir de um material e composição adequados para refletir adequadamente som para baixo para o ambiente de escuta. As características relevantes do driver de disparo para cima (por exemplo, tamanho, potência, local, etc.) podem ser selecionadas com base na composição de teto, tama- nho de cômodo, e outras características relevantes do ambiente de escuta. Embora apenas um driver de disparo para cima seja mostrado na Figura 6, múltiplos drivers de disparo para cima podem ser incorporados em um sistema de reprodução em algumas modalidades.
[0065] Em uma modalidade, o sistema de áudio adaptativo utiliza drivers de disparo para cima para fornecer o elemento de altura. Em geral, mostrou-se que incorporar processamento de sinal para introduzir indicações de altura perceptuais no sinal de áudio que é alimentado aos drivers de disparo para cima aprimora o posicionamento e qualidade percebida do sinal de altura virtual. Por exemplo, um modelo de escuta binaural perceptual paramétrico foi desenvolvido para criar um filtro de indicação de altura que, quando usado para processar áudio que é reproduzido por um driver de disparo para cima, aprimora aquela qualidade percebida da reprodução. Em uma modalidade, o filtro de indicação de altura é derivado de ambos o local de alto-falante físico (aproximadamente nivelado com o ouvinte) e o local de alto-falante refletido (acima do ouvinte). Para o local de alto-falante físico, um filtro direcional é determinado com base em um modelo da orelha externa (ou pavilhão auricular). Um inverso desse filtro é em seguida determinado e usado para remover as indicações de altura do alto-falante físico. A seguir, para o local de alto-falante refletido, um segundo filtro direcional é determinado, com o uso do mesmo modelo da orelha externa. Esse filtro é aplicado diretamente, reproduzindo essencialmente as indicações que a orelha receberia se o som fosse acima do ouvinte. Na prática, esses filtros podem ser combinados em um modo que permite um único filtro que (1) remove a indicação de altura do local de alto-falante físico, e (2) insere a indicação de altura do local de alto- falante refletido. A Figura 16 é um gráfico que ilustra a resposta de frequência para tal filtro combinado. O filtro combinado pode ser usado de tal maneira que permite alguma adaptabilidade em relação à agres- sividade ou quantidade de filtração que é aplicada. Por exemplo, em alguns casos, pode ser benéfico não remover completamente a indicação de altura de alto-falante físico, ou aplicar completamente a indicação de altura de alto-falante refletido visto que apenas parte do som do alto-falante físico chega diretamente no ouvinte (sendo que o remanescente é refletido do teto).
CONFIGURAÇÃO DE ALTO-FALANTE
[0066] Uma consideração principal do sistema de áudio adaptativo é a configuração de alto-falante. O sistema utiliza drivers individualmente endereçáveis, e um arranjo de tais drivers é configurado para fornecer uma combinação de ambas as fontes de som direto e refletido. Uma ligação bidirecional ao controlador de sistema (por exemplo, receptor A/V, decodificador de sinais) permite que dados de áudio e configuração sejam enviados para o alto-falante, e informações de alto-falante e sensor sejam enviadas de volta para o controlador, criando um sistema em ciclo fechado ativo.
[0067] Para fins de descrição, o termo "driver" significa um único transdutor eletroacústico que produz som em resposta a um sinal de entrada de áudio elétrico. Um driver pode ser implantado em qualquer tipo, geometria e tamanho adequado, e pode incluir transdutores de chifres, cones, fita, e similares. O termo "alto-falante" significa um ou mais drivers em um invólucro unitário. A Figura 7A ilustra um alto- falante que tem uma pluralidade de drivers em uma primeira configuração, sob uma modalidade. Conforme mostrado na Figura 7A, um invólucro de alto-falante 700 tem um número de drivers individuais montados dentro do invólucro. Tipicamente, o invólucro irá incluir um ou mais drivers de disparo frontal 702, como woofers, alto-falantes de faixa média, ou tweeters, ou qualquer combinação dos mesmos. Um ou mais drivers de disparo lateral 704 também podem ser incluídos. Os drivers de disparo frontal e lateral são tipicamente montados nivelados com o lado do invólucro de modo que os mesmos projetem som per-pendicularmente para fora a partir do plano vertical definido pelo alto- falante, e esses drivers são normalmente fixados de modo permanente dentro do gabinete 700. Para o sistema de áudio adaptativo que apresenta a renderização de som refletido, um ou mais drivers inclinados para cima 706 são também fornecidos. Esses drivers são posicionados de modo que projetem som em um ângulo até o teto em que pode então quicar de volta para baixo para um ouvinte, conforme mostrado na Figura 6. O grau de inclinação pode ser definido dependendo das características de ambiente de escuta e exigências de sistema. Por exemplo, o driver para cima 706 pode ser inclinado para cima entre 30 e 60 graus e pode ser posicionado acima do driver de disparo frontal 702 no invólucro de alto-falante 700 de modo a minimizar a interferência com as ondas de som produzidas a partir do driver de disparo frontal 702. O driver de disparo para cima 706 pode ser instalado em ângulo fixo, ou pode ser instalado de modo que a inclinação ângulo de possa ser ajustado manualmente. Alternativamente, um servomeca- nismo pode ser usado para permitir controle automático ou elétrico do ângulo de inclinação e direção de projeção do driver de disparo para cima. Para determinados sons, como som ambiente, o driver de disparo para cima pode ser apontado diretamente para cima para fora de uma superfície superior do invólucro de alto-falante 700 para criar o que poderia ser referido como um driver de "disparo de topo". Nesse caso, um grande componente do som pode refletir de volta para baixo sobre o alto-falante, dependendo das características acústicas do teto. Na maioria dos casos, entretanto, parte do ângulo de inclinação é normalmente usado para ajudar a projetar o som através de reflexão do teto para um local diferente ou mais central dentro do ambiente de escuta, conforme mostrado na Figura 6.
[0068] A Figura 7A se destina a ilustrar um exemplo de uma confi- guração de alto-falante e driver, e muitas outras configurações são possíveis. Por exemplo, o driver de disparo para cima pode ser fornecido em seu próprio invólucro para permitir o uso com alto-falantes existentes. A Figura 7B ilustra um sistema de alto-falante que tem drivers distribuídos em múltiplos invólucros, sob uma modalidade. Conforme mostrado na Figura 7B, o driver de disparo para cima 712 é fornecido em um invólucro separado 710, que pode ser então colocado próximo de ou sobre um invólucro 714 que tem drivers de disparo frontal e/ou lateral 716 e 718. Os drivers também podem ser encerrados dentro de uma barra de som de alto-falante, como usado em muitos ambientes de home theater, nos quais um número de drivers de tamanho pequeno ou médio são dispostos ao longo de um eixo geométrico dentro de um único invólucro horizontal ou vertical. A Figura 7C ilustra a colocação de drivers dentro de uma barra de som, sob uma modalidade. Nesse exemplo, o invólucro de barra de som 730 é uma barra de som horizontal que inclui drivers de disparo lateral 734, drivers de disparo para cima 736, e driver(s) de disparo frontal 732. A Figura 7C se destina a ser uma configuração exemplificativa apenas, e qualquer número prático de drivers para cada uma das funções -disparo frontal, lateral e para cima - pode ser usada.
[0069] Para a modalidade das Figuras 7A a C, deve ser notado que os drivers podem ser de qualquer formato, tamanho e tipo adequado, dependendo das características de resposta de frequência exigidas, assim como quaisquer outras restrições relevantes, como tamanho, classificação de potência, custo de componente, e assim em diante.
[0070] Em um típico ambiente de áudio adaptativo, um número de invólucros de alto-falante será contido dentro do ambiente de escuta. A Figura 8 ilustra uma colocação exemplificativa de alto-falantes que tem drivers individualmente endereçáveis, incluindo drivers de disparo para cima colocados dentro de um ambiente de escuta. Conforme mostrado na Figura 8, o ambiente de escuta 800 inclui quatro alto-falantes individuais 806, em que cada um tem pelo menos um driver de disparo frontal, disparo lateral e disparo para cima. O ambiente de escuta também pode conter drivers fixos usados para aplicações de som ambiente, como alto-falante central 802 e subwoofer ou LFE 804. Conforme pode ser visto na Figura 8, dependendo do tamanho do ambiente de escuta e das respectivas unidades de alto-falante, a colocação adequada de alto-falantes 806 dentro do ambiente de escuta pode fornecer um ambiente de áudio rico resultante da reflexão de sons do teto do número de drivers de disparo para cima. Os alto-falantes podem ter como objetivo fornecer reflexão de um ou mais pontos no plano de teto, dependendo de conteúdo, tamanho de ambiente de escuta, posição de ouvinte, características acústicas, e outros parâmetros relevantes.
[0071] Os alto-falantes usados em um sistema de áudio adaptativo para um home theater ou ambiente de escuta similar pode usar uma configuração que tem como base configurações de som ambiente existentes (por exemplo, 5.1, 7.1, 9.1, etc.). Nesse caso, um número de drivers são fornecidos e definidos de acordo com a convenção de som ambiente conhecida, com drivers adicionais e definições fornecidas para os componentes de som de disparo para cima.
[0072] A Figura 9A ilustra uma configuração de alto-falante para um sistema de áudio adaptativo 5.1 que utiliza múltiplos drivers endereçáveis para áudio refletido, sob uma modalidade. Na configuração 900, uma pegada de alto-falante 5.1 padrão que compreende LFE 901, alto-falante central 902, alto-falantes frontais L/R 904/906, e alto- falantes traseiros L/R 908/910 é fornecida com oito drivers adicionais, dando um total de 14 drivers endereçáveis. Esses oito drivers adicionais são denotados drivers "para cima" e "para o lado" além de "para frente" (ou "frontal") em cada unidade de alto-falante 902-910. Os dri vers para frente diretos seriam acionados por subcanais que contêm objetos de áudio adaptativos e quaisquer outros componentes que são projetados para ter um alto grau de direcionalidade. Os drivers de disparo para cima (refletido) poderiam conter conteúdo de subcanal que é mais omnidirecional ou sem direção, mas não é assim limitado. Exemplos incluiriam música de fundo, ou sons ambientais. Se a entrada no sistema compreende conteúdo de som de ambiente de legado, então esse conteúdo poderia ser fatorado de modo inteligente em subcanais diretos e refletidos e alimentado para os drivers adequados.
[0073] Para os subcanais diretos, o invólucro de alto-falante pode ria conter drivers em que o eixo geométrico mediano do driver divide em dois o "ponto ideal", ou centro acústico do ambiente de escuta. Os drivers de disparo para cima seriam posicionados de modo que o ângulo entre o plano mediano do driver e o centro acústico seja algum ângulo na faixa de 45 a 180 graus. No caso de posicionamento do driver em 180 graus, o driver voltado para trás poderia fornecer difusão de som refletindo-se para fora de uma parede traseiro. Essa configuração utiliza o princípio acústico que, após o alinhamento de tempo dos drivers de disparo para cima com os drivers diretos, o componente de sinal de chegada precoce seria coerente, embora os componentes de chegada tardia se beneficiariam da difusão natural fornecida pelo ambiente de escuta.
[0074] A fim de alcançar as indicações de altura fornecidas pelo sistema de áudio adaptativo, os drivers de disparo para cima poderiam ser angulados para cima a partir do plano horizontal, e no extremo poderiam ser posicionados para radiar diretamente para cima e refletir para fora de uma ou mais superfícies refletoras, como um teto plano, ou um difusor acústico colocado imediatamente acima do invólucro. Para fornecer direcionalidade adicional, o alto-falante central poderia utilizar uma configuração de barra de som (como mostrado na Figura 7C) com a capacidade de direcionar som através da tela para fornecer um canal central de alta resolução.
[0075] A configuração 5.1 da Figura 9A poderia ser expandida adi cionando-se dois invólucros traseiros adicionais similares a uma configuração 7.1 padrão. A Figura 9B ilustra uma configuração de alto- falante para um sistema de áudio adaptativo 7.1 que utiliza múltiplos drivers endereçáveis para áudio refletido, em tal modalidade. Conforme mostrado na configuração 920, os dois invólucros adicionais 922 e 924 são colocados nas posições de 'ambiente de lado esquerdo' e 'ambiente de lado direito' com os alto-falantes laterais apontando para as paredes laterais de maneira similar aos invólucros frontais e os drivers de disparo para cima definidos para quicar para fora do teto no meio do caminho entre os pares frontais e traseiros existentes. Tais adições incrementais podem ser feitas quantas vezes forem desejadas, com os pares adicionais preenchendo os vãos ao longo das paredes laterais ou traseiras. As Figuras 9A e 9B ilustram apenas alguns exemplos de possíveis configurações de configurações de alto-falante de som ambiente estendidas que podem ser usadas em conjunto com alto-falantes de disparo para cima e lateral em um sistema de áudio adaptativo para ambientes de escuta, e muitos outros são também possíveis.
[0076] Como alternativa para as configurações n.1 descritas aci ma, um sistema à base de cápsula mais flexível pode ser utilizado através do qual cada driver é contido dentro de seu próprio invólucro, que poderia então ser montado em qualquer local conveniente. Isso usaria uma configuração de driver, como mostrado na Figura 7B. Essas unidades individuais podem ser então agrupadas de maneira similar às configurações n.1, ou poderiam ser espalhadas individualmente ao redor do ambiente de escuta. As cápsulas não são necessariamente restritas a serem colocadas nas bordas do ambiente de escuta, as mesmas também poderiam ser colocadas em qualquer superfície dentro da mesma (por exemplo, mesa de centro, estante de livros, etc.). Tal sistema teria facilidade de expandir, permitir que o usuário adicione mais alto-falantes ao longo do tempo para criar uma experiência mais imersiva. Se os alto-falantes são sem fio, então o sistema de cápsula poderia incluir a capacidade de conectar alto-falantes para fins de recarga. Nesse projeto, as cápsulas poderiam ser conectadas juntas de modo a agirem como um único alto-falante, enquanto recarregam, talvez para escutar a música estéreo, e então desconectadas e posicionadas ao redor do ambiente de escuta para conteúdo de áudio adapta- tivo.
[0077] A fim de acentuar a capacidade de configuração e precisão do sistema de áudio adaptativo com o uso de drivers endereçáveis de disparo para cima, um número de sensores e dispositivos de retroalimentação poderia ser adicionado aos invólucros para informar o ren- derizador sobre características que poderiam ser usadas no algoritmo de renderização. Por exemplo, um microfone instalado em cada invólucro permitiria ao sistema medir as características de fase, frequência e reverberação do ambiente de escuta, juntamente com a posição dos alto-falantes um em relação ao outro com o uso de triangulação e as funções similares a HRTF dos próprios invólucros. Sensores de inércia (por exemplo, giroscópios, compassos, etc.) poderiam ser usados para detectar a direção e o ângulo dos invólucros; e sensores ópticos e visuais (por exemplo, com o uso de um telêmetro infravermelho à base de laser) poderiam ser usados para fornecer informações posicionais em relação ao próprio ambiente de escuta. Esses representam apenas algumas possibilidades de sensores adicionais que poderiam ser usa-dos no sistema, e outros são possíveis também.
[0078] Tais sistemas de sensor podem ser adicionalmente acentu ados ao permitir que a posição dos drivers e/ou os modificadores acústicos dos invólucros sejam automaticamente ajustáveis por meio de servos eletromecânicos. Isso pode permitir que a direcionalidade dos drivers seja mudada no tempo de execução para adequar seu posicionamento no ambiente de escuta em relação às paredes e outros drivers ("direcionamento ativo"). Similarmente, quaisquer modificadores acústicos (como defletores, chifres ou guias de ondas) poderiam ser sintonizados para fornecer a frequência correta e respostas de fase para reprodução ideal em qualquer configuração de ambiente de escuta ("sintonização ativa"). Tanto o direcionamento ativo quanto a sintonização ativa poderiam ser realizados durante a configuração inicial de ambiente de escuta (por exemplo, em conjunto com o sistema de configuração auto-EQ/autocômodo) ou durante a reprodução em resposta ao conteúdo que é renderizado.
INTERCONEXÃO BIDIRECIONAL
[0079] Uma vez configurado, os alto-falantes devem ser conecta dos ao sistema de renderização. Interconectores tradicionais são tipicamente de dois tipos: entrada de nível de alto-falante para alto- falantes passivos e entrada de nível de linha para alto-falantes ativos. Conforme mostrado na Figura 4C, o sistema de áudio adaptativo 450 inclui uma função de interconexão bidirecional. Essa interconexão é incorporada dentro de um conjunto de conexões físicas e lógicas entre o estágio de renderização 454 e os estágios de amplificador/alto- falante 458 e microfone 460. A capacidade de tratar de múltiplos drivers em cada gabinete de alto-falante é suportada por esses interco- nectores inteligentes entre a fonte de som e o alto-falante. O interco- nector bidirecional que permite a transmissão de sinais da fonte de som (renderizador) até o alto-falante compreende sinais de controle e sinais de áudio. O sinal do alto-falante para a fonte de som consiste em ambos os sinais de controle e sinais de áudio, em que o sinais de áudio, nesse caso, é áudio proveniente dos microfones integrados op- cionais. A potência também pode ser fornecida como parte do interco- nector bidirecional, pelo menos para o caso em que os alto- falantes/drivers não são alimentados separadamente.
[0080] A Figura 10 é um diagrama 1000 que ilustra a composição de uma interconexão bidirecional, sob uma modalidade. A fonte de som 1002, que pode representar um renderizador mais cadeia de processador de som/amplificador, é lógico e fisicamente acoplado ao gabinete de alto-falante 1004 através de um par de ligações de interco- nector 1006 e 1008. O interconector 1006 da fonte de som 1002 a drivers 1005 dentro do gabinete de alto-falante 1004 compreende um sinal eletroacústico para cada driver, um ou mais sinais de controle, e potência opcional. O interconector 1008 do gabinete de alto-falante 1004 voltado para a fonte de som 1002 compreende sinais de som do microfone 1007 ou outros sensores para calibração do renderizador, ou outra funcionalidade de processamento de som similar. O interco- nector de retroalimentação 1008 também contém determinadas definições e parâmetros de driver que são usados pelo renderizador para modificar ou processar os sinais de som definidos para os drivers sobre o interconector 1006.
[0081] Em uma modalidade, cada driver em cada um dos gabine tes do sistema é designado a um identificador (por exemplo, uma designação numérica) durante sistema configuração. Cada gabinete de alto-falante (invólucro) também pode ser exclusivamente identificado. Essa designação numérica é usada pelo gabinete de alto-falante para determinar qual sinal de áudio é enviado a qual driver dentro do gabinete. A designação é armazenada no gabinete de alto-falante em um dispositivo de memória adequado. Alternativamente, cada driver pode ser configurado para armazenar seu próprio identificador na memória local. Em uma alternativa adicional, como uma na qual os drivers/alto- falantes não têm capacidade de armazenamento local, os identificado- res podem ser armazenados no estágio de renderização ou outros componentes dentro da fonte de som 1002. Durante um processo de descoberta de alto-falante, cada alto-falante (ou um banco de dados central) é consultado pela fonte de som para seu perfil. O perfil define determinadas definições de driver, incluindo o número de drivers em um gabinete de alto-falante ou outro arranjo definido, as características acústicas de cada driver (por exemplo, tipo de driver, resposta de frequência, e assim em diante), a posição x,y,z do centro de cada driver em relação ao centro da face frontal do gabinete de alto-falante, o ângulo de cada driver em relação a um plano definido (por exemplo, teto, solo, eixo geométrico vertical de gabinete, etc.), e o número de microfones e características de microfone. Outros parâmetros de driver e microfone/sensor relevantes também podem ser definidos. Em uma modalidade, as definições de driver e perfil de gabinete de alto-falante podem ser expressos como um ou mais documentos XML usados pelo renderizador.
[0082] Em uma possível implantação, uma rede de controle de Protocolo de Internet (IP) é criada entre a fonte de som 1002 e o gabinete de alto-falante 1004. Cada gabinete de alto-falante e fonte de som age como um único ponto final de rede e é dado um endereço de local de ligação mediante inicialização ou ativação. Um mecanismo de autodescoberta como rede de comunicação de configuração zero (zeroconf) pode ser usado para permitir que a fonte de som localize cada alto-falante na rede. A rede de comunicação de configuração zero é um exemplo de um processo que automaticamente cria uma rede de IP utilizável sem intervenção de operador manual ou servidores de configuração especiais, e outros conjuntos de procedimentos similares podem ser usados. Dado um sistema de rede inteligente, múltiplas fontes podem residir na rede de IP como os alto-falantes. Isso permite que múltiplas fontes acionem diretamente os alto-falantes sem rotear som através de uma fonte de áudio "mestre" (por exemplo, receptor A/V tradicional). Se outra fonte tentar endereçar os alto-falantes, comunicação é realizada entre todas as fontes para determinar qual fonte está atualmente "ativa", quando estar ativa é necessariamente, e se o controle pode ser submetido à transição para uma nova fonte de som. Fontes podem ser pré-designadas uma prioridade durante a fabricação com base em sua classificação, por exemplo, uma fonte de telecomunicações pode ter uma prioridade maior do que uma fonte de entretenimento. Em um ambiente de múltiplos cômodos, como um típico ambiente doméstico, todos os alto-falantes dentro do ambiente geral podem residir em uma única rede, mas podem não precisar ser tratadas simultaneamente. Durante a configuração e autoconfiguração, o nível de som fornecido de volta sobre o interconector 1008 pode ser usado para determinar quais alto-falantes são localizados no mesmo espaço físico. Uma vez que essas informações são determinadas, os alto-falantes podem ser agrupados em grupamentos. Nesse caso, IDs de grupamento podem ser designados e fazer parte das definições de driver. O ID de grupamento é enviado para cada alto-falante, e cada grupamento pode ser tratado simultaneamente pela fonte de som 1002.
[0083] Conforme mostrado na Figura 10, um sinal de potência op cional pode ser transmitido sobre a interconexão bidirecional. Alto- falantes podem ser passivos (exigindo potência externa da fonte de som) ou ativos (exigindo potência de uma tomada elétrica). Se o sistema de alto-falante consiste em alto-falantes ativos sem suporte sem fio, a entrada para o alto-falante consiste em uma entrada de Ethernet com fio compatível IEEE 802.3. Se o sistema de alto-falante consiste em alto-falantes ativos com suporte sem fio, a entrada para o alto- falante consiste em uma entrada de Ethernet sem fio compatível IEEE 802.11, ou alternativamente, um padrão sem fio especificado pela or- ganização WISA. Alto-falantes passivos podem ser fornecidos por sinais de potência adequados fornecidos pela fonte de som diretamente. CONFIGURAÇÃO E CALIBRAÇÃO DE SISTEMA
[0084] Conforme mostrado na Figura 4C, a funcionalidade do sis tema de áudio adaptativo inclui uma função de calibração 462. Essa função é habilitada pelas ligações de microfone 1007 e interconexão 1008 mostradas na Figura 10. A função do componente de microfone no sistema 1000 é a de medir a resposta dos drivers individuais no ambiente de escuta a fim de derivar uma resposta de sistema geral. Múltiplas topologias de microfones podem ser usadas para esse fim, incluindo um único microfone ou um arranjo de microfones. O caso mais simples é quando um único microfone de medição omnidirecional posicionado no centro do ambiente de escuta é usado para medir a resposta de cada driver. Se as condições de ambiente de escuta e re-produção garantem uma análise mais refinada, múltiplos microfones podem ser usados ao invés disso. O local mais conveniente para múltiplos microfones é dentro dos gabinetes de alto-falante físico da configuração de alto-falante particular que é usada no ambiente de escuta. Microfones instalados em cada invólucro permitem que o sistema meça a resposta de cada driver, em múltiplas posições em um ambiente de escuta. Uma alternativa a essa topologia é usar múltiplos microfones de medição omnidirecionais posicionados em locais de ouvinte prováveis no ambiente de escuta.
[0085] O(s) microfone(s) são usado(s) para habilitar a configura ção automática e calibração do renderizador e algoritmos de pós- processamento. No sistema de áudio adaptativo, o renderizador é responsável para converter um fluxo de áudio à base de canal e objeto híbrido em sinais de áudio individuais designados para drivers endereçáveis específicos, dentro de um ou mais alto-falantes físicos. O componente de pós-processamento pode incluir: atraso, equalização, ga- nho, virtualização de alto-falante, e realização de upmix. A configuração de alto-falante representa frequentemente informações críticas que o componente de renderizador pode usar para converter um fluxo de áudio à base de canal e objeto híbrido em sinais de áudio por driver individuais para fornecer reprodução ideal de conteúdo de áudio. Informações de configuração de sistema incluem: (1) o número de alto- falante físicos no sistema, (2) o número drivers individualmente endereçáveis em cada alto-falante, e (3) a posição e direção de cada driver individualmente endereçável, em relação à geometria de ambiente de escuta. Outras características são também possíveis. A Figura 11 ilustra a função de uma configuração automática e componente de cali- bração de sistema, sob uma modalidade. Conforme mostrado no dia-grama 1100, um arranjo 1102 de um ou mais microfones fornece informações acústicas para a configuração e componente de calibração 1104. Essas informações acústicas capturam determinadas características relevantes do ambiente de escuta. A configuração e componente de calibração 1104 então fornecem essas informações para o renderi- zador 1106 e quaisquer componentes de pós-processamento relevantes 1108 de modo que os sinais de áudio que são por fim enviados para os alto-falantes são ajustados e aprimorados para o ambiente de escuta.
[0086] O número de alto-falantes físicos no sistema e o número de drivers individualmente endereçáveis em cada alto-falante são as propriedades de alto-falante físico. Essas propriedades são transmitidas diretamente dos alto-falantes por meio do interconector bidirecional 456 para o renderizador 454. O renderizador e alto-falantes usam um protocolo de descoberta comum, de modo que quando alto-falantes são conectados ou desconectados do sistema, a renderização é notificada da mudança, e pode reconfigurar o sistema de acordo.
[0087] A geometria (tamanho e formato) do ambiente de escuta é um item necessário para informações no processo de configuração e calibração. A geometria pode ser determinada em um número de diferentes modos. Em um modo de configuração manual, a largura, comprimento e altura do cubo de ligação mínimo para o ambiente de escuta são inseridos no sistema pelo ouvinte ou técnico através de uma interface de usuário que fornece entrada para o renderizador ou outra unidade de processamento dentro do sistema de áudio adaptativo. Vários conjuntos de procedimentos de interface de usuário diferentes e ferramentas podem ser usados para esse fim. Por exemplo, a geometria de ambiente de escuta pode ser enviada para o renderizador por um programa que automaticamente mapeia ou rastreia a geometria do ambiente de escuta. Tal sistema pode usar uma combinação de visão de computador, sonar, e mapeamento físico com base em laser 3D.
[0088] O renderizador usa a posição dos alto-falantes dentro da geometria de ambiente de escuta para derivar os sinais de áudio para cada driver individualmente endereçável, incluindo drivers diretos e refletidos (disparo para cima). Os drivers diretos são aqueles que são direcionados de modo que a maioria de seu padrão de dispersão inter- seciona a posição de escuta antes de ser difundida por uma ou mais superfícies refletoras (como um solo, parede ou teto). Os drivers refletidos são aqueles que são direcionados de modo que a maioria de seus padrões de dispersão são refletidos antes de interseccionar a posição de escuta, como ilustrado na Figura 6. Se um sistema está em um modo de configuração manual, as coordenadas em 3D para cada driver direto podem ser inseridas no sistema através de uma UI. Para os drivers refletidos, as coordenadas em 3D da reflexão primária são inseridas na UI. Lasers ou conjuntos de procedimentos similares podem ser usados para visualizar o padrão de dispersão dos drivers difusos sobre as superfícies do ambiente de escuta, de modo que as coordenadas em 3D podem ser medidas e manualmente inseridas no sistema.
[0089] O direcionamento e posição de driver são tipicamente reali zados com o uso de conjuntos de procedimentos manuais ou automáticos. Em alguns casos, sensores de inércia podem ser incorporados em cada alto-falante. Nesse modo, o alto-falante central é designado como o "mestre" e a medição de compasso do mesmo é considerada como a referência. Os outros alto-falantes então transmitem os padrões de dispersão e posições de compasso para cada de seus drivers individualmente endereçáveis. Acoplado com a geometria de ambiente de escuta, a diferença entre o ângulo de referência do alto-falante central e cada driver de adição fornece informações suficientes para o sistema automaticamente determinar se um driver é direto ou refletido.
[0090] A configuração de posição de alto-falante pode ser comple tamente automatizada se um microfone posicional 3D (isto é, Ambisonic) é usado. Nesse modo, o sistema envia um sinal de teste para cada driver e registra a resposta. Dependendo do tipo de microfone, os sinais podem precisar ser transformados em uma representação x, y, z. Esses sinais são analisados para encontrar os componentes x, y, e z da primeira chegada dominante. Acoplados com a geometria de ambiente de escuta, isso normalmente fornece informações suficientes para o sistema automaticamente definir as coordenadas em 3D para todas as posições de alto-falante, direto ou refletido. Dependendo da geometria de ambiente de escuta, uma combinação híbrida dos três métodos descritos para configurar as coordenadas de alto-falante pode ser mais eficaz do que com o uso de apenas um conjunto de técnicas sozinho.
[0091] Informações de configuração de alto-falante são um com ponente exigido para configurar o renderizador. Informações de cali- bração de alto-falante são também necessárias para configurar a cadeia de pós-processamento: atraso, equalização, e ganho. A Figura 12 é um fluxograma que ilustra as etapas de processo de realização de calibração de alto-falante automática com o uso de um único microfone, sob uma modalidade. Nesse modo, o atraso, equalização, e ganho são automaticamente calculados pelo sistema com o uso de um único microfone de medição omnidirecional localizado no meio da posição de escuta. Conforme mostrado no diagrama 1200, o processo começa medindo-se a resposta de impulso de cômodo para cada único driver sozinho, bloco 1202. O atraso para cada driver é então calculado encontrando-se o desvio de pico de correlação cruzada da resposta de impulso acústico (capturado com o microfone) com resposta de impulso elétrico diretamente capturado, bloco 1204. No bloco 1206, o atraso calculado é aplicado à resposta de impulso diretamente capturado (referência). O processo então determina os valores de ganho por banda e banda larga que, quando aplicado a resposta de impulso medida, resulta na diferença mínima entre o mesmo e uma resposta de impulso de captura direta (referência), bloco 1208. Isso pode ser feito tomandose o FFT ajanelado da resposta de impulso de medidas e referência, calculando as proporções de magnitude por binário entre os dois sinais, aplicando um filtro mediano nas proporções de magnitude por binário, calculando valores de ganho por banda por cálculo de média dos ganhos para todos os binários que se situam completamente dentro de uma banda, calculando um ganho de banda ampla ao tomar a média de todos os ganhos por banda, subtrair o ganho de banda ampla dos ganhos por banda, e aplicar a curva X de cômodo pequeno (- 2dB/oitavo acima de 2kHz). Uma vez que os valores ganhos são determinados no bloco 1208, o processo determina os valores de atraso final subtraindo-se o atraso mínimo dos outros, de modo que pelo menos uma vez driver no sistema terá sempre zero atraso adicional, bloco 1210.
[0092] No caso de calibração automática com o uso de múltiplos microfones, o atraso, equalização, e ganho são automaticamente calculados pelo sistema com o uso de múltiplos microfones de medição omnidirecional. O processo é substancialmente idêntico ao conjunto de técnicas de único microfone, exceto que é repetido para cada um dos microfones, e os resultados têm sua média calculada.
APLICAÇÕES ALTERNATIVAS
[0093] Ao invés de implantar um sistema de áudio adaptativo em todo um ambiente de escuta ou teatro, é possível implantar aspectos do sistema de áudio adaptativo em aplicações mais localizadas, como televisões, computadores, console de jogos, ou dispositivos similares. Esse caso efetivamente depende de alto-falantes que são dispostos em um plano reto que corresponde à tela de visualização ou superfície de monitor. A Figura 13 ilustra o uso de um sistema de áudio adaptati- vo em um caso de uso de barra de som e televisão exemplificativo. Em geral, o caso de uso de televisão fornece desafios para criar uma experiência de áudio imersiva com base na qualidade frequentemente reduzida de equipamento (alto-falantes de TV, alto-falantes de barra de som, etc.) e locais/configuração(ões) de alto-falante, que podem ser limitados em termos de resolução espacial (isto é, nenhum alto-falante ambiente ou traseiro). O sistema 1300 da Figura 13 inclui alto-falantes nos locais esquerdo e direito de televisão padrão (TV-L e TV-R), assim como drivers de disparo para cima esquerdo e direito (TV-LH e TV- RH). A televisão 1302 também pode incluir uma barra de som 1304 ou alto-falantes em algum tipo de arranjo de altura. Em geral, o tamanho e qualidade de alto-falantes de televisão são reduzidos devido a restrições de custo e escolhas de projeto em comparação a alto-falantes autossuficientes ou de home theater. O uso de virtualização dinâmica, entretanto, pode ajudar a superar essas deficiências. Na Figura 13, o efeito de virtualização dinâmica é ilustrado para os alto-falantes TV-L e TV-R de modo que pessoas em uma posição de escuta específica 1308 escutariam elementos horizontais associados a objetos de áudio adequados individualmente renderizados no plano horizontal. Adicionalmente, os elementos de altura associados a objetos de áudio adequados serão renderizados corretamente através de áudio refletido transmitido pelos drivers LH e RH. O uso de virtualização estéreo nos alto-falantes de televisão L e R é similar aos alto-falantes de home theater L e R em que uma experiência de usuário de virtualização de alto-falante dinâmico potencialmente imersiva pode ser possível através do controle dinâmico dos parâmetros de algoritmos de virtualiza- ção de alto-falante com base em informações espaciais de objeto fornecidas pelo conteúdo de áudio adaptativo. Essa virtualização dinâmica pode ser usada para criar a percepção de objetos em movimento ao longo dos lados no ambiente de escuta.
[0094] O ambiente de televisão também pode incluir um alto- falante de HRC conforme mostrado dentro de barra de som 1304. Tal alto-falante de HRC pode ser uma unidade direcionável que permite movimento panorâmico através do arranjo de HRC. Pode haver benefícios (particularmente para telas maiores) tendo um arranjo de canal central de disparo frontal com alto-falantes individualmente endereçáveis que permitem panoramas distintos de objetos de áudio através do arranjo que corresponde ao movimento de objetos de vídeo na tela. Esse alto-falante é também mostrado como tendo alto-falantes de disparo lateral. Esses poderiam ser ativados e usados se o alto-falante for usado como uma barra de som de modo que os drivers de disparo lateral forneçam mais imersão devido à falta de alto-falante ambiente ou traseiro. O conceito de virtualização dinâmica é também mostrado para o alto-falante de HRC/Barra de som. A virtualização dinâmica é mostrada para os alto-falantes L e R nos lados mais distantes do arranjo de alto-falante de disparo frontal. Novamente, isso poderia ser usado para criar a percepção de objetos em movimento ao longo dos lados do ambiente de escuta. Esse alto-falante central modificado poderia também incluir mais alto-falantes e implantar um feixe de som orientável com zonas de som separadamente controladas. Também mostrado na implantação exemplificativa da Figura 13 é um alto- falante NFE 1306 localizado na frente do local de escuta principal 1308. A inclusão do alto-falante NFE pode fornecer maior envolvimento fornecido pelo sistema de áudio adaptativo por som em movimento para longe da frente do ambiente de escuta e mais próximo do ouvinte.
[0095] Em relação à renderização de fone de ouvido, o sistema de áudio adaptativo mantém a intenção original do criador correspondendo-se HRTFs à posição espacial. Quando áudio é reproduzido sobre fones de ouvido, a virtualização espacial binaural pode ser alcançada pela aplicação de uma Função de Transferência Relacionada a Cabeça (HRTF), que processa o áudio, e adiciona indicações perceptuais que criam a percepção do áudio sendo executado em espaço tridimensional e não sobre fones de ouvido estéreo padrão. A precisão da reprodução espacial é dependente da seleção do HRTF adequado, que pode variar com base em diversos fatores, incluindo a posição espacial dos canais de áudio ou objetos que são renderizados. Com o uso das informações espaciais fornecidas pelo sistema de áudio adap- tativo pode resultar na seleção de um -ou um número variado contínuo - de HRTFs que representam espaço 3D para aprimorar em muito a experiência de reprodução.
[0096] O sistema também facilita a adição de virtualização e ren- derização binaural tridimensional guiada. Similarmente ao caso para renderização espacial, com o uso de novos e modificados tipos de alto-falante e locais, é possível através do uso de HRTFs tridimensionais criar indicações para simular o som de áudio que vem do plano horizontal e do eixo geométrico vertical. Formatos de áudio anteriores que fornecem apenas renderização de informações de local de alto-falante fixado e canal foram mais limitados. Com as informações de formato de áudio adaptativo, um sistema de fone de ouvido de renderização tridimensional, binaural tem informações detalhadas e úteis que podem ser usadas para direcionar quais elementos do áudio são adequados para ser renderizados em ambos os planos horizontal e vertical. Algum conteúdo pode depender do uso de alto-falantes suspensos para fornecer um sentido maior de envolvimento. Esses objetos de áudio e informações poderiam ser usados para renderização binaural que é percebida por estar acima da cabeça do ouvinte quando com do uso de fones de ouvido. A Figura 14 ilustra uma representação simplificada de uma experiência de virtualização de fone de ouvido binaural tridimensional para uso em um sistema de áudio adaptativo, sob uma modalidade. Conforme mostrado na Figura 14, um conjunto de fone de ouvido 1402 usado para reproduzir áudio de um sistema de áudio adaptativo inclui sinais de áudio 1404 no plano x, y padrão, assim como no plano z, de modo que altura associada a determinados objetos de áudio ou sons seja executada de volta de modo que soe como se originasse acima ou abaixo dos sons originados de x, y.
DEFINIÇÕES DE METADADOS
[0097] Em uma modalidade, o sistema de áudio adaptativo inclui componentes que geram metadados do formato de áudio espacial original. Os métodos e componentes de sistema 300 compreendem um sistema de renderização de áudio configurado para processar um ou mais fluxos de bits que contêm ambos os elementos de áudio à base de canal convencionais e os elementos de codificação de objeto de áudio. Uma nova camada de extensão que contêm os elementos de codificação de objeto de áudio é definida e adicionada em cada um do fluxo de bits de codec de áudio à base de canal ou do fluxo de bits de objeto de áudio. Essa abordagem habilita fluxos de bits, que incluem a camada de extensão a ser processada por renderizadores para uso com projetos de alto-falante e driver existentes ou alto-falantes de próxima geração que utilizam drivers individualmente endereçáveis e definições de driver. O conteúdo de áudio espacial do processador de áudio espacial compreende objetos de áudio, canais, e metadados de posição. Quando um objeto é renderizado, o mesmo é designado a um ou mais alto-falantes de acordo com os metadados de posição, e o local dos alto-falantes de reprodução. Metadados adicionais podem ser associados ao objeto para alterar o local de reprodução ou de outro modo limitar os alto-falantes que devem ser usados para reprodução. Metadados são gerados na estação de trabalho de áudio em resposta às entradas de misturador do engenheiro para fornecer filas de renderização que controlam parâmetros espaciais (por exemplo, posição, velocidade, intensidade, timbre, etc.) e especificam qual(is) dri- ver(s) ou alto-falante(s) no ambiente de escuta executa respectivos sons durante a exibição. Os metadados são associados aos respectivos dados de áudio na estação de trabalho para empacotamento e transporte por processador de áudio espacial.
[0098] A Figura 15 é uma tabela que ilustra determinadas defini ções de metadados para uso em um sistema de áudio adaptativo para ambientes de escuta, sob uma modalidade. Conforme mostrado na Tabela 1500, as definições de metadados incluem: tipo de conteúdo de áudio, definições de driver (número, características, posição, ângulo de projeção), sinais de controle para direcionamento ati- vo/sintonização, e informações de calibração, incluindo informações de cômodo e alto-falante.
RECURSOS E CAPACIDADES
[0099] Conforme afirmado acima, o ecossistema de áudio adapta- tivo permite ao criador de conteúdo integrar a intenção espacial da mistura (posição, tamanho, velocidade, etc.) dentro do fluxo de bits por meio de metadados. Isso permite uma quantidade incrível de flexibili- dade na reprodução espacial do áudio. De um ponto de vista de rende- rização espacial, o formato de áudio adaptativo habilita ao criador de conteúdo adaptar a mistura para a posição exata dos alto-falantes no ambiente de escuta para evitar distorção espacial causada pela geometria do sistema de reprodução que não é idêntico ao sistema de autoria. Em sistemas de reprodução de áudio atuais, em que apenas áudio para um alto-falante canal é enviado, a intenção do criador de conteúdo é desconhecida para locais no ambiente de escuta além de locais de alto-falante fixados. No paradigma de canal/alto-falante atual, as únicas informações que são conhecidas são que um canal de áudio específico deve ser enviado para um alto-falante específico que tem um local predefinido em um ambiente de escuta. No sistema de áudio adaptativo, com o uso de metadados transportados através da tubulação de criação e distribuição, o sistema de reprodução pode usar essas informações para reproduzir o conteúdo de maneira que corresponda à intenção original do criador de conteúdo. Por exemplo, a relação entre alto-falantes é conhecida por diferentes objetos de áudio. Ao fornecer o local espacial para um objeto de áudio, a intenção do criador de conteúdo é conhecida e isso pode ser "mapeado" sobre a configuração de alto-falante, incluindo seu local. Com um sistema de ren- derização de áudio de renderização dinâmica, essa renderização pode ser atualizada e aprimorada adicionando-se alto-falantes adicionais.
[00100] O sistema também habilita adicionar renderização espacial tridimensional guiada. Tem havido muitas tentativas de criar uma experiência de renderização de áudio mais imersiva através do uso de novos projetos e configurações de alto-falante. Esses incluem o uso de alto-falantes bipolar ou dipolar, drivers de disparo lateral, disparo traseiro e disparo para cima. Com sistemas de local de alto-falante fixo e canal anteriores, determinar quais elementos de áudio devem ser enviado para esses alto-falantes modificados é relativamente difícil. Com o uso de um formato de áudio adaptativo, um sistema de renderização tem informações detalhadas e úteis sobre quais elementos do áudio (objetos ou de outro modo) são adequados para ser enviados para nova configuração de alto-falantes. Isto é, o sistema permite o controle sobre quais sinais de áudio são enviados para os drivers de disparo frontal e quais são enviados para os drivers de disparo para cima. Por exemplo, o conteúdo de cinema de áudio adaptativo depende pesadamente do uso de alto-falantes suspensos para fornecer um sentido maior de envolvimento. Esses objetos de áudio e informações podem ser enviados para drivers de disparo para cima para fornecer áudio refletido no ambiente de escuta para criar um efeito similar.
[00101] O sistema também permite adaptar a mistura à configuração de hardware exata do sistema de reprodução. Existem muitos tipos diferentes possíveis de alto-falante e configurações em equipamento de renderização, como televisões, home theaters, barras de som, bases de tocador de música portáteis, e assim em diante. Quando esses sistemas são informações de áudio específico de canal enviadas (isto é, áudio de múltiplos canais padrão ou canal esquerdo e direito) o sistema deve processar o áudio para corresponder de modo adequado as capacidades do equipamento de renderização. Um exemplo típico é quando áudio estéreo padrão (esquerdo, direito) é enviado para uma barra de som, que tem mais do que dois alto- falantes. Em sistemas de áudio atuais em que apenas áudio para um canal de alto-falante é enviado, a intenção do criador de conteúdo é desconhecida e uma experiência de áudio mais imersiva que se torna possível pelo equipamento acentuado deve ser criada por algoritmos que fazem pressupostos sobre como modificar o áudio para a reprodução no hardware. Um exemplo disso é o uso de Surround PLII, PLII- z, ou Próxima Geração para "upmix" áudio à base de canal para mais alto-falantes do que o número original de alimentações de canal. Com o sistema de áudio adaptativo, com o uso de metadados transportados por toda a tubulação de criação e distribuição, um sistema de reprodução pode usar essas informações para reproduzir o conteúdo de maneira que corresponda de maneira mais aproximada à intenção original do criador de conteúdo. Por exemplo, algumas barras de som têm alto- falantes de disparo lateral para criar um sentido de envolvimento. Com áudio adaptativo, as informações espaciais e as informações de tipo de conteúdo (isto é, diálogo, música, efeitos de ambiente, etc.) podem ser usadas pela barra de som quando controladas por um sistema de renderização, como uma TV ou receptor A/V, para enviar apenas o áudio adequado a esses alto-falantes de disparo lateral.
[00102] As informações espaciais transportadas por áudio adaptati- vo permitem a renderização dinâmica de conteúdo com uma consciência do local e tipo de alto-falantes presentes. Além disso, informações na relação do ouvinte ou ouvintes com o equipamento de reprodução de áudio são agora potencialmente disponíveis e podem ser usadas na renderização. A maioria dos consoles de jogos incluem um acessório de câmera e processamento de imagem inteligente que pode determinar a posição e identificar uma pessoa no ambiente de escuta. Essas informações podem ser usadas por um sistema de áudio adap- tativo para alterar a renderização para transportar mais precisamente a intenção criativa do criador de conteúdo com base na posição do ouvinte. Por exemplo, em quase todos os casos, áudio renderizado para reprodução assume que o ouvinte está localizado em um "ponto ideal" ideal que é frequentemente equidistante de cada alto-falante e a mesma posição em que o misturador de som foi localizado durante a criação de conteúdo. Entretanto, muitas vezes pessoas não estão nessa posição ideal e sua experiência não corresponde à intenção criativa do misturador. Um exemplo típico é quando um ouvinte está sentado no lado esquerdo do ambiente de escuta em uma cadeira ou sofá. Para esse caso, som que é reproduzido dos alto-falantes mais próximos na esquerda será percebido como sendo mais alto e desviando a percepção espacial da mistura de áudio para a esquerda. Ao entender a posição do ouvinte, o sistema poderia ajustar a renderização do áudio para diminuir o nível de som nos alto-falantes esquerdos e elevar o nível dos alto-falantes direitos para reequilibrar a mistura de áudio e tornar a mesma perceptivelmente correta. Atrasar o áudio para compensar pela distância do ouvinte do ponto ideal é também possível. A posição de ouvinte poderia ser detectada através do uso de uma câmera ou um controle remoto modificado com alguma sinalização integrada que sinalizaria a posição de ouvinte para o sistema de renderi- zação.
[00103] Além do uso de alto-falantes padrão e alto-falantes locais para tratar de posição de escuta, é também possível usar tecnologias de direcionamento de feixe para criar "zonas" campo de som que variam dependendo da posição de ouvinte e conteúdo. A formação de feixe de áudio usa um arranjo de alto-falantes (tipicamente 8 a 16 alto- falantes horizontalmente afastados) e usa processamento e manipulação de fase para criar um feixe de som orientável. O feixe que forma arranjo de alto-falante permite a criação de zonas de áudio em que o áudio é primariamente audível que pode ser usada para direcionar sons ou objetos específicos com processamento seletivo para um local espacial específico. Um caso de uso óbvio é processar o diálogo em uma trilha sonora com o uso de um algoritmo de pós-processamento de acentuação de diálogo e feixe daquele objeto de áudio diretamente para um usuário que tem deficiência auditiva.
CODIFICAÇÃO DE MATRIZ E REALIZAÇÃO DE UPMIX ESPACIAL
[00104] Em alguns casos, objetos de áudio podem ser um componente desejado de conteúdo de áudio adaptativo; entretanto, com base em limitações de largura de banda, pode não ser possível enviar am- bos o áudio de canal/alto-falante e objetos de áudio. No passado, a codificação de matriz foi usada para transportar mais informações de áudio do que é possível para um dado sistema de distribuição. Por exemplo, isso foi o caso no princípio do cinema, quando áudio de múltiplos canais foi criado pelos misturadores de som, mas os formatos de filme apenas forneciam áudio estéreo. A codificação de matriz foi usada para realizar downmix de modo inteligente do áudio de múltiplos canais para dois canais estéreos, que foram então processados com determinados algoritmos para recriar uma aproximação da mistura de múltiplos canais do áudio estéreo. Similarmente, é possível realizar downmix de modo inteligente de objetos de áudio nos canais de alto- falante de base e através do uso de metadados de áudio adaptativo e algoritmos de ambiente de próxima geração sensíveis de frequência e tempo sofisticados para extrair os objetos e renderizar espacialmente de modo correto os mesmos com um sistema de renderização de áudio adaptativo.
[00105] Adicionalmente, quando há limitações de largura de banda do sistema de transmissão para o áudio (aplicações sem fio 3G e 4G, por exemplo) há também o benefício de transmitir sedes de múltiplos canais espacialmente diversos que têm matriz codificada juntamente com objetos de áudio individuais. Um caso de uso de tal metodologia de transmissão seria para a transmissão de uma difusão de esporte com duas sedes de áudio distintas e múltiplos objetos de áudio. As sedes de áudio poderiam representar o áudio de múltiplos canais capturado em duas seções de arquibancada de times diferentes e os objetos de áudio poderiam representar diferentes anunciadores que podem ser simpáticos a um time ou a outro. Com o uso de codificação padrão, uma representação 5.1 de cada sede, juntamente com dois ou mais objetos, poderia exceder as restrições de largura de banda do sistema de transmissão. Nesse caso, se cada uma das sedes 5.1 forem matriz codificada para um sinal estéreo, então duas sedes que foram originalmente capturadas como canais 5.1 poderiam ser transmitidas como sede de dois canais 1, sede de dois canais 2, objeto 1, e objeto 2 como apenas quatro canais de áudio ao invés de canais 5.1 + 5.1 + 2 ou 12.1.
PROCESSAMENTO DE POSIÇÃO E CONTEÚDO DEPENDENTE
[00106] O ecossistema de áudio adaptativo permite ao criador de conteúdo criar objetos de áudio individuais e adicionar informações sobre o conteúdo que pode ser transportado para o sistema de reprodução. Isso permite uma grande quantidade de flexibilidade no processamento de áudio antes de reprodução. O processamento pode ser adaptado para a posição e tipo de objeto através de controle dinâmico de virtualização de alto-falante com base em posição e tamanho de objeto. A virtualização de alto-falante se refere a um método para processar áudio de modo que um alto-falante virtual seja percebido por um ouvinte. Esse método é frequentemente usado para reprodução de alto-falante estéreo quando o áudio de fonte é áudio de múltiplos canais que inclui alimentações de canal de alto-falante de ambiente. O processamento de alto-falante virtual modifica o áudio de canal de alto-falante de ambiente de tal modo que, quando é executado de volta nos alto-falantes estéreos, os elementos de áudio ambiente são virtua- lizados para o lado e parte traseira do ouvinte como se houvesse um alto-falante virtual localizado ali. Atualmente, os atributos de local do local de alto-falante virtual são estáticos, visto que o local destinado do ambiente de alto-falantes foi fixado. Entretanto, com conteúdo de áudio adaptativo, os locais espaciais de diferentes objetos de áudio são dinâmicos e distintos (isto é, exclusivos a cada objeto). É possível que pós-processamento, como virtualização de alto-falante virtual, possa ser agora controlado de maneira mais informada ao controlar dinamicamente parâmetros como ângulo posicional de alto-falante para cada objeto e então combinar as emissões renderizadas de diversos objetos virtualizados para criar uma experiência de áudio mais imersiva que representa de modo mais aproximado a intenção do misturador de som.
[00107] Além da virtualização horizontal padrão de objetos de áudio, é possível usar indicações de altura perceptuais que processam canal fixado e áudio de objeto dinâmico e obtêm a percepção de reprodução de altura de áudio de um par padrão de alto-falantes estéreos no local normal, plano horizontal.
[00108] Determinados efeitos ou processos de acentuação podem ser aplicados de modo criterioso a tipos adequados de conteúdo de áudio. Por exemplo, acentuação de diálogo pode ser aplicada a objetos de diálogo apenas. A acentuação de diálogo se refere a um método para processar áudio que contém diálogo, de modo que a audibilidade e/ou inteligibilidade do diálogo seja maior e ou aprimorada. Em muitos casos, o processamento de áudio que é aplicado ao diálogo é impróprio para conteúdo de áudio de não diálogo (isto é, música, efeitos de ambiente, etc.) e pode resultar em um artefato audível censurável. Com áudio adaptativo, um objeto de áudio poderia conter apenas o diálogo em um pedaço de conteúdo e pode ser identificado de acordo, de modo que uma solução de renderização aplique seletivamente acentuação de diálogo apenas no conteúdo de diálogo. Além disso, se o objeto de áudio for apenas diálogo (e não uma mistura de diálogo e outro conteúdo, o que é frequentemente o caso) então o processamento de acentuação de diálogo pode processar diálogo exclusivamente (limitando, assim, qualquer processamento que é realizado em qualquer outro conteúdo).
[00109] Similarmente, resposta de áudio ou gerenciamento de equalização também podem ser adequados a características de áudio específicas. Por exemplo, gerenciamento de baixo (filtração, atenua- ção, ganho) alvejado a objeto específico com base em seu tipo. O ge-renciamento de baixo se refere a isolar e processar seletivamente apenas as frequências de baixo (ou inferior) em um pedaço particular de conteúdo. Com sistemas de áudio atuais e mecanismos de entrega isso é um processo "cego", isto é, aplicado a todo o áudio. Com áudio adaptativo, objetos específicos de áudio nos quais o gerenciamento de baixo é adequado podem ser identificados por metadados e pelo processamento de renderização aplicado adequadamente.
[00110] O sistema de áudio adaptativo também facilita compressão de faixa dinâmica à base de objeto. Faixas de áudio tradicionais têm a mesma duração que o próprio conteúdo, embora um objeto de áudio possa ocorrer por uma quantidade limitada de tempo no conteúdo. Os metadados associados a um objeto podem conter informações relacionadas a nível sobre sua amplitude de sinal de pico e média, assim como seu início ou tempo de ataque (particularmente para material transiente). Essas informações permitiriam a um compressor melhor adaptar sua compressão e constantes de tempo (ataque, liberação, etc.) para melhor adequar ao conteúdo.
[00111] O sistema também facilita equalização de alto-falante- cômodo automática. A acústica de alto-falante e ambiente de escuta desempenha um papel significativo em introduzir coloração audível no som, impactando, assim, o timbre do som reproduzido. Adicionalmente, a acústica é dependente de posição devido a reflexões de ambiente de escuta e variações de diretividade de alto-falante e devido ao fato de que essa variação do timbre percebido irá variar de modo significativo para posições de escuta diferentes. Uma função AutoEQ (equali- zação de cômodo automática) fornecida no sistema ajuda a mitigar algumas dessas questões através de medição e equalização espectral de alto-falante-cômodo automáticas, compensação de atraso de tempo automatizada (que fornece imageamento adequado e possivelmente detecção de local de alto-falante relativa com base em mínimos quadrados) e definição de nível, redirecionamento para baixo com base em capacidade de altura livre de alto-falante, assim como união ideal dos alto-falantes principais com o(s) subwoofer(s). Em um home theater ou outro ambiente de escuta, o sistema de áudio adaptativo inclui determinadas funções adicionais, tais como: (1) computação de curva alvo automatizada com base em acústica de cômodo de reprodução (que é considerado um problema aberto na pesquisa para equalização em ambientes de escuta domésticos), (2) a influência de controle de decadência modal com o uso de análise de frequência de tempo, (3) entender os parâmetros derivados de medições que governam envol- vimento/vastidão/largura de fonte/inteligibilidade e controlar esses para fornecer a melhor experiência de escuta possível, (4) filtração direcional que incorpora modelos de cabeça para corresponder timbre entre alto-falantes frontal e "outros", e (5) detectar posições espaciais dos alto-falantes em uma configuração distinta em relação ao ouvinte e remapeamento espacial (por exemplo, Summit sem fio seria um exemplo). A incompatibilidade em timbre entre alto-falantes é especialmente revelada em determinado conteúdo de movimento panorâmico entre um alto-falante de âncora frontal (por exemplo, centro) alto- falantes de ambiente/traseiro/amplo/de altura.
[00112] Em geral, o sistema de áudio adaptativo também habilita uma experiência de reprodução de áudio/vídeo convincente, particularmente com tamanhos de tela maiores em um ambiente doméstico, se o local espacial reproduzido de alguns elementos de áudio corresponderem a elementos de imagem na tela. Um exemplo é fazer com que o diálogo em um filme ou programa de televisão coincida espacialmente com uma pessoa ou personagem que está falando na tela. Com áudio à base de canal de alto-falante normal não há método fácil de determinar onde o diálogo deve ser espacialmente posicionado pa ra corresponder o local da pessoa ou personagem na tela. Com as in-formações de áudio disponíveis em um sistema de áudio adaptativo, esse tipo de alinhamento de áudio/visual poderia ser facilmente alcançado, mesmo em sistemas de home theater que estão apresentando telas de tamanhos cada vez maiores. O alinhamento espacial de áudio e posicional visual também poderia ser usado para objetos de não personagem/diálogo, como carros, caminhões, animação, e assim em diante.
[00113] O ecossistema de áudio adaptativo também permite gerenciamento de conteúdo acentuado, ao permitir que um criador de conteúdo crie objetos de áudio individuais e adicione informações sobre o conteúdo que pode ser transportado no sistema de reprodução. Isso permite uma grande quantidade de flexibilidade no gerenciamento de conteúdo de áudio. De um ponto de vista de gerenciamento de conteúdo, áudio adaptativo habilita várias coisas, como mudar a linguagem do conteúdo de áudio apenas substituindo-se um objeto de diálogo para reduzir tamanho de arquivo de conteúdo e/ou reduzir tempo de download. Filme, televisão e outros programas de entretenimento são tipicamente distribuídos internacionalmente. Isso frequentemente exige que a linguagem no pedaço de conteúdo seja mudada dependendo no que será reproduzido (francês para filmes sendo mostrados na França, alemão para programas de TV sendo mostrados na Alemanha, etc.). Hoje isso frequentemente exige que uma trilha sonora de áudio completamente independente seja criada, empacotada, e distribuída para cada linguagem. Com o sistema de áudio adaptativo e o conceito inerente de objetos de áudio, o diálogo para um pedaço de conteúdo poderia ser um objeto de áudio independente. Isso permite que a linguagem do conteúdo seja facilmente mudada sem atualizar ou alterar outros elementos da trilha sonora de áudio, como música, efeitos, etc. Isso não apenas se aplicaria a línguas estrangeiras como também lin guagem imprópria para determinada audiência, propaganda alvejada, etc.
[00114] Aspectos do ambiente de áudio descritos no presente documento representam a reprodução do áudio ou conteúdo de áu- dio/visual através de alto-falantes adequados e dispositivos de reprodução, e podem representar qualquer ambiente no qual um ouvinte está experimentando reprodução do conteúdo capturado, como um cinema, sala de concerto, teatro ao ar livre, um domicílio ou cômodo, cabine de escuta, carro, console de jogo, sistema de fone de ouvido ou de headset, sistema de endereço público (PA), ou qualquer outro ambiente de reprodução. Embora modalidades tenham sido descritas primariamente em relação a exemplos e implantações em um ambiente de home theater no qual o conteúdo de áudio espacial é associado a conteúdo de televisão, deve ser notado que modalidades também podem ser implantadas em outros sistemas. O conteúdo de áudio espacial que compreende áudio à base de objeto e áudio à base de canal pode ser usado em conjunto com qualquer conteúdo relacionado (áudio, vídeo, gráfico, etc. associado), ou pode constituir conteúdo de áudio autossuficiente. O ambiente de reprodução pode ser qualquer ambiente de escuta adequado de fones de ouvido ou monitores de campo próximo a cômodos pequenos ou grandes, carros, arenas ao ar livre, salas de concerto, e assim em diante.
[00115] Aspectos dos sistemas descritos no presente documento podem ser implantados em um ambiente de rede de processamento de som com base em computador adequado para processar arquivos de áudio digital ou digitalizados. Porções do sistema de áudio adapta- tivo podem incluir uma ou mais redes que compreendem qualquer número desejado de máquinas individuais, incluindo um ou mais roteadores (não mostrado) que servem como memória temporária e para rotear os dados transmitidos entre computadores. Tal rede pode ser cons- truída em vários protocolos de rede diferentes, e podem ser a Internet, uma Rede de Área Ampla (WAN), uma Rede de Área Local (LAN), ou qualquer combinação dos mesmos. Em uma modalidade na qual a rede compreende a Internet, uma ou mais máquinas pode ser configurada para acessar a Internet através de programas de navegador da web.
[00116] Um ou mais dos componentes, blocos, processos ou outros componentes funcionais podem ser implantados através de um programa de computador que controla a execução de um dispositivo de computação com base em processador do sistema. Também deve-se notar que as várias funções reveladas no presente documento podem ser descritas com o uso de qualquer número de combinações de hardware, firmware, e/ou como dados e/ou instruções incorporadas em várias mídias legíveis por máquina ou legíveis por computador, em termos de seu componente comportamental, de transferência de registro, lógico, e/ou outras características. Mídias legíveis por computador nas quais tais dados e/ou instruções formatados podem ser incorporados incluem, mas não se limitam a, mídia física (não transitória), mídia de armazenamento não volátil em várias formas, como mídia de arma-zenamento óptica, magnética ou semicondutora.
[00117] Exceto se o contexto exigir claramente de outro modo, por toda a descrição e as reivindicações, as palavras "compreende", "que compreende", e similares devem ser entendidas em um sentido inclusivo em oposição a um sentido exclusivo ou exaustivo; o que quer dizer, em um sentido de "incluindo, mas não limitado a". Palavras com o uso do número singular ou plural também incluem o número plural ou singular, respectivamente. Adicionalmente, as palavras "no presente documento", "abaixo no presente documento", "acima", "abaixo", e palavras de significado similar se referem a este pedido como um todo e não a qualquer porção particular deste pedido. Quando a palavra "ou" é usada em referência a uma lista de dois ou mais itens, aquela palavra cobre todas as seguintes interpretações da palavra: qualquer um dos itens na lista, todos os itens na lista e qualquer combinação dos itens na lista.
[00118] Embora uma ou mais implantações tenham sido descritas para fins de exemplo e em termos das modalidades específicas, deve- se entender que uma ou mais implantações não se limitam às modalidades reveladas. Ao contrário, as mesmas se destinam a cobrir várias modificações e disposições similares, como seria evidente àqueles versados na técnica. Portanto, o escopo das reivindicações anexas deve ser concedido à interpretação mais ampla, de modo a abranger todas tais modificações e disposições similares.

Claims (10)

1. Sistema para renderizar som com o uso de elementos de som refletidos que compreende: um arranjo de drivers de áudio para distribuição ao redor de um ambiente de escuta, sendo que pelo menos um driver do arranjo de drivers de áudio é um driver de disparo para cima, que é configurado para projetar ondas de som para em direção a um teto do ambiente de escuta para reflexão para uma área de escuta dentro do ambiente de escuta; um renderizador configurado para receber e processar um fluxo de bits, incluindo fluxos de áudio e um ou mais conjuntos de metadados que são associados a cada um dos fluxos de áudio e que especificam um local de reprodução no ambiente de escuta de objetos de áudio em um respectivo fluxo de áudio, sendo que os fluxos de áudio compreendem um ou mais fluxos de áudio refletidos e um ou mais fluxos de áudio diretos, sendo o renderizador adicionalmente configurado para renderizar objetos de áudio que devem ser renderizados acima da cabeça de um ouvinte na área no ambiente de escuta com o uso de um driver de disparo para cima e informações de altura relacio-nadas a um ou mais dos objetos de áudio; e um componente de reprodução acoplado ao renderizador e configurado para renderizar os fluxos de áudio para uma pluralidade de alimentações de áudio que correspondem ao arranjo de drivers de áudio em conformidade com o um ou mais conjuntos de metadados, e sendo que o um ou mais fluxos de áudio refletidos são transmitidos ao pelo menos um driver de disparo para cima; caracterizado pelo fato de que o sistema realiza o processamento de sinal para introduzir indicações de altura perceptivas nos fluxos de áudio refletidos alimentados ao pelo menos um driver de disparo para cima, as indicações de altura perceptivas derivadas pela remoção, pelo menos parcialmente, dos fluxos de áudio refletidos de uma primeira indicação de altura para um localização física do alto- falante no ambiente de escuta e, pela inserção, pelo menos parcialmente, nos fluxos de áudio refletidos de uma segunda indicação de altura para um localização do alto-falante refletido.
2. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que cada driver de áudio do arranjo de drivers de áudio é exclusivamente endereçável de acordo com um protocolo de comunicações usado pelo renderizador e pelo componente de reprodução.
3. Sistema, de acordo com a reivindicação 2, caracterizado pelo fato de que o pelo menos um driver de áudio compreende um de: um driver de disparo lateral e um driver de disparo para cima, e sendo que o pelo menos um driver de áudio é incorporado adicionalmente em um de: um driver autossuficiente dentro de um invólucro de alto-falante e um driver colocado próximo a um ou mais drivers de disparo frontal em um invólucro de alto-falante unitário.
4. Sistema, de acordo com a reivindicação 3, caracterizado pelo fato de que o arranjo de drivers de áudio compreendem drivers que são distribuídos ao redor do ambiente de escuta em conformidade com uma configuração de som ambiente definida.
5. Sistema, de acordo com a reivindicação 4, caracterizado pelo fato de que o ambiente de escuta compreende um ambiente doméstico, e sendo que o renderizador e o componente de reprodução compreendem parte de um sistema de áudio doméstico, e adicionalmente em que os fluxos de áudio compreendem conteúdo de áudio selecionado a partir do grupo que consiste em: conteúdo de cinema transformado para reprodução em um ambiente doméstico, conteúdo de televisão, conteúdo gerado por usuário, conteúdo de jogo de computador, e música.
6. Sistema, de acordo com a reivindicação 4, caracterizado pelo fato de que um conjunto de metadados associado ao fluxo de áudio transmitido para o pelo menos um driver define uma ou mais características que pertencem à reflexão.
7. Sistema, de acordo com a reivindicação 6, caracterizado pelo fato de que o conjunto de metadados suplementa um conjunto de metadados de base que inclui elementos de metadados associados a um fluxo à base de objeto de informações de áudio espaciais, e sendo que os elementos de metadados para o fluxo à base de objeto especificam parâmetros espaciais que controlam a reprodução de um som à base de objeto correspondente e compreendem um ou mais de: posição de som, largura de som, e velocidade de som.
8. Sistema, de acordo com a reivindicação 7, caracterizado pelo fato de que o conjunto de metadados inclui ainda elementos de metadados associados a um fluxo à base de canal das informações de áudio espaciais, e sendo que os elementos de metadados associados a cada fluxo à base de canal compreendem designações de canais de som ambiente dos drivers de áudio na configuração de som ambiente definida.
9. Sistema, de acordo com a reivindicação 6, caracterizado pelo fato de que o pelo menos um driver é associado a um microfone colocado no ambiente de escuta, sendo o microfone configurado para transmitir informações de áudio de configuração que encapsulam características do ambiente de escuta para um componente de calibra- ção acoplado ao renderizador, e sendo que as informações de áudio de configuração são usadas pelo renderizador para definir ou modificar o conjunto de metadados associado ao fluxo de áudio transmitido ao pelo menos um driver de áudio.
10. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que o pelo menos um driver compreende um dentre: um transdutor de áudio manualmente ajustável dentro de um invólucro que é ajustável em relação ao ângulo de disparo de som relativo a um plano de solo do ambiente de escuta e um transdutor de áudio eletricamente controlável dentro de um invólucro que é automaticamente ajustável em relação ao ângulo de disparo de som.
BR112015004288-0A 2012-08-31 2013-08-28 sistema para renderizar som com o uso de elementos de som refletidos BR112015004288B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261695893P 2012-08-31 2012-08-31
US61/695,893 2012-08-31
PCT/US2013/056989 WO2014036085A1 (en) 2012-08-31 2013-08-28 Reflected sound rendering for object-based audio

Publications (2)

Publication Number Publication Date
BR112015004288A2 BR112015004288A2 (pt) 2017-07-04
BR112015004288B1 true BR112015004288B1 (pt) 2021-05-04

Family

ID=49118825

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112015004288-0A BR112015004288B1 (pt) 2012-08-31 2013-08-28 sistema para renderizar som com o uso de elementos de som refletidos

Country Status (10)

Country Link
US (3) US9794718B2 (pt)
EP (1) EP2891337B8 (pt)
JP (1) JP6167178B2 (pt)
KR (1) KR101676634B1 (pt)
CN (3) CN107509141B (pt)
BR (1) BR112015004288B1 (pt)
ES (1) ES2606678T3 (pt)
HK (1) HK1205846A1 (pt)
RU (1) RU2602346C2 (pt)
WO (1) WO2014036085A1 (pt)

Families Citing this family (114)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10158962B2 (en) * 2012-09-24 2018-12-18 Barco Nv Method for controlling a three-dimensional multi-layer speaker arrangement and apparatus for playing back three-dimensional sound in an audience area
KR20140047509A (ko) * 2012-10-12 2014-04-22 한국전자통신연구원 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치
EP2830332A3 (en) 2013-07-22 2015-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method, signal processing unit, and computer program for mapping a plurality of input channels of an input channel configuration to output channels of an output channel configuration
US9560449B2 (en) 2014-01-17 2017-01-31 Sony Corporation Distributed wireless speaker system
US9866986B2 (en) 2014-01-24 2018-01-09 Sony Corporation Audio speaker system with virtual music performance
US9402145B2 (en) 2014-01-24 2016-07-26 Sony Corporation Wireless speaker system with distributed low (bass) frequency
US9369801B2 (en) 2014-01-24 2016-06-14 Sony Corporation Wireless speaker system with noise cancelation
US9426551B2 (en) 2014-01-24 2016-08-23 Sony Corporation Distributed wireless speaker system with light show
US9232335B2 (en) 2014-03-06 2016-01-05 Sony Corporation Networked speaker system with follow me
EP2925024A1 (en) 2014-03-26 2015-09-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for audio rendering employing a geometric distance definition
US9848275B2 (en) 2014-04-02 2017-12-19 Wilus Institute Of Standards And Technology Inc. Audio signal processing method and device
US20150356212A1 (en) * 2014-04-04 2015-12-10 J. Craig Oxford Senior assisted living method and system
US10368183B2 (en) 2014-05-19 2019-07-30 Apple Inc. Directivity optimized sound reproduction
CN106416293B (zh) * 2014-06-03 2021-02-26 杜比实验室特许公司 具有用于反射声音渲染的向上发射驱动器的音频扬声器
JPWO2015194075A1 (ja) * 2014-06-18 2017-06-01 ソニー株式会社 画像処理装置、画像処理方法及びプログラム
WO2016009863A1 (ja) * 2014-07-18 2016-01-21 ソニー株式会社 サーバ装置、およびサーバ装置の情報処理方法、並びにプログラム
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
EP3001701B1 (en) * 2014-09-24 2018-11-14 Harman Becker Automotive Systems GmbH Audio reproduction systems and methods
CN111654785B (zh) 2014-09-26 2022-08-23 苹果公司 具有可配置区的音频系统
JP6732739B2 (ja) 2014-10-01 2020-07-29 ドルビー・インターナショナル・アーベー オーディオ・エンコーダおよびデコーダ
US10631025B2 (en) 2014-10-10 2020-04-21 Sony Corporation Encoding device and method, reproduction device and method, and program
WO2016077320A1 (en) * 2014-11-11 2016-05-19 Google Inc. 3d immersive spatial audio systems and methods
CN107211061B (zh) 2015-02-03 2020-03-31 杜比实验室特许公司 用于空间会议回放的优化虚拟场景布局
EP3254435B1 (en) 2015-02-03 2020-08-26 Dolby Laboratories Licensing Corporation Post-conference playback system having higher perceived quality than originally heard in the conference
CN105992120B (zh) * 2015-02-09 2019-12-31 杜比实验室特许公司 音频信号的上混音
WO2016163833A1 (ko) * 2015-04-10 2016-10-13 세종대학교산학협력단 컴퓨터 실행 가능한 사운드 트레이싱 방법, 이를 수행하는 사운드 트레이싱 장치 및 이를 저장하는 기록매체
WO2016200377A1 (en) * 2015-06-10 2016-12-15 Harman International Industries, Incorporated Surround sound techniques for highly-directional speakers
DE102015008000A1 (de) * 2015-06-24 2016-12-29 Saalakustik.De Gmbh Verfahren zur Schallwiedergabe in Reflexionsumgebungen, insbesondere in Hörräumen
US9530426B1 (en) * 2015-06-24 2016-12-27 Microsoft Technology Licensing, Llc Filtering sounds for conferencing applications
GB2543275A (en) * 2015-10-12 2017-04-19 Nokia Technologies Oy Distributed audio capture and mixing
EP3128762A1 (en) 2015-08-03 2017-02-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Soundbar
CN107925813B (zh) * 2015-08-14 2020-01-14 杜比实验室特许公司 具有不对称扩散以用于经反射声音再现的向上激发扩音器
CA3219512A1 (en) 2015-08-25 2017-03-02 Dolby International Ab Audio encoding and decoding using presentation transform parameters
US9930469B2 (en) 2015-09-09 2018-03-27 Gibson Innovations Belgium N.V. System and method for enhancing virtual audio height perception
US10356526B2 (en) 2015-09-28 2019-07-16 Razer (Asia-Pacific) Pte. Ltd. Computers, methods for controlling a computer, and computer-readable media
WO2017059933A1 (en) 2015-10-08 2017-04-13 Bang & Olufsen A/S Active room compensation in loudspeaker system
WO2017074321A1 (en) * 2015-10-27 2017-05-04 Ambidio, Inc. Apparatus and method for sound stage enhancement
MX2015015986A (es) * 2015-10-29 2017-10-23 Lara Rios Damian Sistema de audio y cine en su casa para techo.
US11121620B2 (en) 2016-01-29 2021-09-14 Dolby Laboratories Licensing Corporation Multi-channel cinema amplifier with power-sharing, messaging and multi-phase power supply
US10778160B2 (en) 2016-01-29 2020-09-15 Dolby Laboratories Licensing Corporation Class-D dynamic closed loop feedback amplifier
US11290819B2 (en) * 2016-01-29 2022-03-29 Dolby Laboratories Licensing Corporation Distributed amplification and control system for immersive audio multi-channel amplifier
US9693168B1 (en) 2016-02-08 2017-06-27 Sony Corporation Ultrasonic speaker assembly for audio spatial effect
US9826332B2 (en) 2016-02-09 2017-11-21 Sony Corporation Centralized wireless speaker system
WO2017138807A1 (es) * 2016-02-09 2017-08-17 Lara Rios Damian Proyector de video con sistema de audio de cine en su casa para techo
US9591427B1 (en) * 2016-02-20 2017-03-07 Philip Scott Lyren Capturing audio impulse responses of a person with a smartphone
US9826330B2 (en) 2016-03-14 2017-11-21 Sony Corporation Gimbal-mounted linear ultrasonic speaker assembly
US9693169B1 (en) 2016-03-16 2017-06-27 Sony Corporation Ultrasonic speaker assembly with ultrasonic room mapping
WO2017165837A1 (en) * 2016-03-24 2017-09-28 Dolby Laboratories Licensing Corporation Near-field rendering of immersive audio content in portable computers and devices
US10325610B2 (en) 2016-03-30 2019-06-18 Microsoft Technology Licensing, Llc Adaptive audio rendering
US10785560B2 (en) 2016-05-09 2020-09-22 Samsung Electronics Co., Ltd. Waveguide for a height channel in a speaker
CN107396233A (zh) * 2016-05-16 2017-11-24 深圳市泰金田科技有限公司 一体化多声道音箱
JP2017212548A (ja) * 2016-05-24 2017-11-30 日本放送協会 音声信号処理装置、音声信号処理方法、及びプログラム
US10863297B2 (en) 2016-06-01 2020-12-08 Dolby International Ab Method converting multichannel audio content into object-based audio content and a method for processing audio content having a spatial position
CN105933630A (zh) * 2016-06-03 2016-09-07 深圳创维-Rgb电子有限公司 电视机
US10231073B2 (en) * 2016-06-17 2019-03-12 Dts, Inc. Ambisonic audio rendering with depth decoding
EP3488623B1 (en) 2016-07-20 2020-12-02 Dolby Laboratories Licensing Corporation Audio object clustering based on renderer-aware perceptual difference
US9794724B1 (en) 2016-07-20 2017-10-17 Sony Corporation Ultrasonic speaker assembly using variable carrier frequency to establish third dimension sound locating
KR20180033771A (ko) * 2016-09-26 2018-04-04 엘지전자 주식회사 영상표시장치
US10262665B2 (en) * 2016-08-30 2019-04-16 Gaudio Lab, Inc. Method and apparatus for processing audio signals using ambisonic signals
EP4254403A3 (en) * 2016-09-14 2023-11-01 Magic Leap, Inc. Virtual reality, augmented reality, and mixed reality systems with spatialized audio
CN106448687B (zh) * 2016-09-19 2019-10-18 中科超影(北京)传媒科技有限公司 音频制作及解码的方法和装置
US10405125B2 (en) * 2016-09-30 2019-09-03 Apple Inc. Spatial audio rendering for beamforming loudspeaker array
DE102016118950A1 (de) * 2016-10-06 2018-04-12 Visteon Global Technologies, Inc. Verfahren und Einrichtung zur adaptiven Audiowiedergabe in einem Fahrzeug
US9924286B1 (en) 2016-10-20 2018-03-20 Sony Corporation Networked speaker system with LED-based wireless communication and personal identifier
US10075791B2 (en) 2016-10-20 2018-09-11 Sony Corporation Networked speaker system with LED-based wireless communication and room mapping
US9854362B1 (en) 2016-10-20 2017-12-26 Sony Corporation Networked speaker system with LED-based wireless communication and object detection
US10623857B2 (en) * 2016-11-23 2020-04-14 Harman Becker Automotive Systems Gmbh Individual delay compensation for personal sound zones
WO2018112335A1 (en) 2016-12-16 2018-06-21 Dolby Laboratories Licensing Corporation Audio speaker with full-range upward firing driver for reflected sound projection
ES2913204T3 (es) * 2017-02-06 2022-06-01 Savant Systems Inc Arquitectura de interconexión de A/V que incluye un punto final de A/V transmisor de mezcla descendente de audio y amplificación de canal distribuida
US10798442B2 (en) 2017-02-15 2020-10-06 The Directv Group, Inc. Coordination of connected home devices to provide immersive entertainment experiences
US10149088B2 (en) * 2017-02-21 2018-12-04 Sony Corporation Speaker position identification with respect to a user based on timing information for enhanced sound adjustment
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
US20180357038A1 (en) * 2017-06-09 2018-12-13 Qualcomm Incorporated Audio metadata modification at rendering device
US10674303B2 (en) * 2017-09-29 2020-06-02 Apple Inc. System and method for maintaining accuracy of voice recognition
GB2569214B (en) 2017-10-13 2021-11-24 Dolby Laboratories Licensing Corp Systems and methods for providing an immersive listening experience in a limited area using a rear sound bar
US10531222B2 (en) 2017-10-18 2020-01-07 Dolby Laboratories Licensing Corporation Active acoustics control for near- and far-field sounds
US10499153B1 (en) * 2017-11-29 2019-12-03 Boomcloud 360, Inc. Enhanced virtual stereo reproduction for unmatched transaural loudspeaker systems
WO2019136460A1 (en) * 2018-01-08 2019-07-11 Polk Audio, Llc Synchronized voice-control module, loudspeaker system and method for incorporating vc functionality into a separate loudspeaker system
WO2019149337A1 (en) 2018-01-30 2019-08-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatuses for converting an object position of an audio object, audio stream provider, audio content production system, audio playback apparatus, methods and computer programs
CN113993062A (zh) 2018-04-09 2022-01-28 杜比国际公司 用于mpeg-h 3d音频的三自由度(3dof+)扩展的方法、设备和系统
US11004438B2 (en) 2018-04-24 2021-05-11 Vizio, Inc. Upfiring speaker system with redirecting baffle
WO2020012062A2 (en) 2018-07-13 2020-01-16 Nokia Technologies Oy Multi-viewpoint multi-user audio user experience
US10796704B2 (en) 2018-08-17 2020-10-06 Dts, Inc. Spatial audio signal decoder
US11205435B2 (en) 2018-08-17 2021-12-21 Dts, Inc. Spatial audio signal encoder
EP3617871A1 (en) * 2018-08-28 2020-03-04 Koninklijke Philips N.V. Audio apparatus and method of audio processing
EP3618464A1 (en) * 2018-08-30 2020-03-04 Nokia Technologies Oy Reproduction of parametric spatial audio using a soundbar
EP3868129B1 (en) 2018-10-16 2023-10-11 Dolby Laboratories Licensing Corporation Methods and devices for bass management
US10623859B1 (en) 2018-10-23 2020-04-14 Sony Corporation Networked speaker system with combined power over Ethernet and audio delivery
US10575094B1 (en) 2018-12-13 2020-02-25 Dts, Inc. Combination of immersive and binaural sound
AU2019409705B2 (en) * 2018-12-19 2023-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for reproducing a spatially extended sound source or apparatus and method for generating a bitstream from a spatially extended sound source
KR102019179B1 (ko) 2018-12-19 2019-09-09 세종대학교산학협력단 사운드 트레이싱 장치 및 방법
US11095976B2 (en) 2019-01-08 2021-08-17 Vizio, Inc. Sound system with automatically adjustable relative driver orientation
CN113574910B (zh) 2019-02-27 2024-02-09 杜比实验室特许公司 高置声道扬声器及相关方法和系统
US11206504B2 (en) 2019-04-02 2021-12-21 Syng, Inc. Systems and methods for spatial audio rendering
EP3963906B1 (en) 2019-05-03 2023-06-28 Dolby Laboratories Licensing Corporation Rendering audio objects with multiple types of renderers
WO2020231883A1 (en) * 2019-05-15 2020-11-19 Ocelot Laboratories Llc Separating and rendering voice and ambience signals
US10743105B1 (en) 2019-05-31 2020-08-11 Microsoft Technology Licensing, Llc Sending audio to various channels using application location information
WO2020256745A1 (en) * 2019-06-21 2020-12-24 Hewlett-Packard Development Company, L.P. Image-based soundfield rendering
KR102638121B1 (ko) * 2019-07-30 2024-02-20 돌비 레버러토리즈 라이쎈싱 코오포레이션 상이한 재생 능력을 구비한 디바이스에 걸친 역학 처리
CN117499852A (zh) * 2019-07-30 2024-02-02 杜比实验室特许公司 管理在多个扬声器上回放多个音频流
WO2021021460A1 (en) * 2019-07-30 2021-02-04 Dolby Laboratories Licensing Corporation Adaptable spatial audio playback
TWI735968B (zh) * 2019-10-09 2021-08-11 名世電子企業股份有限公司 音場型自然環境音效系統
CN112672084A (zh) * 2019-10-15 2021-04-16 海信视像科技股份有限公司 显示装置及扬声器音效调整方法
US10924853B1 (en) * 2019-12-04 2021-02-16 Roku, Inc. Speaker normalization system
FR3105692B1 (fr) * 2019-12-24 2022-01-14 Focal Jmlab Enceinte de diffusion de son par reverberation
KR20210098197A (ko) 2020-01-31 2021-08-10 한림대학교 산학협력단 기계학습을 기반으로 하는 액체 속성 판별장치 및 이를 이용한 핸드폰
JPWO2021200260A1 (pt) * 2020-04-01 2021-10-07
CN111641898B (zh) * 2020-06-08 2021-12-03 京东方科技集团股份有限公司 发声装置、显示装置、发声控制方法及装置
US11317137B2 (en) * 2020-06-18 2022-04-26 Disney Enterprises, Inc. Supplementing entertainment content with ambient lighting
CN114650456B (zh) * 2020-12-17 2023-07-25 深圳Tcl新技术有限公司 一种音频描述符的配置方法、系统、存储介质及配置设备
US11521623B2 (en) 2021-01-11 2022-12-06 Bank Of America Corporation System and method for single-speaker identification in a multi-speaker environment on a low-frequency audio recording
CN112953613B (zh) * 2021-01-28 2023-02-03 西北工业大学 一种基于智能反射面反向散射的车辆与卫星协作通信方法
WO2023076039A1 (en) 2021-10-25 2023-05-04 Dolby Laboratories Licensing Corporation Generating channel and object-based audio from channel-based audio
EP4329327A1 (en) * 2022-08-26 2024-02-28 Bang & Olufsen A/S Loudspeaker transducer arrangement

Family Cites Families (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2941692A1 (de) 1979-10-15 1981-04-30 Matteo Torino Martinez Verfahren und vorrichtung zur tonwiedergabe
DE3201455C2 (de) 1982-01-19 1985-09-19 Dieter 7447 Aichtal Wagner Lautsprecherbox
JPS60254992A (ja) * 1984-05-31 1985-12-16 Ricoh Co Ltd 音響装置
US4890689A (en) * 1986-06-02 1990-01-02 Tbh Productions, Inc. Omnidirectional speaker system
US5199075A (en) * 1991-11-14 1993-03-30 Fosgate James W Surround sound loudspeakers and processor
US6577738B2 (en) * 1996-07-17 2003-06-10 American Technology Corporation Parametric virtual speaker and surround-sound system
US6229899B1 (en) * 1996-07-17 2001-05-08 American Technology Corporation Method and device for developing a virtual speaker distant from the sound source
JP4221792B2 (ja) * 1998-01-09 2009-02-12 ソニー株式会社 スピーカ装置及びオーディオ信号送信装置
US6134645A (en) 1998-06-01 2000-10-17 International Business Machines Corporation Instruction completion logic distributed among execution units for improving completion efficiency
JP3382159B2 (ja) * 1998-08-05 2003-03-04 株式会社東芝 情報記録媒体とその再生方法及び記録方法
JP3525855B2 (ja) * 2000-03-31 2004-05-10 松下電器産業株式会社 音声認識方法及び音声認識装置
JP3747779B2 (ja) * 2000-12-26 2006-02-22 株式会社ケンウッド オーディオ装置
EP1532734A4 (en) * 2002-06-05 2008-10-01 Sonic Focus Inc ACOUSTIC VIRTUAL REALITY ENGINE AND ADVANCED TECHNIQUES FOR IMPROVING THE DELIVERED SOUND
KR100542129B1 (ko) * 2002-10-28 2006-01-11 한국전자통신연구원 객체기반 3차원 오디오 시스템 및 그 제어 방법
FR2847376B1 (fr) * 2002-11-19 2005-02-04 France Telecom Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede
DE10321986B4 (de) * 2003-05-15 2005-07-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Pegel-Korrigieren in einem Wellenfeldsynthesesystem
JP4127156B2 (ja) * 2003-08-08 2008-07-30 ヤマハ株式会社 オーディオ再生装置、ラインアレイスピーカユニットおよびオーディオ再生方法
JP4114583B2 (ja) * 2003-09-25 2008-07-09 ヤマハ株式会社 特性補正システム
JP4114584B2 (ja) * 2003-09-25 2008-07-09 ヤマハ株式会社 指向性スピーカ制御システム
JP4254502B2 (ja) * 2003-11-21 2009-04-15 ヤマハ株式会社 アレースピーカ装置
US8170233B2 (en) * 2004-02-02 2012-05-01 Harman International Industries, Incorporated Loudspeaker array system
JP2005223713A (ja) 2004-02-06 2005-08-18 Sony Corp 音響再生装置、音響再生方法
US20050177256A1 (en) * 2004-02-06 2005-08-11 Peter Shintani Addressable loudspeaker
JP2005295181A (ja) * 2004-03-31 2005-10-20 Victor Co Of Japan Ltd 音声情報生成装置
US8363865B1 (en) 2004-05-24 2013-01-29 Heather Bottum Multiple channel sound system using multi-speaker arrays
JP4127248B2 (ja) * 2004-06-23 2008-07-30 ヤマハ株式会社 スピーカアレイ装置及びスピーカアレイ装置の音声ビーム設定方法
JP4214961B2 (ja) * 2004-06-28 2009-01-28 セイコーエプソン株式会社 超指向性音響システム及びプロジェクタ
JP3915804B2 (ja) * 2004-08-26 2007-05-16 ヤマハ株式会社 オーディオ再生装置
US8041061B2 (en) * 2004-10-04 2011-10-18 Altec Lansing, Llc Dipole and monopole surround sound speaker system
EP1851656A4 (en) * 2005-02-22 2009-09-23 Verax Technologies Inc SYSTEM AND METHOD FOR FORMATTING MULTIMODE CONTENT OF SOUNDS AND METADATA
DE102005008343A1 (de) * 2005-02-23 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Liefern von Daten in einem Multi-Renderer-System
JP4682927B2 (ja) * 2005-08-03 2011-05-11 セイコーエプソン株式会社 静電型超音波トランスデューサ、超音波スピーカ、音声信号再生方法、超音波トランスデューサの電極の製造方法、超音波トランスデューサの製造方法、超指向性音響システム、および表示装置
JP4793174B2 (ja) * 2005-11-25 2011-10-12 セイコーエプソン株式会社 静電型トランスデューサ、回路定数の設定方法
US7606377B2 (en) * 2006-05-12 2009-10-20 Cirrus Logic, Inc. Method and system for surround sound beam-forming using vertically displaced drivers
US7676049B2 (en) * 2006-05-12 2010-03-09 Cirrus Logic, Inc. Reconfigurable audio-video surround sound receiver (AVR) and method
WO2007135581A2 (en) * 2006-05-16 2007-11-29 Koninklijke Philips Electronics N.V. A device for and a method of processing audio data
ES2289936B1 (es) 2006-07-17 2009-01-01 Felipe Jose Joubert Nogueroles Muñeco con estructura interna flexible y posicionable.
US8036767B2 (en) * 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
US8855275B2 (en) * 2006-10-18 2014-10-07 Sony Online Entertainment Llc System and method for regulating overlapping media messages
JP4449998B2 (ja) * 2007-03-12 2010-04-14 ヤマハ株式会社 アレイスピーカ装置
EP2137725B1 (en) * 2007-04-26 2014-01-08 Dolby International AB Apparatus and method for synthesizing an output signal
KR100902874B1 (ko) * 2007-06-26 2009-06-16 버츄얼빌더스 주식회사 재질 스타일에 기초한 공간 음향 분석기 및 그 방법
JP4561785B2 (ja) * 2007-07-03 2010-10-13 ヤマハ株式会社 スピーカアレイ装置
US8472652B2 (en) * 2007-08-14 2013-06-25 Koninklijke Philips Electronics N.V. Audio reproduction system comprising narrow and wide directivity loudspeakers
GB2457508B (en) * 2008-02-18 2010-06-09 Ltd Sony Computer Entertainmen System and method of audio adaptaton
BRPI0909061A2 (pt) * 2008-03-13 2015-08-25 Koninkl Philips Electronics Nv Arranjo de unidade para uma disposição de alto-falantes, disposição de alto-falantes, sistema de som circundante, e, métodos para prover um arranjo de unidade para uma disposição de alto-falantes.
EP2146522A1 (en) * 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio output signals using object based metadata
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
JP5694174B2 (ja) * 2008-10-20 2015-04-01 ジェノーディオ,インコーポレーテッド オーディオ空間化および環境シミュレーション
KR20100062784A (ko) * 2008-12-02 2010-06-10 한국전자통신연구원 객체 기반 오디오 컨텐츠 생성/재생 장치
US8351612B2 (en) * 2008-12-02 2013-01-08 Electronics And Telecommunications Research Institute Apparatus for generating and playing object based audio contents
GB2467534B (en) 2009-02-04 2014-12-24 Richard Furse Sound system
JP2010258653A (ja) 2009-04-23 2010-11-11 Panasonic Corp サラウンドシステム
US8577065B2 (en) * 2009-06-12 2013-11-05 Conexant Systems, Inc. Systems and methods for creating immersion surround sound and virtual speakers effects
KR101805212B1 (ko) * 2009-08-14 2017-12-05 디티에스 엘엘씨 객체-지향 오디오 스트리밍 시스템
JP2011066544A (ja) * 2009-09-15 2011-03-31 Nippon Telegr & Teleph Corp <Ntt> ネットワーク・スピーカシステム、送信装置、再生制御方法、およびネットワーク・スピーカプログラム
CN102823273B (zh) 2010-03-23 2015-12-16 杜比实验室特许公司 用于局域化感知音频的技术
KR20130122516A (ko) 2010-04-26 2013-11-07 캠브리지 메카트로닉스 리미티드 청취자의 위치를 추적하는 확성기
KR20120004909A (ko) 2010-07-07 2012-01-13 삼성전자주식회사 입체 음향 재생 방법 및 장치
US9185490B2 (en) * 2010-11-12 2015-11-10 Bradley M. Starobin Single enclosure surround sound loudspeaker system and method
AU2012279357B2 (en) 2011-07-01 2016-01-14 Dolby Laboratories Licensing Corporation System and method for adaptive audio signal generation, coding and rendering
RS1332U (en) 2013-04-24 2013-08-30 Tomislav Stanojević FULL SOUND ENVIRONMENT SYSTEM WITH FLOOR SPEAKERS

Also Published As

Publication number Publication date
CN107509141A (zh) 2017-12-22
CN107509141B (zh) 2019-08-27
EP2891337A1 (en) 2015-07-08
EP2891337B8 (en) 2016-12-14
RU2015111450A (ru) 2016-10-20
RU2602346C2 (ru) 2016-11-20
CN107454511A (zh) 2017-12-08
KR101676634B1 (ko) 2016-11-16
US11277703B2 (en) 2022-03-15
ES2606678T3 (es) 2017-03-27
CN107454511B (zh) 2024-04-05
KR20150038487A (ko) 2015-04-08
EP2891337B1 (en) 2016-10-05
WO2014036085A1 (en) 2014-03-06
US20210029482A1 (en) 2021-01-28
US9794718B2 (en) 2017-10-17
US20180020310A1 (en) 2018-01-18
JP2015530824A (ja) 2015-10-15
BR112015004288A2 (pt) 2017-07-04
HK1205846A1 (en) 2015-12-24
US10743125B2 (en) 2020-08-11
CN104604256A (zh) 2015-05-06
CN104604256B (zh) 2017-09-15
JP6167178B2 (ja) 2017-07-19
US20150350804A1 (en) 2015-12-03

Similar Documents

Publication Publication Date Title
US11277703B2 (en) Speaker for reflecting sound off viewing screen or display surface
US11178503B2 (en) System for rendering and playback of object based audio in various listening environments
EP3285504B1 (en) Speaker system with an upward-firing loudspeaker
JP6186436B2 (ja) 個々に指定可能なドライバへの上方混合されたコンテンツの反射されたおよび直接的なレンダリング
BR112013033386B1 (pt) sistema e método para geração, codificação e renderização de sinal de áudio adaptável

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 28/08/2013, OBSERVADAS AS CONDICOES LEGAIS.