BR112013033386B1 - sistema e método para geração, codificação e renderização de sinal de áudio adaptável - Google Patents
sistema e método para geração, codificação e renderização de sinal de áudio adaptável Download PDFInfo
- Publication number
- BR112013033386B1 BR112013033386B1 BR112013033386-3A BR112013033386A BR112013033386B1 BR 112013033386 B1 BR112013033386 B1 BR 112013033386B1 BR 112013033386 A BR112013033386 A BR 112013033386A BR 112013033386 B1 BR112013033386 B1 BR 112013033386B1
- Authority
- BR
- Brazil
- Prior art keywords
- audio
- speaker
- speakers
- rendering
- channel
- Prior art date
Links
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 122
- 238000009877 rendering Methods 0.000 title claims abstract description 107
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000005236 sound signal Effects 0.000 title claims abstract description 20
- 238000012545 processing Methods 0.000 claims description 34
- 238000002156 mixing Methods 0.000 claims description 33
- 238000004091 panning Methods 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000015572 biosynthetic process Effects 0.000 claims description 4
- 238000003786 synthesis reaction Methods 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000009977 dual effect Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 17
- 230000014509 gene expression Effects 0.000 abstract description 3
- 239000000203 mixture Substances 0.000 description 52
- 230000000694 effects Effects 0.000 description 33
- 238000009826 distribution Methods 0.000 description 23
- 238000007726 management method Methods 0.000 description 13
- 238000013459 approach Methods 0.000 description 11
- 238000004806 packaging method and process Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 9
- 238000004519 manufacturing process Methods 0.000 description 9
- 230000001419 dependent effect Effects 0.000 description 8
- 230000000007 visual effect Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 6
- 230000006835 compression Effects 0.000 description 6
- 238000007906 compression Methods 0.000 description 6
- 230000007812 deficiency Effects 0.000 description 6
- 238000013461 design Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 238000009434 installation Methods 0.000 description 5
- 238000011144 upstream manufacturing Methods 0.000 description 5
- 238000007792 addition Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000005538 encapsulation Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 230000001174 ascending effect Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 208000032041 Hearing impaired Diseases 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000001143 conditioned effect Effects 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000007654 immersion Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 241000255925 Diptera Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000009395 breeding Methods 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- UHZZMRAGKVHANO-UHFFFAOYSA-M chlormequat chloride Chemical compound [Cl-].C[N+](C)(C)CCCl UHZZMRAGKVHANO-UHFFFAOYSA-M 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010304 firing Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 235000015250 liver sausages Nutrition 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- ORQBXQOJMQIAOY-UHFFFAOYSA-N nobelium Chemical compound [No] ORQBXQOJMQIAOY-UHFFFAOYSA-N 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012858 packaging process Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000010421 standard material Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/308—Electronic adaptation dependent on speaker or headphone connection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R27/00—Public address systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/02—Spatial or constructional arrangements of loudspeakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
- H04S5/005—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation of the pseudo five- or more-channel type, e.g. virtual surround
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/305—Electronic adaptation of stereophonic audio signals to reverberation of the listening space
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/03—Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/13—Application of wave-field synthesis in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
Abstract
SISTEMA E MÉTODO PARA GERAÇÃO, CODIFICAÇÃO E RENDERIZAÇÃO DE SINAL DE ÁUDIO ADAPTÁVEL. A presente invenção refere-se às modalidades que são descritas para um sistema de áudio adaptável que processa dados de áudio que compreendem um número de fluxos de áudio monofônicos independentes. Um ou mais dos fluxos tem, associado aos mesmos, metadados que especificam se o fluxo é um fluxo com base em objeto ou com base em canal. Os fluxos com base em canal têm informações de renderização codificadas por meio de nome de canal; e os fluxos com base em objeto têm informações de localização codificadas através de expressões de localização codificadas nos metadados associados. Um codec empacota os fluxos de áudio independentes em um único fluxo de bit em série que contém todos os dados de áudio. Essa configuração permite que o som seja renderizado de acordo com um quadro alocêntrico de referência, em que a localização de renderização de um som é baseada nas características do ambiente de reprodução (por exemplo, tamanho de sala, formato, etc.) para corresponder à intenção do misturador. Os metadados de posição de objeto contêm o quadro alocêntrico de informações de referência apropriado solicitado para reproduzir o som corretamente com (...).
Description
[0001] Este pedido reivindica a prioridade do Pedido Provisório no US 61/504.005, depositado em 1 de junho de 2011, e do Pedido Provisório no US 61/636.429, depositado em 20 de abril de 2012, ambos os quais são incorporados no presente a título de referência em sua totalidade para todos os propósitos.
[0002] Uma ou mais implantações referem-se em geral ao processamento de sinal de áudio e mais especificamente a objeto híbrido e processamento de áudio baseado em canal para uso em cinema, domicílio e outros ambientes.
[0003] A matéria discutida na seção de antecedentes deve ser assumida como sendo a técnica anterior meramente como resultado de sua menção na seção antecedentes. Similarmente, um problema mencionado na seção de antecedentes ou associado à matéria da seção de antecedentes não deve ser assumido como tendo sido previamente reconhecido na técnica anterior. A matéria na seção de antecedentes representa meramente abordagens diferentes que em e por si próprias podem ser também invenções.
[0004] Desde a introdução de filmes com som, tem havido uma evolução estável da tecnologia usada para capturar a intenção artística do criador para a trilha sonora de imagem em movimento e para reproduzi-la de modo preciso em um ambiente de cinema. Um papel fundamental do som de cinema é dar suporte à história que é mostrada na tela. Trilhas sonoras de cinema típicas compreendem muitos elementos de som diferentes correspondentes a elementos e imagens na tela, diálogo, ruídos e efeitos sonoros que emanam de diferentes elementos na tela e se combinam com a música de fundo e efeitos ambientes para criar a experiência auditiva geral. A intenção artística dos criadores e produtores representa seu desejo de ter esses sons reproduzidos de uma forma que corresponde o mais próximo possível daquele que é mostrado na tela em relação à posição da fonte de som, intensidade, movimento e outros parâmetros similares.
[0005] A criação, distribuição e reprodução de cinema atuais sofrem de limitações que restringem a criação de áudio realmente imersivo e natural. Os sistemas de áudio baseados em canal tradicionais enviam conteúdo de áudio na forma de alimentações de alto-falante para alto- falantes individuais em um ambiente de reprodução, tal como estéreo e sistemas 5.1. A introdução de cinema digital criou novos padrões para som em filme, tal como a incorporação de até 16 canais de áudio para permitir maior criatividade para criadores de conteúdo e uma experiência auditiva mais envolvente e realista para a audiência. A introdução de sistemas de som ambiente 7.1 forneceu um novo formato que aumenta o número de canais de som ambiente por divisão dos canais de som ambiente esquerdos e direitos em quatro zonas, assim criando o escopo para programadores e misturadores de som para controlar o posicionamento de elementos de áudio na sala de cinema.
[0006] Para melhorar a experiência do ouvinte, a reprodução de som em ambientes tridimensionais virtuais tem se tornado uma área de pesquisa e desenvolvimento crescente. A apresentação espacial de som utiliza objetos de áudio, que são sinais de áudio com descrições de fonte paramétrica associada de posição de fonte aparente (por exemplo, coordenadas 3D), largura de fonte aparente e outros parâmetros. O áudio baseado em objeto está sendo usado de modo crescente para muitas aplicações de multimídia atuais, tais como filmes digitais, videogames, simuladores e vídeo 3D.
[0007] Expandir além das alimentações de alto-falante tradicionais e áudio com base em canal como um meio para distribuir o áudio espacial é crítico e tem havido um interesse considerável em uma descrição de áudio com base em modelo que mantém a promessa de permitir que o ouvinte/exibidor a liberdade de selecionar a configuração de reprodução que se adapta a suas necessidades ou orçamento individual, com o áudio renderizado especificamente para sua configuração escolhida. Em um nível alto, há quatro formatos de descrição de áudio espacial principais no presente: alimentação de alto- falante na qual o áudio é descrito como sinais pretendidos para alto- falantes nas posições de alto-falante nominais; alimentação de microfone na qual o áudio é descrito como sinais capturados por microfones virtuais ou reais em um arranjo predefinido; descrição com base em modelo na qual o áudio é descrito em termos de uma sequência de eventos de áudio nas posições descritas; e binaural na qual áudio é descrito pelos sinais que chegam aos ouvidos dos ouvintes. Esses quatro formatos de descrição são frequentemente associados a uma ou mais tecnologias de renderização que convertem os sinais de áudio em alimentações de alto-falante. As tecnologias de renderização incluem o posicionamento panorâmico, no qual o fluxo de áudio é convertido em alimentações de alto-falante com o uso de um conjunto de leis de posicionamento panorâmico e posições de alto-falante conhecidas ou supostas (tipicamente renderizadas antes da distribuição); Ambisonics, na qual os sinais de microfone são convertidos em alimentações para um arranjo escalável de alto-falantes (tipicamente renderizados após a distribuição); WFS (síntese de campo de onda) no qual os eventos de som são convertidos nos sinais de alto- falante apropriados para sintetizar o campo sonoro (tipicamente renderizados após a distribuição); e binaural, no qual os sinais binaurais L/R (esquerdo/direito) são entregues ao ouvido L/R, tipicamente com o uso de fones de ouvido, mas também pelo uso de alto-falantes e cancelamento de interferência (renderizados antes ou após a distribuição). Dentre esses formatos, o formato de alimentação de alto- falante é o mais comum porque é simples e eficaz. Os melhores resultados sônicos (mais precisos, mais confiáveis) são alcançados pela mixagem/monitoramento e distribuição a alimentações de alto-falante diretamente já que não há nenhum processamento entre o ouvinte e o criador de conteúdo. Se o sistema de reprodução for conhecido antecipadamente, uma descrição de alimentação de alto-falante fornece geralmente a fidelidade mais alta. Entretanto, em muitas aplicações práticas, o sistema de reprodução não é conhecido. A descrição com base em modelo é considerada a mais adaptável porque não faz suposições sobre a tecnologia de renderização e é, portanto, mais facilmente aplicada a qualquer de renderização. Embora a descrição com base em modelo capture eficazmente as informações espaciais, a mesma se torna mais ineficaz conforme o número de fontes de áudio aumenta.
[0008] Por muitos anos, os sistemas de cinema têm canais de tela distintos retratados na forma de canais esquerdos, centrais, direitos e ocasionalmente "esquerdos internos" e "direito interno". Essas fontes distintas têm geralmente uma resposta de frequência suficiente e manipulação de potência para permitir que os sons sejam precisamente colocados em diferentes árias da tela e para permitir a correspondência de timbre conforme os sons são movidos ou posicionados panoramicamente entre os locais. Os desenvolvimentos recentes na melhora da experiência de ouvinte tentam reproduzir precisamente o local dos sons em relação ao ouvinte. Em uma configuração 5.1, as "zonas" surround compreendem um arranjo de alto-falantes, todos os quais carregam as mesmas informações de áudio dentro de cada zona surround esquerda ou surround direita. Tais arranjos podem ser eficazes com efeitos "ambiente" ou surround difusos, entretanto, na vida cotidiana muitos efeitos de som se originam a partir de fontes pontuais colocadas de modo aleatório. Por exemplo, em um restaurante, música ambiente pode ser reproduzida aparentemente a partir de todo o entorno, enquanto sutil, mas os sons distintos se originam a partir de pontos específicos: uma pessoa que conversa a partir de um ponto, o barulho de uma faca em um prado de outro. Poder colocar tais sons de modo distinto ao redor do auditório pode adicionar um sentido elevado da realizada sem ser notavelmente óbvio. Sons superiores são também um componente importante da definição surround. No mundo real, os sons se originam a partir de todas as direções nem sempre a partir de um único plano horizontal. Um senso adicionado de realismo pode ser alcançado se o som puder ser ouvido de cima, em outras palavras a partir do "hemisfério superior". Os presentes sistemas, entretanto, não oferecem uma reprodução verdadeiramente precisa do som para diferentes tipos de áudio em uma variedade de ambientes de reprodução diferentes. Uma grande quantidade de processamento, conhecimento e configurações de ambientes de reprodução reais é exigida com o uso de sistemas existentes para tentar a representação preciso de sons específicos para local, assim renderizando sistemas atuais impraticáveis para a maioria das aplicações.
[0009] O que é necessário é um sistema que suporta múltiplos canais de tela, resultando na definição aumentada e coerência audiovisual melhorada para sons ou diálogo na tela e a capacidade de posicionar precisamente as fontes em qualquer lugar zonas surround para melhorar a transição audiovisual da tela para a sala. Por exemplo, se um personagem na tela olha para dentro da sala em direção a uma fonte de som, o engenheiro de som ("misturador") deve ter a capacidade de posicionar precisamente o som de modo que coincida com a linha de visão do personagem e o efeito será consistente por toda a audiência. Em uma mixagem de som surround 5.1 ou 7.1 tradicional, entretanto, o efeito é altamente dependente da posição de assento do ouvinte, o que não é vantajoso para a maioria de ambientes de escuta de larga escala. A resolução surround aumentada cria novas oportunidades para usar o som de um modo centralizado na sala em oposição à abordagem tradicional, em que o conteúdo é criado supondo um único ouvinte no "ponto ideal".
[00010] Além das questões espaciais, o estado de múltiplos canais atuais dos sistemas de técnica tem um prejuízo em relação ao timbre. Por exemplo, a qualidade de timbre de alguns sons, tal como assovios de vapor de um tubo quebrado, pode ter um prejuízo por ser reproduzido por um arranjo de alto-falantes. A capacidade de direcionar sons específicos a um único alto-falante proporciona ao misturador a oportunidade de eliminar os artefatos de reprodução de arranjo e entregar uma experiência mais realística à audiência. Tradicionalmente, os alto-falantes do tipo surround não suportam a mesma faixa completa da frequência de áudio e nível que os canais de tela grande suportam. Historicamente, isso criou problemas para os misturadores, reduzindo sua capacidade de mover livremente sons de faixa completa da tela para a sala. Como um resultado, os proprietários de sala de cinema não se sentiram forçados a aprimorar sua configuração de canal surround, impedindo a adoção generalizada de instalações de qualidade maior.
[00011] Sistemas e métodos são descritos para um sistema de processamento e formato de som de cinema que inclui um novo gabarito de alto-falante (configuração de canal) e um formato de descrição espacial associado. Um sistema de áudio adaptável e formato são definidos que suporta múltiplas tecnologias de renderização. Fluxos de áudio são transmitidos juntamente com metadados que descrevem a "intenção do misturador" incluindo a posição desejada do fluxo de áudio. A posição pode ser expressa como um canal nomeado (de dentro da configuração de canal predefinida) ou como informações de posição tridimensional. Esse formato de canais mais objetos combina métodos de descrição de cena de áudio com base em modelo e com base em canal ótimos. Os dados de áudio para o sistema de áudio adaptável compreendem vários fluxos de áudio monofônicos independentes. Cada fluxo tem associado ao mesmo metadados que especificam se o fluxo é um fluxo com base em canal ou com base em objeto. Os fluxos com base em canal têm informações de renderização codificadas por meio do nome de canal; e os fluxos com base em objeto têm informações de localização codificadas através de expressões matemáticas codificadas em metadados associados adicionalmente. Os fluxos de áudio independentes originais são empacotados como um fluxo de bits em série único que contém todos os dados de áudio. Essa configuração permite que o som seja renderizado de acordo com um quadro alocêntrico de referência, no qual a localização de renderização de um som baseia-se nas características do ambiente de reprodução (por exemplo, tamanho de sala, formato, etc.) para corresponder à intenção do misturador. Os metadados de posição de objeto contêm o quadro alocêntrico apropriado de informações de referência exigidas para reproduzir o som corretamente com o uso das posições de alto- falante disponíveis em uma sala que é montada para reproduzir o conteúdo de áudio adaptável. Isso permite que o som seja mixado otimamente para um ambiente de reprodução particular que pode ser diferente do ambiente de mixagem experimentado pelo engenheiro de som.
[00012] O sistema de áudio adaptável melhora a qualidade de áudio em diferentes salas através de tais benefícios como equalização de sala melhorada e gerenciamento de graves surround, de modo que os alto- falantes (ou com tela ou sem tela) possam ser endereçados livremente pelo misturador sem ter que penar sobre a correspondência de timbre. O sistema de áudio adaptável adiciona a flexibilidade e potência de objetos de áudio dinâmico em fluxos de trabalho com base em canal tradicionais. Esses objetos de áudio permitem que o criador controle elementos de som distintos independente de quaisquer configurações de alto-falante de reprodução específicas, incluindo alto-falantes superiores. O sistema também introduz novas eficácias ao processo de pós-produção, permitindo que engenheiros de som capturem eficazmente toda sua intenção e, então, monitorem em tempo real ou gerem automaticamente o som surround versões 7.1 e 5.1.
[00013] O sistema de áudio adaptável simplifica a distribuição pelo encapsulamento da essência de áudio e intenção artística em um único arquivo de faixa dentro do processador de cinema digital, pode ser reproduzido de maneira fiel em uma faixa ampla de configurações de sala de cinema. O sistema fornece a reprodução ótima da intenção artística quando a mixagem e a renderização usam a mesma configuração de canal e um único inventário com adaptação a jusante à configuração de renderização, isto é, mixagem descendente.
[00014] Essas e outras vantagens são fornecidas através das modalidades que são direcionadas a uma plataforma de som de cinema, limitações de sistema atual de endereço e entregar uma experiência de áudio além dos sistemas presentemente disponíveis.
[00015] Nos seguintes desenhos, números de referência similares são usados para se referir a elementos similares. Embora as seguintes figuras retratem vários exemplos, as uma ou mais implantações não são limitadas aos exemplos retratados nas figuras.
[00016] A Figura 1 é uma visão geral de nível superior de um ambiente de reprodução e criação de áudio que utiliza um sistema de áudio adaptável, sob uma modalidade.
[00017] A Figura 2 ilustra a combinação de dados com base em canal e objeto para produzir uma mixagem de áudio adaptável, sob uma modalidade.
[00018] A Figura 3 é um diagrama de bloco que ilustra o fluxo de trabalho de criar, empacotar e renderizar o conteúdo de áudio adaptável, sob uma modalidade.
[00019] A Figura 4 é um diagrama em bloco de um estágio de renderização de um sistema de áudio adaptável, sob uma modalidade.
[00020] A Figura 5 é uma tabela que lista os tipos de metadados e elementos de metadados associados para o áudio adaptável, sob uma modalidade.
[00021] A Figura 6 é um diagrama que ilustra uma pós-produção e masterização para um sistema de áudio adaptável, sob uma modalidade.
[00022] A Figura 7 é um diagrama de um fluxo de trabalho exemplificativo para um processo de empacotamento de cinema digital que usa arquivos de áudio adaptáveis, sob uma modalidade.
[00023] A Figura 8 é uma vista superior de um gabarito exemplificativo de localizações de alto-falante sugeridas para o uso com um sistema de áudio adaptável em um auditório típico.
[00024] A Figura 9 é uma vista frontal de uma colocação exemplificativa de localizações de alto-falante sugeridas na tela para o uso no auditório típico.
[00025] A Figura 10 é uma vista lateral de um gabarito exemplificativo de localizações de alto-falante sugeridas para o uso com um sistema de áudio adaptável no auditório típico.
[00026] A Figura 11 é um exemplo de um posicionamento de alto- falantes do tipo surround superiores e alto-falantes do tipo surround laterais em relação ao ponto de referência, sob uma modalidade.
[00027] Os sistemas e métodos são descritos para um sistema de áudio adaptável e sinal de áudio associado e formato de dados que suporta múltiplas tecnologias de renderização. Os aspectos das uma ou mais modalidades descritas no presente documento podem ser implantados em um sistema de áudio ou áudio-visual que processa informações de áudio de fonte em uma mixagem, sistema de reprodução e renderização que inclui um ou mais computadores ou dispositivos de processamento que executam instruções de software. Qualquer uma das modalidades descritas pode ser usada sozinha ou em conjunto uma com a outra em qualquer combinação. Embora várias modalidades possam ter sido motivadas por várias deficiências com a técnica anterior, que pode ser discutida ou aludida a um ou mais locais no relatório descritivo, as modalidades não necessariamente abrangem qualquer uma dessas deficiências. Em outras palavras, diferentes modalidades podem abranger diferentes deficiências que podem ser discutidas no relatório descritivo. Algumas modalidades podem abranger somente parcialmente algumas deficiências ou apenas uma deficiência que pode ser discutida no relatório descritivo e algumas modalidades podem não abranger qualquer uma dessas deficiências.
[00028] Para os propósitos da presente descrição, os seguintes termos têm os significados associados: canal ou canal de áudio: um sinal de áudio monofônico ou um fluxo de áudio mais metadados nos quais a posição é codificada como um ID de canal, por exemplo, Surround Superior Direito ou Frontal Esquerdo. Um objeto de canal pode acionar múltiplos alto-falantes, por exemplo, os canais Surround Esquerdo (Ls) alimentarão todos os alto- falantes no arranjo Ls.
[00029] Configuração de Canal: um conjunto predefinido de zonas de alto-falante com localizações nominais associadas, por exemplo, 5.1, 7.1 e assim por diante; 5.1 refere-se a um sistema de áudio de som surround com seis canais que tem canais direitos e esquerdos frontais, canal central, dois canais do tipo surround e um canal subwoofer; 7.1 refere-se a um sistema do tipo surround com oito canais que adiciona dois canais do tipo surround adicionais ao sistema 5.1. Os exemplos de configurações 5.1 e 7.1 incluem sistemas do tipo surround Dolby®.
[00030] Alto-falante: um transdutor de áudio ou conjunto de transdutores que renderizam um sinal de áudio.
[00031] Zona de Alto-falante: um arranjo de um ou mais alto-falantes pode ser referenciado exclusivamente e que recebe um único sinal de áudio, por exemplo, Surround Esquerdo como tipicamente encontrado no cinema e em particular para a exclusão ou inclusão para a renderização de objeto.
[00032] Canal de Alto-falante ou Canal de alimentação de Alto- falante: um canal de áudio que é associado com um alto-falante nomeado ou zona de alto-falante dentro de uma configuração de alto- falante definida. Um canal de alto-falante é nominalmente renderizado com o uso da zona de alto-falante associada.
[00033] Grupo de Canal de Alto-falante: um conjunto de um ou mais canais de alto-falante que correspondem a uma configuração de canal (por exemplo, uma faixa estéreo, faixa mono, etc.)
[00034] Objeto ou Canal de Objeto: um ou mais canais de áudio com uma descrição de fonte paramétrica, tal como posição de fonte aparente (por exemplo, coordenadas 3D), largura de fonte aparente, etc. Um fluxo de áudio mais metadados nos quais a posição é codificada como a posição 3D no espaço.
[00035] Programa de Áudio: o conjunto completo de canais de alto- falante e/ou canais de objeto e metadados associados que descreve a apresentação de áudio espacial desejada.
[00036] Referência Alocêntrica: uma referência espacial na qual os objetos de áudio são definidos em relação aos recursos dentro do ambiente de renderização tal como paredes e cantos de sala, locais de alto-falante padrão e local de tela (por exemplo, canto esquerdo frontal de uma sala).
[00037] Referência Egocêntrica: a referência espacial na qual os objetos de áudio são definidos em relação à perspectiva do ouvinte (audiência) e frequentemente especificados em relação aos ângulos relativos a um ouvinte (por exemplo, 30 graus à direita do ouvinte).
[00038] Quadro: quadros são segmentos independentemente decodificáveis curtos nos quais um programa de áudio total é dividido. O limite e a taxa de quadro de áudio são tipicamente alinhados com os quadros de vídeo.
[00039] Áudio adaptável: sinais com base em canal e/ou com base em objeto mais metadados que renderizam os sinais de áudio com base no ambiente de reprodução.
[00040] O sistema de processamento e formato de som de cinema descrito no presente documento, também referido como um "sistema de áudio adaptável", utiliza uma nova tecnologia de renderização e descrição de áudio espacial para permitir a imersão de audiência aprimorada, controle mais artístico, escalabilidade e flexibilidade de sistema e facilidade na instalação e manutenção. As modalidades de uma plataforma de áudio de cinema incluem diversos componentes distintos incluindo ferramentas de mixagem, empacotador/codificador, desempacotador/decodificador, componentes de renderização e mixagem final em sala de cinema, novos projetos de alto-falante e amplificadores em rede. O sistema inclui recomendações para uma nova configuração de canal a ser usada por exibidores e criadores de conteúdo. O sistema utiliza uma descrição com base em modelo que suporta diversos recursos tais como: inventário único com adaptação para baixo e para cima à configuração de renderização, isto é, renderização de atraso e habilitando o uso ótimo de alto-falantes disponíveis; envoltório de som melhorado, incluindo mixagem descendente otimizada para evitar a correlação entre canais; resolução espacial aumentada através dos arranjos por meio de condução (por exemplo, um objeto de áudio designado dinamicamente a um ou mais alto-falantes dentro de um arranjo do tipo surround); e suporte para métodos de renderização alternativos.
[00041] A Figura 1 é uma visão geral de nível superior de um ambiente de reprodução e criação de áudio que utiliza um sistema de áudio adaptativo, sob uma modalidade. Conforme mostrado na Figura 1, um ambiente de extremidade a extremidade abrangente 100 inclui criação de conteúdo, empacotamento, distribuição e componentes de reprodução/renderização através de um número amplo de dispositivos de ponto final e casos de uso. O sistema geral 100 origina com conteúdo capturado a partir de e para vários casos de uso diferentes que compreendem diferentes experiências de usuário 112. O elemento de captura de conteúdo 102 inclui, por exemplo, cinema, TV, transmissão ao vivo, conteúdo gerado por usuário, conteúdo gravado, jogos e similares e pode incluir conteúdo de áudio puro ou áudio/visual. O conteúdo, conforme o mesmo progride através do sistema 100 do estágio de captura 102 para a experiência de usuário final 112, atravessa etapas de processamento chave através de componentes de sistema distintos. Essas etapas de processo incluem o pré- processamento do áudio 104, ferramentas de autoria e processos 106, codificação por um codec de áudio 108 que captura, por exemplo, dados de áudio, metadados adicionais e informações de reprodução e canais de objeto. Vários efeitos de processamento, tal como compressão (com ou sem perdas), criptografia e similares podem ser aplicados aos canais de objeto para a distribuição eficaz e segura através de vários meios. Os processos de renderização e decodificação com especificidade para ponto final apropriados 110 são, então, aplicados para reproduzir e conduzir uma experiência de usuário de áudio adaptável particular 112. A experiência de áudio 112 representa a reprodução do conteúdo de áudio ou áudio/visual através de alto-falantes e dispositivos de reprodução apropriados e pode representar qualquer ambiente no qual um ouvinte está experimentando a reprodução do conteúdo capturado, tal como um cinema, sala de concertos, teatro ao ar livre, uma casa ou sala, cabine de escuta, carro, console de jogos, sistema de fone de ouvido ou auscultador, sistema de endereço público (PA) ou qualquer outro ambiente de reprodução.
[00042] A modalidade do sistema 100 inclui um codec de áudio 108 que tem a capacidade de distribuição eficaz e armazenamento de programas de áudio de múltiplos canais e, portanto, pode ser referido como um codec "híbrido". O codec 108 combina dados de áudio com base em canal tradicionais com metadados associados para produzir objetos de áudio que facilitam a criação e entrega do áudio que é adaptado e otimizado para a renderização e reprodução em ambientes que podem ser diferentes do ambiente de mixagem. Isso permite que o engenheiro de som codifique sua intenção em relação a como o áudio final deve ser ouvido pelo ouvinte, com base no ambiente de escuta real do ouvinte.
[00043] Os codecs de áudio com base em canal convencionais operam sob a suposição de que o programa de áudio será reproduzido por um arranjo de alto-falantes em posições predeterminadas em relação ao ouvinte. Para criar um programa de áudio de múltiplos canais completo, os engenheiros de som mixam tipicamente um grande número de troncos de áudio separados (por exemplo, diálogo, música, efeitos) para criar a impressão desejada geral. As decisões de mixagem de áudio são feitas tipicamente ao programa de áudio conforme reproduzido por um arranjo de alto-falantes nas posições predeterminadas, por exemplo, um sistema particular 5.1 ou 7.1 em uma sala de cinema específica. O sinal mixado final serve como uma entrada ao codec de áudio. Para a reprodução, os campos de som espacialmente precisos são alcançados somente quando os alto- falantes são colocados nas posições predeterminadas.
[00044] Uma nova forma de codificação de áudio chamada de codificação de objeto de áudio fornece fontes de som distintas (objetos de áudio) conforme inseridas no codificador na forma de troncos de áudio separados. Os exemplos de objetos de áudio incluem faixas de diálogo, instrumentos únicos, efeitos de som individuais e outras fontes pontuais. Cada objeto de áudio é associado aos parâmetros espaciais, que podem incluir, porém sem limitação, posição de som, largura de som e informações de velocidade. Os objetos de áudio e parâmetros associados são, então, codificados para a distribuição e armazenamento. A renderização e mixagem de objeto de áudio final são realizadas na extremidade de recebimento da cadeia de distribuição de áudio, como parte da reprodução de programa de áudio. Essa etapa pode se basear no conhecimento das posições de alto-falante reais de modo que o resultado seja um sistema de distribuição de áudio que é customizável às condições de escuta específicas para usuário. As duas formas de codificação, com base em canal e com base em objeto, realizam otimamente diferentes condições de sinal de entrada. Os codificadores de áudio com base em canal são geralmente mais eficazes para codificar sinais de entrada que contêm mixagens densas de diferentes fontes de áudio e para sons difusos. Inversamente, os codificadores de objeto de áudio são mais eficazes para codificar um número pequeno de fontes de som altamente direcionais.
[00045] Em uma modalidade, os métodos e componentes do sistema 100 compreendem sistema de uma codificação, distribuição e decodificação de áudio configurado para gerar um ou mais fluxo de bits que contêm tanto elementos de áudio com base em canal convencionais quanto elementos de codificação de objeto de áudio. Tal abordagem combinada fornece uma flexibilidade de renderização e eficácia de codificação maior em comparação às abordagens com base em objeto ou com base em canal tomadas separadamente.
[00046] Outros aspectos das modalidades descritas incluem estender um codec de áudio com base em canal predefinido de uma maneira compatível com tecnologias anteriores para incluir elementos de codificação de objeto de áudio. Uma nova "camada de extensão"que contém os elementos de codificação de objeto de áudio é definida e adicionada à camada "base" ou "compatível com tecnologias anteriores" do fluxo de bits de codec de áudio com base em canal. Essa abordagem permite que um ou mais fluxos de bits que incluem a camada de extensão sejam processados por decodificadores pré-existentes enquanto fornecem uma experiência de ouvinte aprimorada para os usuários com novos decodificadores. Um exemplo de uma experiência de usuário aprimorada inclui o controle da renderização de objeto de áudio. Uma vantagem adicional dessa abordagem é que os objetos de áudio podem ser adicionados ou modificados em qualquer lugar ao longo da cadeia de distribuição sem decodificar/mixar/recodificar o áudio de múltiplos canais codificado com o codec de áudio com base em canal.
[00047] Em relação ao quadro de referência, os efeitos espaciais de sinais de áudio são críticos no fornecimento de uma experiência imersiva para o ouvinte. Os sons que se destinam a emanar de uma região específica de uma tela de visualização ou sala devem ser reproduzidos através de alto-falante(s) localizado(s) no mesmo local relativo. Assim, os metadados de áudio primário de um evento de som em uma descrição com base em modelo são a posição, embora outros parâmetros tal como tamanho, orientação, velocidade e dispersão acústica possam ser também descritos. Para conduzir a posição, uma descrição espacial de áudio 3D com base em modelo exige um sistema de coordenada 3D. O sistema de coordenada usado para a transmissão (Euclidiana, esférica, etc.) é escolhida geralmente para a conveniência ou compactação, entretanto, outros sistemas de coordenadas podem ser usados para o processamento de renderização. Adicionalmente a um sistema de coordenada, um quadro de referência é exigido para representar os locais dos objetos em espaço. Para sistemas para reproduzir de modo preciso o som com base em posição em uma variedade de diferentes ambientes, selecionar o quadro apropriado de referência pode ser um fator crítico. Com um quadro de referência alocêntrica, uma posição de fonte de áudio é definida em relação aos recursos dentro do ambiente de renderização tais como paredes e cantos de sala, locais de alto-falante padrão e local de tela. Em um quadro de referência egocêntrico, os locais são representados em relação à perspectiva do ouvinte, tal como "na minha frente, levemente à esquerda" e assim por diante. Os estudos científicos de percepção espacial (áudio e de outra maneira) mostraram que a perspectiva egocêntrica é usada quase universalmente. Para o cinema, entretanto, alocêntrico é geralmente mais apropriado por diversas razões. Por exemplo, o local preciso de um objeto de áudio é mais importante quando há um objeto ou tela associada. Com o uso de uma referência alocêntrica, para cada posição de escuta e para qualquer tamanho de tela, o som se localizará na mesma posição relativa na tela, por exemplo, um terço à esquerda do centro da tela. Outra razão é que misturadores tendem a pensar e mixar em termos alocêntricos e as ferramentas de posicionamento panorâmico são estabelecidas com um quadro alocêntrico (as paredes de sala) e os misturadores esperam que os mesmos sema renderizados desse modo, por exemplo, esse som deve estar na tela, esse som deve estar fora da tela ou a partir da parede esquerda, etc.
[00048] Apesar do uso do quadro alocêntrico de referência no ambiente de cinema, há alguns casos em que o quadro egocêntrico de referência pode ser útil e mais apropriado. Os mesmos incluem sons não diegéticos, isto é, aqueles que não estão presentes no "espaço de história", por exemplo, música ambiente, para qual uma apresentação egocentricamente uniforme pode ser desejável. Outro caso são os efeitos de campo próximo (por exemplo, um mosquito zumbindo na orelha esquerda do ouvinte) que exigem uma representação egocêntrica. Atualmente, não há nenhum meio para renderizar tal campo sonoro curto usando fones de ouvido ou alto-falantes de campo muito próximo. Adicionalmente, fontes de som infinitamente afastadas (e as ondas de plano resultantes) parecem vir de uma posição egocêntrica constante (por exemplo, 30 graus à esquerda) e tais sons são mais fáceis de descrever em termos egocêntricos que em termos alocêntricos.
[00049] Em alguns casos, é possível usar um quadro alocêntrico de referência contanto que uma posição de escuta nominal seja definida, embora alguns exemplos exijam uma representação egocêntrica que não ainda não é possível renderizar. Embora uma referência alocêntrica possa ser mais útil e apropriada, a representação de áudio deve ser extensível, já que muitos novos recursos, incluindo a representação egocêntrica, podem ser mais desejáveis em determinadas aplicações e ambientes de escuta. As modalidades do sistema de áudio adaptável incluem uma abordagem descrição espacial híbrida que inclui uma configuração de canal recomendada para a fidelidade ótima e para a renderização de fontes de múltiplos pontos difusas ou complexas (por exemplo, público de estádio, ambiente) com o suo de uma referência egocêntrica, mais uma descrição de som com base em modelo alocêntrica para permitir eficazmente a escalabilidade e resolução espacial aumentadas.
[00050] Em referência à Figura 1, os dados de conteúdo de som original 102 são primeiro processados em um bloco de pré- processamento 104. O bloco de pré-processamento 104 do sistema 100 inclui um componente de filtragem de canal de objeto. Em muitos casos, os objetos de áudio contêm fontes de sim individuais para habilitar o posicionamento panorâmico independente dos sons. Em alguns casos, tal como ao criar programas de áudio com o uso do som natural ou de "produção", pode ser necessário extrair objetos de som individuais de uma gravação que contém múltiplas fontes de som. As modalidades incluem um método para isolar sinais de fonte independente de um sinal mais complexo. Os elementos indesejados a serem separados dos sinais de fonte independente podem incluir, porém sem limitação, outras fontes de som independentes e ruído de fundo. Adicionalmente, a reverberação pode ser removida para recuperar as fontes de som "seco".
[00051] O pré-processador 104 também inclui funcionalidade de detecção de tipo de conteúdo e separação de fonte. O sistema fornece a geração automatizada de metadados através da análise do áudio de entrada. Os metadados posicionais são derivados de uma gravação de múltiplos canais através de uma análise dos níveis relativos de entrada correlacionada entre os pares de canal. A detecção de tipo de conteúdo, tal como "fala" ou "música", pode ser alcançada, por exemplo, pela classificação e extração de recurso.
[00052] O bloco de ferramentas de autoria 106 inclui recursos para melhorar a autoria de programas de áudio pela otimização da entrada e codificação da intenção criativa do engenheiro de sim permitindo que o mesmo crie a mixagem de áudio final que é otimizada para a reprodução em praticamente qualquer ambiente de reprodução. Isso é alcançado através do uso de objetos de áudio e dados posicionais que são associados e codificados com o conteúdo de áudio original. A fim de colocar de modo preciso sons ao redor de um auditório, o engenheiro de som precisa controlar como o som será finalmente renderizado com base nas restrições reais e recursos do ambiente de reprodução. O sistema de áudio adaptável fornece esse controle permitindo que o engenheiro de som altere como o conteúdo de áudio é projetado e misturado através do uso de objetos de áudio e dados posicionais.
[00053] Os objetos de áudio podem ser considerados como grupos de elementos de som que podem ser percebidos a emanar de um local físico particular ou locais no auditório. Tais objetos podem ser estáticos ou os mesmos podem se mover. No sistema de áudio adaptável 100, os objetos de áudio são controlados por metadados que, dentre outras coisas, detalham a posição do som a um ponto no tempo dado. Quando os objetos são monitorados ou reproduzidos em uma sala de cinema, os mesmos são renderizados de acordo com os metadados posicionais com o uso dos alto-falantes que estão presentes, ao invés de serem necessariamente emitidos para um canal físico. Uma faixa em uma sessão pode ser um objeto de áudio e dados de posicionamento panorâmico padrão são análogos aos metadados posicionais. Desse modo, o conteúdo colocado na tela pode posicionar panoramicamente do mesmo modo eficaz que com o conteúdo com base em canal, mas o conteúdo colocado nos arredores pode ser renderizado a um alto- falante individual se desejado. Embora o uso de objetos de áudio forneça o controle desejado para efeitos distintos, outros aspectos de uma trilha sonora de filme funcionam eficazmente em um ambiente com base em canal. Por exemplo, muitos efeitos de ambiente ou reverberação de fato se beneficiam pelo fato de serem alimentados a arranjos de alto-falantes. Embora esses possam ser tratados como objetos com largura suficiente para preencher um arranjo, é benéfico reter alguma funcionalidade com base em canal.
[00054] Em uma modalidade, o sistema de áudio adaptável suporta "leitos" adicionalmente a objetos de áudio, em que os leitos são eficazmente troncos ou submixagens com base em canal. As mesmas podem ser entregues para a reprodução final (renderização) ou individualmente ou combinadas em um único leito, dependendo da intenção do criador de conteúdo. Esses leitos podem ser criados em diferentes configurações com base em canal tal como 5.1, 7.1 e são extensíveis a formatos mais extensivos tal como 9.1 e arranjos que incluem alto-falantes superiores.
[00055] A Figura 2 ilustra a combinação de dados com base em canal e objeto para produzir uma mistura de áudio adaptável, sob uma modalidade. Conforme mostrado no processo 200, os dados com base em canal 202 que, por exemplo, podem ser dados de som surround 5.1 ou 7.1 fornecidos na forma de dados modulados por código de pulso (PCM) são combinados com os dados de objeto de áudio 204 para produzir uma mixagem de áudio adaptável 208. Os dados de objeto de áudio 204 são produzidos combinando-se os elementos dos dados com base em canal originais com metadados associados que especificam determinados parâmetros que pertencem ao local dos objetos de áudio.
[00056] Conforme mostrado de modo conceitual na Figura 2, as ferramentas de autoria fornecem a capacidade de criar programas de áudio que contêm uma combinação de grupos de canal de alto-falante e canais de objeto simultaneamente. Por exemplo, um programa de áudio contém um ou mais canais de alto-falante organizados opcionalmente em grupos (ou faixas, por exemplo, uma faixa estéreo ou 5.1), os metadados descritivos para um ou mais canais de alto- falante, um ou mais canais de objeto e os metadados descritivos para um ou mais canais de objeto. Dentro de um programa de áudio, cada grupo de canal de alto-falante e cada canal de objeto podem ser representados com o uso de uma ou mais taxas de amostra diferentes. Por exemplo, as aplicações de Cinema Digital (D-Cinema) suportam taxas de amostra de 48 kHz e 96 kHz, mas outras amostras podem também ser suportadas. Ademais, a ingestão, armazenamento e edição dos canais com taxas de amostra diferentes podem também ser suportadas.
[00057] A criação de um programa de áudio exige as etapas de projeto de som, que inclui combinar elementos de som como uma soma de elementos de som constituintes de nível ajustado para criar um novo efeito de som desejado. As ferramentas de autoria do sistema de áudio adaptável permitem a criação de efeitos de som como uma coleção de objetos de som com posições relativas com o uso de uma interface gráfica de usuário de projeto de com espaço-visual. Por exemplo, uma representação visual do objeto de geração de som (por exemplo, um carro) pode ser usada como um modelo para montar elementos de áudio (nota de escape, zumbido de pneu, ruído do motor) como canais de objeto que contêm o som e a posição espacial apropriada (no tubo de escape, nos pneus, no capô). Os canais de objeto individuais podem, então, ser ligados e manipulados como um grupo. A ferramenta de autoria 106 inclui diversos elementos de interface de usuária para permitir que o engenheiro de som insira informações de controle e visualize parâmetros de mixagem e melhorar a funcionalidade de sistema. O processo de autoria e projeto de som é também melhorado permitindo-se que os canais de objeto e os canais alto-falante sejam ligados e manipulados como um grupo. Um exemplo é combinar um canal de objeto com uma fonte de som seco distinta com um conjunto de canais de alto-falante que contêm um sinal de reverberação associado.
[00058] A ferramenta de autoria de áudio 106 suporta a habilidade de combinar múltiplos canais de áudio, comumente denominado mixagem. Múltiplos métodos de mixagem são suportados e podem incluir mixagem com base em nível tradicional e mixagem com base em sonoridade. Na mixagem com base em nível, escalamento em banda larga é aplicado aos canais de áudio e os canais de áudio dimensionados são, então, somados. Os fatores de escala em banda larga para cada canal são escolhidos para controlar o nível absoluto do sinal mixado resultante e também os níveis relativos dos canais mixados no sinal mixado. Na mixagem com base em sonoridade, um ou mais sinais de entrada são modificados com uso de escalamento de amplitude dependente de frequência, em que a amplitude dependente de frequência é escolhida para fornecer a sonoridade relativa e absoluta percebida desejada, enquanto se preserva o timbre percebido do som de entrada.
[00059] As ferramentas de autoria permitem a habilidade de criar canais de alto-falante e grupos de canal de alto-falante. Isso permite que os metadados sejam associados a cada grupo de canal de alto- falante. Cada grupo de canal de alto-falante pode ser marcado de acordo com o tipo de conteúdo. O tipo de conteúdo é extensível por meio de uma descrição de texto. Os tipos de conteúdo podem incluir, porém sem limitação, diálogo, música, e efeitos. Cada grupo de canal de alto-falante pode ser designado instruções únicas sobre como mixar de modo ascendente a partir de uma configuração de canal para outra, em que a mixagem ascendente é definida como a criação de canais de áudio M a partir de N canais em que M > N. As instruções de mixagem ascendente podem incluir, porém sem limitação, o seguinte: um sinalizador de habilitar/desabilitar para indicar se a mixagem ascendente é permitida; uma matriz de mixagem ascendente para controlar o mapeamento entre cada canal de entrada e saída; e ajustes de matriz e habilitação pré-configurados podem ser designados com base no tipo de conteúdo, por exemplo, habilitar mixagem ascendente para música somente. Cada grupo de canal de alto-falante pode ser designado também instruções únicas sobre como mixar de modo descendente a partir de uma configuração de canal para outra, em que a mixagem descendente é definida como a criação de canais de áudio Y a partir de X canais em que Y < X. Instruções de mixagem descendente podem incluir, porém sem limitação, o seguinte: uma matriz para controlar o mapeamento entre cada canal de entrada e saída; e ajustes de matriz pré-configurados podem ser designados com base no tipo de conteúdo, por exemplo, o diálogo deve mixar de modo descendente na tela; efeitos devem mixar de modo descendente fora da tela. Cada canal de alto-falante pode ser associado, também, a um sinalizador de metadados para desabilitar o gerenciamento de graves durante a renderização.
[00060] Modalidades incluem um recurso que habilita a criação de canais de objeto e grupos de canal de objeto. Esta invenção permite que metadados sejam associados a cada grupo de canal de objeto. Cada grupo de canal de objeto pode ser marcado de acordo com tipo de conteúdo. O tipo de conteúdo é extensível por meio de uma descrição de texto, em que os tipos de conteúdo podem incluir, porém sem limitação, diálogo, música e efeitos. Cada grupo de canal de objeto pode ser designado metadados para descrever como o(s) objeto(s) devem ser renderizados.
[00061] Informações de posição são fornecidas para indicar a posição de fonte aparente desejada. A posição pode ser indicada com uso de um quadro de referência egocêntrico ou alocêntrico. A referência egocêntrica é apropriada quando a posição de fonte deve ser referenciada ao ouvinte. Para a posição egocêntrica, coordenadas esféricas são úteis para a descrição de posição. Uma referência alocêntrica é o quadro típico de referência para cinema ou outras apresentações de áudio/visuais em que a posição de fonte é referenciada em relação a objetos no ambiente de apresentação tais como uma tela de exibição visual ou limites de sala. Informações de trajetória tridimensionais (3D) são fornecidas para habilitar a interpolação de posição ou para uso de outras decisões de renderização tal como habilitar um "modo de ajuste para" (snap to mode). Informações de tamanho são fornecidas para indicar o tamanho de fonte de áudio percebido aparente desejado.
[00062] A quantização espacial é fornecida através de um controle de "ajuste para alto-falante mais próximo"que indica uma intenção pelo engenheiro de som ou misturador para fazer com que um objeto seja renderizado exatamente por um alto-falante (com algum sacrifício potencial à exatidão espacial). Um limite à permitida distorção espacial pode ser indicado através de limiares de tolerância de azimute e elevação de modo que se o limiar for excedido, a função de "ajuste"não irá ocorrer. Além de limiares de distância, um parâmetro de taxa de atenuação cruzada pode ser indicado para controlar o quão rápido um objeto em movimento irá fazer transição ou pular de um alto-falante para o outro quando a posição desejada cruzar entre os alto-falantes.
[00063] Em uma modalidade, os metadados espaciais dependentes são utilizados para certos metadados de posição. Por exemplo, os metadados podem ser gerados automaticamente para um objeto "escravo" ao associar o mesmo a um objeto "mestre" que o objeto escravo deve seguir. Um tempo de retardo ou velocidade relativa pode ser designado ao objeto escravo. Mecanismos também podem ser fornecidos para permitir a definição de um centro acústico de gravidade para conjuntos ou grupos de objetos, de modo que um objeto possa ser renderizado de modo que o mesmo seja percebido se mover ao redor de outro objeto. Em tal caso, um ou mais objetos podem girar ao redor de um objeto ou uma área definida, tal como um ponto dominante ou uma área seca da sala. O centro acústico de gravidade seria utilizado, então, no estágio de renderização para ajudar a determinar informações de local para cada som baseado em objeto apropriado, mesmo se as informações de local finais fosse expressadas como uma local relativa à sala, ao contrário de um local relativa a outro objeto.
[00064] Quando um objeto é renderizado, o mesmo é designado a um ou mais alto-falantes de acordo com os metadados de posição e o local dos alto-falantes de reprodução. Os metadados adicionais podem ser associados ao objeto para limitar os alto-falantes que devem ser utilizados. O uso de restrições pode proibir o uso de alto-falantes indicados ou meramente inibir os alto-falantes indicados (permitir menos energia no alto-falante ou alto-falantes do que seria aplicado de outra forma). Os conjuntos de alto-falante a serem restritos podem incluir, porém sem limitação, qualquer um dos alto-falantes ou zonas de alto- falante citados (por exemplo L, C, R, etc.), ou áreas de alto-falante, tais como: parede frontal, parede posterior, parede esquerda, parede direita, teto, piso, alto-falantes na sala e assim por diante. Da mesma forma, no curso de especificar a mixagem desejada de múltiplos elementos sonoros, é possível fazer com que um ou mais elementos sonoros se tornem inaudíveis ou "mascarado" devido à presença de outros elementos sonoros de "mascaramento". Por exemplo, quando elementos mascarados são detectados, os mesmos podem ser identificados para o usuário por meio de um visor gráfico.
[00065] Conforme descrito em outra parte, a descrição de programa de áudio pode ser adaptada para renderização em uma variedade ampla de instalações de alto-falante e configurações de canal. Quando um programa de áudio é de autoria, é importante monitorar o efeito de renderização do programa em configurações de reprodução antecipadas para verificar que os resultados desejados são alcançados. Esta invenção inclui a habilidade de selecionar configurações de reprodução alvo e monitorar o resultado. Além disso, o sistema pode monitorar automaticamente os níveis de sinal de pior caso (isto é, os mais altos) que seriam gerados em cada configuração de reprodução antecipada e fornecem uma indicação de se recorte ou limitação irá ocorrer.
[00066] A Figura 3 é um diagrama de blocos que ilustram o fluxo de trabalho de criar, empacotar e renderizar conteúdo de áudio adaptável, em um modalidade. O fluxo de trabalho 300 da Figura 3 é divido em três grupos de tarefa distintos rotulados como criação/autoria, empacotamento e exibição. Em geral, o modelo hibrido de leitos e objetos mostrado na Figura 2 permite que a maior parte de projeto, edição, pré-mixagem e mixagem final de som seja realizada da mesma maneira que são hoje e sem adicionar sobrecarga excessiva aos presentes processos. Em uma modalidade, a funcionalidade de áudio adaptável é fornecida na forma de software, firmware ou conjunto de circuitos que é utilizado em conjunto com equipamento de produção e processamento de som, em que tal equipamento pode ser sistemas de hardware novos ou atualizações de sistemas existentes. Por exemplo, aplicações do tipo plug-in podem ser fornecidas para estações de trabalho de áudio digitais para permitir que as tecnologias de posicionamento panorâmico existentes na edição e projeto de som permaneçam inalteradas. Dessa maneira, é possível colocar ambos os leitos e objetos na estação de trabalho em 5.1 ou salas de edição equipadas com surround similar. Os metadados e áudio de objeto são gravados na sessão na preparação para os estágios de pré-mixagem e mixagem final no cinema de dublagem.
[00067] Conforme mostrado na Figura 3, as tarefas de criação ou autoria envolvem inserir controles de mixagem 302 por um usuário, por exemplo, um engenheiro de som no exemplo seguinte, para um console de mixagem ou estação de trabalho de áudio 304. Em uma modalidade, os metadados são integrados na superfície de console de mixagem, permitindo que os atenuadores de faixas de canal, posicionamento panorâmico e processamento de áudio trabalhem com ambos os leitos ou objetos de áudio ou troncos. Os metadados podem ser editados com uso ou da superfície de console ou da interface de usuário de estação de trabalho e o som é monitorado com uso de uma unidade de renderização e masterização (RMU) 306. Os dados de áudio de objeto e leito e metadados associados são gravados durante a sessão de masterização para criar um "print master" que inclui uma mixagem de áudio adaptável 310 e qualquer outro entregável renderizado (tal como uma mixagem de cinema 7.1 ou 5.1 surround) 308. As ferramentas de autoria existentes (por exemplo, estações de trabalho de áudio digitais tal como Pro Tools) podem ser utilizadas para permitir que engenheiros de som rotulem faixas de áudio individuais em uma sessão de mixagem. As modalidades estendem esse conceito ao permitir que usuários rotulem subsegmentos individuais em uma faixa para auxiliar na procura ou na identificação rápida de elementos de áudio. A interface de usuário para o console mixagem que habilita a definição e criação dos metadados pode ser implantada através de elementos de interface de usuário gráficos, controles físicos (por exemplo, controles deslizantes e botões) ou qualquer combinação dos mesmos.
[00068] No estágio de empacotamento, o arquivo de print master é encapsulado com uso de procedimentos de encapsulamento MXF padrões da indústria, em hash e opcionalmente criptografado a fim de garantir a integridade do conteúdo de áudio para entrega à instalação de empacotamento de cinema digital. Essa etapa pode ser realizada por um processador de cinema digital (DCP) 312 ou qualquer processador de áudio apropriado dependendo do ambiente de reprodução final, tal como uma sala de cinema equipada com som surround 318, uma sala de cinema com áudio adaptável habilitado 320 ou qualquer outro ambiente de reprodução. Conforme mostrado na Figura 3, o processador 312 emite os sinais de áudio apropriados 314 e 316 dependendo do ambiente de exibição.
[00069] Em uma modalidade, o print master de áudio adaptável contém uma mixagem de áudio adaptável, junto com uma mixagem Modulado por Código de Pulso (PCM) compatível com DCI padrão. A mixagem por PCM pode ser renderizada pela unidade de renderização e masterização em um cinema de dublagem ou criada por uma passagem de mixagem separada se desejado. O áudio PCM forma o arquivo de faixa de áudio principal padrão no processador de cinema digital 312 e as formas de áudio adaptáveis formam um arquivo de faixa adicional. Tal arquivo de faixa pode ser compatível com padrões da indústria existentes e é ignorado por servidores compatíveis com DCI que não podem utilizar o mesmo.
[00070] Em um ambiente de reprodução de cinema exemplificativo, o DCP que contém um arquivo de faixa de áudio adaptável é reconhecido por um servidor como um pacote válido e ingerido no servidor e então transmitido para um processador de cinema de áudio adaptável. Em um sistema que tem ambos arquivos de áudio adaptável e PCM linear disponíveis, o sistema pode trocar entre os mesmos conforme necessário. Para distribuição para o estágio de exibição, o esquema de empacotamento de áudio adaptável permite a entrega de um único tipo de pacote a ser entregue a um cinema. O pacote de DCP contém ambos os arquivos de áudio adaptável e PCM. O uso de chaves de segurança, tal como uma mensagem de entrega com chave (key delivery message - KDM) pode ser incorporada para habilitar a entrega segura do conteúdo de filme ou outro conteúdo similar.
[00071] Conforme mostrado na Figura 3, a metodologia de áudio adaptável é realizada ao habilitar um engenheiro de som a expressar a sua intenção em relação à renderização e reprodução de conteúdo de áudio através da estação de trabalho de áudio 304. Ao controlar certos controles de entrada, o engenheiro é capaz de especificar onde e como os objetos de áudio e elementos sonoros são reproduzidos dependendo do ambiente de escuta. Os metadados são gerados na estação de trabalho de áudio 304 em resposta às entradas de mixagem do engenheiro 302 para fornecer filas de renderização que controlam parâmetros espaciais (por exemplo, posição, velocidade, intensidade, timbre, etc.) e especificar qual(s) alto-falante(s) ou grupos de alto- falante no ambiente de escuta reproduz sons respectivos durante a exibição. Os metadados são associados aos dados de áudio respectivos na estação de trabalho 304 ou RMU 306 para empacotamento e transporte por DCP 312.
[00072] Uma interface de usuário gráfica e ferramentas de software que fornecem controle da estação de trabalho 304 pelo engenheiro compreendem pelo menos parte das ferramentas de autoria 106 da Figura 1.
[00073] Conforme mostrado na Figura 1, o sistema 100 inclui um codec de áudio híbrido 108. Esse componente compreende um sistema de codificação, distribuição e decodificação de áudio que é configurado para gerar um único fluxo de bits que contém ambos os elementos de áudio com base em canal convencionais e elementos de codificação de objeto de áudio. O sistema de codificação de áudio híbrido é construído ao redor de um sistema de codificação com base em canal que é configurado para gerar um único fluxo de bits (unificado) que é simultaneamente compatível com (isto é, decodificado por) um primeiro decodificador configurado para decodificar dados de áudio codificados de acordo com um primeiro protocolo de codificação (com base me canal) e um ou mais decodificadores secundários configurados para decodificar dados de áudio codificados de acordo com um ou mais protocolos de codificação secundários (com base em objeto). O fluxo de bits pode incluir ambos os dados codificados (na forma de intermitências de dados) decodificáveis pelo primeiro decodificador (e ignorados por qualquer decodificador secundário) e dados codificados (por exemplo, outras intermitências de dados) decodificados por um ou mais decodificadores secundários (e ignorados pelo primeiro decodificador). O áudio decodificado e as informações associadas (metadados) a partir do primeiro e de um ou mais dos decodificadores secundários podem ser combinados, então, de uma maneira de modo tal que ambas as informações com base em canal e com base em objeto sejam renderizadas simultaneamente par recriar um fac-símile do ambiente, canais, informações espaciais e objetos apresentados ao sistema de codificação híbrido (isto é, dentro de um espaço 3D ou ambiente de escuta).
[00074] O codec 108 gera um fluxo de bits que contém informações de áudio codificado e informações relacionadas a múltiplos conjuntos de posições de canal (alto-falantes). Em uma modalidade, um conjunto de posições de canal é fixado e utilizado para o protocolo com base em canal, enquanto outro conjunto de posições de canal é adaptável e utilizado para o protocolo de codificação com base em objeto de áudio, de modo que a configuração do canal para um objeto de áudio possa mudar como uma função de tempo (dependendo de onde o objeto é colocado no campo sonoro). Assim, o sistema de codificação de áudio híbrido pode transportar informações sobre dois conjuntos de locais de alto-falante para reprodução, em que um conjunto pode ser fixo e ser um subconjunto do outro. Os dispositivos herdado que suportam informações de áudio codificado decodificam e renderizam as informações de áudio a partir do subconjunto fixo, enquanto um dispositivo com a capacidade de suportar o conjunto maior pode codificar e renderizar as informações de áudio codificadas adicionais que seriam designadas de modo variável em tempo a diferentes alto- falantes do conjunto maior. Ademais, o sistema não depende do primeiro e de um ou mais dos decodificadores secundários que estão simultaneamente presentes em um sistema e/ou dispositivo. Logo, um sistema/dispositivo herdado e/ou existente que contém somente um decodificador que suporta o primeiro protocolo renderia um campo sonoro totalmente compatível para ser renderizado por meio de sistemas de reprodução tradicionais com base em canal. Nesse caso, a(s) porção(s) desconhecida(s) e sem suporte do protocolo de fluxo de bits híbrido (isto é, as informações de áudio representadas por um protocolo de codificação secundário) seria(m) ignorada(s) pelo sistema ou dispositivo decodificador que suporta o primeiro protocolo de codificação híbrida.
[00075] Em outra modalidade, o codec 108 é configurado para operar em um modo em que o primeiro subsistema de codificação (que suporta o primeiro protocolo) contém uma representação combinada de todas as informações (canais e objetos) do campo sonoro representadas tanto no primeiro quanto em um ou mais dos subsistemas codificadores secundários presentes no codificador híbrido. Isso garante que o fluxo de bits híbrido inclui compatibilidade com versões anteriores com decodificadores que suportam somente o protocolo do primeiro subsistema codificador ao permitir que objetos de áudio (tipicamente transportados em um ou mais protocolos de codificador secundários) a serem representados e renderizados nos decodificadores que sustentam somente o primeiro protocolo.
[00076] Em ainda outra modalidade, o codec 108 inclui dois ou mais subsistemas de codificação, em que cada um desses subsistemas é configurado para codificar dados de áudio de acordo com um protocolo diferente e é configurado para combinar as saídas dos subsistemas para gerar um fluxo de bits (unificado) de formato híbrido.
[00077] Um dos benefícios das modalidades é a habilidade de um fluxo de bits de áudio codificado híbrido de ser transportado para uma faixa ampla de sistemas de distribuição de conteúdo, em que cada um dos sistemas de distribuição suporta convencionalmente somente dados codificados de acordo com o primeiro protocolo de codificação. Isso elimina a necessidade de modificações/mudanças de protocolo de nível de transporte e/ou sistema a fim de suportar especificamente o sistema de codificação híbrido.
[00078] Os sistemas de codificação de áudio tipicamente utilizam elementos de fluxo de bits padronizados para habilitar o transporte de dados adicionais (arbitrários) no próprio fluxo de bits. Esses dados adicionais (arbitrários) são tipicamente pulados (isto é, ignorados) durante a decodificação do áudio codificado incluído no fluxo de bits, porém podem ser utilizados para um propósito que não seja decodificação. Padrões de codificação de áudio diferentes expressam esses campos de dados adicionais com uso de nomenclatura única. Os elementos de fluxo de bits desse tipo geral podem incluir, porém sem limitação, dados auxiliares, campos para pular, elementos de fluxo de dados, elementos de preenchimento, dados complementares e elementos de subfluxo. A não ser que seja observado o contrário, o uso da expressão "dados auxiliares" neste documento não implica um tipo ou formato específico de dados adicionais, porém devem ser interpretados como uma expressão genética que engloba qualquer ou todos os exemplos associados a presente invenção.
[00079] Um canal de dados habilitado por meio de elementos de fluxo de bits "auxiliares" de um primeiro protocolo de codificação em um fluxo de bits de sistema de codificação híbrido combinado pode transportar um ou mais fluxos de bits secundários (independentes ou dependentes) de áudio (codificado de acordo com um ou mais protocolos de codificação secundários). Os um ou mais fluxos de bits de áudio podem ser separados em blocos de amostra N e multiplexados nos campos de "dados auxiliares" de um primeiro fluxo de bits. O primeiro fluxo de bits pode ser decodificado por um decodificador (complementar) apropriado. Além disso, os dados auxiliares do primeiro fluxo de bits poderiam ser extraídos, recombinados em um ou mais fluxos de bits de áudio, decodificados por um processador que suporta a sintaxe de um ou mais dos fluxos de bits secundários e então combinados e renderizados juntos ou independentemente. Ademais, é possível, também, reverter os papéis do primeiro e do segundo fluxos de bits, de modo que blocos de dados de um primeiro fluxo de bits sejam multiplexados nos dados auxiliares de um segundo fluxo de bits.
[00080] Os elementos de fluxo de bits associados a um protocolo de codificação secundário também transportam e transmitem características de informações (metadados) do áudio sobrejacente, que podem incluir, porém sem limitação, posição de fonte sonora desejada, velocidade e tamanho. Esses metadados são utilizados durante os processos de decodificação e renderização para recriar a posição própria (isto é, original) para o objeto de áudio associado transportado no fluxo de bits aplicável. É possível, também, transportar os metadados descritos acima, que são aplicáveis aos objetos de áudio contidos nos um ou mais fluxos de bits secundários presentes no fluxo híbrido, nos elementos de fluxo de bits associados ao primeiro protocolo de codificação.
[00081] Os elementos de fluxo de bits associados a um dos ou a ambos o primeiro e o segundo protocolos do sistema de codificação híbrido transportam/transmitem metadados contextuais que identificam parâmetros espaciais (isto é, a essência das próprias propriedades de sinal) e informações adicionais que descrevem o tipo de essência de áudio subjacente na forma de classes de áudio específicas que são transportadas no fluxo de bits de áudio codificado híbrido. Tais metadados podem indicar, por exemplo, a presença de diálogo falado, música, diálogo sobre música, aplauso, voz de canto, etc., e podem ser utilizados para modificar de modo adaptável o comportamento dos módulos de processamento prévio ou posterior interconectados a montante ou a jusante do sistema de codificação híbrido.
[00082] Em uma modalidade, o codec 108 é configurado para operar com um grupo de bits comuns ou compartilhados em que os bits disponíveis para codificação são "compartilhados" entre todos ou parte dos subsistemas de codificação que suportam um ou mais protocolos. Tal codec pode distribuir os bits disponíveis (a partir do grupo de bits "compartilhados" comuns) entre os subsistemas de codificação a fim de otimizar a qualidade de áudio geral do fluxo de bits unificado. Por exemplo, durante um primeiro intervalo de tempo, o codec pode designar mais dos bits disponíveis a um primeiro subsistema de codificação e um pouco menos dos bits disponíveis aos subsistemas restantes, enquanto durante um segundo intervalo de tempo, o codec pode designar um pouco menos dos bits disponíveis ao primeiro subsistema de codificação e mais dos bits disponíveis aos subsistemas restantes. A decisão de como designar bits entre subsistemas de codificação pode ser dependente, por exemplo, de resultados de análise estatística do grupo de bits compartilhados, e/ou análise do conteúdo de áudio codificado por cada subsistema. O codec pode alocar bits do grupo compartilhado de tal maneira que um fluxo de bits unificado construído ao multiplexar as saídas dos subsistemas de codificação mantenha uma taxa de bits/comprimento de quadro constante durante um intervalo de tempo específico. É possível, também, em alguns casos, para a taxa de bits/comprimento de quadro do fluxo de bits unificado variar durante um intervalo de tempo específico.
[00083] Em uma modalidade alternativa, o codec 108 gera um fluxo de bits unificado que inclui dados codificados de acordo com o primeiro protocolo de codificação configurado e transmitido como um subfluxo independente de um fluxo de dados codificados (que um decodificador que suporta o primeiro protocolo de codificação irá decodificar) e dados codificados de acordo com um segundo protocolo enviado como um subfluxo independente ou dependente dos dados codificados (um cujo decodificador que suporta o primeiro protocolo irá ignorar). De modo mais geral, em uma classe de modalidades, o codec gera um fluxo de bits unificado que inclui dois ou mais subfluxos independentes ou dependentes (em que cada subfluxo inclui dados codificados de acordo com um protocolo de codificação idêntico ou diferente).
[00084] Em ainda outra modalidade alternativa, o codec 108 gera um fluxo de bits unificado que inclui dados codificados de acordo com o primeiro protocolo de codificação configurado e transmitido com um identificador de fluxo de bits único (que um decodificador que suporta um primeiro protocolo de codificação associado ao identificador de fluxo de bits único irá decodificar) e dados codificados de acordo com um segundo protocolo configurado e transmitido com um identificador de fluxo de bits único, que um decodificador que suporta o primeiro protocolo irá ignore. De modo mais geral, em uma classe de modalidades, o codec gera um fluxo de bits unificado que inclui dois ou mais subfluxos (em que cada subfluxo inclui dados codificados de acordo com um protocolo de codificação idêntico ou diferente e em que cada um transporta um identificador de fluxo de bits único). Os métodos e sistemas para criar um fluxo de bits unificado descritos acima fornecem a habilidade de sinalizar de modo ambíguo (para um decodificador) qual intercalação e/ou protocolo foi utilizado em um fluxo de bits híbrido (por exemplo, para sinalizar se os dados AUX, SKIP, DSE ou a abordagem descrita é utilizada).
[00085] O sistema de codificação híbrido é configurado para suportar a desintercalação/demultiplexação e reintercalação/remultiplexação de fluxos de bits que suportam um ou mais protocolos secundários em um primeiro fluxo de bits (que suporta um primeiro protocolo) em qualquer ponto de processamento observado por um sistema de entrega de mídia. O codec híbrido também é configurado para ter a capacidade de codificar fluxos de entrada de áudio com taxas de amostra diferentes em um fluxo de bits. Isso fornece um meio para codificar e distribuir eficientemente fontes sonoras que contêm sinais com larguras de banda inerentemente diferentes. Por exemplo, faixas de diálogo tipicamente têm largura de banda inerentemente mais baixas que faixas de música e efeitos.
[00086] Em uma modalidade, o sistema de áudio adaptável permite que múltiplas (por exemplo, até 128) faixas a serem empacotadas, geralmente como uma combinação de leitos e objetos. O formato básico dos dados de áudio para o sistema de áudio adaptável compreende vários fluxos de áudio monofônicos. Cada fluxo tem associado a si mesmo metadados que especifica se o fluxo é um fluxo com base em canal ou um fluxo com base em objeto. Os fluxos com base em canal têm informações de renderização por meio de nome ou rótulo de canal; e os fluxos com base em objeto têm informações de local codificadas através de expressões matemáticas codificadas nos metadados adicionalmente associados. Os fluxos de áudio independentes originais são empacotados, então, como um único fluxo de bits serial que contém todos os dados de áudio de uma maneira ordenada. Essa configuração de dados adaptável permite que o som seja renderizado de acordo com um quadro de referência alocêntrico, em que o local de renderização final de um som é baseado no ambiente de reprodução para corresponder à intenção do mixador. Assim, um som pode ser especificado para se originar a partir de um quadro de referência da sala de reprodução (por exemplo, meio da parede esquerda), ao invés de um alto-falante ou grupo de alto-falante rotulado (por exemplo, surround esquerdo). Os metadados de posição de objeto contêm as informações de quadro de referência alocêntrico necessárias para reproduzir o som corretamente cm uso das posições de alto-falante disponíveis em uma sala que é ajustada para reproduzir o conteúdo de áudio adaptável.
[00087] O renderizador recebe o fluxo de bits que codifica as faixas de áudio e processa o conteúdo de acordo com o tipo de sinal. Os leitos são alimentados a arranjos, que potencialmente exigirá processamento de equalização e atrasos diferentes que individual objetos. O processo suporta a renderização desses leitos e objetos para multiplicar (até 64) saídas de alto-falante. A Figura 4 é um diagrama de blocos de um estágio de um sistema de áudio adaptável, em uma modalidade. Conforme mostrado no sistema 400 da Figura 4, vários sinais de entrada, tal como até 128 faixas de áudio que compreendem os sinais de áudio adaptável 402 são fornecidos por certos componentes dos estágios de criação, autoria e empacotamento do sistema 300, tais como RMU 306 e processador 312. Esses sinais compreendem os objetos e leitos com base em canal que são utilizados pelo renderizador 404. O áudio com base em canal (leitos) e objetos são inseridos em um gerenciador de nível 406 que fornece controle sobre as amplitudes ou níveis de saída dos componentes de áudio diferentes. Certos componentes de áudio podem ser processados por um componente de correção de arranjo 408. Os sinais de áudio adaptável são passados, então, por um componente de processamento de cadeia B 410, que gera vários (por exemplo, até 64) de sinais de saída de alimentação de alto-falante. Em geral, as alimentações de cadeia B se referem aos sinais processados por amplificadores de potências, divisores de frequência e alto-falantes, ao contrário de um conteúdo de cadeia A que constitui a trilha sonora no rolo de filme.
[00088] Em uma modalidade, o renderizador 404 executa um algoritmo de renderização que utiliza inteligentemente os alto-falantes surround na sala de cinema em sua melhor capacidade. Ao melhorar a administração de potência e resposta de frequência dos alto-falantes surround e ao manter o mesmo nível de referência de monitoramento para cada canal de saída ou alto-falante na sala de cinema, os objetos são posicionados de modo panorâmico na tela e alto-falantes surround podem manter seu nível de pressão sonora e terem uma compatibilidade de timbre mais próxima sem, importantemente, aumentar o nível de pressão sonora geral na sala de cinema. Um arranjo de alto-falantes surround apropriadamente especificados tipicamente irá ter uma capacidade suficiente para reproduzir o alcance dinâmico máximo em uma trilha sonora surround 7.1 ou 5.1 (isto é, 20 dB acima do nível de referência), no entanto, é improvável que um único alto-falante surround tenha a mesma capacidade que um alto-falante grande de tela de múltiplos sentidos. Como resultado, haverá, provavelmente, inst6ancias quando um objeto colocado no campo surround irá exigir uma pressão sonora maior que a que pode ser obtida com uso de um único alto-falante surround. Nesses casos, o renderizador irá espalhar o som em um número apropriado de alto- falantes a fim de alcançar o nível de pressão sonora exigido. O sistema de áudio adaptável aprimora a qualidade e a administração de potência de alto-falantes surround para fornecer um aprimoramento na fidelidade da renderização. Fornece apoio para o gerenciamento de graves dos alto-falantes surround através do uso de subwoofers traseiros opcionais que permitem que cada alto-falante surround alcance administração de potência aprimorada, e ao utilizar simultânea e potencialmente caixas de alto-falante menores. Também permite a adição de alto-falantes surround laterais mais próximo à tela do que a prática atual para garantir que os objetos possam fazer uma transição suave da tela para o surround.
[00089] Através do uso de metadados para especificar informações de local de objetos de áudio junto com certos processos de renderização, o sistema 400 fornece um método flexível e compreensível para criadores de conteúdo se moverem além das restrições de sistemas existentes. Conforme declarado previamente, os sistemas atuais criam e distribuem áudio que é fixo a locais de alto- falante particulares com conhecimento limitado do tipo de conteúdo transmitido na essência de áudio (a patê do áudio que é reproduzida). O sistema de áudio adaptável 100 fornece uma nova abordagem híbrida que inclui a opção tanto para o áudio específico de local de alto-falante (canal esquerdo, canal direito, etc.) quanto para elementos de áudio orientados por objeto que generalizaram informações espaciais que podem incluir, porém sem limitação posição, tamanho e velocidade. Essa abordagem híbrida fornece uma abordagem equilibrada para fidelidade (fornecida por locais de alto-falante fixos) e flexibilidade na renderização (objetos de áudio generalizados). O sistema também fornece informações úteis adicionais sobre o conteúdo de rádio que é emparelhado com a essência de áudio por um criador de conteúdo no momento da criação de conteúdo. Essas informações fornecem informações detalhadas e poderosas sobre os atributos do áudio que podem ser utilizados de maneiras muito poderosas durante a renderização. Tais atributos podem incluir, porém sem limitação, tipo de conteúdo (diálogo, música, efeito, Foley, fundo/ambiente, etc.), atributos espaciais (posição em 3D, tamanho em 3D, velocidade) e informações de renderização (ajuste para local de alto-falante, ponderações de canal, ganho, informações de gerenciamento de grave, etc.).
[00090] O sistema de áudio adaptável descrito no presente documento fornece informações poderosas que podem ser utilizadas para renderizar um número amplamente variante de pontos finais. Em muitos casos, a ótima tecnologia de renderização aplicada depende em grande parte no dispositivo de ponto final. Por exemplo, sistemas para home theater e barras de som podem ter 2, 3, 5, 7 ou até 9 alto-falantes separados. Muitos outros tipos de sistemas, tais como televisões, computadores e encaixes de música têm somente dois alto-falantes e quase todos os dispositivos comumente utilizados têm uma saída de fone de ouvido binaural (PC, computador do tipo laptop, computador do tipo tablet, telefone celular, reprodutor de música, etc.). No entanto, para o áudio tradicional que é distribuído hoje (mono, estéreo, canais 5.1, 7.1) os dispositivos de ponto final frequentemente precisam tomar decisões e fazer compromissos simplistas para renderizar e reproduzir áudio que é distribuído agora em uma forma específica a canal/alto- falante. Além disso, há poucas ou nenhuma informação transmitidas sobre o conteúdo real que está sendo distribuído (diálogo, música, ambiente, etc.) e poucas ou nenhuma informação sobre a intenção do criador de conteúdo para reprodução de áudio. No entanto, o sistema de áudio adaptável 100 fornece essas informações e, potencialmente, acesso a objetos de áudio, que podem ser utilizados para criarem uma experiência de usuário de próxima geração convincente.
[00091] O sistema 100 permite que o criador de conteúdo insira intenção espacial da mixagem no fluxo de bits com uso de metadados tais como posição, tamanho, velocidade, e assim por diante, através de metadados poderosos e únicos e formato de transmissão de áudio adaptável. Isso permite uma grande flexibilidade na reprodução espacial de áudio. A partir de um ponto de vista de renderização espacial, o áudio adaptável habilita a adaptação da mixagem para a posição exata dos alto-falantes em um a sala particular a fim de evitar distorção espacial que ocorre quando a geometria do sistema de reprodução não é idêntica ao sistema de autoria. Nos sistemas de reprodução de áudio atuais em que somente o áudio para um canal de alto-falante é enviado, a intenção do criador de conteúdo é desconhecida. O sistema 100 utiliza metadados transmitidos através da criação e da tubulação de distribuição. Um sistema de reprodução de detecção de áudio adaptável pode utilizar essas informações de metadados para reproduzir o conteúdo de uma maneira que seja compatível com a intenção original do criador de conteúdo. Da mesma forma, a mixagem pode ser adaptada para a configuração de hardware exata do sistema de reprodução. Atualmente, existe muitas configurações e tipos de alto-falante possíveis diferentes em equipamento de renderização tal como televisão, home theaters, barras de som, encaixes de reprodução de música portáteis, etc. Quando esses sistemas recebem informações de áudio específico a canal hoje (isto é, áudio de canal de esquerda e direita ou áudio de múltiplos canais) o sistema deve processar o áudio para ser compatível de modo apropriado com as capacidades do equipamento de renderização. Um exemplo é áudio estéreo padrão que é enviado a uma barra de som com mais que dois alto-falantes. Na reprodução de áudio atual em que somente o áudio para um canal de alto-falante é enviado, a intenção do criador de conteúdo é desconhecida. Através do uso de metadados transmitidos por toda a tubulação de criação e distribuição, um sistema de reprodução de detecção de áudio adaptável pode utilizar essas informações para reproduzir o conteúdo de uma maneira que seja compatível com a intenção original do criador de conteúdo. Por exemplo, algumas barras de som têm alto-falantes de disparo para criar uma sensação de envolvimento, com áudio adaptável, informações espaciais e tipo de conteúdo (tal como efeitos de ambiente) podem ser utilizados pela barra de som para enviar somente o áudio apropriado a esses alto-falantes de disparo lateral.
[00092] O sistema de áudio adaptável permite a interpolação ilimitada de alto-falantes em um sistema em todas as dimensões frontal/posterior, esquerda/direita, em cima/em baixo, próxima/longe. Nos sistemas de reprodução de áudio atuais não existe informação alguma para como administrar o áudio onde pode ser desejado posicionar o áudio de modo que o mesmo seja percebido por um ouvinte estar entre dois alto-falantes. Atualmente, com áudio que é designado somente para um alto-falante específico, um fator de quantização espacial é introduzido. Com áudio adaptável, o posicionamento espacial do áudio pode ser conhecido de modo exato e reproduzido em conformidade com o sistema de reprodução de áudio.
[00093] Em relação à renderização de fone de ouvido, a intenção do criador é realizada ao tornar compatível as Funções de Transferência Relacionadas à Cabeça (Head Related Transfer Functions - HRTF) com a posição espacial. Quando áudio é reproduzido em fones de ouvido, a virtualização espacial pode ser alcançada através da aplicação de uma Função de Transferência Relacionadas à Cabeça, que processa o áudio, adicionando pistas de percepção que criam a percepção do áudio que está sendo reproduzido em espaço em 3D e não em fones de ouvido. A exatidão da reprodução espacial depende da seleção da HRTF apropriada, que pode variar com base em vários fatores que incluem a posição espacial. O uso das informações espaciais fornecidas pelo Sistema de áudio adaptável pode resultar na seleção de um ou um número continuamente variante de HRTFs para aprimorar em grande parte a experiência de reprodução.
[00094] As informações espaciais transportadas pelo sistema de áudio adaptável podem ser não somente usadas por um criador de conteúdo para criar uma experiência de entretenimento compelida (filme, televisão, música, etc.), mas as informações espaciais também podem indicar onde um ouvinte está posicionado em relação aos objetos físicos tais como prédios ou pontos geográficos de interesse. Isso permitiria ao usuário interagir com uma experiência de áudio virtualizada que está relacionada ao mundo real, isto é, realidade aumentada.
[00095] As modalidades também habilitam mixagem ascendente espacial, realizando mixagem ascendente intensificada lendo-se os metadados somente se os dados de áudios de objetos não estão disponíveis. Saber a posição de todos os objetos e seus tipos permite que o misturador ascendente distingue melhor os elementos dentro das faixas à base de canal. Os algoritmos existentes de mixagem ascendente têm de inferir informações tais como o tipo de conteúdo de áudio (fala, música, efeitos ambientais) assim como a posição de diferentes elementos dentro do fluxo de áudio para criar uma mixagem ascendente de alta qualidade com mínimo ou nenhum artefatos audíveis. Muitas vezes as informações inferidas podem ser incorretas ou inapropriadas. Com áudio adaptável, as informações adicionais disponíveis dos metadados relacionados, por exemplo, ao tipo de conteúdo de áudio, posição espacial, velocidade, tamanho de objeto de áudio, etc., podem ser usadas por um algoritmo de mixagem ascendente para criar um resultado de reprodução de alta qualidade. O sistema também combina espacialmente o áudio ao vídeo posicionando precisamente o objeto de áudio da tela aos elementos visuais. Nesse caso, uma experiência envolvente de reprodução de áudio/vídeo é possível, particularmente com tamanhos maiores de tela, se o local espacial reproduzido de alguns elementos de áudio combinam elementos de imagem na tela. Um exemplo é que ter o diálogo em um filme ou programa de televisão coincide espacialmente com uma pessoa ou personagem que está falando na tela. Com áudio a base de canal de alto-falante normal não há método fácil para determinar onde o diálogo deve ser espacialmente posicionado para combinar como local da pessoa ou personagem na tela. Com as informações de áudio disponíveis com áudio adaptável, tal alinhamento de áudio/visual pode ser alcançado. O alinhamento posicional visual e espacial de áudio também pode ser usado pra objetos de não personagem/diálogo tais como carros, caminhões, animação e assim por diante.
[00096] Um processamento de mascaramento espacial é facilitado pelo sistema 100, visto que o conhecimento do conteúdo espacial de uma mixagem através dos metadados de áudio adaptável significa que a mixagem pode ser adaptada a qualquer configuração de alto-falante. No entanto, há o risco de objetos de mixagem descendente no mesmo ou quase o mesmo local devido às limitações de sistema de reprodução. Por exemplo, um objeto destinado a ser panoramicamente posicionado no posterior esquerdo pode ser mixado descendente à frente esquerda se canais de surround não estão presentes, mas se um elemento sonoro ocorre na frente esquerda ao mesmo tempo, o objeto mixado ascendente será mascarado e desparecerá da mixagem. Com o uso de metadados de áudio adaptável, mascaramento espacial pode ser antecipado pelo renderizador e os parâmetros de mixagem descendente espacial e ou de sonoridade de cada objeto pode ser ajustado então todos os elementos de áudio da mixagem permanecem exatamente tão perceptíveis quanto na mixagem original. Devido ao fato de que o renderizador entende a relação espacial entre a mixagem e o sistema de reprodução, o mesmo tem a capacidade de "ajustar" objetos aos alto-falantes mais próximos em vez de criar uma imagem fantasma entre dois ou mais alto-falantes. Embora isso possa distorcer ligeiramente a representação espacial da mixagem, isso também permite que o renderizador evite uma imagem fantasma não desejada. Por exemplo, se a posição angular do alto-falante esquerdo do estágio de mixagem não corresponder à posição angular do alto-falante esquerdo do sistema de reprodução, usar o ajuste à função de alto- falante mais próximo poderia evitar fazer com que o sistema de reprodução reproduza uma imagem fantasma constante do canal esquerdo do estágio de mixagem.
[00097] Em relação ao processamento de conteúdo, o sistema de áudio adaptável 100 permite que o criador de conteúdo crie objetos de áudio individuais e adicione informações acerca do conteúdo que pode ser transportado ao sistema de reprodução. Isso permite uma grande quantidade de flexibilidade no processamento de áudio antes da reprodução. A partir de um processamento de conteúdo e ponto de vista de renderização, o sistema de áudio adaptável permite que o processamento seja adaptado ao tipo de objeto. Por exemplo, aperfeiçoamento de diálogo pode ser aplicado aos objetos de diálogo somente. O aperfeiçoamento de diálogo se refere a um método de processamento de áudio que contém diálogo de modo que a audibilidade e/ou inteligibilidade do diálogo seja aumentada e ou aprimorada. Em muitos casos o processamento de áudio que é aplicado ao diálogo é inapropriado para conteúdo de áudio de não diálogo (isto é, música, efeitos ambientais, etc.) e pode resultar em artefatos audíveis censuráveis. Com o áudio adaptável, um objeto de áudio poderia conter somente o diálogo em um fragmento de conteúdo e pode ser rotulado consequentemente de modo que uma solução de renderização poderia aplicar de forma seletiva o aperfeiçoamento de diálogo somente ao conteúdo de diálogo. Adicionalmente, se o objeto de áudio é somente diálogo (e não uma mixagem de diálogo e outro conteúdo que é frequentemente o caso), então o processamento de aperfeiçoamento de diálogo pode processar o diálogo exclusivamente (limitando desse modo qualquer processamento que é realizado em qualquer outro conteúdo). De forma similar, o gerenciamento de graves (filtragem, atenuação, ganho) pode ser focado em objetos específicos com base em seu tipo. O gerenciamento de graves se refere a isolar de forma seletiva e processar somente as frequências de graves (ou inferiores) em um fragmento particular de conteúdo. Com os sistemas de áudio atuais e mecanismos de entrega, este é um processo "cego" que é aplicado a todo o áudio. Com o áudio adaptável, objetos específicos de áudio para os quais o gerenciamento de graves é apropriado podem ser identificados pelos metadados e o processamento de renderização pode ser aplicado apropriadamente.
[00098] O sistema de áudio adaptável 100 também fornece objeto baseado em compressão de alcance dinâmico e mixagem ascendente seletiva. As faixas tradicionais de áudio têm a mesma duração que o próprio conteúdo, enquanto um objeto de áudio pode ocorrer para somente uma quantidade limitada de tempo no conteúdo. Os metadados associados a um objeto pode conter informações acerca de sua média e amplitude de sinal de pico, assim como seu tempo de começo ou de ataque (particularmente para material transiente). Essas informações permitiriam que um compressor adapte melhor sua compressão e constantes de tempo (ataque, liberação, etc.) para se encaixarem melhor ao conteúdo. Para a mixagem ascendente seletiva, criadores de conteúdo podem escolher indicar no fluxo de bits de áudio adaptável se um objeto deve ser mixado ascendente ou não. Essas informações permitem que o renderizador de áudio adaptável e mixador ascendente para distinguir quais elementos de áudio podem ser mixados ascendentes de forma segura, enquanto respeita a intenção do criador.
[00099] As modalidades também permitem que o sistema de áudio adaptável selecione um algoritmo de renderização preferencial de um número de algoritmos de renderização disponíveis e/ou formatos de som em surround. Os exemplos de algoritmos de renderização disponíveis incluem: binaural, dipolo estéreo, Ambisonics, Síntese de Campo de Onda (Wave Field Synthesis - WFS), posicionamento panorâmico de múltiplos canais, troncos brutos com metadados de posição. Outros incluem equilíbrio duplo e posicionamento panorâmico de amplitude baseado em vetor.
[000100] O formato de distribuição binaural usa uma representação em dois canais de um campo de som em termos do sinal presente nos ouvidos esquerdo e direito. As informações binaurais podem ser criadas por meio de registro intra-auricular ou sintetizadas com o uso de modelos HRTF. A reprodução de uma representação binaural é feita tipicamente em fones de ouvido, ou empregando cancelamento diafônico. A reprodução em um ajuste de alto-falante arbitrário exigiria análise de sinal para determinar o campo de som associado e /ou fonte(s) de sinal.
[000101] O método de renderização de dipolo estéreo é um processo de cancelamento diafônico transaural para tornar sinais binaurais reproduzíveis em alto-falantes estéreos (por exemplo, em + e - 10 graus fora do centro).
[000102] Ambisonics é um (formato de distribuição e um método de renderização) que é codificado em uma forma de quatro canais chamada formato B. O primeiro canal, W, é o sinal de pressão não direcional; o segundo canal, X, é o gradiente de pressão direcional que contém as informações frontal e traseira; o terceiro canal, Y, contém a esquerda e direita e a Z a superior e inferior. Esses canais definem uma amostra de primeira ordem do campo de som completo em um ponto. A Ambisonics usa todos os alto-falantes disponíveis para recriar o campo de som amostrado (ou sintetizado) dentro do arranjo de alto-falante de modo que quando alguns alto-falantes são impulsionados, outros são puxados.
[000103] Síntese de Campo de Onda é um método de renderização de reprodução de som, com base na construção precisa do campo de onda desejado por fontes secundárias. WFS é baseado no princípio de Huygens e é implantado como arranjo de alto-falantes (dezenas ou centenas) que envolve o espaço de escuta e operar de modo coordenado em fase para recriar cada onda de som individual.
[000104] O posicionamento panorâmico de múltiplos canais é um formato de distribuição e/ou método de renderização e pode ser denominado como áudio baseado em canal. Nesse caso, o som é representado como um número de fontes distintas a serem reproduzidas através de um número igual de alto-falantes em ângulos definidos do ouvinte. O criador/ misturador de conteúdo pode criar imagens virtuais posicionando panoramicamente os sinais entre canais adjacentes para fornecer sugestões de direção; reflexões precoces, reverberação, etc., podem ser mixadas em muitos canais para fornecer sugestões ambientais e de direção.
[000105] Troncos brutos com metadados de posição é um formato de distribuição e também podem ser denominados como áudio baseado em objeto. Nesse formato, fontes sonoras distintas de microfone próximo são representadas junto a metadados ambientais e de posição. Fontes virtuais são renderizadas com base nos metadados e equipamento de reprodução e ambientes de escuta.
[000106] O formato de áudio adaptável é um híbrido do formato de posicionamento panorâmico de múltiplos canais e do formato de troncos brutos. O método de renderização em uma presente modalidade é o posicionamento panorâmico de múltiplos canais. Para os canais de áudio, a renderização (posicionamento panorâmico) acontece em tempo de autoria, enquanto para os objetos, a renderização (posicionamento panorâmico) acontece em reprodução.
[000107] Conforme declarado acima, os metadados são gerados durante o estágio de criação para codificar determinadas informações posicionais para os objetos de áudio e para acompanhar um programa de áudio para auxiliar na renderização do programa de áudio e em particular, para descrever o programa de áudio de um modo que habilite a renderização do programa de áudio em uma ampla variedade de equipamentos de reprodução e ambientes de reprodução. Os metadados são gerados para um dado programa e os editores e misturadores que criam, coletam, editam e manipulam o áudio durante a pós-produção. Um recurso importante do formato de áudio adaptável é a capacidade de controlar como o áudio traduzirá aos sistemas de reprodução e ambientes que divergem do ambiente de mixagem. Em particular, um dado cinema pode ter menos capacidades do que o ambiente de mixagem.
[000108] O renderizador de áudio adaptável é projetado para fazer melhor uso do equipamento disponível para recriar a intenção do misturador. Além disso, as ferramentas de autoria de áudio adaptável permitem que o misturador pré-visualize e ajuste como a mixagem será renderizada em uma variedade de configurações de reprodução. Todos os valores de metadados podem ser condicionados no ambiente de reprodução e configuração de alto-falante. Por exemplo, um nível diferente de mixagem para um dado elemento de áudio pode ser especificado com base na configuração ou modo de reprodução. Em uma modalidade, a lista de modos de reprodução condicionados é extensível e inclui o seguinte: (1) reprodução somente baseada em canal: 5.1, 7.1, 7.1 (altura), 9.1; e (2) reprodução de alto-falante distinto: 3D, 2D (sem altura).
[000109] Em uma modalidade, os metadados controlam ou ditam diferentes aspectos do conteúdo de áudio adaptável e é organizado com base em diferentes tipos que incluem: metadados de programa, metadados de áudio e metadados de renderização (para canal e objeto). Cada tipo de metadados inclui um ou mais itens de metadados que fornecem valores para características que são referenciadas por um identificador (ID). A Figura 5 é uma tabela que lista os tipos de metadados e elementos de metadados associados para o sistema de áudio adaptável, em uma modalidade.
[000110] Conforme mostrado na tabela 500 da Figura 5, o primeiro tipo de metadados é metadados de programa, que inclui elementos de metadados que especificam a taxa de quadro, contagem de faixa, descrição de canal extensível e a descrição de estágio de mixagem. O elemento de metadados de taxa de quadro especifica a taxa dos quadros de conteúdo de áudio em unidades de quadros por segundo (fps). O formato de áudio bruto não precisa incluir enquadramento do áudio ou metadados visto que o áudio é fornecido como faixas completas (duração de um rolo ou recurso inteiro) ao invés de segmentos de áudio (duração de um objeto). O formato bruto não precisa carregar todas as informações exigidas para habilitar o codificador de áudio adaptável a enquadrar o áudio e metadados, incluindo a taxa de quadro real. A tabela 1 mostra a ID, valores exemplificadores e a descrição do elemento de metadados de taxa de quadro. TABELA 1
[000111] O elemento de metadados de contagem de faixa indica o número de faixas de áudio em um quadro. Um decodificador/processador de áudio adaptável exemplificador pode suportar até 128 faixas de áudio simultâneas, enquanto o formato de áudio adaptável suportará qualquer número de faixas de áudio. A tabela 2 mostra a ID, valores exemplificadores e a descrição do elemento de metadados de contagem de faixa. TABELA 2
[000112] O áudio baseado em canal pode ser atribuído aos canais não padrão e o elemento de metadados de descrição de canal extensível habilita as mixagens a usarem novas posições de canal. Para cada canal de extensão os seguintes metadados devem ser fornecidos conforme mostrado na tabela 3: TABELA 3
[000113] Os elementos de metadados de descrição de estágio de mixagem especifica a frequência na qual um alto-falante particular produz metade da potência da banda de passagem. A tabela 4 mostra a ID, valores exemplificadores e a descrição do elemento de metadados de descrição de estágio de mixagem, em que LF = Baixa Frequência; HF = Alta Frequência; 3dB point = borda de banda de passagem de alto- falante. TABELA 4
[000114] Conforme mostrado na Figura 5, o segundo tipo de metadados é metadados de áudio. Cada elemento de áudio baseado em canal ou baseado em objeto consiste em essência de áudio e metadados. A essência de áudio é um fluxo de áudio monofônico carregado em uma de muitas faixas de áudio. Os metadados associados descrevem como a essência de áudio é armazenada (metadados de áudio, por exemplo, taxa de amostra) ou como a mesma deve ser renderizada (metadados de renderização, por exemplo, posição de fonte de áudio desejada). Em geral, as faixas de áudio são contínuas através da duração do programa de áudio. O editor ou mixador de programa é responsável por atribuir elementos de áudio às faixas. Espera-se que o uso de faixa seja esparso, isto é, o uso de faixa simultânea média pode ser somente de 16 a 32. Em uma implantação típica, o áudio será transmitido de forma eficiente com o uso de um codificador sem perdas. No entanto, implantações alternativas são possíveis, por exemplo, transmitir dados de áudio não codificado ou dados de áudio codificados sem perdas. Em uma implantação típica, o formato consiste em até 128 faixas de áudio em que cada faixa tem uma única taxa de amostra e um único sistema de codificação. Cada faixa dura a duração do recurso (nenhum suporte de bobina explícito). O mapeamento de objetos às faixas (multiplexação de tempo) é a responsabilidade do criador de conteúdo (mixador).
[000115] Conforme mostrado na Figura 3, os metadados de áudio incluem os elementos de taxa de amostra, profundidade de bit e sistemas de codificação. A tabela 5 mostra a ID, valores exemplificadores e a descrição do elemento de metadados de taxa de amostra. TABELA 5
[000116] Tabela 6 mostra a ID, valores exemplificadores e a descrição do elemento de metadados de profundidade de bit (para PCM e compressão sem perda). TABELA 6
[000117] Tabela 7 mostra a ID, valores exemplificadores e a descrição do elemento de metadados de sistema de codificação. TABELA 7
[000118] Conforme mostrado na Figura 5, o terceiro tipo de metadados é metadados de renderização. A metadados de renderização especifica valores que ajuda o renderizador a combinar tão próximo quanto possível à intenção do misturador original independente do ambiente de reprodução. O conjunto de elementos de metadados é diferente para o áudio baseado em canal e áudio baseado em objeto. Um primeiro campo de metadados de renderização seleciona entre os dois tipos de áudio - à base de canal ou à base de objeto, conforme mostrado na tabela 8. TABELA 8
[000119] Os metadados de renderização para o áudio baseado em canal compreende um elemento de metadados de posição que especifica a posição de fonte de áudio como uma ou mais posições de alto-falante. A tabela 9 mostra a ID e os valores para o elemento de metadados de posição para o caso da base de canal. TABELA 9
[000120] Os metadados de renderização para o áudio baseado em canal também compreende um elemento de controle de renderização que especifica determinadas características em relação à reprodução de áudio baseado em canal, conforme mostrado na tabela 10. TABELA 10
[000121] Para áudio baseado em objeto, os metadados incluem elementos análogos como para o áudio baseado em canal. A tabela 11 fornece a ID e os valores para o elemento de metadados de posição de objeto. A posição de objeto é descrita em uma das três formas: coordenadas tridimensionais; um plano e coordenadas bidimensionais; ou uma linha e uma coordenada unidirecional. O método de renderização pode adaptar com base no tipo de informações de posição. TABELA 11
[000122] A ID e os valores para os elementos de metadados de controle de renderização de objeto são mostrados na tabela 12. Esses valores fornecem meios adicionais para controlar ou otimizar renderização para áudio baseado em objeto. TABELA 12
[000123] Em uma modalidade, os metadados descritos acima e ilustrados na Figura 5 são gerados e armazenados como um ou mais arquivos que são associados ou indexados com conteúdo de áudio correspondente de modo que os fluxos de áudio sejam processados pelo sistema de áudio adaptável que interpreta os metadados gerados pelo misturador. Deve-se observar que os metadados descritos acima são um conjunto de IDs exemplificadoras, valores e definições e outros elementos ou elementos adicionais de metadados podem ser incluídos para uso no sistema de áudio adaptável.
[000124] Em uma modalidade, dois (ou mais) conjuntos de elementos de metadados são associados a cada um dos fluxos de áudio baseados em canais e objetos. Um primeiro conjunto de metadados é aplicado à pluralidade de faixas de áudio para uma primeira condição do ambiente de reprodução e um segundo conjunto de metadados é aplicado à pluralidade de fluxos de áudio para uma segunda condição do ambiente de reprodução. O segundo conjunto ou conjunto de elementos de metadados subsequente substitui o primeiro conjunto de elementos de metadados para um dado fluxo de áudio com base na condição do ambiente de reprodução. A condição pode incluir fatores tais como tamanho da sala, formato, composição de material dentro da sala, presente ocupação e densidade de pessoas na sala, características de ruído ambiente, características de luz ambiente e qualquer outro fator que possa afetar o som ou mesmo o clima do ambiente de reprodução.
[000125] O estágio de renderização 110 do sistema de processamento de áudio adaptável 100 pode incluir etapas de pós- produção de áudio que induzem à criação de uma mixagem final. Em uma aplicação de cinema, as três categorias principais de som usados em uma mixagem de filme são diálogo, música e efeitos. Os efeitos consistem em sons que não são diálogo ou música (por exemplo, som ambiente, ruído de fundo/cena). Os efeitos sonoros podem ser registrados ou sintetizados pelo projetista de som ou os mesmos podem ser oriundos de bibliotecas de efeitos. Um subgrupo de efeitos que envolvem fontes de ruído específicas (por exemplo, passos, portas, etc.) é conhecido como Foley e são realizados por atores de Foley. Os diferentes tipos de som são marcados e panoramicamente posicionados consequentemente pelos engenheiros de gravação.
[000126] A Figura 6 ilustra um fluxo de trabalho exemplificador para um processo de pós-produção em um sistema de áudio adaptável, em uma modalidade. Conforme mostrado no diagrama 600, todos os componentes de som individuais de música, diálogo, Foley e efeitos são reunidos no cinema de dublagem durante a mixagem final 606 e o(s) misturador(es) de regravação 604 usa(m) as pré-mixagens (também conhecidas como ‘mixagem menos’) junto aos objetos de som individuais e dados de posicionamento para criar troncos como uma forma de agrupamento, por exemplo, diálogo, música, efeitos, Foley e sons de fundo. Adicionalmente à formação da mixagem final 606, a música e todos os troncos de efeitos podem ser usados como uma base para criar versões de linguagem dublada do filme. Cada tronco consiste em um leito baseado em canal e diversos objetos de áudio com metadados. Os troncos se combinam para formar a mixagem final. Com o uso de informações de posicionamento panorâmico de objeto tanto da estação de áudio quanto do console de mixagem, a renderização e unidade de masterização 608 renderiza o áudio aos locais de alto- falante no cinema de dublagem. Essa renderização permite que os misturadores ouçam como os leitos baseados em canal e objetos de áudio combinam e também fornece a capacidade de renderizar à diferentes configurações. O misturador pode usar metadados condicionais, que omitem a perfis relevantes, para controlar como o conteúdo é renderizado aos canais de surround. Dessa forma, os misturadores retém controle completo de como o filme é reproduzido em todos os ambientes escalonáveis. Uma etapa de monitoramento pode ser incluída após qualquer ou ambos as etapa de regravação 604 e a etapa de mixagem final 606 para permitir que o misturador ouça e avalie o conteúdo intermediário gerado durante cada um dos estágios.
[000127] Durante a sessão de masterização, os troncos, objetos e metadados são reunidos em um pacote de áudio adaptável 614, que é produzido pelo "printmaster" 610. Esse pacote também contém a mixagem de cinema de som surround 612 retrocompatível (legado 5.1 ou 7.1). A unidade de renderização/masterização (RMU) 608 pode renderizar essa saída se for desejado; eliminando assim a necessidade de quaisquer etapas de fluxo de trabalho adicional em gerar entregáveis baseados em canal existentes. Em uma modalidade, os arquivos de áudio são empacotados com o uso de encapsulamento de Formato de Troca de Material (MXF) padrão. O arquivo mestre de mixagem de áudio adaptável também pode ser usado para gerar outros entregáveis, tais como mixagens de múltiplos canais ou estéreo de consumidor. Os perfis inteligentes e metadados condicionais permitem renderizações controladas que podem reduzir significativamente o tempo exigido para criar tais mixagens.
[000128] Em uma modalidade, um sistema de empacotamento pode ser usado para criar um pacote de cinema digital para os entregáveis incluindo uma mixagem de áudio adaptável. Os arquivos de faixa de áudio podem ser travados em conjunto para ajudar a evitar erros de sincronização com os arquivos de faixa de áudio adaptável. Determinados territórios exigem a adição de arquivos de faixa durante a fase de empacotamento, por exemplo, a adição de faixas de Deficiência Auditiva (HI) ou Narração Visualmente Deficiente (VI-N) ao arquivo de faixa de áudio principal.
[000129] Em uma modalidade, o arranjo de alto-falante no ambiente de reprodução pode compreender qualquer número de alto-falantes de som surround colocados e designados em concordância com os padrões de som surround estabelecidos. Qualquer número de alto- falantes adicionais para renderização precisa do conteúdo de áudio baseado em objeto também podem ser colocados com base na condição do ambiente de reprodução. Esses alto-falantes adicionais podem ser ajustados por um engenheiro de som e esse ajuste é fornecido ao sistema na forma de um arquivo de ajuste que é usado pelo sistema para renderizar os componentes baseados em objeto do áudio adaptável a um alto-falante ou alto-falantes específicos dentro do arranjo de alto-falante geral. O arquivo de ajuste inclui pelo menos uma lista de designações de alto-falante e um mapeamento de canais para alto-falantes individuais, informações relacionadas a agrupamento de alto-falantes e um mapeamento de tempo de execução com base em uma posição relativa de alto-falantes ao ambiente de reprodução. O mapeamento de tempo de execução é utilizado por um ajuste ao recurso do sistema que renderiza conteúdo de áudio baseado em objeto de fonte de ponto a um alto-falante específico que está mais próximo ao local percebido do som conforme pretendido pelo engenheiro de som.
[000130] A Figura 7 é um diagrama de um fluxo de trabalho exemplificador para um processo de pacote de cinema digital com o uso de arquivos áudio adaptável, em uma modalidade. Conforme mostrado no diagrama 700, os arquivos de áudio que compreendem ambos os arquivos áudio adaptável e os 5.1 ou 7.1 arquivos de áudio de som surround são inseridos em um bloco de encapsulamento/encriptação 704. Em uma modalidade, mediante criação do pacote de cinema digital em bloco 706, o arquivo PCM MXF (com faixas adicionais apropriadas anexadas) é criptografado com o uso de especificações SMPTE em concordância com a prática existente. O áudio adaptável MXF é empacotado como um arquivo de faixa auxiliar e é opcionalmente criptografado com o uso de uma chave de conteúdo simétrico pela especificação SMPTE. Esse único DCP 708 pode ser então entregue a qualquer servidor compatível de Iniciativa de Cinema Digital (Digital Cinema Initiatives - DCI). Em geral, quaisquer instalações que não são adequadamente equipadas irão simplesmente ignorar o arquivo de faixa adicional que contém a trilha sonora de áudio adaptável e usará o arquivo de faixa de áudio principal existente para reprodução padrão. As instalações equipadas com processadores apropriados de áudio adaptável poderão ingerir e reproduzir a trilha sonora de áudio adaptável onde for aplicável, revertendo à faixa de áudio padrão conforme necessário. O componente de encapsulamento/encriptação 704 também pode fornecer entrada diretamente a um bloco KDM de distribuição 710 para gerar uma chave de segurança apropriada para uso no servidor de cinema digital. Outros elementos ou arquivos de filme, tais como legendas 714 e imagens 716 podem ser encapsulados e criptografados junto aos arquivos de áudio 702. Nesse caso, determinadas etapas de processamento podem ser incluídas, tais como compressão 712 no caso de arquivos de imagem 716.
[000131] Em relação ao gerenciamento de conteúdo, o sistema de áudio adaptável 100 permite que o criador de conteúdo crie objetos de áudio individuais e adicione informações acerca do conteúdo que pode ser transportado ao sistema de reprodução. Isso permite uma grande quantidade de flexibilidade no gerenciamento de conteúdo de áudio. A partir de um ponto de vista de gerenciamento de conteúdo, os métodos de áudio adaptável habilitam diversos recursos diferentes. Esses incluem mudar a linguagem de conteúdo substituindo somente o objeto de diálogo para economia de espaço, eficiência de transferência por download, adaptação de reprodução geográfica, etc. Filme, televisão e outros programas de entretenimento são tipicamente distribuídos internacionalmente. Isso exige frequentemente que a linguagem no fragmento de conteúdo seja mudada dependendo de onde o mesmo será reproduzido (Francês para filmes que são mostrados na França, Alemão para programas de TV que são mostrados na Alemanha, etc.). Hoje em dia, isso exige frequentemente uma trilha sonora de áudio completamente independente seja criada, empacotada e distribuída. Com o áudio adaptável e seu conceito inerente de objetos de áudio, o diálogo para um fragmento de conteúdo poderia ser um objeto de áudio independente. Isso permite que a linguagem do conteúdo seja facilmente mudada sem atualizar ou alterar outros elementos da trilha sonora de áudio tais como música, efeitos, etc. Isso não somente se aplicaria às linguagens estrangeiras, mas também linguagem inapropriada para determinados públicos (por exemplo, shows de televisão para crianças, filmes de companhias aéreas, etc.), publicidade orientada e assim por diante.
[000132] O formato de arquivo de áudio adaptável e processadores associados permite mudanças em como o equipamento de cinema é instalado, calibrado e mantido. Com a introdução de saídas de alto- falante muito mais potenciais, cada uma individualmente equalizada e equilibrada, há uma necessidade de equalização de sala automática inteligente e eficaz, que pode ser realizada através da capacidade de ajustar manualmente qualquer equalização de sala automatizada. Em uma modalidade, o sistema de áudio adaptável usa um mecanismo de equalização de banda de oitava1/12° otimizado. Até 64 saídas podem ser processadas para equilibrar mais precisamente o som no cinema. O sistema também permite monitoramento programado das saídas individuais de alto-falante, da saída de processador de cinema diretamente o até o som reproduzido no auditório. Os alertas locais e de rede podem ser criados para garantir que ação apropriada seja tomada. O sistema de renderização flexível pode remover automaticamente um alto-falante ou amplificador danificado da cadeia de reprodução e renderizar em torno da mesma, permitindo então que a exibição continue.
[000133] O processador de cinema pode ser conectado ao servidor de cinema digital com conexões principais de áudio8xAES existentes e uma conexão de Ethernet para fluir dados de áudio adaptável. A reprodução de conteúdo surround 7.1 ou 5.1 usa as conexões PCM existentes. Os dados de áudio adaptável são fluidos em Ethernet ao processador de cinema para decodificação e renderização e comunicação entre o servidor e o processador de cinema permite que o áudio seja identificado e sincronizado. No evento de qualquer problema com a reprodução de faixa de áudio adaptável, o som é revertido de volta ao áudio Dolby Surround 7.1 ou 5.1 PCM áudio.
[000134] Embora modalidades tenham sido descritas em relação a 5.1 e 7.1 sistemas de som surround, deve-se observar que muitas outras configurações presentes e futuras podem ser usadas em conjunto com as modalidades incluindo 9.1, 11.1 e 13.1 e além.
[000135] O sistema de áudio adaptável é projetado para permitir que tanto criadores de conteúdo quanto exibidores decidam como o conteúdo de som deve ser renderizado em diferentes configurações de alto-falante de reprodução. O número ideal de canais de saída de alto- falante usados cariará de acordo com o tamanho da sala. Desse modo, a instalação recomendada de alto-falante depende de muitos fatores, tais como tamanho, composição, configuração de assento, ambiente, média de tamanhos de público e assim por diante. Configurações exemplificadoras ou representativas de alto-falante e gabaritos são fornecidas no presente documento somente para fins de ilustração e não são destinadas a limitar o escopo de nenhuma modalidade reivindicada.
[000136] O gabarito recomendado de alto-falantes para um sistema de áudio adaptável permanece compatível com sistemas de cinema existentes, o que é vital de modo a não comprometer a reprodução de formatos com base em canal 5.1 e 7.1 existentes. No intuito de preservar a intenção do engenheiro de som de áudio adaptável, e a intenção de misturadores de conteúdo de 7.1 e 5.1, as posições de canais de tela existentes não devem ser alteradas muito radicalmente em um esforço para elevar ou acentuar a introdução de novas localizações de alto-falante. Em contraste a usar todos os 64 canais de saída disponíveis, o formato de áudio adaptável é capaz de ser renderizado de modo preciso no cinema para configurações de alto- faltante tal como 7.1, de modo a permitir que até mesmo o formato (e benefícios associados) a ser usado em salas de cinema existentes com nenhuma alteração em amplificadores ou alto-falantes.
[000137] Localizações de alto-falante diferentes podem ter eficácia diferente dependendo do projeto de sala de cinema, assim não há no presente número ideal especificado de indústria ou atribuição de canais. O áudio adaptável é destinado a ser verdadeiramente adaptável e capaz de reprodução precisa em uma variedade de auditórios, seja se o mesmo tem um número limitado de canais de reprodução ou muitos canais com configurações altamente flexíveis.
[000138] A Figura 8 é uma vista aérea 800 de um gabarito exemplificativo de localizações de alto-falante sugeridas para uso com um sistema de áudio adaptável em um auditório típico, e a Figura 9 é uma vista frontal 900 do gabarito exemplificativo de localizações de alto- falante sugeridas na tela do auditório. A posição de referência referida doravante no presente documento corresponde a uma posição 2/3 da distância para trás da tela à parede traseira, na linha central da tela. Os alto-falantes de tela padrões 801 são mostrados em suas posições comuns em relação à tela. Estudos da percepção de elevação no plano de tela mostraram que alto-falantes adicionais 804 por trás da tela, tal como alto-falantes de tela Central Esquerdo (Lc) e Central Direito (Rc) (nas localizações de canais Extra Esquerdo e Extra Direito em formatos de filme de 70 mm), podem ser benéficos na criação de posicionamentos panorâmicos mais suaves através da tela. Tais alto- falantes opcionais, particularmente em auditoria com telas maiores que 12 m (40 ft.) de largura são, assim, recomendados. Todos os alto- falantes de tela devem ser angulados de modo que os mesmos sejam almejados em direção à posição de referência. A atribuição recomendada do subwoofer 810 por trás da tela deve permanecer inalterada, o que inclui manter atribuição de gabinete assimétrica, em relação ao centro da sala, para prevenir estimulação de ondas estacionárias. Subwoofers adicionais 816 podem ser atribuídos na parte traseiro da sala de cinema.
[000139] Os alto-falantes do tipo surround 802 devem ser ligados com fio individualmente atrás do cabide amplificador, e serem amplificados individualmente onde possível com um canal dedicado de amplificação de potência que corresponde à administração de potência do alto- falante de acordo com as especificações do fabricante. Idealmente, alto- falantes do tipo surround devem ser especificados para administrar um SPL aumentado para cada alto-falante individual, e do mesmo modo com resposta de frequência mais ampla onde possível. Como uma regra geral para uma sala de cinema de tamanho médio, o distanciamento de alto-falantes do tipo surround devem ser entre 2 e 3 m (6’6" e 9’9"), com alto-falantes do tipo surround esquerdo e direito atribuídos simetricamente. No entanto, o distanciamento de alto-falantes do tipo surround é mais eficazmente considerado como ângulos subtendidos a partir de um dado ouvinte entre alto-falantes adjacentes, como oposto a usar distâncias absolutas entre alto-falantes. Para reprodução ótima por todo o auditório, a distância angular entre alto-falantes adjacentes deve ser de 30 graus ou menos, referenciada a partir de cada um dos quatro cantos da área de escuta principal. Bons resultados podem ser conseguidos com o distanciamento de até 50 graus. Para cada zona de surround, os alto-falantes devem manter distanciamento linear igual adjacente à área de assento onde possível. O distanciamento linear além da área de escuta, por exemplo, entre a fileira frontal e a tela, pode ser levemente maior. A Figura 11 é um exemplo de um posicionamento de alto-falantes do tipo surround de topo 808 e alto-falantes do tipo surround laterais 806 em relação à posição de referência, sob uma modalidade.
[000140] Os alto-falantes do tipo surround laterais adicionais 806 devem ser montados mais próximos À tela que a prática recomendada atualmente para iniciar aproximadamente um terço da distância para a parte posterior do auditório. Esses alto-falantes não são usados como surrounds laterais durante a reprodução de trilhas sonoras por Dolby Surround 7.1 ou 5.1, mas irá habilitar transição suave e timbre aprimorado que correspondem quando posicionar panoramicamente objetos a partir dos alto-falantes de tela para as zonas de surround. Para maximizar a impressão de espaço, os arranjos de surround devem ser atribuídos tão baixos quanto prático, sujeitos às seguintes restrições: a atribuição vertical de alto-falantes do tipo surround na frente do arranjo deve ser razoavelmente próxima à altura de centro acústico de alto- falante de tela, e alto o suficiente para manter boa cobertura através da área de assento de acordo com a diretividade do alto-falante. A atribuição vertical dos alto-falantes do tipo surround deve ser de modo que os mesmos forem uma linha reta de frente para trás, e (tipicamente) inclinada para cima de modo que a elevação relativa dos alto-falantes do tipo surround acima dos ouvintes seja mantida em direção à parte posterior do cinema conforme a elevação de assento aumenta, conforme mostrado na Figura 10, que é uma vista lateral de um gabarito exemplificativo de localizações de alto-falante sugeridas para uso com um sistema de áudio adaptável no auditório típico. Em prática, isso pode ser conseguido mais simplesmente escolhendo-se a elevação para os alto-falantes do tipo surround laterais mais frontal e mais traseiro, e atribuir os alto-falantes restantes em uma linha entre esses pontos.
[000141] No intuito de fornecer cobertura ótima para cada alto-falante sobre a área de assento, o surround lateral 806 e os alto-falantes traseiros 816 e surrounds de topo 808 devem ser almejados em direção à posição de referência na sala de cinema, sob diretrizes definidas em relação a distanciamento, posição, ângulo, e assim por diante.
[000142] Modalidades do formato e sistema de cinema de áudio adaptável conseguem níveis aprimorados de imersão e envolvimento de audiência sobre os sistemas presentes oferecendo-se ferramentas de autoria novas potentes para misturadores, e um novo processador de cinema que apresenta um motor de renderização flexível que otimiza a qualidade de áudio e efeitos de surround da trilha sonora para cada gabarito e características de alto-falante do quarto. Adicionalmente, o sistema mantém compatibilidade retroativa e minimiza o impacto nos fluxos de trabalho produção e distribuição atual.
[000143] Embora modalidades tenham sido descritas em relação a exemplos e implantações em um ambiente de cinema em que o conteúdo de áudio adaptável é associado a conteúdo de filme para uso em sistemas de processamento de cinema digital, deve ser observado que as modalidades também podem ser implantadas em ambientes de não cinema. O conteúdo de áudio adaptável que compreende áudio com base em objeto e áudio com base em canal pode ser usado em conjunção com qualquer conteúdo relacionado (áudio associado, vídeo, gráfico, etc.), ou o mesmo pode constituir conteúdo de áudio independente. O ambiente de reprodução pode ser qualquer ambiente de escuta apropriado a partir de fones de ouvido ou monitores de campo próximo para salas pequenas ou grandes, carros, arenas em ar aberto, salões de concerto, e assim por diante.
[000144] Aspectos do sistema 100 podem ser implantados em um ambiente de rede de processamento de som com base em computador apropriado para processar arquivos de áudio digital ou digitalizados. Porções do sistema de áudio adaptável podem incluir uma ou mais redes que compreendem qualquer número desejado de máquinas individuais, o que inclui um ou mais roteadores (não mostrados) que servem para armazenar temporariamente e rotear os dados transmitidos dentre os computadores. Tal rede pode ser construída em vários protocolos de rede diferentes, e pode ser a Internet, uma Rede de Área Ampla (WAN), uma Rede de Área Local (LAN), ou qualquer combinação dos mesmos. Em uma modalidade em que a rede compreende a Internet, uma ou mais máquinas podem ser configuradas para acessar a Internet através de programas de navegador da web.
[000145] Um ou mais dos componentes, blocos, processos ou outros componentes funcionais podem ser implantados através de um programa de computador que controla execução de um dispositivo de computação com base em processador do sistema. Também deve ser observado que as várias funções reveladas no presente documento podem ser descritas com o uso de qualquer número de combinações de hardware, firmware, e/ou como dados e/ou instruções incorporadas em vários meios legíveis por máquina ou legíveis por computador, em termos de seu componente de lógica, transferência de registro, comportamental, e/ou outras características. Meios legíveis por computador em que tais instruções e/ou dados formatados podem ser incorporadas incluem, porém sem limitação, meios de armazenamento físicos (não transitórios) não voláteis em várias formas, tais como meios de armazenamento ópticos, magnéticos ou semicondutores.
[000146] A menos que o contexto claramente solicite de outro modo, por toda a descrição e as reivindicações, as palavras "compreende,""que compreende," e similares devem ser interpretadas em um sentido inclusiva, como oposto a um sentido exclusivo exclusive ou excludente; ou seja, em um sentido de "que inclui, porém sem limitação". Palavras que usam o número singular ou plural também incluem o número plural ou singular respectivamente. Adicionalmente, as palavras "no presente documento", "abaixo no presente documento", "acima", "abaixo" e palavras de significado similar se referem a este pedido como um todo e não a quaisquer porções em particular deste pedido. Quando a palavra "ou"é usada em referência a uma lista de dois ou mais itens, aquela palavra cobre todas as seguintes interpretações da palavra: qualquer um dos itens na lista, todos os itens na lista e qualquer combinação dos itens na lista.
[000147] Embora uma ou mais implantações tenham sido descritas por meio de exemplo e em termos das modalidades específicas, deve ser entendido que uma ou mais implantações não são limitadas às modalidades reveladas. Pelo contrário, é destinada a cobrir várias modificações e arranjos similares como seria aparente para aqueles versados na técnica. Portanto, o escopo das reivindicações anexas deve ser acordado à interpretação mais ampla de modo a englobar todas as tais modificações e arranjos similares.
Claims (18)
1. Sistema para processamento de sinais de áudio caracterizado pelo fato de que compreende um componente de autoria configurado para: receber uma pluralidade de sinais de áudio; gerar uma mixagem de áudio adaptável compreendendo uma pluralidade de fluxos de áudio monofônicos e metadados associados a cada um dos fluxos de áudio e indicando um local de reprodução de um respectivo fluxo de áudio monofônico, em que pelo menos parte da pluralidade de fluxos de áudio monofônicos é identificada como áudio baseado em canal e os outros da pluralidade de fluxos de áudio monofônicos são identificados como áudio baseado em objeto, e em que o local de reprodução de um fluxo de áudio monofônico baseado em canal compreende uma designação de um alto-falante em uma matriz de alto-falantes, e o local de reprodução de um fluxo de áudio monofônico baseado em objeto compreende um local em espaço tridimensional, e em que cada fluxo de áudio monofônico baseado em objeto é renderizado em pelo menos um alto-falante específico da matriz de alto-falante; e encapsular a pluralidade de fluxos de áudio monofônicos e os metadados em um fluxo de bits para transmissão a um sistema de renderização configurado para renderizar a pluralidade de fluxos de áudio monofônicos a uma pluralidade de alimentações de alto-falante correspondentes a alto-falantes em um ambiente de reprodução, em que os alto-falantes da matriz de alto-falantes são colocados em posições específicas dentro do ambiente de reprodução, e em que elementos de metadados associados a cada fluxo de áudio monofônico baseado em objeto indicam se é proibido renderizar o fluxo de áudio monofônico respectivo em uma ou mais alimentações específicas de alto-falante da pluralidade de alimentações de alto-falantes, de modo que o respectivo fluxo de áudio monofônico baseado em objeto não é renderizado em nenhuma das uma ou mais alimentações de alto-falante específicas da pluralidade de alimentações de alto-falante.
2. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que o componente de autoria inclui um console de mixagem com controles operáveis por um usuário para indicar níveis de reprodução da pluralidade de fluxos de áudio monofônicos e em que os elementos de metadados associados a cada fluxo de objeto são gerados automaticamente após a entrada nos controles do console de mixagem pelo usuário.
3. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que compreende ainda um codificador acoplado ao componente de autoria e configurado para receber a pluralidade de fluxos de áudio monofônicos e metadados e gerar um único fluxo de bits digital contendo a pluralidade de fluxos de áudio monofônicos de maneira ordenada.
4. Sistema para processamento de sinais de áudio, caracterizado pelo fato de que compreende um sistema de renderização configurado para: receber um fluxo de bits encapsulando uma mixagem de áudio adaptativo compreendendo uma pluralidade de fluxos de áudio monofônicos e metadados associados com cada um dos fluxos de áudio e indicando um local de reprodução de uma respectiva sequência de áudio monofônicos, em que, pelo menos, alguns da pluralidade de fluxos de áudio monofônicos são identificados como áudio baseado em canal e os outros da pluralidade de fluxos de áudio monofônicos são identificados como áudio baseado em objeto, e em que o local de reprodução de um fluxo de áudio monofônico baseado em canal compreende uma designação de um alto-falante em uma matriz de alto- falantes e o local de reprodução de um fluxo de áudio monofônico baseado em objeto compreende um local em espaço tridimensional e em que cada fluxo de áudio monofônico baseado em objeto é renderizado em pelo menos um alto-falante específico da matriz de alto- falante; e renderizar a pluralidade de fluxos de áudio monofônicos para uma pluralidade de alimentações de alto-falante correspondentes aos alto-falantes em um ambiente de reprodução, em que os alto-falantes da matriz de alto-falantes são colocados em posições específicas dentro do ambiente de reprodução e em que elementos de metadados associados a cada respectivo monofônico baseado em objeto fluxo de áudio indica se é proibido renderizar o respectivo fluxo de áudio monofônico em uma ou mais alimentações específicas de alto-falante da pluralidade de alimentações de alto-falante, de modo que o respectivo fluxo de áudio monofônico baseado em objeto não seja renderizado em nenhuma das uma ou mais alimentações específicas de alto-falante da pluralidade de alimentações dos alto-falantes.
5. Sistema, de acordo com a reivindicação 4, caracterizado pelo fato de que os um ou mais alto-falantes específicos alimentados nos quais é proibida a renderização do respectivo fluxo de áudio monofônico incluem um ou mais alto-falantes ou zonas de alto-falante nomeados.
6. Sistema, de acordo com a reivindicação 5, caracterizado pelo fato de que os um ou mais alto-falantes nomeados ou zonas de alto-falante incluem um ou mais de L, C, e R.
7. Sistema, de acordo com a reivindicação 4, caracterizado pelo fato de que os um ou mais alto-falantes específicos alimentados nos quais é proibida a renderização do respectivo fluxo de áudio monofônico incluem uma ou mais áreas de alto-falante.
8. Sistema, de acordo com a reivindicação 7, caracterizado pelo fato de que as uma ou mais áreas de alto-falante incluem um ou mais dentre: parede frontal, parede traseira, parede esquerda, parede direita, teto, piso e alto-falantes dentro da sala.
9. Sistema, de acordo com a reivindicação 4, caracterizado pelo fato de que os elementos de metadados associados a cada fluxo de áudio monofônico baseado em objeto indicam ainda parâmetros espaciais que controlam a reprodução de um componente de som correspondente compreendendo um ou mais dentre: posição do som, largura do som e velocidade do som.
10. Sistema, de acordo com a reivindicação 4, caracterizado pelo fato de que o local de reprodução para cada uma da pluralidade de fluxos de áudio monofônicos baseados em objeto compreende uma posição espacial em relação a uma tela dentro de um ambiente de reprodução ou uma superfície que encerra o ambiente de reprodução e em que a superfície compreende um plano frontal, plano traseiro, plano esquerdo, plano direito, plano superior e plano inferior.
11. Sistema, de acordo com a reivindicação 4, caracterizado pelo fato de que o sistema de renderização seleciona um algoritmo de renderização utilizado pelo sistema de processamento, o algoritmo de renderização selecionado a partir do grupo que consiste em: binaural, dipolo estéreo, Ambisonics, Síntese de Campo de Onda (WFS), posicionamento panorâmico de múltiplos canais, troncos brutos com metadados de posição, equilíbrio duplo e posicionamento panorâmico de amplitude baseado em vetor.
12. Sistema, de acordo com a reivindicação 4, caracterizado pelo fato de que o local de reprodução para cada uma da pluralidade de fluxos de áudio monofônicos baseados em objetos é especificado independentemente em relação a um quadro de referência egocêntrico ou um quadro de referência alocêntrico, em que o quadro de referência egocêntrico é tomado em relação a um ouvinte no ambiente de reprodução e em que o quadro de referência alocêntrico é obtido com relação a uma característica do ambiente de reprodução.
13. Método para autorizar sinais de áudio para renderização, caracterizado pelo fato de que compreende as etapas de: receber uma pluralidade de sinais de áudio; gerar uma mixagem de áudio adaptável compreendendo uma pluralidade de fluxos de áudio monofônicos e metadados associados a cada um dos fluxos de áudio e indicando um local de reprodução de um respectivo fluxo de áudio monofônico, em que pelo menos parte da pluralidade de fluxos de áudio monofônicos é identificada como áudio baseado em canal e os outros da pluralidade de fluxos de áudio monofônicos são identificados como áudio baseado em objeto e em que o local de reprodução de áudio baseado em canal compreende designações de alto-falantes de alto-falantes em uma matriz de alto-falantes, e o local de reprodução do áudio baseado em objeto compreende uma localização em espaço tridimensional e em que cada fluxo de áudio monofônico baseado em objeto é renderizado em pelo menos um alto-falante específico da matriz de alto-falante; e encapsular a pluralidade de fluxos de áudio monofônicos e os metadados em um fluxo de bits para transmissão a um sistema de renderização configurado para renderizar a pluralidade de fluxos de áudio monofônicos a uma pluralidade de alimentações de alto-falante correspondentes aos alto-falantes em um ambiente de reprodução, em que os alto-falantes da matriz de alto-falantes são colocados em posições específicas dentro do ambiente de reprodução, e em que elementos de metadados associados a cada fluxo de áudio monofônico baseado em objeto indicam se é proibido renderizar o fluxo de áudio monofônico respectivo em uma ou mais alimentações específicas de alto-falante da pluralidade de alimentações de alto-falantes, de modo que o respectivo fluxo de áudio monofônico baseado em objeto não é renderizado em nenhuma das uma ou mais alimentações de alto-falante específicas da pluralidade de alimentações de alto-falante.
14. Método para renderizar sinais de áudio, caracterizado pelo fato de que compreende as etapas de: receber um fluxo de bits encapsulando uma mixagem de áudio adaptativo compreendendo uma pluralidade de fluxos de áudio monofônicos e metadados associados com cada um dos fluxos de áudio e indicando uma localização de reprodução de uma respectiva sequência de áudio monofônico, em que, pelo menos, alguns da pluralidade de fluxos de áudio monofônicos são identificados como áudio baseado em canal e os outros da pluralidade de fluxos de áudio monofônicos são identificados como áudio baseado em objeto, e em que o local de reprodução de um fluxo de áudio monofônico baseado em canal compreende uma designação de um alto-falante em uma matriz de alto-falantes e o local de reprodução de um fluxo de áudio monofônico baseado em objeto compreende um local em espaço tridimensional e em que cada fluxo de áudio monofônico baseado em objeto é renderizado em pelo menos um alto-falante específico da matriz de alto-falante; e renderizar a pluralidade de fluxos de áudio monofônicos para uma pluralidade de alimentações de alto-falante correspondentes aos alto-falantes em um ambiente de reprodução, em que os alto-falantes da matriz de alto-falantes são colocados em posições específicas dentro do ambiente de reprodução e em que elementos de metadados associados a cada respectivo fluxo de áudio monofônico baseado em objeto indica se é proibido renderizar o respectivo fluxo de áudio monofônico em uma ou mais alimentações específicas de alto-falante da pluralidade de alimentações de alto-falante, de modo que o respectivo fluxo de áudio monofônico baseado em objeto não seja renderizado em nenhuma das uma ou mais alimentações específicas de alto-falante da pluralidade de alimentações dos alto-falantes.
15. Método, de acordo com a reivindicação 14, caracterizado pelo fato de que os um ou mais alto-falantes específicos alimentados nos quais é proibida a renderização do respectivo fluxo de áudio monofônico incluem um ou mais alto-falantes ou zonas de alto- falante nomeados.
16. Método, de acordo com a reivindicação 14, caracterizado pelo fato de que as uma ou mais alimentações específicas dos alto-falantes nas quais renderizar o respectivo fluxo de áudio monofônicos é proibido incluem uma ou mais áreas de alto- falante.
17. Método, de acordo com a reivindicação 14, caracterizado pelo fato de que os elementos de metadados associados a cada fluxo de áudio monofônico baseado em objeto indicam ainda parâmetros espaciais que controlam a reprodução de um componente de som correspondente compreendendo um ou mais dentre: posição do som, largura do som e velocidade do som.
18. Método, de acordo com a reivindicação 14, caracterizado pelo fato de que o local de reprodução para cada um da pluralidade de fluxos de áudio monofônico baseado em objeto compreende uma posição espacial relativa a uma tela no interior de um ambiente de reprodução, ou uma superfície que envolve o ambiente de reprodução, e em que a superfície compreende um plano frontal, um plano traseiro, um plano esquerdo, plano direito, um plano superior e um plano inferior, e/ou é especificado independentemente em relação a um quadro de referência egocêntrico ou um quadro de referência alocêntrico, em que o quadro egocêntrico de referência é obtido em relação a um ouvinte no ambiente de reprodução, e em que o quadro de referência alocêntrico é obtido em relação a uma característica do ambiente de reprodução.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
BR122020001361-3A BR122020001361B1 (pt) | 2011-07-01 | 2012-06-27 | Sistema para processar sinais de áudio, sistema para processar sinais de áudio, e método para renderizar sinais de áudio |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161504005P | 2011-07-01 | 2011-07-01 | |
US61/504,005 | 2011-07-01 | ||
US201261636429P | 2012-04-20 | 2012-04-20 | |
US61/636,429 | 2012-04-20 | ||
PCT/US2012/044388 WO2013006338A2 (en) | 2011-07-01 | 2012-06-27 | System and method for adaptive audio signal generation, coding and rendering |
Publications (2)
Publication Number | Publication Date |
---|---|
BR112013033386A2 BR112013033386A2 (pt) | 2017-01-24 |
BR112013033386B1 true BR112013033386B1 (pt) | 2021-05-04 |
Family
ID=46604526
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BR112013033386-3A BR112013033386B1 (pt) | 2011-07-01 | 2012-06-27 | sistema e método para geração, codificação e renderização de sinal de áudio adaptável |
BR122020001361-3A BR122020001361B1 (pt) | 2011-07-01 | 2012-06-27 | Sistema para processar sinais de áudio, sistema para processar sinais de áudio, e método para renderizar sinais de áudio |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BR122020001361-3A BR122020001361B1 (pt) | 2011-07-01 | 2012-06-27 | Sistema para processar sinais de áudio, sistema para processar sinais de áudio, e método para renderizar sinais de áudio |
Country Status (22)
Country | Link |
---|---|
US (12) | US9179236B2 (pt) |
EP (2) | EP2727383B1 (pt) |
JP (11) | JP5912179B2 (pt) |
KR (9) | KR102003191B1 (pt) |
CN (2) | CN103650539B (pt) |
AR (1) | AR086775A1 (pt) |
AU (7) | AU2012279357B2 (pt) |
BR (2) | BR112013033386B1 (pt) |
CA (3) | CA2973703C (pt) |
DK (1) | DK2727383T3 (pt) |
ES (1) | ES2871224T3 (pt) |
HK (1) | HK1219604A1 (pt) |
HU (1) | HUE054452T2 (pt) |
IL (8) | IL302167A (pt) |
MX (1) | MX2013014684A (pt) |
MY (1) | MY165933A (pt) |
PL (1) | PL2727383T3 (pt) |
RU (3) | RU2617553C2 (pt) |
SG (1) | SG10201604679UA (pt) |
TW (6) | TWI792203B (pt) |
UA (1) | UA124570C2 (pt) |
WO (1) | WO2013006338A2 (pt) |
Families Citing this family (304)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE534980C2 (sv) | 2009-08-26 | 2012-03-06 | Svenska Utvecklings Entreprenoeren Susen Ab | Metod för att väcka en insomnad motorfordonsförare |
DK2727383T3 (da) | 2011-07-01 | 2021-05-25 | Dolby Laboratories Licensing Corp | System og fremgangsmåde til adaptiv audiosignalgenerering, -kodning og -gengivelse |
EP2862370B1 (en) * | 2012-06-19 | 2017-08-30 | Dolby Laboratories Licensing Corporation | Rendering and playback of spatial audio using channel-based audio systems |
KR102581878B1 (ko) | 2012-07-19 | 2023-09-25 | 돌비 인터네셔널 에이비 | 다채널 오디오 신호들의 렌더링을 향상시키기 위한 방법 및 디바이스 |
JP6045696B2 (ja) | 2012-07-31 | 2016-12-14 | インテレクチュアル ディスカバリー シーオー エルティディIntellectual Discovery Co.,Ltd. | オーディオ信号処理方法および装置 |
WO2014036121A1 (en) | 2012-08-31 | 2014-03-06 | Dolby Laboratories Licensing Corporation | System for rendering and playback of object based audio in various listening environments |
EP3285504B1 (en) | 2012-08-31 | 2020-06-17 | Dolby Laboratories Licensing Corporation | Speaker system with an upward-firing loudspeaker |
JP5897219B2 (ja) | 2012-08-31 | 2016-03-30 | ドルビー ラボラトリーズ ライセンシング コーポレイション | オブジェクト・ベースのオーディオの仮想レンダリング |
BR112015004288B1 (pt) | 2012-08-31 | 2021-05-04 | Dolby Laboratories Licensing Corporation | sistema para renderizar som com o uso de elementos de som refletidos |
WO2014035902A2 (en) | 2012-08-31 | 2014-03-06 | Dolby Laboratories Licensing Corporation | Reflected and direct rendering of upmixed content to individually addressable drivers |
CN104782145B (zh) * | 2012-09-12 | 2017-10-13 | 弗劳恩霍夫应用研究促进协会 | 为3d音频提供增强的导引降混性能的装置及方法 |
KR20140047509A (ko) * | 2012-10-12 | 2014-04-22 | 한국전자통신연구원 | 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치 |
WO2014088328A1 (ko) | 2012-12-04 | 2014-06-12 | 삼성전자 주식회사 | 오디오 제공 장치 및 오디오 제공 방법 |
JP6012884B2 (ja) | 2012-12-21 | 2016-10-25 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 知覚的基準に基づいてオブジェクト・ベースのオーディオ・コンテンツをレンダリングするためのオブジェクト・クラスタリング |
TWI635753B (zh) | 2013-01-07 | 2018-09-11 | 美商杜比實驗室特許公司 | 使用向上發聲驅動器之用於反射聲音呈現的虛擬高度濾波器 |
KR102160218B1 (ko) * | 2013-01-15 | 2020-09-28 | 한국전자통신연구원 | 사운드 바를 위한 오디오 신호 처리 장치 및 방법 |
WO2014112793A1 (ko) | 2013-01-15 | 2014-07-24 | 한국전자통신연구원 | 채널 신호를 처리하는 부호화/복호화 장치 및 방법 |
CN109166587B (zh) * | 2013-01-15 | 2023-02-03 | 韩国电子通信研究院 | 处理信道信号的编码/解码装置及方法 |
EP2757558A1 (en) * | 2013-01-18 | 2014-07-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Time domain level adjustment for audio signal decoding or encoding |
US9609452B2 (en) | 2013-02-08 | 2017-03-28 | Qualcomm Incorporated | Obtaining sparseness information for higher order ambisonic audio renderers |
US10178489B2 (en) | 2013-02-08 | 2019-01-08 | Qualcomm Incorporated | Signaling audio rendering information in a bitstream |
US9883310B2 (en) | 2013-02-08 | 2018-01-30 | Qualcomm Incorporated | Obtaining symmetry information for higher order ambisonic audio renderers |
US9959875B2 (en) * | 2013-03-01 | 2018-05-01 | Qualcomm Incorporated | Specifying spherical harmonic and/or higher order ambisonics coefficients in bitstreams |
JP6484605B2 (ja) * | 2013-03-15 | 2019-03-13 | ディーティーエス・インコーポレイテッドDTS,Inc. | 複数のオーディオステムからの自動マルチチャネル音楽ミックス |
US10038957B2 (en) * | 2013-03-19 | 2018-07-31 | Nokia Technologies Oy | Audio mixing based upon playing device location |
WO2014160717A1 (en) * | 2013-03-28 | 2014-10-02 | Dolby Laboratories Licensing Corporation | Using single bitstream to produce tailored audio device mixes |
JP5897778B1 (ja) | 2013-03-28 | 2016-03-30 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 見かけのサイズをもつオーディオ・オブジェクトの任意のラウドスピーカー・レイアウトへのレンダリング |
TWI530941B (zh) | 2013-04-03 | 2016-04-21 | 杜比實驗室特許公司 | 用於基於物件音頻之互動成像的方法與系統 |
JP6204681B2 (ja) * | 2013-04-05 | 2017-09-27 | 日本放送協会 | 音響信号再生装置 |
JP2014204316A (ja) * | 2013-04-05 | 2014-10-27 | 日本放送協会 | 音響信号再生装置、音響信号作成装置 |
MX2015014065A (es) * | 2013-04-05 | 2016-11-25 | Thomson Licensing | Metodo para manejar campo reverberante para audio inmersivo. |
JP6204683B2 (ja) * | 2013-04-05 | 2017-09-27 | 日本放送協会 | 音響信号再生装置、音響信号作成装置 |
JP6204682B2 (ja) * | 2013-04-05 | 2017-09-27 | 日本放送協会 | 音響信号再生装置 |
JP6204680B2 (ja) * | 2013-04-05 | 2017-09-27 | 日本放送協会 | 音響信号再生装置、音響信号作成装置 |
JP6204684B2 (ja) * | 2013-04-05 | 2017-09-27 | 日本放送協会 | 音響信号再生装置 |
CN105144751A (zh) * | 2013-04-15 | 2015-12-09 | 英迪股份有限公司 | 用于产生虚拟对象的音频信号处理方法 |
EP2991383B1 (en) * | 2013-04-26 | 2021-01-27 | Sony Corporation | Audio processing device and audio processing system |
EP2946573B1 (en) * | 2013-04-30 | 2019-10-02 | Huawei Technologies Co., Ltd. | Audio signal processing apparatus |
ES2931952T3 (es) | 2013-05-16 | 2023-01-05 | Koninklijke Philips Nv | Un aparato de procesamiento de audio y el procedimiento para el mismo |
BR112015028409B1 (pt) * | 2013-05-16 | 2022-05-31 | Koninklijke Philips N.V. | Aparelho de áudio e método de processamento de áudio |
EP2997573A4 (en) * | 2013-05-17 | 2017-01-18 | Nokia Technologies OY | Spatial object oriented audio apparatus |
US9495968B2 (en) * | 2013-05-29 | 2016-11-15 | Qualcomm Incorporated | Identifying sources from which higher order ambisonic audio data is generated |
KR101410976B1 (ko) | 2013-05-31 | 2014-06-23 | 한국산업은행 | 대사 또는 현장감 전달 목적에 따른 스피커 위치 지정 방법 및 그 장치 |
TWI615834B (zh) * | 2013-05-31 | 2018-02-21 | Sony Corp | 編碼裝置及方法、解碼裝置及方法、以及程式 |
WO2014199536A1 (ja) * | 2013-06-10 | 2014-12-18 | パナソニック株式会社 | オーディオ再生装置及びその方法 |
US9705953B2 (en) * | 2013-06-17 | 2017-07-11 | Adobe Systems Incorporated | Local control of digital signal processing |
CN104240711B (zh) * | 2013-06-18 | 2019-10-11 | 杜比实验室特许公司 | 用于生成自适应音频内容的方法、系统和装置 |
WO2014204911A1 (en) * | 2013-06-18 | 2014-12-24 | Dolby Laboratories Licensing Corporation | Bass management for audio rendering |
TWM487509U (zh) | 2013-06-19 | 2014-10-01 | 杜比實驗室特許公司 | 音訊處理設備及電子裝置 |
US9883311B2 (en) | 2013-06-28 | 2018-01-30 | Dolby Laboratories Licensing Corporation | Rendering of audio objects using discontinuous rendering-matrix updates |
KR102084646B1 (ko) * | 2013-07-04 | 2020-04-14 | 삼성전자주식회사 | 음성 인식 장치 및 음성 인식 방법 |
EP3020042B1 (en) | 2013-07-08 | 2018-03-21 | Dolby Laboratories Licensing Corporation | Processing of time-varying metadata for lossless resampling |
EP2830332A3 (en) * | 2013-07-22 | 2015-03-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method, signal processing unit, and computer program for mapping a plurality of input channels of an input channel configuration to output channels of an output channel configuration |
EP2830050A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for enhanced spatial audio object coding |
TWI560699B (en) * | 2013-07-22 | 2016-12-01 | Fraunhofer Ges Forschung | Apparatus and method for efficient object metadata coding |
EP2830045A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for audio encoding and decoding for audio channels and audio objects |
EP2830049A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for efficient object metadata coding |
CN105432098B (zh) | 2013-07-30 | 2017-08-29 | 杜比国际公司 | 针对任意扬声器布局的音频对象的平移 |
EP3028474B1 (en) | 2013-07-30 | 2018-12-19 | DTS, Inc. | Matrix decoder with constant-power pairwise panning |
WO2015017235A1 (en) * | 2013-07-31 | 2015-02-05 | Dolby Laboratories Licensing Corporation | Processing spatially diffuse or large audio objects |
JP2016533114A (ja) | 2013-08-21 | 2016-10-20 | トムソン ライセンシングThomson Licensing | 視線方向によって制御されるパン機能を有するビデオディスプレイ |
US9483228B2 (en) | 2013-08-26 | 2016-11-01 | Dolby Laboratories Licensing Corporation | Live engine |
WO2015027327A1 (en) * | 2013-08-28 | 2015-03-05 | Mixgenius Inc. | System and method for performing automatic audio production using semantic data |
US10141004B2 (en) * | 2013-08-28 | 2018-11-27 | Dolby Laboratories Licensing Corporation | Hybrid waveform-coded and parametric-coded speech enhancement |
CN109920440B (zh) | 2013-09-12 | 2024-01-09 | 杜比实验室特许公司 | 用于各种回放环境的动态范围控制 |
US8751832B2 (en) * | 2013-09-27 | 2014-06-10 | James A Cashin | Secure system and method for audio processing |
US9067135B2 (en) | 2013-10-07 | 2015-06-30 | Voyetra Turtle Beach, Inc. | Method and system for dynamic control of game audio based on audio analysis |
US10063982B2 (en) | 2013-10-09 | 2018-08-28 | Voyetra Turtle Beach, Inc. | Method and system for a game headset with audio alerts based on audio track analysis |
US9338541B2 (en) | 2013-10-09 | 2016-05-10 | Voyetra Turtle Beach, Inc. | Method and system for in-game visualization based on audio analysis |
US9716958B2 (en) * | 2013-10-09 | 2017-07-25 | Voyetra Turtle Beach, Inc. | Method and system for surround sound processing in a headset |
US8979658B1 (en) | 2013-10-10 | 2015-03-17 | Voyetra Turtle Beach, Inc. | Dynamic adjustment of game controller sensitivity based on audio analysis |
WO2015056383A1 (ja) * | 2013-10-17 | 2015-04-23 | パナソニック株式会社 | オーディオエンコード装置及びオーディオデコード装置 |
KR102231755B1 (ko) | 2013-10-25 | 2021-03-24 | 삼성전자주식회사 | 입체 음향 재생 방법 및 장치 |
CN108712711B (zh) * | 2013-10-31 | 2021-06-15 | 杜比实验室特许公司 | 使用元数据处理的耳机的双耳呈现 |
US9888333B2 (en) * | 2013-11-11 | 2018-02-06 | Google Technology Holdings LLC | Three-dimensional audio rendering techniques |
CN105723740B (zh) | 2013-11-14 | 2019-09-17 | 杜比实验室特许公司 | 音频的屏幕相对呈现和用于这样的呈现的音频的编码和解码 |
US9552819B2 (en) | 2013-11-27 | 2017-01-24 | Dts, Inc. | Multiplet-based matrix mixing for high-channel count multichannel audio |
EP3075173B1 (en) | 2013-11-28 | 2019-12-11 | Dolby Laboratories Licensing Corporation | Position-based gain adjustment of object-based audio and ring-based channel audio |
EP2892250A1 (en) | 2014-01-07 | 2015-07-08 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for generating a plurality of audio channels |
US9704491B2 (en) | 2014-02-11 | 2017-07-11 | Disney Enterprises, Inc. | Storytelling environment: distributed immersive audio soundscape |
US9578436B2 (en) * | 2014-02-20 | 2017-02-21 | Bose Corporation | Content-aware audio modes |
US10142666B2 (en) * | 2014-03-18 | 2018-11-27 | Koninklijke Philips N.V. | Audiovisual content item data streams |
US10412522B2 (en) | 2014-03-21 | 2019-09-10 | Qualcomm Incorporated | Inserting audio channels into descriptions of soundfields |
KR102201726B1 (ko) * | 2014-03-21 | 2021-01-12 | 돌비 인터네셔널 에이비 | 고차 앰비소닉스(hoa) 신호를 압축하는 방법, 압축된 hoa 신호를 압축 해제하는 방법, hoa 신호를 압축하기 위한 장치, 및 압축된 hoa 신호를 압축 해제하기 위한 장치 |
EP2922057A1 (en) | 2014-03-21 | 2015-09-23 | Thomson Licensing | Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal |
KR102596944B1 (ko) * | 2014-03-24 | 2023-11-02 | 돌비 인터네셔널 에이비 | 고차 앰비소닉스 신호에 동적 범위 압축을 적용하는 방법 및 디바이스 |
JP6313641B2 (ja) * | 2014-03-25 | 2018-04-18 | 日本放送協会 | チャンネル数変換装置 |
EP2928216A1 (en) | 2014-03-26 | 2015-10-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for screen related audio object remapping |
EP2925024A1 (en) | 2014-03-26 | 2015-09-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for audio rendering employing a geometric distance definition |
AU2015244473B2 (en) | 2014-04-11 | 2018-05-10 | Samsung Electronics Co., Ltd. | Method and apparatus for rendering sound signal, and computer-readable recording medium |
US10068577B2 (en) | 2014-04-25 | 2018-09-04 | Dolby Laboratories Licensing Corporation | Audio segmentation based on spatial metadata |
HK1195445A2 (en) * | 2014-05-08 | 2014-11-07 | 黃偉明 | Endpoint mixing system and reproduction method of endpoint mixed sounds |
CN106465036B (zh) * | 2014-05-21 | 2018-10-16 | 杜比国际公司 | 配置经由家庭音频回放系统的音频的回放 |
KR20170012229A (ko) * | 2014-05-30 | 2017-02-02 | 소니 주식회사 | 정보 처리 장치 및 정보 처리 방법 |
ES2699657T3 (es) * | 2014-05-30 | 2019-02-12 | Qualcomm Inc | Obtención de información de dispersión para renderizadores de audio ambisónicos de orden superior |
US10621994B2 (en) * | 2014-06-06 | 2020-04-14 | Sony Corporaiton | Audio signal processing device and method, encoding device and method, and program |
US10139907B2 (en) | 2014-06-16 | 2018-11-27 | Immersion Corporation | Systems and methods for foley-style haptic content creation |
JP7080007B2 (ja) * | 2014-06-30 | 2022-06-03 | ソニーグループ株式会社 | 情報処理装置および情報処理方法 |
US10313720B2 (en) * | 2014-07-18 | 2019-06-04 | Sony Corporation | Insertion of metadata in an audio stream |
WO2016018787A1 (en) * | 2014-07-31 | 2016-02-04 | Dolby Laboratories Licensing Corporation | Audio processing systems and methods |
CN106797525B (zh) | 2014-08-13 | 2019-05-28 | 三星电子株式会社 | 用于生成和回放音频信号的方法和设备 |
CN105657633A (zh) * | 2014-09-04 | 2016-06-08 | 杜比实验室特许公司 | 生成针对音频对象的元数据 |
US9782672B2 (en) * | 2014-09-12 | 2017-10-10 | Voyetra Turtle Beach, Inc. | Gaming headset with enhanced off-screen awareness |
EP3198887A1 (en) * | 2014-09-24 | 2017-08-02 | Dolby Laboratories Licensing Corp. | Overhead speaker system |
US9774974B2 (en) | 2014-09-24 | 2017-09-26 | Electronics And Telecommunications Research Institute | Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion |
WO2016052191A1 (ja) * | 2014-09-30 | 2016-04-07 | ソニー株式会社 | 送信装置、送信方法、受信装置および受信方法 |
US20160094914A1 (en) * | 2014-09-30 | 2016-03-31 | Alcatel-Lucent Usa Inc. | Systems and methods for localizing audio streams via acoustic large scale speaker arrays |
KR102226817B1 (ko) * | 2014-10-01 | 2021-03-11 | 삼성전자주식회사 | 콘텐츠 재생 방법 및 그 방법을 처리하는 전자 장치 |
US10163446B2 (en) | 2014-10-01 | 2018-12-25 | Dolby International Ab | Audio encoder and decoder |
UA120372C2 (uk) * | 2014-10-02 | 2019-11-25 | Долбі Інтернешнл Аб | Спосіб декодування і декодер для посилення діалогу |
CN110164483B (zh) * | 2014-10-03 | 2021-03-02 | 杜比国际公司 | 渲染音频节目的方法和系统 |
JP6812517B2 (ja) * | 2014-10-03 | 2021-01-13 | ドルビー・インターナショナル・アーベー | パーソナル化されたオーディオへのスマート・アクセス |
RU2704266C2 (ru) | 2014-10-31 | 2019-10-25 | Долби Интернешнл Аб | Параметрическое кодирование и декодирование многоканальных аудиосигналов |
CN106537942A (zh) * | 2014-11-11 | 2017-03-22 | 谷歌公司 | 3d沉浸式空间音频系统和方法 |
US10609475B2 (en) | 2014-12-05 | 2020-03-31 | Stages Llc | Active noise control and customized audio system |
CN112802496A (zh) | 2014-12-11 | 2021-05-14 | 杜比实验室特许公司 | 元数据保留的音频对象聚类 |
US10057705B2 (en) * | 2015-01-13 | 2018-08-21 | Harman International Industries, Incorporated | System and method for transitioning between audio system modes |
JP6550756B2 (ja) * | 2015-01-20 | 2019-07-31 | ヤマハ株式会社 | オーディオ信号処理装置 |
CN107211061B (zh) | 2015-02-03 | 2020-03-31 | 杜比实验室特许公司 | 用于空间会议回放的优化虚拟场景布局 |
EP3780589A1 (en) | 2015-02-03 | 2021-02-17 | Dolby Laboratories Licensing Corporation | Post-conference playback system having higher perceived quality than originally heard in the conference |
WO2016126715A1 (en) | 2015-02-03 | 2016-08-11 | Dolby Laboratories Licensing Corporation | Adaptive audio construction |
CN105992120B (zh) * | 2015-02-09 | 2019-12-31 | 杜比实验室特许公司 | 音频信号的上混音 |
CN105989845B (zh) | 2015-02-25 | 2020-12-08 | 杜比实验室特许公司 | 视频内容协助的音频对象提取 |
US9933991B2 (en) * | 2015-03-10 | 2018-04-03 | Harman International Industries, Limited | Remote controlled digital audio mixing system |
TWI758146B (zh) | 2015-03-13 | 2022-03-11 | 瑞典商杜比國際公司 | 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流 |
WO2016148552A2 (ko) * | 2015-03-19 | 2016-09-22 | (주)소닉티어랩 | 음상 외재화에서 3차원 사운드 이미지를 재생하는 장치 및 방법 |
JP6777071B2 (ja) * | 2015-04-08 | 2020-10-28 | ソニー株式会社 | 送信装置、送信方法、受信装置および受信方法 |
EP3286929B1 (en) * | 2015-04-20 | 2019-07-31 | Dolby Laboratories Licensing Corporation | Processing audio data to compensate for partial hearing loss or an adverse hearing environment |
WO2016172254A1 (en) | 2015-04-21 | 2016-10-27 | Dolby Laboratories Licensing Corporation | Spatial audio signal manipulation |
US20160315722A1 (en) * | 2015-04-22 | 2016-10-27 | Apple Inc. | Audio stem delivery and control |
JPWO2016171002A1 (ja) | 2015-04-24 | 2018-02-15 | ソニー株式会社 | 送信装置、送信方法、受信装置および受信方法 |
EP3295687B1 (en) | 2015-05-14 | 2019-03-13 | Dolby Laboratories Licensing Corporation | Generation and playback of near-field audio content |
WO2016190460A1 (ko) * | 2015-05-26 | 2016-12-01 | 삼성전자 주식회사 | 입체 음향 재생 방법 및 장치 |
US9985676B2 (en) * | 2015-06-05 | 2018-05-29 | Braven, Lc | Multi-channel mixing console |
FI3311379T3 (fi) * | 2015-06-17 | 2023-02-28 | Äänenvoimakkuuden ohjaus käyttäjän interaktiivisuuta varten audio-koodausjärjestelmissä | |
TWI607655B (zh) * | 2015-06-19 | 2017-12-01 | Sony Corp | Coding apparatus and method, decoding apparatus and method, and program |
US9530426B1 (en) * | 2015-06-24 | 2016-12-27 | Microsoft Technology Licensing, Llc | Filtering sounds for conferencing applications |
DE102015008000A1 (de) * | 2015-06-24 | 2016-12-29 | Saalakustik.De Gmbh | Verfahren zur Schallwiedergabe in Reflexionsumgebungen, insbesondere in Hörräumen |
US10334387B2 (en) | 2015-06-25 | 2019-06-25 | Dolby Laboratories Licensing Corporation | Audio panning transformation system and method |
GB2540226A (en) * | 2015-07-08 | 2017-01-11 | Nokia Technologies Oy | Distributed audio microphone array and locator configuration |
CN105187625B (zh) * | 2015-07-13 | 2018-11-16 | 努比亚技术有限公司 | 一种电子设备及音频处理方法 |
GB2540404B (en) * | 2015-07-16 | 2019-04-10 | Powerchord Group Ltd | Synchronising an audio signal |
GB2529310B (en) * | 2015-07-16 | 2016-11-30 | Powerchord Group Ltd | A method of augmenting an audio content |
GB2540407B (en) * | 2015-07-16 | 2020-05-20 | Powerchord Group Ltd | Personal audio mixer |
US9934790B2 (en) | 2015-07-31 | 2018-04-03 | Apple Inc. | Encoded audio metadata-based equalization |
CN105070304B (zh) | 2015-08-11 | 2018-09-04 | 小米科技有限责任公司 | 实现对象音频录音的方法及装置、电子设备 |
EP3335436B1 (en) | 2015-08-14 | 2021-10-06 | DTS, Inc. | Bass management for object-based audio |
KR102423753B1 (ko) | 2015-08-20 | 2022-07-21 | 삼성전자주식회사 | 스피커 위치 정보에 기초하여, 오디오 신호를 처리하는 방법 및 장치 |
US9832590B2 (en) * | 2015-09-12 | 2017-11-28 | Dolby Laboratories Licensing Corporation | Audio program playback calibration based on content creation environment |
AU2015410432B2 (en) * | 2015-09-28 | 2021-06-17 | Razer (Asia-Pacific) Pte Ltd | Computers, methods for controlling a computer, and computer-readable media |
US10341770B2 (en) | 2015-09-30 | 2019-07-02 | Apple Inc. | Encoded audio metadata-based loudness equalization and dynamic equalization during DRC |
US20170098452A1 (en) * | 2015-10-02 | 2017-04-06 | Dts, Inc. | Method and system for audio processing of dialog, music, effect and height objects |
US9877137B2 (en) * | 2015-10-06 | 2018-01-23 | Disney Enterprises, Inc. | Systems and methods for playing a venue-specific object-based audio |
CN108141674A (zh) | 2015-10-21 | 2018-06-08 | 富士胶片株式会社 | 影音系统 |
US9807535B2 (en) | 2015-10-30 | 2017-10-31 | International Business Machines Corporation | Three dimensional audio speaker array |
EP3378240B1 (en) | 2015-11-20 | 2019-12-11 | Dolby Laboratories Licensing Corporation | System and method for rendering an audio program |
CN105979349A (zh) * | 2015-12-03 | 2016-09-28 | 乐视致新电子科技(天津)有限公司 | 一种音频数据处理的方法和装置 |
US10587982B2 (en) | 2015-12-18 | 2020-03-10 | Dolby Laboratories Licensing Corporation | Dual-orientation speaker for rendering immersive audio content |
WO2017126895A1 (ko) * | 2016-01-19 | 2017-07-27 | 지오디오랩 인코포레이티드 | 오디오 신호 처리 장치 및 처리 방법 |
WO2017130210A1 (en) * | 2016-01-27 | 2017-08-03 | Indian Institute Of Technology Bombay | Method and system for rendering audio streams |
WO2017132583A2 (en) | 2016-01-29 | 2017-08-03 | Dolby Laboratories Licensing Corporation | Multi-channel cinema amplifier with power-sharing, messaging and multi-phase power supply |
CN105656915B (zh) * | 2016-01-29 | 2019-01-18 | 腾讯科技(深圳)有限公司 | 即时通话方法、装置和系统 |
US10778160B2 (en) | 2016-01-29 | 2020-09-15 | Dolby Laboratories Licensing Corporation | Class-D dynamic closed loop feedback amplifier |
CN108702582B (zh) | 2016-01-29 | 2020-11-06 | 杜比实验室特许公司 | 用于双耳对话增强的方法和装置 |
US11290819B2 (en) | 2016-01-29 | 2022-03-29 | Dolby Laboratories Licensing Corporation | Distributed amplification and control system for immersive audio multi-channel amplifier |
US9924291B2 (en) * | 2016-02-16 | 2018-03-20 | Sony Corporation | Distributed wireless speaker system |
US10573324B2 (en) * | 2016-02-24 | 2020-02-25 | Dolby International Ab | Method and system for bit reservoir control in case of varying metadata |
CN105898669B (zh) * | 2016-03-18 | 2017-10-20 | 南京青衿信息科技有限公司 | 一种声音对象的编码方法 |
WO2017165837A1 (en) | 2016-03-24 | 2017-09-28 | Dolby Laboratories Licensing Corporation | Near-field rendering of immersive audio content in portable computers and devices |
US10325610B2 (en) * | 2016-03-30 | 2019-06-18 | Microsoft Technology Licensing, Llc | Adaptive audio rendering |
GB2550877A (en) * | 2016-05-26 | 2017-12-06 | Univ Surrey | Object-based audio rendering |
US9973874B2 (en) | 2016-06-17 | 2018-05-15 | Dts, Inc. | Audio rendering using 6-DOF tracking |
US20170372697A1 (en) * | 2016-06-22 | 2017-12-28 | Elwha Llc | Systems and methods for rule-based user control of audio rendering |
US10951985B1 (en) * | 2016-07-01 | 2021-03-16 | Gebre Waddell | Method and system for audio critical listening and evaluation |
US9956910B2 (en) * | 2016-07-18 | 2018-05-01 | Toyota Motor Engineering & Manufacturing North America, Inc. | Audible notification systems and methods for autonomous vehicles |
CN116612731A (zh) | 2016-07-22 | 2023-08-18 | 杜比实验室特许公司 | 现场音乐表演的多媒体内容的基于网络的处理及分布 |
CN106375778B (zh) * | 2016-08-12 | 2020-04-17 | 南京青衿信息科技有限公司 | 一种符合数字电影规范的三维音频节目码流传输的方法 |
GB201615538D0 (en) * | 2016-09-13 | 2016-10-26 | Nokia Technologies Oy | A method , apparatus and computer program for processing audio signals |
WO2018055860A1 (ja) * | 2016-09-20 | 2018-03-29 | ソニー株式会社 | 情報処理装置と情報処理方法およびプログラム |
CN109565631B (zh) * | 2016-09-28 | 2020-12-18 | 雅马哈株式会社 | 混音器、混音器的控制方法以及程序 |
GB2554447A (en) * | 2016-09-28 | 2018-04-04 | Nokia Technologies Oy | Gain control in spatial audio systems |
CN117221801A (zh) * | 2016-09-29 | 2023-12-12 | 杜比实验室特许公司 | 环绕声系统中扬声器位置的自动发现和定位 |
US10349196B2 (en) * | 2016-10-03 | 2019-07-09 | Nokia Technologies Oy | Method of editing audio signals using separated objects and associated apparatus |
US10419866B2 (en) | 2016-10-07 | 2019-09-17 | Microsoft Technology Licensing, Llc | Shared three-dimensional audio bed |
US9980078B2 (en) * | 2016-10-14 | 2018-05-22 | Nokia Technologies Oy | Audio object modification in free-viewpoint rendering |
US10516914B2 (en) * | 2016-10-19 | 2019-12-24 | Centurylink Intellectual Property Llc | Method and system for implementing automatic audio optimization for streaming services |
EP3470976A1 (en) * | 2017-10-12 | 2019-04-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for efficient delivery and usage of audio messages for high quality of experience |
US10945080B2 (en) | 2016-11-18 | 2021-03-09 | Stages Llc | Audio analysis and processing system |
US10535355B2 (en) | 2016-11-18 | 2020-01-14 | Microsoft Technology Licensing, Llc | Frame coding for spatial audio data |
EP3547718A4 (en) | 2016-11-25 | 2019-11-13 | Sony Corporation | PLAYING DEVICE, PLAY PROCESS, INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND PROGRAM |
JP6993774B2 (ja) * | 2016-12-07 | 2022-01-14 | シャープ株式会社 | 音声出力制御装置 |
US10764709B2 (en) | 2017-01-13 | 2020-09-01 | Dolby Laboratories Licensing Corporation | Methods, apparatus and systems for dynamic equalization for cross-talk cancellation |
US11012803B2 (en) * | 2017-01-27 | 2021-05-18 | Auro Technologies Nv | Processing method and system for panning audio objects |
DE102017102234A1 (de) * | 2017-02-06 | 2018-08-09 | Visteon Global Technologies, Inc. | Verfahren und Vorrichtung zur räumlichen Darstellung virtueller Geräuschquellen in einem Fahrzeug |
WO2018150774A1 (ja) * | 2017-02-17 | 2018-08-23 | シャープ株式会社 | 音声信号処理装置及び音声信号処理システム |
US10999678B2 (en) * | 2017-03-24 | 2021-05-04 | Sharp Kabushiki Kaisha | Audio signal processing device and audio signal processing system |
US10972859B2 (en) * | 2017-04-13 | 2021-04-06 | Sony Corporation | Signal processing apparatus and method as well as program |
US9820073B1 (en) | 2017-05-10 | 2017-11-14 | Tls Corp. | Extracting a common signal from multiple audio signals |
US9843883B1 (en) * | 2017-05-12 | 2017-12-12 | QoSound, Inc. | Source independent sound field rotation for virtual and augmented reality applications |
US11595774B2 (en) | 2017-05-12 | 2023-02-28 | Microsoft Technology Licensing, Llc | Spatializing audio data based on analysis of incoming audio data |
US20180357038A1 (en) * | 2017-06-09 | 2018-12-13 | Qualcomm Incorporated | Audio metadata modification at rendering device |
WO2018231185A1 (ru) * | 2017-06-16 | 2018-12-20 | Василий Васильевич ДУМА | Способ синхронизации звуковых сигналов |
US10028069B1 (en) | 2017-06-22 | 2018-07-17 | Sonos, Inc. | Immersive audio in a media playback system |
US10516962B2 (en) | 2017-07-06 | 2019-12-24 | Huddly As | Multi-channel binaural recording and dynamic playback |
EP3662470B1 (en) | 2017-08-01 | 2021-03-24 | Dolby Laboratories Licensing Corporation | Audio object classification based on location metadata |
US11272308B2 (en) * | 2017-09-29 | 2022-03-08 | Apple Inc. | File format for spatial audio |
CN111052770B (zh) * | 2017-09-29 | 2021-12-03 | 苹果公司 | 空间音频下混频的方法及系统 |
JP7358986B2 (ja) * | 2017-10-05 | 2023-10-11 | ソニーグループ株式会社 | 復号装置および方法、並びにプログラム |
FR3072840B1 (fr) * | 2017-10-23 | 2021-06-04 | L Acoustics | Arrangement spatial de dispositifs de diffusion sonore |
EP3707896A4 (en) | 2017-11-10 | 2021-07-07 | Hewlett-Packard Development Company, L.P. | CONFERENCE ENVIRONMENT SURVEILLANCE |
US10440497B2 (en) * | 2017-11-17 | 2019-10-08 | Intel Corporation | Multi-modal dereverbaration in far-field audio systems |
US10511909B2 (en) * | 2017-11-29 | 2019-12-17 | Boomcloud 360, Inc. | Crosstalk cancellation for opposite-facing transaural loudspeaker systems |
CN114710740A (zh) | 2017-12-12 | 2022-07-05 | 索尼公司 | 信号处理装置和方法以及计算机可读存储介质 |
TWI809289B (zh) | 2018-01-26 | 2023-07-21 | 瑞典商都比國際公司 | 用於執行一音訊信號之高頻重建之方法、音訊處理單元及非暫時性電腦可讀媒體 |
EP4057281A1 (en) | 2018-02-01 | 2022-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio scene encoder, audio scene decoder and related methods using hybrid encoder/decoder spatial analysis |
KR102482960B1 (ko) | 2018-02-07 | 2022-12-29 | 삼성전자주식회사 | 듀얼 스피커를 이용한 오디오 데이터 재생 방법 및 그의 전자 장치 |
DE102018206025A1 (de) * | 2018-02-19 | 2019-08-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren für objektbasiertes, räumliches Audio-Mastering |
US10514882B2 (en) | 2018-02-21 | 2019-12-24 | Microsoft Technology Licensing, Llc | Digital audio processing system for adjoining digital audio stems based on computed audio intensity/characteristics |
EP3777244A4 (en) | 2018-04-08 | 2021-12-08 | DTS, Inc. | EXTRACTION OF AMBISONIC DEPTHS |
US11540079B2 (en) * | 2018-04-11 | 2022-12-27 | Dolby International Ab | Methods, apparatus and systems for a pre-rendered signal for audio rendering |
US11315578B2 (en) * | 2018-04-16 | 2022-04-26 | Dolby Laboratories Licensing Corporation | Methods, apparatus and systems for encoding and decoding of directional sound sources |
US10672405B2 (en) * | 2018-05-07 | 2020-06-02 | Google Llc | Objective quality metrics for ambisonic spatial audio |
US10630870B2 (en) * | 2018-06-20 | 2020-04-21 | Gdc Technology (Shenzhen) Limited | System and method for augmented reality movie screenings |
EP3588988B1 (en) * | 2018-06-26 | 2021-02-17 | Nokia Technologies Oy | Selective presentation of ambient audio content for spatial audio presentation |
US20200007988A1 (en) * | 2018-07-02 | 2020-01-02 | Microchip Technology Incorporated | Wireless signal source based audio output and related systems, methods and devices |
AU2019298240A1 (en) | 2018-07-02 | 2020-09-17 | Dolby International Ab | Methods and devices for encoding and/or decoding immersive audio signals |
US10445056B1 (en) * | 2018-07-03 | 2019-10-15 | Disney Enterprises, Inc. | System for deliverables versioning in audio mastering |
CN110675889A (zh) | 2018-07-03 | 2020-01-10 | 阿里巴巴集团控股有限公司 | 音频信号处理方法、客户端和电子设备 |
US10455078B1 (en) * | 2018-07-11 | 2019-10-22 | International Business Machines Corporation | Enhancing privacy in mobile phone calls by caller controlled audio delivering modes |
GB2575510A (en) | 2018-07-13 | 2020-01-15 | Nokia Technologies Oy | Spatial augmentation |
US11159327B2 (en) * | 2018-08-06 | 2021-10-26 | Tyson York Winarski | Blockchain augmentation of a material exchange format MXF file |
CN112639968A (zh) | 2018-08-30 | 2021-04-09 | 杜比国际公司 | 用于控制对经低比特率编码的音频的增强的方法和装置 |
US10404467B1 (en) * | 2018-09-09 | 2019-09-03 | Tyson York Winarski | Blockchain digest augmention of media files including group-of-pictures video streams for MXF files |
US20200081681A1 (en) * | 2018-09-10 | 2020-03-12 | Spotify Ab | Mulitple master music playback |
BR112021005241A2 (pt) * | 2018-09-28 | 2021-06-15 | Sony Corporation | dispositivo, método e programa de processamento de informações |
US10932344B2 (en) * | 2018-10-09 | 2021-02-23 | Rovi Guides, Inc. | Systems and methods for emulating an environment created by the outputs of a plurality of devices |
EP3868129B1 (en) | 2018-10-16 | 2023-10-11 | Dolby Laboratories Licensing Corporation | Methods and devices for bass management |
US11019450B2 (en) | 2018-10-24 | 2021-05-25 | Otto Engineering, Inc. | Directional awareness audio communications system |
CA3116181A1 (en) * | 2018-11-13 | 2020-05-22 | Dolby Laboratories Licensing Corporation | Audio processing in immersive audio services |
CN109451417B (zh) * | 2018-11-29 | 2024-03-15 | 广州艾美网络科技有限公司 | 多声道音频处理方法及系统 |
US11474776B2 (en) * | 2018-12-18 | 2022-10-18 | Intel Corporation | Display-based audio splitting in media environments |
US11503422B2 (en) | 2019-01-22 | 2022-11-15 | Harman International Industries, Incorporated | Mapping virtual sound sources to physical speakers in extended reality applications |
KR20200107757A (ko) * | 2019-03-08 | 2020-09-16 | 엘지전자 주식회사 | 음향 객체 추종을 위한 방법 및 이를 위한 장치 |
CA3135849A1 (en) * | 2019-04-02 | 2020-10-08 | Syng, Inc. | Systems and methods for spatial audio rendering |
JP7419666B2 (ja) | 2019-04-03 | 2024-01-23 | ヤマハ株式会社 | 音信号処理装置および音信号処理方法 |
US11087738B2 (en) * | 2019-06-11 | 2021-08-10 | Lucasfilm Entertainment Company Ltd. LLC | System and method for music and effects sound mix creation in audio soundtrack versioning |
CN112233647A (zh) * | 2019-06-26 | 2021-01-15 | 索尼公司 | 信息处理设备和方法以及计算机可读存储介质 |
CN112153530B (zh) * | 2019-06-28 | 2022-05-27 | 苹果公司 | 用于存储捕获元数据的空间音频文件格式 |
US11841899B2 (en) | 2019-06-28 | 2023-12-12 | Apple Inc. | Spatial audio file format for storing capture metadata |
US11902769B2 (en) | 2019-07-02 | 2024-02-13 | Dolby International Ab | Methods, apparatus and systems for representation, encoding, and decoding of discrete directivity data |
US11580213B2 (en) | 2019-07-03 | 2023-02-14 | Qualcomm Incorporated | Password-based authorization for audio rendering |
US10972852B2 (en) * | 2019-07-03 | 2021-04-06 | Qualcomm Incorporated | Adapting audio streams for rendering |
US20220295207A1 (en) | 2019-07-09 | 2022-09-15 | Dolby Laboratories Licensing Corporation | Presentation independent mastering of audio content |
EP4002870A4 (en) * | 2019-07-19 | 2022-09-28 | Sony Group Corporation | SIGNAL PROCESSING DEVICE AND METHOD AND PROGRAM |
JP2021048500A (ja) * | 2019-09-19 | 2021-03-25 | ソニー株式会社 | 信号処理装置、信号処理方法および信号処理システム |
TWI735968B (zh) * | 2019-10-09 | 2021-08-11 | 名世電子企業股份有限公司 | 音場型自然環境音效系統 |
TW202123220A (zh) | 2019-10-30 | 2021-06-16 | 美商杜拜研究特許公司 | 使用方向性元資料之多通道音頻編碼及解碼 |
US11096006B1 (en) * | 2019-11-04 | 2021-08-17 | Facebook Technologies, Llc | Dynamic speech directivity reproduction |
CN110782865B (zh) * | 2019-11-06 | 2023-08-18 | 上海音乐学院 | 一种三维声音创作交互式系统 |
US11533560B2 (en) * | 2019-11-15 | 2022-12-20 | Boomcloud 360 Inc. | Dynamic rendering device metadata-informed audio enhancement system |
EP4062649A2 (en) * | 2019-11-20 | 2022-09-28 | Dolby International AB | Methods and devices for personalizing audio content |
WO2021098957A1 (en) * | 2019-11-20 | 2021-05-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio object renderer, methods for determining loudspeaker gains and computer program using panned object loudspeaker gains and spread object loudspeaker gains |
RU2721180C1 (ru) * | 2019-12-02 | 2020-05-18 | Самсунг Электроникс Ко., Лтд. | Способ генерации анимационной модели головы по речевому сигналу и электронное вычислительное устройство, реализующее его |
US20230024873A1 (en) | 2019-12-02 | 2023-01-26 | Dolby Laboratories Licensing Corporation | Systems, methods and apparatus for conversion from channel-based audio to object-based audio |
KR20210072388A (ko) | 2019-12-09 | 2021-06-17 | 삼성전자주식회사 | 오디오 출력 장치 및 오디오 출력 장치의 제어 방법 |
US20230009878A1 (en) * | 2019-12-09 | 2023-01-12 | Dolby Laboratories Licensing Corporation | Adjusting audio and non-audio features based on noise metrics and speech intelligibility metrics |
JP7443870B2 (ja) | 2020-03-24 | 2024-03-06 | ヤマハ株式会社 | 音信号出力方法および音信号出力装置 |
US11900412B2 (en) * | 2020-03-25 | 2024-02-13 | Applied Minds, Llc | Audience participation application, system, and method of use |
CN111586553B (zh) * | 2020-05-27 | 2022-06-03 | 京东方科技集团股份有限公司 | 显示装置及其工作方法 |
US11275629B2 (en) * | 2020-06-25 | 2022-03-15 | Microsoft Technology Licensing, Llc | Mixed reality complementary systems |
WO2022010454A1 (en) * | 2020-07-06 | 2022-01-13 | Hewlett-Packard Development Company, L.P. | Binaural down-mixing of audio signals |
CN116348951A (zh) * | 2020-07-30 | 2023-06-27 | 弗劳恩霍夫应用研究促进协会 | 用于编码音频信号或用于解码经编码音频场景的设备、方法及计算机程序 |
CN112398455B (zh) * | 2020-10-21 | 2022-09-27 | 头领科技(昆山)有限公司 | 一种自适应功率放大器芯片及其自适应控制方法 |
CN112312298A (zh) | 2020-11-19 | 2021-02-02 | 北京小米松果电子有限公司 | 音频播放方法及装置、电子设备和存储介质 |
KR102500694B1 (ko) | 2020-11-24 | 2023-02-16 | 네이버 주식회사 | 사용자 맞춤형 현장감 실현을 위한 오디오 콘텐츠를 제작하는 컴퓨터 시스템 및 그의 방법 |
US11930349B2 (en) | 2020-11-24 | 2024-03-12 | Naver Corporation | Computer system for producing audio content for realizing customized being-there and method thereof |
US11930348B2 (en) * | 2020-11-24 | 2024-03-12 | Naver Corporation | Computer system for realizing customized being-there in association with audio and method thereof |
US11521623B2 (en) | 2021-01-11 | 2022-12-06 | Bank Of America Corporation | System and method for single-speaker identification in a multi-speaker environment on a low-frequency audio recording |
CN114915874B (zh) * | 2021-02-10 | 2023-07-25 | 北京全景声信息科技有限公司 | 音频处理方法、装置、设备及介质 |
RU2759666C1 (ru) * | 2021-02-19 | 2021-11-16 | Общество с ограниченной ответственностью «ЯЛОС СТРИМ» | Система воспроизведения аудио-видеоданных |
KR20220146165A (ko) * | 2021-04-23 | 2022-11-01 | 삼성전자주식회사 | 오디오 신호 처리를 위한 전자 장치 및 그 동작 방법 |
CN116965058A (zh) * | 2021-04-30 | 2023-10-27 | 塔特公司 | 利用噪声建模的被动亚可听房间路径学习 |
EP4310839A1 (en) * | 2021-05-21 | 2024-01-24 | Samsung Electronics Co., Ltd. | Apparatus and method for processing multi-channel audio signal |
WO2022250772A1 (en) * | 2021-05-28 | 2022-12-01 | Dolby Laboratories Licensing Corporation | Dynamic range adjustment of spatial audio objects |
CN113905322A (zh) * | 2021-09-01 | 2022-01-07 | 赛因芯微(北京)电子科技有限公司 | 基于双耳音频通道元数据和生成方法、设备及存储介质 |
CN113923584A (zh) * | 2021-09-01 | 2022-01-11 | 赛因芯微(北京)电子科技有限公司 | 基于矩阵音频通道元数据和生成方法、设备及存储介质 |
CN113905321A (zh) * | 2021-09-01 | 2022-01-07 | 赛因芯微(北京)电子科技有限公司 | 基于对象音频通道元数据和生成方法、设备及存储介质 |
CN113938811A (zh) * | 2021-09-01 | 2022-01-14 | 赛因芯微(北京)电子科技有限公司 | 基于音床音频通道元数据和生成方法、设备及存储介质 |
CN113963724A (zh) * | 2021-09-18 | 2022-01-21 | 赛因芯微(北京)电子科技有限公司 | 音频内容元数据和产生方法、电子设备及存储介质 |
CN114143695A (zh) * | 2021-10-15 | 2022-03-04 | 赛因芯微(北京)电子科技有限公司 | 一种音频流元数据和生成方法、电子设备及存储介质 |
CN114363792A (zh) * | 2021-11-26 | 2022-04-15 | 赛因芯微(北京)电子科技有限公司 | 传输音轨格式串行元数据生成方法、装置、设备及介质 |
CN114363790A (zh) * | 2021-11-26 | 2022-04-15 | 赛因芯微(北京)电子科技有限公司 | 串行音频块格式元数据生成方法、装置、设备及介质 |
CN114363791A (zh) * | 2021-11-26 | 2022-04-15 | 赛因芯微(北京)电子科技有限公司 | 串行音频元数据生成方法、装置、设备及存储介质 |
US11902771B2 (en) * | 2021-12-27 | 2024-02-13 | Spatialx Inc. | Audio space simulation in a localized audio environment |
CN114510212B (zh) * | 2021-12-31 | 2023-08-08 | 赛因芯微(北京)电子科技有限公司 | 一种基于串行数字音频接口的数据传输方法、装置及设备 |
CN114509043B (zh) * | 2022-02-15 | 2024-04-30 | 深圳须弥云图空间科技有限公司 | 空间对象编码方法、装置、设备及介质 |
CN117581566A (zh) * | 2022-05-05 | 2024-02-20 | 北京小米移动软件有限公司 | 音频处理方法、装置及存储介质 |
KR102504081B1 (ko) * | 2022-08-18 | 2023-02-28 | 주식회사 킨트 | 사운드 파일 마스터링 시스템 |
WO2024074284A1 (en) * | 2022-10-05 | 2024-04-11 | Dolby International Ab | Method, apparatus, and medium for efficient encoding and decoding of audio bitstreams |
WO2024074282A1 (en) * | 2022-10-05 | 2024-04-11 | Dolby International Ab | Method, apparatus, and medium for encoding and decoding of audio bitstreams |
WO2024076828A1 (en) * | 2022-10-05 | 2024-04-11 | Dolby Laboratories Licensing Corporation | Method, apparatus, and medium for encoding and decoding of audio bitstreams with parametric flexible rendering configuration data |
WO2024074283A1 (en) * | 2022-10-05 | 2024-04-11 | Dolby International Ab | Method, apparatus, and medium for decoding of audio signals with skippable blocks |
KR102608935B1 (ko) * | 2023-04-06 | 2023-12-04 | 뉴튠(주) | 사용자 정보에 기초한 실시간 오디오 믹싱 서비스 제공 방법 및 장치 |
CN116594586B (zh) * | 2023-07-18 | 2023-09-26 | 苏州清听声学科技有限公司 | 一种车载自适应调节的音频播放系统及方法 |
Family Cites Families (74)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5155510A (en) | 1990-11-29 | 1992-10-13 | Digital Theater Systems Corporation | Digital sound system for motion pictures with analog sound track emulation |
RU1332U1 (ru) | 1993-11-25 | 1995-12-16 | Магаданское государственное геологическое предприятие "Новая техника" | Гидромонитор |
US5802181A (en) | 1994-03-07 | 1998-09-01 | Sony Corporation | Theater sound system with upper surround channels |
JPH0951600A (ja) * | 1995-08-03 | 1997-02-18 | Fujitsu Ten Ltd | 効果音再生システム |
US5642423A (en) | 1995-11-22 | 1997-06-24 | Sony Corporation | Digital surround sound processor |
US5970152A (en) * | 1996-04-30 | 1999-10-19 | Srs Labs, Inc. | Audio enhancement system for use in a surround sound environment |
US6229899B1 (en) | 1996-07-17 | 2001-05-08 | American Technology Corporation | Method and device for developing a virtual speaker distant from the sound source |
US6164018A (en) | 1997-12-08 | 2000-12-26 | Shopro, Inc. | Cinematic theater and theater multiplex |
US6624873B1 (en) | 1998-05-05 | 2003-09-23 | Dolby Laboratories Licensing Corporation | Matrix-encoded surround-sound channels in a discrete digital sound format |
US6931370B1 (en) * | 1999-11-02 | 2005-08-16 | Digital Theater Systems, Inc. | System and method for providing interactive audio in a multi-channel audio environment |
US6771323B1 (en) | 1999-11-15 | 2004-08-03 | Thx Ltd. | Audio visual display adjustment using captured content characteristics |
EP1134724B1 (en) * | 2000-03-17 | 2008-07-23 | Sony France S.A. | Real time audio spatialisation system with high level control |
CA2406926A1 (en) * | 2000-04-19 | 2001-11-01 | Sonic Solutions | Multi-channel surround sound mastering and reproduction techniques that preserve spatial harmonics in three dimensions |
US7212872B1 (en) | 2000-05-10 | 2007-05-01 | Dts, Inc. | Discrete multichannel audio with a backward compatible mix |
US6970822B2 (en) | 2001-03-07 | 2005-11-29 | Microsoft Corporation | Accessing audio processing components in an audio generation system |
KR20030015806A (ko) | 2001-08-17 | 2003-02-25 | 최해용 | 극장용 영상,음향 광학계(劇場用 映像,音響 光學係) |
BR0304231A (pt) * | 2002-04-10 | 2004-07-27 | Koninkl Philips Electronics Nv | Métodos para codificação de um sinal de canais múltiplos, método e disposição para decodificação de informação de sinal de canais múltiplos, sinal de dados incluindo informação de sinal de canais múltiplos, meio legìvel por computador, e, dispositivo para comunicação de um sinal de canais múltiplos |
JP2003348700A (ja) * | 2002-05-28 | 2003-12-05 | Victor Co Of Japan Ltd | 臨場感信号の生成方法、及び臨場感信号生成装置 |
US20030223603A1 (en) | 2002-05-28 | 2003-12-04 | Beckman Kenneth Oren | Sound space replication |
DE10254404B4 (de) * | 2002-11-21 | 2004-11-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audiowiedergabesystem und Verfahren zum Wiedergeben eines Audiosignals |
GB0301093D0 (en) * | 2003-01-17 | 2003-02-19 | 1 Ltd | Set-up method for array-type sound systems |
GB0304126D0 (en) * | 2003-02-24 | 2003-03-26 | 1 Ltd | Sound beam loudspeaker system |
FR2853802B1 (fr) | 2003-04-11 | 2005-06-24 | Pierre Denis Rene Vincent | Installation pour la projection d'oeuvres cinematographiques ou numeriques sonores |
WO2005004114A1 (en) | 2003-07-07 | 2005-01-13 | Koninklijke Philips Electronics N.V. | System and method for audio signal processing |
US6972828B2 (en) | 2003-12-18 | 2005-12-06 | Eastman Kodak Company | Method and system for preserving the creative intent within a motion picture production chain |
SE0400997D0 (sv) | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Efficient coding of multi-channel audio |
SE0400998D0 (sv) * | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Method for representing multi-channel audio signals |
US7106411B2 (en) | 2004-05-05 | 2006-09-12 | Imax Corporation | Conversion of cinema theatre to a super cinema theatre |
EP1691348A1 (en) | 2005-02-14 | 2006-08-16 | Ecole Polytechnique Federale De Lausanne | Parametric joint-coding of audio sources |
WO2006091540A2 (en) * | 2005-02-22 | 2006-08-31 | Verax Technologies Inc. | System and method for formatting multimode sound content and metadata |
DE102005008342A1 (de) * | 2005-02-23 | 2006-08-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Speichern von Audiodateien |
DE102005008366A1 (de) * | 2005-02-23 | 2006-08-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Ansteuern einer Wellenfeldsynthese-Renderer-Einrichtung mit Audioobjekten |
DE102005008343A1 (de) * | 2005-02-23 | 2006-09-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Liefern von Daten in einem Multi-Renderer-System |
JP2006304165A (ja) * | 2005-04-25 | 2006-11-02 | Yamaha Corp | スピーカアレイシステム |
DE102005033238A1 (de) * | 2005-07-15 | 2007-01-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Ansteuern einer Mehrzahl von Lautsprechern mittels eines DSP |
US8082051B2 (en) * | 2005-07-29 | 2011-12-20 | Harman International Industries, Incorporated | Audio tuning system |
KR100733965B1 (ko) | 2005-11-01 | 2007-06-29 | 한국전자통신연구원 | 객체기반 오디오 전송/수신 시스템 및 그 방법 |
JP2009526263A (ja) * | 2006-02-07 | 2009-07-16 | エルジー エレクトロニクス インコーポレイティド | 符号化/復号化装置及び方法 |
ATE491314T1 (de) * | 2006-04-05 | 2010-12-15 | Harman Becker Automotive Sys | Verfahren zum automatischen entzerren eines beschallungssystems |
DE102006022346B4 (de) * | 2006-05-12 | 2008-02-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Informationssignalcodierung |
US8150065B2 (en) | 2006-05-25 | 2012-04-03 | Audience, Inc. | System and method for processing an audio signal |
EP1879293B1 (en) | 2006-07-10 | 2019-02-20 | Harman Becker Automotive Systems GmbH | Partitioned fast convolution in the time and frequency domain |
AU2007300810B2 (en) | 2006-09-29 | 2010-06-17 | Lg Electronics Inc. | Methods and apparatuses for encoding and decoding object-based audio signals |
MX2009003564A (es) | 2006-10-16 | 2009-05-28 | Fraunhofer Ges Forschung | Aparato y metodo para transformacion de parametro multicanal. |
CN101001485A (zh) * | 2006-10-23 | 2007-07-18 | 中国传媒大学 | 一种有限声源多通道声场系统及声场模拟方法 |
JP5270566B2 (ja) | 2006-12-07 | 2013-08-21 | エルジー エレクトロニクス インコーポレイティド | オーディオ処理方法及び装置 |
US7788395B2 (en) | 2007-02-14 | 2010-08-31 | Microsoft Corporation | Adaptive media playback |
EP2137726B1 (en) | 2007-03-09 | 2011-09-28 | LG Electronics Inc. | A method and an apparatus for processing an audio signal |
KR101422745B1 (ko) | 2007-03-30 | 2014-07-24 | 한국전자통신연구원 | 다채널로 구성된 다객체 오디오 신호의 인코딩 및 디코딩장치 및 방법 |
ES2593822T3 (es) | 2007-06-08 | 2016-12-13 | Lg Electronics Inc. | Método y aparato para procesar una señal de audio |
ES2377719T3 (es) | 2007-07-13 | 2012-03-30 | Dolby Laboratories Licensing Corporation | Procesamiento de audio utilizando un análisis de escenas auditivas y oblicuidad espectral. |
US8194882B2 (en) | 2008-02-29 | 2012-06-05 | Audience, Inc. | System and method for providing single microphone noise suppression fallback |
CN101978424B (zh) * | 2008-03-20 | 2012-09-05 | 弗劳恩霍夫应用研究促进协会 | 扫描环境的设备、声学显示的设备和方法 |
JP5174527B2 (ja) | 2008-05-14 | 2013-04-03 | 日本放送協会 | 音像定位音響メタ情報を付加した音響信号多重伝送システム、制作装置及び再生装置 |
US8315396B2 (en) * | 2008-07-17 | 2012-11-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating audio output signals using object based metadata |
US7996422B2 (en) * | 2008-07-22 | 2011-08-09 | At&T Intellectual Property L.L.P. | System and method for adaptive media playback based on destination |
US7796190B2 (en) | 2008-08-15 | 2010-09-14 | At&T Labs, Inc. | System and method for adaptive content rendition |
US8793749B2 (en) | 2008-08-25 | 2014-07-29 | Broadcom Corporation | Source frame adaptation and matching optimally to suit a recipient video device |
US8798776B2 (en) | 2008-09-30 | 2014-08-05 | Dolby International Ab | Transcoding of audio metadata |
JP5629429B2 (ja) | 2008-11-21 | 2014-11-19 | パナソニック株式会社 | オーディオ再生装置及びオーディオ再生方法 |
US8351612B2 (en) * | 2008-12-02 | 2013-01-08 | Electronics And Telecommunications Research Institute | Apparatus for generating and playing object based audio contents |
US8786682B2 (en) * | 2009-03-05 | 2014-07-22 | Primesense Ltd. | Reference image techniques for three-dimensional sensing |
WO2010148244A1 (en) | 2009-06-19 | 2010-12-23 | Dolby Laboratories Licensing Corporation | User-specific features for an upgradeable media kernel and engine |
US8136142B2 (en) | 2009-07-02 | 2012-03-13 | Ericsson Television, Inc. | Centralized content management system for managing distribution of packages to video service providers |
KR20120062758A (ko) | 2009-08-14 | 2012-06-14 | 에스알에스 랩스, 인크. | 오디오 객체들을 적응적으로 스트리밍하기 위한 시스템 |
CA2715362A1 (en) * | 2009-09-22 | 2011-03-22 | Thwapr, Inc. | Interoperable mobile media sharing |
US20110088076A1 (en) * | 2009-10-08 | 2011-04-14 | Futurewei Technologies, Inc. | System and Method for Media Adaptation |
WO2011045813A2 (en) | 2009-10-15 | 2011-04-21 | Tony Joy | A method and product to transparently deliver audio through fusion of fixed loudspeakers and headphones to deliver the sweet spot experience |
AU2010321013B2 (en) * | 2009-11-20 | 2014-05-29 | Dolby International Ab | Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter |
WO2011068490A1 (en) | 2009-12-02 | 2011-06-09 | Thomson Licensing | Optimizing content calibration for home theaters |
DK2727383T3 (da) * | 2011-07-01 | 2021-05-25 | Dolby Laboratories Licensing Corp | System og fremgangsmåde til adaptiv audiosignalgenerering, -kodning og -gengivelse |
US20130163794A1 (en) * | 2011-12-22 | 2013-06-27 | Motorola Mobility, Inc. | Dynamic control of audio on a mobile device with respect to orientation of the mobile device |
RS1332U (en) | 2013-04-24 | 2013-08-30 | Tomislav Stanojević | FULL SOUND ENVIRONMENT SYSTEM WITH FLOOR SPEAKERS |
EP2830336A3 (en) * | 2013-07-22 | 2015-03-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Renderer controlled spatial upmix |
-
2012
- 2012-06-27 DK DK12743261.5T patent/DK2727383T3/da active
- 2012-06-27 EP EP12743261.5A patent/EP2727383B1/en active Active
- 2012-06-27 CN CN201280032058.3A patent/CN103650539B/zh active Active
- 2012-06-27 TW TW110107115A patent/TWI792203B/zh active
- 2012-06-27 BR BR112013033386-3A patent/BR112013033386B1/pt active IP Right Grant
- 2012-06-27 EP EP21169907.9A patent/EP3893521A1/en active Pending
- 2012-06-27 KR KR1020197003234A patent/KR102003191B1/ko active IP Right Grant
- 2012-06-27 US US14/130,386 patent/US9179236B2/en active Active
- 2012-06-27 AR ARP120102308A patent/AR086775A1/es active IP Right Grant
- 2012-06-27 IL IL302167A patent/IL302167A/en unknown
- 2012-06-27 KR KR1020227018617A patent/KR102608968B1/ko active IP Right Grant
- 2012-06-27 KR KR1020207034194A patent/KR102406776B1/ko active IP Right Grant
- 2012-06-27 IL IL291043A patent/IL291043B2/en unknown
- 2012-06-27 HU HUE12743261A patent/HUE054452T2/hu unknown
- 2012-06-27 TW TW105113526A patent/TWI603632B/zh active
- 2012-06-27 KR KR1020207014372A patent/KR102185941B1/ko active IP Right Grant
- 2012-06-27 CN CN201610142870.1A patent/CN105792086B/zh active Active
- 2012-06-27 CA CA2973703A patent/CA2973703C/en active Active
- 2012-06-27 KR KR1020137034894A patent/KR101685447B1/ko active IP Right Grant
- 2012-06-27 TW TW112102919A patent/TW202339510A/zh unknown
- 2012-06-27 TW TW107142737A patent/TWI722342B/zh active
- 2012-06-27 RU RU2013158054A patent/RU2617553C2/ru active
- 2012-06-27 JP JP2014518958A patent/JP5912179B2/ja active Active
- 2012-06-27 RU RU2017112527A patent/RU2731025C2/ru active
- 2012-06-27 TW TW101123003A patent/TWI543642B/zh active
- 2012-06-27 CA CA2837893A patent/CA2837893C/en active Active
- 2012-06-27 ES ES12743261T patent/ES2871224T3/es active Active
- 2012-06-27 MX MX2013014684A patent/MX2013014684A/es active IP Right Grant
- 2012-06-27 KR KR1020187008804A patent/KR101946795B1/ko active IP Right Grant
- 2012-06-27 AU AU2012279357A patent/AU2012279357B2/en active Active
- 2012-06-27 MY MYPI2013004181A patent/MY165933A/en unknown
- 2012-06-27 IL IL295733A patent/IL295733B2/en unknown
- 2012-06-27 UA UAA201702759A patent/UA124570C2/uk unknown
- 2012-06-27 KR KR1020237041109A patent/KR20230170110A/ko active Application Filing
- 2012-06-27 TW TW106125585A patent/TWI651005B/zh active
- 2012-06-27 BR BR122020001361-3A patent/BR122020001361B1/pt active IP Right Grant
- 2012-06-27 CA CA3157717A patent/CA3157717A1/en active Pending
- 2012-06-27 PL PL12743261T patent/PL2727383T3/pl unknown
- 2012-06-27 WO PCT/US2012/044388 patent/WO2013006338A2/en active Application Filing
- 2012-06-27 KR KR1020147037035A patent/KR101845226B1/ko active IP Right Grant
- 2012-06-27 KR KR1020197020510A patent/KR102115723B1/ko active Application Filing
- 2012-06-27 SG SG10201604679UA patent/SG10201604679UA/en unknown
-
2013
- 2013-12-19 IL IL230046A patent/IL230046A/en active IP Right Grant
-
2015
- 2015-09-25 US US14/866,350 patent/US9467791B2/en active Active
-
2016
- 2016-03-31 JP JP2016072282A patent/JP6174184B2/ja active Active
- 2016-04-11 AU AU2016202227A patent/AU2016202227B2/en active Active
- 2016-05-10 IL IL245574A patent/IL245574A0/en active IP Right Grant
- 2016-06-28 HK HK16107493.9A patent/HK1219604A1/zh unknown
- 2016-09-12 US US15/263,279 patent/US9622009B2/en active Active
-
2017
- 2017-04-10 US US15/483,806 patent/US9800991B2/en active Active
- 2017-07-05 JP JP2017131759A patent/JP6486995B2/ja active Active
- 2017-08-09 US US15/672,656 patent/US9942688B2/en active Active
-
2018
- 2018-02-26 US US15/905,536 patent/US10057708B2/en active Active
- 2018-05-28 AU AU2018203734A patent/AU2018203734B2/en active Active
- 2018-07-13 US US16/035,262 patent/US10165387B2/en active Active
- 2018-11-30 US US16/207,006 patent/US10327092B2/en active Active
-
2019
- 2019-02-20 JP JP2019028442A patent/JP6523585B1/ja active Active
- 2019-04-01 IL IL265741A patent/IL265741B/en active IP Right Grant
- 2019-04-25 JP JP2019084101A patent/JP6637208B2/ja active Active
- 2019-06-07 AU AU2019204012A patent/AU2019204012B2/en active Active
- 2019-06-17 US US16/443,268 patent/US10477339B2/en active Active
- 2019-11-11 US US16/679,945 patent/US10904692B2/en active Active
- 2019-12-19 JP JP2019229648A patent/JP6759442B2/ja active Active
-
2020
- 2020-08-18 RU RU2020127493A patent/RU2741738C1/ru active
- 2020-08-31 AU AU2020226984A patent/AU2020226984B2/en active Active
- 2020-09-02 JP JP2020147539A patent/JP6821854B2/ja active Active
- 2020-10-01 IL IL277736A patent/IL277736B/en unknown
-
2021
- 2021-01-06 JP JP2021000842A patent/JP6882618B2/ja active Active
- 2021-01-22 US US17/156,459 patent/US11412342B2/en active Active
- 2021-05-06 JP JP2021078508A patent/JP7009664B2/ja active Active
- 2021-07-04 IL IL284585A patent/IL284585B/en unknown
- 2021-10-28 AU AU2021258043A patent/AU2021258043B2/en active Active
-
2022
- 2022-01-12 JP JP2022002776A patent/JP7348320B2/ja active Active
- 2022-08-08 US US17/883,440 patent/US11962997B2/en active Active
-
2023
- 2023-01-31 AU AU2023200502A patent/AU2023200502A1/en active Pending
- 2023-09-07 JP JP2023145272A patent/JP2023164976A/ja active Pending
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11962997B2 (en) | System and method for adaptive audio signal generation, coding and rendering | |
AU2012279357A1 (en) | System and method for adaptive audio signal generation, coding and rendering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
B06F | Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette] | ||
B06U | Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette] | ||
B25G | Requested change of headquarter approved |
Owner name: DOLBY LABORATORIES LICENSING CORPORATION (US) |
|
B09A | Decision: intention to grant [chapter 9.1 patent gazette] | ||
B16A | Patent or certificate of addition of invention granted [chapter 16.1 patent gazette] |
Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 27/06/2012, OBSERVADAS AS CONDICOES LEGAIS. |