BR112020000775A2 - aparelho para gerar uma descrição do campo sonoro, programa de computador, descrição do campo sonoro aprimorada e seu método de geração - Google Patents

aparelho para gerar uma descrição do campo sonoro, programa de computador, descrição do campo sonoro aprimorada e seu método de geração Download PDF

Info

Publication number
BR112020000775A2
BR112020000775A2 BR112020000775-7A BR112020000775A BR112020000775A2 BR 112020000775 A2 BR112020000775 A2 BR 112020000775A2 BR 112020000775 A BR112020000775 A BR 112020000775A BR 112020000775 A2 BR112020000775 A2 BR 112020000775A2
Authority
BR
Brazil
Prior art keywords
sound field
description
sound
information
source
Prior art date
Application number
BR112020000775-7A
Other languages
English (en)
Inventor
Jürgen Herre
Emanuel Habets
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Publication of BR112020000775A2 publication Critical patent/BR112020000775A2/pt

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0346Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of the device orientation or free movement in a 3D space, e.g. 3D mice, 6-DOF [six degrees of freedom] pointers using gyroscopes, accelerometers or tilt-sensors
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • H04S7/306For headphones

Abstract

Trata-se de um aparelho para gerar uma descrição do campo sonoro aprimorada que compreende: um gerador de campo sonoro (100, 250, 260) para gerar pelo menos uma descrição do campo sonoro que indica um campo sonoro em relação a pelo menos um local de referência; e um gerador de metadados (110) para gerar metadados relacionados às informações espaciais do campo sonoro, em que a pelo menos uma descrição do campo sonoro e os metadados constituem a descrição do campo sonoro aprimorada. A pelo menos uma descrição do campo sonoro compreende em um certo caso uma primeira descrição do campo sonoro relacionada a pelo menos um local de referência e uma segunda descrição do campo sonoro relacionada a um local de referência adicional diferente do local de referência, e os metadados relacionados às informações espaciais indicam o local de referência e o local de referência adicional ou um de ambos os locais de referência e um vetor que se estende entre ambos os locais de referência.

Description

Relatório Descritivo da Patente de Invenção para “APARELHO PARA GERAR UMA DESCRIÇÃO DO CAMPO SONORO, PROGRAMA DE COMPUTADOR,
DESCRIÇÃO DO CAMPO SONORO APRIMORADA E SEU MÉTODO DE GERAÇÃO”
[001] A presente invenção está relacionada ao processamento de áudio e, particularmente, ao processamento de áudio em relação aos campos sonoros definidos em relação a um local de referência, como um microfone ou um local de microfone virtual.
[002] Os sinais Ambisonics compreendem uma decomposição harmônica esférica truncada do campo sonoro. Ambisonics vem em formas diferentes. Existe o Ambisonics “tradicional” [31], que hoje é conhecido como “Ambisonics de Primeira Ordem” (FOA) e compreende quatro sinais (ou seja, um sinal omnidirecional e até três sinais direcionais com uma figura de oito). As variantes Ambisonics mais recentes são conhecidas como 'Ambisonics de ordem superior' (HOA) e fornecem uma resolução espacial aprimorada e uma área maior de pontos ideais do ouvinte à custa de transmitir mais sinais. Em geral, uma representação HOA de ordem N-th totalmente definida consiste em sinais (N+1)2.
[003] Relacionado à ideia Ambisonics, a representação Direcional de Codificação de Áudio (DirAC) foi concebida para representar uma cena sonora FOA ou HOA em um estilo paramétrico mais compacto. Mais especificamente, a cena sonora espacial é representada por um (ou mais) canais de áudio transmitidos, que representam uma mixagem de redução da cena acústica e informações secundárias associadas da direção e difusão em cada compartimento de frequência-tempo (TF). Mais informações sobre o DirAC podem ser encontradas em [32, 33].
[004] O DIirAC [32] pode ser usado com diferentes sistemas de microfone e com configurações arbitrárias de alto-falantes. O objetivo do sistema DirAC é reproduzir a impressão espacial de um ambiente acústico existente da maneira mais precisa possível, com uso de um sistema de alto-falante multicanal/8D. No ambiente escolhido, as respostas (respostas contínuas ao som ou impulso) são medidas com um microfone omnidirecional (W) e com um conjunto de microfones que permitem medir a direção de chegada do som e a difusão do som. Um método comum é aplicar três microfones em forma de oito (X, Y, Z) alinhados com os eixos de coordenadas cartesianas correspondentes [34]. Uma maneira de fazer isso é usar um microfone de campo sonoro, que produz diretamente todas as respostas desejadas. Os sinais W, XxX, Y e Z também podem ser calculados a partir de um conjunto de microfones omnidirecionais discretos.
[005] No DIirAC, o sinal sonoro é primeiro dividido em canais de frequência. À direção e a difusão sonora são medidas dependendo do tempo em cada canal de frequência. Na transmissão, um ou mais canais de áudio são enviados, juntamente com os dados de direção e difusão analisados. Em síntese, o áudio aplicado aos alto- falantes pode ser, por exemplo, o canal omnidirecional W, ou o som de cada alto- falante pode ser calculado como uma soma ponderada de W, X, Y e Z, que forma um sinal que possui certas características direcionais para cada alto-falante. Cada canal de áudio é dividido em canais de frequência, que são divididos opcionalmente para fluxos difusos e não difusos, dependendo da difusão analisada. Um fluxo difuso é reproduzido com uma técnica que produz uma percepção difusa de uma cena sonora, por exemplo, as técnicas de correlação usadas na Codificação Binaural Cue [35-37]. O som não difuso é reproduzido com uma técnica que visa produzir uma fonte virtual tipo pontos de acordo com os dados de direção (por exemplo, VBAP [38]).
[006] Três técnicas de navegação em 6DoF com um grau de liberdade limitado são propostas em [39]. Dado um único sinal Ambisonics, um único sinal Ambisonics é calculado usando: 1) simulando a reprodução do HOA e o movimento do ouvinte dentro de uma matriz de alto-falantes virtual, 2) calculando e transladando ao longo de ondas planas e 3) reexpandindo o campo sonoro do ouvinte.
[007] Além disso, é feita referência à tecnologia DIrAC, como descrito, por exemplo, na publicação “Directional Audio Coding — Perception-Based Reproduction of Spatial Sound”, V. Pulkki et al, Workshop Internacional sobre os Princípios e Aplicativos da Audição Espacial, 11 a 13 de novembro de 2009, Zao, Miyagi, Japão.
Esta referência descreve a codificação de áudio direcional como um exemplo para um processamento de campo sonoro relacionado ao local de referência, particularmente como uma técnica perceptivamente motivada para o processamento espacial de áudio. Possui aplicativos na captura, codificação e ressíntese de sons espaciais, em teleconferência, em filtragem direcional e em ambientes auditivos virtuais.
[008] A reprodução de cenas sonoras geralmente concentra-se nas configurações dos alto-falantes, pois essa era a reprodução típica em ambientes privados, por exemplo, sala de estar e contexto profissional, ou seja, cinemas. Aqui, a relação da cena com a geometria da reprodução é estática, pois acompanha uma imagem bidimensional que força o ouvinte a olhar na direção frontal. Posteriormente, a relação espacial dos objetos sonoros e visuais é definida e fixada no momento da produção.
[009] Na realidade virtual (VR), a imersão é explicitamente alcançada ao permitir que o usuário se mova livremente na cena. Portanto, é necessário rastrear o movimento do usuário e ajustar a reprodução visual e auditiva à posição do usuário. Normalmente, o usuário está com uso de um monitor montado na cabeça (HMD) e fones de ouvido. Para uma experiência imersiva com fones de ouvido, o áudio deve ser binauralizado. Binauralização é uma simulação de como a cabeça, os ouvidos e o torso humano alteram o som de uma fonte, dependendo de sua direção e distância. Isso é alcançado pela convolução dos sinais com funções de transferência relacionadas à cabeça (HRTFs) para sua direção relativa [1, 2]. A binauralização também faz com que o som pareça vir da cena e não de dentro da cabeça [3]. Um cenário comum que já foi resolvido com sucesso é a reprodução de vídeo em 360º» [4, 5]. Aqui, o usuário está com uso de um HMD ou segurando um tablet ou telefone nas mãos. Movendo a cabeça ou o dispositivo, o usuário pode olhar em qualquer direção. Este é um cenário de três graus de liberdade (3DoF), pois o usuário possui três graus de movimento (inclinação, guinada, rotação). Visualmente, isso é realizado projetando o vídeo em uma esfera ao redor do usuário. O áudio é frequentemente gravado com um microfone espacial [6], por exemplo, Ambisonics de primeira ordem (FOA),
próximo à câmera de vídeo. No domínio Ambisonics, a rotação da cabeça do usuário é adaptada de maneira direta [7]. O áudio é, por exemplo, renderizado em alto-falantes virtuais colocados ao redor do usuário. Esses sinais dos alto-falantes virtuais são então binauralizados.
[010] Os aplicativos modernos de VR permitem seis graus de liberdade (6DoF). Além da rotação da cabeça, o usuário pode se movimentar, resultando na conversão de sua posição em três dimensões espaciais. A reprodução 6DoF é limitada pelo tamanho total da área de caminhada. Em muitos casos, essa área é bastante pequena, por exemplo, uma sala de estar convencional. 6DoF é comumente encontrada em jogos de RV. Aqui, toda a cena é sintética com imagens geradas por computador (CGI). O áudio geralmente é gerado com uso da renderização com base em objeto, onde cada objeto de áudio é renderizado com ganho dependente da distância e direção relativa do usuário com base nos dados de rastreamento. O realismo pode ser aprimorado por reverberação e difração artificiais [8, 9, 10].
[011] Em relação ao conteúdo gravado, existem alguns desafios distintos para convencer a reprodução audiovisual de 6DoF. Um exemplo inicial de manipulação espacial do som no domínio da translação espacial é o das técnicas de 'zoom acústico [11, 12]. Aqui, a posição do ouvinte é virtualmente movida para a cena visual gravada, semelhante ao zoom em uma imagem. O usuário escolhe uma direção ou parte da imagem e pode ouvir isso de um ponto transladado. Isso implica que todas as direções de chegadas (DoAs) estão mudando em relação à reprodução original sem zoom.
[012] Métodos para a reprodução de 6DoF do conteúdo gravado têm sido usados em posições de gravação distribuídas espacialmente. Para vídeo, matrizes de câmeras podem ser empregadas para gerar renderização em campo de luz [13]. Para áudio, uma configuração semelhante emprega matrizes de microfones distribuídos ou microfones Ambisonics. Foi demonstrado que é possível gerar o sinal de um 'microfone virtual colocado em uma posição arbitrária a partir de tais gravações [14].
[013] De modo a realizar tais modificações sonoras espaciais em uma maneira tecnicamente conveniente, processamento sonoro paramétrico ou técnicas de codificação podem ser utilizados (conforme [15] para uma visão geral). A codificação de áudio direcional (DirAC) [16] é um método popular para transformar a gravação em uma representação que consiste em um espectro de áudio e informações secundárias paramétricas na direção e difusão sonora. É usado para aplicativos de zoom acústico
[11] e microfone virtual [14].
[014] O método proposto aqui permite a reprodução 6DoF a partir da gravação de um único microfone FOA. As gravações de uma única posição espacial foram usadas para reprodução 3DoF ou zoom acústico. Mas, ao conhecimento dos inventores, nenhum método para a reprodução interativa e completa de 6DoF desses dados foi proposto até o momento. Percebe-se a reprodução 6DoF integrando informações sobre a distância das fontes sonoras na gravação. Essas informações de distância são incorporadas à representação paramétrica do DIrAC, de modo que a perspectiva alterada do ouvinte seja mapeada corretamente.
[015] Nenhuma das representações do campo sonoro Ambisonics (seja como FOA ou HOA Ambisonics regular ou como representação paramétrica do campo sonoro no estilo DIrAC) fornece informações suficientes para permitir uma mudança translacional da posição do ouvinte, pois é necessária para aplicativos 6DoF, pois nem a distância do objeto nem as posições absolutas dos objetos na cena sonora são determinadas nesses formatos. Deve-se notar que a mudança na posição do ouvinte pode ser transladada em uma mudança equivalente da cena sonora na direção oposta.
[016] Um problema típico ao mover 6DoF é ilustrado na Figura 1b. Vamos supor que a cena sonora seja descrita na posição A usando o Ambisonics. Nesse caso, os sons da Fonte A e da Fonte B chegam da mesma direção, ou seja, eles têm a mesma direção de chegada (DOA). Caso se mude para a posição B, o DOA da fonte A e da fonte B são diferentes. Com uso de uma descrição Ambisonics padrão do campo sonoro, ou seja, sem informações adicionais, não é possível calcular os sinais Ambisonics na Posição B, dados os sinais Ambisonics na Posição A.
[017] É um objetivo da presente invenção fornecer uma descrição do campo sonoro aprimorada por um lado, ou uma geração de uma descrição do campo sonoro modificada, por outro lado, que permita um processamento aprimorado, flexível ou eficiente.
[018] Esse objetivo é obtido por um aparelho para gerar uma descrição do campo sonoro aprimorada da reivindicação 1, um aparelho para gerar uma descrição do campo sonoro modificada da reivindicação 8, um método de gerar uma descrição do campo sonoro aprimorada da reivindicação 46, um método de gerar uma descrição do campo sonoro modificada da reivindicação 47, um programa de computador da reivindicação 48 ou uma descrição do campo sonoro aprimorada da reivindicação 49.
[019] A presente invenção é baseada na descoberta que descrições do campo sonoro típicas que são relacionadas a um local de referência precisam de informações adicionais para que essas descrições do campo sonoro podem ser processadas de modo que uma descrição do campo sonoro modificada que não esteja relacionada ao local de referência original mas para um outro local de referência pode ser calculado. Para este fim, metadados relacionados às informações espaciais deste campo sonoro são gerados e os metadados junto com a descrição do campo sonoro correspondem à descrição do campo sonoro aprimorada que pode, por exemplo, ser transmitida ou armazenada. De modo a gerar uma descrição do campo sonoro modificada a partir da descrição do campo sonoro e os metadados e, especificamente, os metadados relacionados às informações espaciais da descrição do campo sonoro, o campo sonoro modificado é calculado usando essas informações espaciais, a descrição do campo sonoro e uma informação de translação que indica uma translação a partir de um local de referência para um local de referência diferente. Assim, a descrição do campo sonoro aprimorada consistindo em uma descrição do campo sonoro e metadados relacionados às informações espaciais deste campo sonoro subjacente a descrição do campo sonoro é processada para obter uma descrição do campo sonoro modificada que é relacionada a um local de referência diferente definido pelas informações de translação adicionais que podem, por exemplo, ser fornecidas ou usadas em um lado do decodificador.
[020] Entretanto, a presente invenção não é apenas relacionada a um cenário de codificador/decodificador, mas pode também ser aplicada em um aplicativo onde ambas, a geração da descrição do campo sonoro aprimorada e a geração da descrição do campo sonoro modificada ocorre em basicamente um e o mesmo local. A descrição do campo sonoro modificada pode, por exemplo, ser uma descrição do próprio campo sonoro modificado ou realmente o campo sonoro modificado em sinais do canal, sinais binaurais ou, novamente, um campo sonoro relacionado ao local de referência que, entretanto, é agora relacionado ao local de referência diferente ou novo ao invés do local de referência original. Esse aplicativo estaria, por exemplo, em um cenário de realidade virtual, onde existe uma descrição do campo sonoro, juntamente com um metadado, e um ouvinte sai do local de referência para o qual o campo sonoro é fornecido e se move para um local de referência diferente, onde, então, o campo sonoro do ouvinte que se move na área virtual é calculado para corresponder ao campo sonoro, mas agora no local de referência diferente para o qual o usuário se mudou.
[021] Em uma modalidade particular, a descrição do campo sonoro aprimorada tem uma primeira descrição do campo sonoro relacionada ao (primeiro) local de referência e uma segunda descrição do campo sonoro relacionada a um (o segundo) local de referência adicional que é diferente do (primeiro) local de referência, e os metadados tem informações no local de referência e o local de referência adicional como vetores apontando a partir de uma origem predeterminada para estes locais de referência. Alternativamente, os metadados podem ser um único vetor apontando para oO local de referência ou para o local de referência adicional e um vetor se estendendo entre os dois locais de referência, aos quais as duas diferentes descrições do campo sonoro são relacionadas.
[022] As descrições do campo sonoro podem ser descrições do campo sonoro não paramétricas como descrições Ambisonics de primeira ordem ou Ambisonics de ordem superior. Alternativamente ou além disso, as descrições do campo sonoro podem ser descrições DirAC ou outras descrições do campo sonoro paramétricas, ou uma descrição do campo sonoro pode, por exemplo, ser uma descrição do campo sonoro paramétrica e a outra descrição do campo sonoro pode ser, por exemplo, uma descrição do campo sonoro não paramétrica.
[023] Consequentemente, a descrição do campo sonoro pode gerar, para cada descrição do campo sonoro, uma descrição DirAC do campo sonoro tendo um ou mais sinais de mixagem de redução e dados de direção individual e opcionalmente dados de difusão para diferentes compartimentos de frequência e tempo. Neste contexto, o gerador de metadados está configurado para gerar metadados geométricos para ambas as descrições do campo sonoro de modo que o local de referência e o local de referência adicional podem ser identificados a partir dos metadados. Então, será possível extrair fontes individuais a partir de ambas as descrições do campo sonoro e para realizar um processamento adicional para o propósito de gerar um descrição do campo sonoro modificada ou aprimorada.
[024] Ambisonics se tornou um dos formatos mais usados para áudio 3D no contexto de aplicativos de realidade virtual, aumentada e mista. Uma grande variedade de ferramentas de aquisição e produção de áudio foi desenvolvida para gerar um sinal de saída no formato Ambisonics. Para apresentar o conteúdo codificado Ambisonics em aplicativos de realidade virtual interativa (VR), o formato Ambisonics é convertido em um sinal ou canais binaurais para reprodução. Nas aplicações mencionadas, o ouvinte geralmente é capaz de alterar interativamente sua orientação na cena apresentada, na medida em que ele/ela pode girar a cabeça na cena sonora, permitindo três graus de liberdade (3DoF, isto é, inclinação, guinada e rotação) e ainda possui uma qualidade de som apropriada. Isso é implementado girando a cena sonora antes da renderização, de acordo com a orientação da cabeça, que pode ser implementada com baixa complexidade computacional e é uma vantagem da representação Ambisonics. Em aplicativos emergentes, como VR, é desejável permitir ao usuário movimento livre na cena sonora, em vez de apenas mudanças de orientação (os chamados “seis graus de liberdade” ou 6DoF). Como consequência, o processamento do sinal é necessário para alterar a perspectiva da cena sonora (isto é, para mover virtualmente dentro da cena sonora ao longo dos eixos x, y ou z). No entanto, uma grande desvantagem do Ambisonics é que o procedimento descreve o campo sonoro a partir de uma única perspectiva na cena sonora. Especificamente, ele não contém informações sobre a localização real das fontes sonoras na cena sonora, o que permitiria mudar a cena sonora (“translação”) conforme necessário para 6DoF. Esta descrição da invenção fornece várias extensões do Ambisonics para superar esse problema e facilitar também a translação e, portanto, permitir 6DoF verdadeiro.
[025] As gravações Ambisonics de primeira ordem (FOA) podem ser processadas e reproduzidas em fones de ouvido. Eles podem ser girados para dar conta da orientação da cabeça dos ouvintes. No entanto, os sistemas de realidade virtual (VR) permitem que o ouvinte se mova em seis graus de liberdade (6DoF), ou seja, três graus de liberdade de rotação e três de transição. Aqui, os ângulos e distâncias aparentes das fontes sonoras dependem da posição do ouvinte. Uma técnica para facilitar o 6DoF é descrita. Em particular, uma gravação FOA é descrita com uso de um modelo paramétrico, que é modificado com base na posição do ouvinte e informações sobre as distâncias até as fontes. O método é avaliado por um teste de audição, comparando diferentes representações binaurais de uma cena sonora sintética na qual o ouvinte pode se mover livremente.
[026] Em outras modalidades preferenciais, a descrição do campo sonoro aprimorada é emitida por uma interface de saída para gerar um sinal de saída para transmissão ou armazenamento, onde o sinal de saída compreende, por um período de tempo, um ou mais sinais de áudio derivados do campo sonoro e das informações de espaço para o período de tempo. Particularmente, o gerador de campo sonoro é em outras modalidades adaptáveis para derivar dados de direção do campo sonoro, os dados de direção referentes a uma direção de chegada do som por um período de tempo ou um compartimento de frequência e o gerador de metadados é configurado para derivar o espaço informações como itens de dados que associam informações de distância aos dados de direção.
[027] Particularmente, em uma tal modalidade, uma interface de saída é configurada para gerar os sinais de saída de modo que os itens dos dados para o período de tempo sejam ligados aos dados de direção para os compartimentos de frequência diferentes.
[028] Em uma modalidade adicional, o gerador de campo sonoro também é configurado para gerar uma informação de difusão para uma pluralidade de compartimentos de frequência de um período de tempo do campo sonoro, em que o gerador de metadados é configurado para gerar apenas uma informação de distância para um compartimento de frequência sendo diferente de um valor predeterminado, ou diferente do infinito ou gerar um valor de distância para o compartimento de frequência, quando o valor de difusão for menor que um limite predeterminado ou adaptável. Assim, para compartimentos de tempo/frequência com alta difusão, qualquer valor de distância não é gerado todo ou é gerado um valor de distância predeterminado que é interpretado por um decodificador de uma certa maneira. Assim, assegura-se de que, para os compartimentos de tempo/frequência com alta difusão, nenhuma renderização relacionada à distância seja executada, pois uma alta difusão indica que, para um compartimento de tempo/frequência, o som não provém de uma certa fonte localizada, mas vem de qualquer direção e, portanto, é a mesma, independentemente do campo sonoro ser percebido no local de referência original ou no local de referência novo ou diferente.
[029] Em relação ao calculador de campo sonoro, modalidades preferenciais compreendem uma interface de translação para fornecer as informações de translação ou informações de rotação que indicam uma rotação de um ouvinte pretendido para o campo sonoro modificado, um fornecedor de metadados para fornecer os metadados para o calculador de campo sonoro e um fornecedor de campo sonoro para fornecer a descrição do campo sonoro para o calculador de campo sonoro e, adicionalmente, uma interface de saída para emitir o campo sonoro modificado compreendendo a descrição do campo sonoro modificada e metadados modificados, os metadados modificados sendo derivados a partir dos metadados com uso das informações de translação, ou a interface de saída emite uma pluralidade de canais de alto-falante, cada canal de alto-falante sendo relacionado a uma posição de alto- falante predefinida, ou a interface de saída emite uma representação binaural do campo sonoro modificado.
[030] Em uma modalidade, a descrição do campo sonoro compreende uma pluralidade de componentes do campo sonoro. A pluralidade de componentes do campo sonoro compreendem um componente omnidirecional e pelo menos um componente direcional. Uma tal descrição do campo sonoro é, por exemplo, uma descrição do campo sonoro Ambisonics de primeira ordem que possui um componente omnidirecional e três componentes direcionais X, Y, Z ou um tal campo sonoro é uma descrição Ambisonics de ordem superior compreendendo o componente omnidirecional, os três componentes direcionais em relação às direções X,Y,eze, adicionalmente, outros componentes direcionais que relacionados a outras direções do que as direções X, Y, Z.
[031] Em uma modalidade, o aparelho compreende um analisador para analisar os componentes do campo sonoro para derivar, para diferentes compartimentos de frequência ou tempo, direção de informações de chegada. O aparelho adicionalmente tem um transformador de translação para calcular informações de DOA modificadas por compartimento de frequência ou tempo com uso das informações DoOA e os metadados, onde os metadados relacionados a um mapa de profundidade associando uma distância a uma fonte incluída em ambas as descrições do campo sonoro como obtidas por, por exemplo processamento de triangulação usando dois ângulos em relação a dois locais de referência diferentes e a distância/posições ou os locais de referência. Isso pode se aplicar a uma representação de banda completa ou a diferentes compartimentos de frequência de um período de tempo.
[032] Além disso, o calculador de campo sonoro tem um compensador de distância para calcular o campo sonoro modificado com uso de uma informação de compensação de distância dependendo da distância calculada com uso dos metadados sendo os mesmos para cada compartimento de frequência ou tempo de uma fonte sendo diferentes para cada ou alguns dos compartimentos de frequência/tempo, e a partir de uma nova distância associada com o compartimento de frequência/tempo, a nova distância sendo relacionada às informações de DoA modificadas.
[033] Em uma modalidade, o calculador de campo sonoro calcula um primeiro vetor apontando a partir do local de referência para uma fonte sonora obtida por uma análise do campo sonoro. Além disso, o calculador de campo sonoro calcula um segundo vetor apontando a partir do local de referência diferente para a fonte sonora e esse cálculo é feito usando o primeiro vetor e as informações de translação, onde as informações de translação definem um vetor de translação a partir do local de referência para o local de referência diferente. E, em seguida, uma distância a partir do local de referência diferente para a fonte sonora é calculada usando o segundo vetor.
[034] Além disso, o calculador de campo sonoro é configurado para receber, além das informações de translação, uma informação de rotação indicando uma rotação da cabeça do ouvinte em uma das três direções de rotação dadas por inclinação, guinada e rotação. O calculador de campo sonoro é então configurado para realizar a transformação de rotação para girar uma direção modificada de dados de chegada para um campo sonoro com uso das informações de rotação, onde a direção modificada de dados de chegada é derivada a partir de uma direção de dados de chegada obtidos por uma análise sonora da descrição do campo sonoro e as informações de translação.
[035] Em uma modalidade, o calculador de campo sonoro é configurado para determinar sinais de fonte a partir da descrição do campo sonoro e direções dos sinais de fonte relacionados ao local de referência por uma análise sonora.
[036] Então, novas direções da fontes sonoras são calculadas que são relacionadas ao local de referência diferente e isso é feito com uso dos metadados, e em seguida informações de distância das fontes sonoras relacionadas ao local de referência diferente são calculadas e, então, o campo sonoro modificado é sintetizado com uso das informações de distância e as novas direções da fontes sonoras.
[037] Em uma modalidade, uma síntese do campo sonoro é realizada deslocando-se os sinais de fonte sonora para uma direção dada pelas novas informações de direção em relação a uma configuração de reprodução, e um dimensionamento dos sinais de fonte sonora é feito com uso das informações de distância antes de realizar a operação panorâmica ou subsequente para realizar a operação panorâmica.
[038] Em uma outra modalidade, uma parte difusa do sinal de fonte sonora é adicionada a uma parte direta do sinal de fonte sonora, a parte direta sendo modificada pelas informações de distância antes de ser adicionada à parte difusa.
[039] Particularmente, é preferível para realizar a síntese da fonte sonora em uma representação espectral onde as novas informações de direção são calculadas para cada compartimento de frequência, onde as informações de distância são calculadas para cada compartimento de frequência, e onde uma síntese direta para cada compartimento de frequência usando o sinal de áudio para o compartimento de frequência é realizada com uso de um sinal de áudio para o compartimento de frequência, um ganho panorâmico para o compartimento de frequência derivado a partir das novas informações de direção e um fator de escala para o compartimento de frequência derivado a partir das informações de distância para o compartimento de frequência é realizado.
[040] Além disso, uma síntese difusa é realizada com uso de um sinal de áudio difuso derivado do sinal de áudio a partir do compartimento de frequência e com uso de um parâmetro difuso derivado pela análise do sinal para o compartimento de frequência e, em seguida, o sinal direto e o sinal difuso são combinados para obter um sinal de áudio sintetizado para o compartimento de frequência/tempo e, em seguida, uma conversão de tempo e frequência é realizada com uso de sinais de áudio para outros compartimentos de frequência/tempo para obter um sinal de áudio sintetizado no domínio de tempo como o campo sonoro modificado.
[041] Portanto, em geral, o calculador de campo sonoro é configurado para sintetizar, para cada fonte sonora, um campo sonoro relacionado ao local de referência diferente por, por exemplo, processando, para cada fonte, um sinal de fonte com uso da nova direção para o sinal de fonte para obter uma descrição do campo sonoro do sinal de fonte relacionado ao local de referência diferente/novo. Além disso, o sinal de fonte é modificado antes de processar o sinal de fonte ou subsequente para processar o sinal de fonte com uso das informações de direção. E, finalmente, as descrições do campo sonoro para a fontes são adicionadas em conjunto para obter o campo sonoro modificado relacionado ao local de referência diferente.
[042] Em outras modalidades, e, particularmente, para gerar uma descrição do campo sonoro modificada a partir da descrição do campo sonoro e metadados relacionados às informações espaciais da descrição do campo sonoro, o calculador de campo sonoro calcula o campo sonoro modificado com uso das informações espaciais na primeira descrição do campo sonoro, com uso das informações espaciais na segunda descrição do campo sonoro, e com uso das informações de translação que indica uma translação de um local de referência para um local de referência diferente. Particularmente, os metadados podem, por exemplo, ser um vetor direcionado para o local de referência da descrição do campo sonoro e um outro vetor direcionado a partir da mesma origem para o local de referência adicional da segunda descrição do campo sonoro.
[043] De modo a endereçar uma informação de translação, objetos são gerados aplicando-se uma separação de fonte, ou conformação de feixe, ou, geralmente, qualquer tipo de análise de fonte sonora para a primeira e a segunda descrição do campo sonoro. Em seguida, a direção de informações de chegada de todos os objetos, independentemente de serem objetos de banda larga ou objetos para posições individuais de tempo/frequência, são computadas. Em seguida, os objetos extraídos das diferentes descrições dos campos sonoros são correspondentes entre si, a fim de encontrar pelo menos um objeto correspondente, isto é, um objeto que ocorre tanto na primeira quanto na segunda descrições do campo sonoro. Essa correspondência é realizada, por exemplo, por meio de um cálculo de correlação ou coerência com uso dos sinais de objeto e/ou direção de informações de chegada ou outras informações.
[044] Portanto, o resultado do procedimento é que existe, para um objeto correspondente, uma primeira informação DoA relacionada ao local de referência e a segunda informação DoA relacionada ao local de referência adicional. Em seguida, as posições dos objetos correspondentes e, particularmente, a distância do objeto correspondente ao local de referência ou o local de referência adicional é calculada com base em triangulação com uso das informações no local de referência ou no local de referência incluídas nos metadados associados.
[045] Essas informações, e, particularmente, as informações de posição para o objeto correspondente são então usadas para modificar cada objeto correspondente com base na posição estimada e a posição desejada, isto é, depois da translação, com uso de um processamento de compensação de distância. De modo a calcular as novas informações DoA para a nova posição do ouvinte, as antigas informações DoA de ambos os locais de referência e as informações de translação são usadas. Basicamente, esse processamento pode ser realizado para ambas as descrições individuais do campo sonoro, visto que cada objeto correspondente ocorre em ambas as descrições do campo sonoro. Entretanto, de acordo com as modalidades preferenciais, a descrição do campo sonoro tendo um local de referência sendo mais próximo à nova posição do ouvinte subsequente à translação é usada.
[046] Então, o novo DoA é usado para calcular uma nova descrição do campo sonoro para o objeto correspondente relacionado ao local de referência diferente, isto é, para o qual o usuário se moveu. Então, e para incorporar também os objetos não correspondentes, descrições do campo sonoro para esses objetos são calculados mas também com uso das antigas informações DoA. E, finalmente, o campo sonoro modificado é gerado adicionando-se todas as descrições individuais do campo sonoro em conjunto.
[047] Qualquer mudança com orientação pode ser realizada aplicando-se uma única rotação para o sinal Ambisonics virtual.
[048] Portanto, os metadados não são usados para fornecer diretamente a distância de um objeto para um local de referência. Em vez disso, os metadados são fornecidos para identificar o local de referência de cada uma das duas ou mais descrições do campo sonoro e a distância entre um local de referência e um certo objeto correspondente é calculado com base em, por exemplo, etapas de processamento de triangulação.
[049] Modalidades preferenciais da presente invenção são subsequentemente discutidos em relação aos desenhos anexos, em que: A Figura 1a é uma modalidade preferencial de um aparelho para gerar uma descrição do campo sonoro aprimorada; A Figura 1b é uma ilustração que explica um problema exembplificativo subjacente à presente invenção; A Figura 2 é uma implementação preferencial do aparelho para gerar uma descrição do campo sonoro aprimorada; A Figura 3a ilusta a descrição do campo sonoro aprimorada compreendendo dados de áudio, e informações secundárias para dados de áudio; A Figura 3b ilustra uma outra ilustração de um campo sonoro aprimorado compreendendo dados de áudio e metadados relacionados às informações espaciais como informações geométricas para cada descrição do campo sonoro; A Figura 4a ilustra uma implementação de um aparelho para gerar uma descrição do campo sonoro modificada; A Figura 4b ilustra uma outra implementação de um aparelho para gerar uma descrição do campo sonoro modificada; A Figura 4c ilustra um cenário com uma posição de referência/local A, uma posição de referência adicional/local B, e um local de referência diferente devido à translação; A Figura 5 ilustra a reprodução 6DoF de áudio espacial em uma detecção geral; A Figura 6a ilustra uma modalidade preferencial para a implementação de um calculador de campo sonoro;
A Figura 6b ilustra uma implementação preferencial para calcular um novo DoA e uma nova distância de uma fonte sonora em relação a um local de referência diferente/novo; A Figura 6c ilustra uma modalidade preferencial de uma reprodução 6DoF compreendendo um aparelho para gerar uma descrição do campo sonoro aprimorada, por exemplo, para cada descrição individual do campo sonoro e um aparelho para gerar uma descrição do campo sonoro modificada para as fontes correspondentes; A Figura 7 ilustra uma modalidade preferencial para selecionar a uma da primeira e a segunda descrições do campo sonoro para o cálculo de um campo sonoro modificado para um objeto de banda larga ou banda estreita; A Figura 8 ilustra um dispositivo exemplificativo para gerar uma descrição do campo sonoro a partir de um sinal de áudio um tal sinal mono e direção de dados de chegada; A Figura 9 ilustra uma outra modalidade preferencial para o calculador de campo sonoro; A Figura 10 ilustra uma implementação preferencial do aparelho para gerar uma descrição do campo sonoro modificada; A Figura 11 ilustra uma outra implementação preferencial de um aparelho para gerar uma descrição do campo sonoro modificada; A Figura 12a ilustra uma implementação DirAC de análise da técnica anterior; e A Figura 12b ilustra uma implementação de síntese DirAC da técnica anterior.
[050] Para habilitar aplicativos 6DoF para as representações Ambisonics/DIrAC mencionadas, é necessário estender essas representações de maneira a fornecer as informações ausentes para o processamento de translação. Note-se que essa extensão poderia, por exemplo, 1) adicionar a distância ou posições dos objetos à representação de cena existente e/ou 2) adicionar informações que facilitariam o processo de separação dos objetos individuais.
[051] Além disso é um objetivo das modalidades preservar/reutilizar a estrutura dos sistemas Ambisonics existentes (não paramétricos ou paramétricos) para fornecer compatibilidade retroativa com essas representações/sistemas, no sentido de que * as representações estendidas podem ser convertidas nas não estendidas existentes (por exemplo, para renderização), e * permitir a reutilização de implementações de software e hardware existentes ao trabalhar com a representação estendida.
[052] A seguir, são descritas várias abordagens, a saber, uma abordagem limitada (mas muito simples) e três formatos Ambisonics estendidos diferentes para ativar o 6DoF.
[053] A cena sonora é descrita usando dois ou mais sinais Ambisonics, cada um descrevendo a cena sonora em uma posição diferente ou, em outras palavras, de uma perspectiva diferente. Supõe-se que as posições relativas sejam conhecidas. Um sinal Ambisonics modificado na posição desejada na cena sonora é gerado a partir dos sinais Ambisonics de entrada. Uma abordagem baseada em sinal ou paramétrica pode ser usada para gerar um sinal Ambisonics virtual na posição desejada.
[054] O conceito de representação Ambisonics multiponto é aplicável a Ambisonics tradicional e paramétrico (estilo DIrAC).
[055] Um sinal Ambisonics virtual em uma posição desejada (isto é, depois da translação) é calculado com uso das seguintes etapas em uma modalidade de translação baseada em sinal:
1. Objetos são gerados aplicando-se separação de fonte para cada sinal Ambisonics tradicional.
2. O DOA de todos os objetos é calculado para cada sinal Ambisonics tradicional.
3. Os objetos extraídos de um sinal Ambisonics tradicional são correspondidos aos objetos extraídos de outros sinais Ambisonics tradicionais. À correspondência é realizada com base nos DOAs correspondentes e/ou nos sinais (por exemplo, por meio de correlação/coerência).
4. As posições dos objetos correspondentes são estimadas com base em triangulação.
5. Cada objeto correspondente (entrada de canal único) é modificado com base na posição estimada e na posição desejada (isto é, após a translação) com uso de um filtro de compensação de distância.
6. O DOA na posição desejada (isto é, depois da translação) é calculado para cada objeto correspondente. Esse DOA é representado por DOA'.
7. Um sinal de objeto Ambisonics é calculado para cada objeto correspondente. O sinal do objeto Ambisonics é gerado de modo que o objeto correspondido tenha um DOA!' de direção de chegada.
8. Um sinal de objeto Ambisonics é calculado para cada objeto não correspondido. O sinal do objeto Ambisonics é gerado de modo que o objeto não correspondido tenha um DOA de direção de chegada.
9. O sinal Ambisonics virtual é obtido adicionando todos os sinais de objetos Ambisonics em conjunto.
[056] Um sinal Ambisonics virtual em uma posição desejada (isto é, depois da translação) é calculado com uso das seguintes etapas em uma modalidade de translação baseada em parâmetros de acordo com uma outra modalidade:
1. Um modelo de campo sonoro é considerado. O campo sonoro pode ser decomposto em um ou mais componentes sonoros diretos e componentes sonoros difusos. Os componentes sonoros diretos consistem em um sinal e informações de posição (por exemplo, em coordenadas polares ou cartesianas). Alternativamente, o campo sonoro pode ser decomposto em um ou mais componentes de som diretos/principais e um componente de som residual (canal único ou multicanal).
2. Os componentes de sinal e parâmetros do modelo de campo sonoro assumido são estimados com uso dos sinais Ambisonics de entrada.
3. Os componentes de sinal e/ou parâmetros são modificados dependendo da translação desejada ou da posição desejada na cena sonora.
4. O sinal Ambisonics virtual é gerado com uso dos componentes de sinal modificados e parâmetros modificados.
[057] A geração de sinais Ambisonics multiponto é simples para conteúdo gerado e gerado por computador, bem como no contexto de gravação natural por meio de matrizes de microfone ou microfones espaciais (por exemplo, microfone de formato B). Na modalidade, é preferível executar uma correspondência de fonte subsequente à etapa 2 ou um cálculo de triangulação antes da etapa 3. Além disso, uma ou mais etapas de ambas as modalidades também podem ser usadas nas outras modalidades correspondentes.
[058] Uma mudança em orientação pode ser realizada aplicando-se uma única rotação ao sinal Ambisonics virtual.
[059] A Figura 1a ilustra um aparelho para gerar uma descrição do campo sonoro aprimorada compreendendo um gerador de campo sonoro (descrição) 100 para gerar pelo menos uma descrição do campo sonoro que indica um campo sonoro em relação a pelo menos um local de referência. Além disso, o aparelho compreende um gerador de metadados 110 para gerar metadados relacionados às informações espaciais do campo sonoro. Os metadados recebem, como uma entrada, o campo sonoro ou alternativamente ou além disso, separam informações em fontes sonoras.
[060] Ambas, a saída do gerador da descrição do campo sonoro 100 e do gerador de metadados 110 constituem a descrição do campo sonoro aprimorada. Em uma modalidade, ambas, a saída do gerador da descrição do campo sonoro 100 e do gerador de metadados 110 podem ser combinadas dentro de um combinador 120 ou interface de saída 120 para obter a descrição do campo sonoro aprimorada que inclui os metadados espaciais ou informações espaciais do campo sonoro como gerado pelo gerador de metadados 110.
[061] A Figura 1b ilustra a situação abordada pela presente invenção. A posição A, por exemplo, é o pelo menos um local de referência e um campo sonoro é gerado pela fonte A e fonte B e um certo microfone real ou, por exemplo, virtual sendo localizado na posição A detecta o som da fonte A e fonte B. O som é uma superposição do som proveniente das fontes sonoras emissoras. Isso representa a descrição do campo sonoro conforme gerada pelo gerador de descrição do campo sonoro.
[062] Adicionalmente, o gerador de metadados, por certas implementações, derivaria uma informação espacial em relação à fonte A e outra informação espacial em relação à fonte B, como as distâncias dessas fontes à posição de referência, como a posição A.
[063] Naturalmente, a posição de referência poderia, alternativamente, ser a posição B. Em seguida, o microfone real ou virtual seria colocado na posição B e a descrição do campo sonoro seria um campo sonoro, por exemplo, representado pelos componentes Ambisonics de primeira ordem ou componentes Ambisonics de ordem superior ou quaisquer outros componentes sonoros com o potencial de descrever um campo sonoro em relação a pelo menos um local de referência, isto é, a posição B.
[064] O gerador de metadados pode, então, gerar, como a informação nas fontes sonoras, a distância da fonte sonora A até a posição B ou a distância da fonte B até a posição B. Informações alternativas sobre fontes sonoras podem, é claro, ser absolutas ou posição relativa em relação a uma posição de referência. A posição de referência pode ser a origem de um sistema de coordenadas gerais ou pode estar localizada em uma relação definida com a origem de um sistema de coordenadas gerais.
[065] Outros metadados podem ser a posição absoluta de uma fonte sonora e a posição relativa de outra fonte sonora em relação à primeira fonte sonora e assim por diante.
[066] A Figura 2 ilustra um aparelho para gerar uma descrição do campo sonoro aprimorada, onde o gerador de campo sonoro compreende um gerador de campo sonoro 250 para o primeiro campo sonoro, um gerador de campo sonoro 260 para o segundo campo sonoro e, um número arbitrário de gerador de campo sonoros para um ou mais campo sonoros como um terceiro, quarto e assim por diante campo sonoro. Adicionalmente, os metadados é configurado para calcular e encaminhar ao combinador 120 uma informação no primeiro campo sonoro e o segundo campo sonoro. Todas essas informações são usadas pelo combinador 120 de modo a gerar a descrição do campo sonoro aprimorada. Assim, o combinador 120 é também configurado como uma interface de saída para gerar a descrição do campo sonoro aprimorada.
[067] A Figura 3a ilustra uma descrição do campo sonoro aprimorada como um fluxo de dados compreendendo uma primeira descrição do campo sonoro 330, uma segunda descrição do campo sonoro 340 e, associada a este, os metadados 350 compreendendo informações na primeira descrição do campo sonoro e na segunda descrição do campo sonoro. A primeira descrição do campo sonoro pode, por exemplo, ser uma descrição no formato B ou uma descrição de ordem superior ou qualquer outra descrição que permita determinar uma distribuição direcional de fontes sonoras em uma representação de banda completa ou em uma representação selecionada por frequência. Assim, a primeira descrição do campo sonoro 330 e a segunda descrição do campo sonoro 340 pode, por exemplo, também ser descrições do campo sonoro paramétricas para o local de referência diferentes tendo um, por exemplo, um sinal de mixagem de redução e dados direcionais de chegada para diferentes compartimentos de frequência/tempo.
[068] No entanto, as informações geométricas 350 para a primeira e a segunda descrições do campo sonoro são as mesmas para todas as fontes incluídas na primeira descrição do campo sonoro 330 ou, para a fontes na segunda descrição do campo sonoro 340, respectivamente. Assim, quando, exemplarmente, existem três fontes na primeira descrição do campo sonoro 330 e uma informação geométrica na primeira descrição do campo sonoro então essas informações geométricas são as mesmas para as três fontes na primeira descrição do campo sonoro. Analogamente, quando, por exemplo, existem cinco fontes na segunda descrição do campo sonoro, então as informações geométricas para o segundo campo sonoro incluídas nos metadados 350 são as mesmas para todas as fontes na segunda descrição do campo sonoro.
[069] A Figura 3b ilustra uma construção exemplificativa dos metadados 350 da Figura 3a. Em uma modalidade, o local de referência 351 pode ser incluído nos metadados. Entretanto, isso não é necessariamente o caso na informação de local de referência 351 pode também ser omitida.
[070] Para o primeiro campo sonoro, uma primeira informação geométrica é dada que pode, por exemplo, ser uma informação no vetor A ilustrado na Figura 4c apontando a partir de uma origem para a posição de referência/local A, à qual o primeiro campo sonoro é relacionado.
[071] A segunda informação geométrica pode, por exemplo, ser uma informação no vetor B apontando a partir da origem para a segunda posição de referência/local B, à qual a segunda descrição do campo sonoro é relacionada.
[072] A e B são os locais de referência ou posições de gravação para ambas as descrições do campo sonoro.
[073] Informações geométricas alternativas podem, por exemplo, ser uma informação no vetor D que se estende entre o local de referência A e o local de referência adicional B e/ou uma origem e um vetor apontando a partir da origem para um de ambos os pontos. Portanto, as informações geométricas incluídas nos metadados podem compreender vetor A e vetor D ou podem compreender vetor B e vetor D ou podem compreender vetor A e vetor B sem vetor D ou podem compreender outras informações, a partir das quais o local de referência A e a referência o local B pode ser identificado em um determinado sistema de coordenadas tridimensionais. No entanto, a mesma consideração é aplicada adicionalmente para uma descrição sonora bidimensional, bem como particularmente ilustrada na Figura 4c que mostra apenas o caso bidimensional.
[074] A Figura 4a ilustra uma implementação preferencial de um aparelho para gerar uma descrição do campo sonoro modificada a partir de uma descrição do campo sonoro e metadados relacionados às informações espaciais da descrição do campo sonoro. Particularmente, o aparelho compreende um calculador de campo sonoro 420 que gera o campo sonoro modificado com uso dos metadados, a descrição do campo sonoro e informação de translação que indica uma translação a partir de um local de referência para um local de referência diferente.
[075] Em uma modalidade, o calculador de campo sonoro 420 é conectado a uma interface de entrada 400 para receber a descrição do campo sonoro aprimorada como, por exemplo, discutido em relação à Figura 1a ou 2 e a interface de entrada 400 então separa a descrição do campo sonoro por um lado, isto é, o que foi gerado pelo bloco 100 da Figura 1a ou bloco 210 da Figura 2. Além disso, a interface de entrada 400 separa os metadados a partir da descrição do campo sonoro aprimorada, isto é, item 350 da Figura 3a ou opcionais 351 e 352 a 354 da Figura 3b.
[076] Além disso, uma interface de translação 410 obtém as informações de translação e/ou adicionais ou separa informações de rotação a partir de um ouvinte. Uma implementação da interface de translação 410 pode ser uma unidade de rastreamento de cabeça que não apenas rastreia a rotação de uma cabeça em um ambiente de realidade virtual, mas também uma translação da cabeça de uma posição, isto é, posição A na Figura 1b para uma outra posição, isto é, posição B na Figura 1b.
[077] A Figura 4b ilustra uma outra implementação similar à Figura 1a, mas não relacionada a um cenário de codificador/decodificador, mas relacionada a um cenário geral onde o fornecimento de metadados indicado por um fornecedor de metadados 402, o fornecimento de campo sonoro indicado por um fornecedor de campo sonoro 404 são feitos sem uma certa interface de entrada separando uma descrição do campo sonoro aprimorada ou codificada, mas são todos feitos, por exemplo, em um cenário real existente, por exemplo, em um aplicativo de realidade virtual. Entretanto, a presente invenção não é limitada a aplicativos de realidade virtual, mas pode também ser implementada em quaisquer outras aplicações, onde o processamento de áudio espacial de campos sonoros que são relacionados a um local de referência é útil de modo a transformar um campo sonoro relacionado a um primeiro local de referência para um outro campo sonoro relacionado a um segundo local de referência diferente.
[078] O calculador de campo sonoro 420 então gera a descrição do campo sonoro modificada ou, alternativamente, gera uma representação de alto-falante
(virtual) ou gera uma representação binaural, como uma representação de dois canais para reprodução de fones de ouvido. Assim, o calculador de campo sonoro 420 pode gerar, como o campo sonoro modificado, uma descrição do campo sonoro modificada, sendo basicamente a mesma que a descrição original do campo sonoro, mas agora com relação a uma nova posição de referência. Em uma modalidade alternativa, uma representação virtual ou real de alto-falante pode ser gerada para uma configuração predeterminada de alto-falante, como esquema 5.1 ou uma configuração de alto- falante com mais alto-falantes e, particularmente, com um arranjo tridimensional de alto-falantes em vez de apenas um arranjo bidimensional, isto é, um arranjo de alto- falantes com alto-falantes sendo elevados em relação à posição do usuário. Outros aplicativos que são especificamente úteis para aplicativos de realidade virtual são aplicativos para reprodução binaural, isto é, para um fone de ouvido que pode ser aplicado à cabeça do usuário de realidade virtual.
[079] Por exemplo, a Figura 6 subsequentemente descrita ilustra uma situação, onde um sintetizador DIrAC apenas opera em um componente de mixagem de redução como o componente omnidirecional ou de pressão, enquanto, em uma outra modalidade alternativa ilustrada em relação à Figura 12b, o sintetizador DIrAC opera em todos os dados de campo sonoro, isto é, a representação de componente completa tendo, nesta modalidade na Figura 12b, uma descrição do campo com um componente omnidirecional w e três componentes direcionais x, y, z.
[080] A Figura 4c ilustra o cenário subjacente às modalidades preferenciais da presente invenção. A Figura ilustra uma primeira posição de referência/local A, uma segunda posição de referência/local B e duas diferentes fontes sonoras A e B, e uma vetor de translação |.
[081] Ambas as fontes sonoras A e B são incluídas na descrição do campo sonoro relacionado a local de referência A e a segunda descrição do campo sonoro relacionada a posição de referência B.
[082] De modo a calcular a distância da fonte A, por exemplo, para a primeira posição de referência ou para a segunda posição de referência, ambas as diferentes descrições do campo sonoro relacionadas a A e B são submetidas a um procedimento de separação de fonte e, então, uma correspondência das fontes obtidas por esses diferentes procedimentos de separação sonora é obtida. Isso resultará na fonte A, por exemplo. A fonte A é encontrada no algoritmo de separação de fonte para a primeira descrição do campo sonoro e também para a segunda descrição do campo sonoro. À direção de informações de chegada para a fonte A será, quando obtida a partir da primeira descrição do campo sonoro relacionada à posição de referência A o ângulo a. Adicionalmente, a direção de informações de chegada para a mesma fonte A mas agora obtida a partir da segunda descrição do campo sonoro relacionada à posição de referência adicional B será ângulo £.
[083] Agora, com base na distância D conhecida ou calculável, isto é, por exemplo, obtenível ou calculável a partir dos metadados para as descrições do campo sonoro, e com base nos dois ângulos a e 8, o triângulo definido pela fonte A, a posição de referência A e a posição de referência B é completamente definida. Assim, a distância da fonte A para posição de referência A ou a distância da fonte A para posição de referência B ou a posição geral da fonte A, isto é, o vetor apontando a partir da origem para a posição real da fonte A pode ser calculado, por exemplo, por operações de processamento de triangulação. A posição ou distância ambas representam informações em uma distância ou em uma posição.
[084] O mesmo procedimento pode então ser realizado para cada fonte correspondente, isto é, também para fonte B.
[085] Assim, uma distância/informação de posição para cada fonte correspondente é calculada e, então, cada fonte correspondente pode ser processada como se a distância/posição fosse completamente conhecida ou é, por exemplo, dada pelos metadados adicionais. Entretanto, apenas as informações geométricas para a primeira descrição do campo sonoro e a segunda descrição do campo sonoro são necessárias em vez de qualquer informação de distância/profundidade para cada fonte individual.
[086] A Figura 8 ilustra uma outra implementação para realizar uma síntese diferente do sintetizador DIrAC. Quando, por exemplo, um analisador de campo sonoro gera, para cada sinal de fonte, um sinal mono separado S e uma direção original de chegada e quando, dependendo das informações de translação, uma nova direção de chegada é calculada, o gerador de sinal Ambisonics 430 da Figura 8, por exemplo, seria usado para gerar uma descrição do campo sonoro para o sinal da fonte sonora, ou seja, o sinal mono S, mas para os novos dados de direção de chegada (DoA) que consistem em um ângulo horizontal 8 ou um ângulo de elevação 8 e um ângulo de azimute q. Então, um procedimento realizado pelo calculador de campo sonoro 420 da Figura 4b seria gerar, por exemplo, uma representação de campo sonoro Ambisonics de primeira ordem para cada fonte sonora com a nova direção de chegada e, então, uma modificação adicional por fonte sonora pode ser realizada com uso de um fator de escala dependendo da distância do campo sonoro para o novo local de referência e, então, todos os campos sonoros a partir das fontes individuais podem se sobrepor para finalmente obter o campo sonoro modificado, novamente, em, por exemplo, uma representação Ambisonics relacionada a um certo novo local de referência.
[087] Quando se interpreta que cada compartimento de frequência/tempo processado por um analisador DirAC 422, 422a, 422b da Fig. 6 representa uma certa fonte sonora (largura de banda limitada), o gerador de sinal Ambisonics 430 pode ser usado, em vez do sintetizador DirAC 425, 425a, 425b para gerar, para cada compartimento de frequência/tempo, uma representação Ambisonics completa usando o sinal de mixagem de redução ou sinal de pressão ou componente omnidirecional para esse compartimento de frequência/tempo como o “sinal mono S" da Figura 8. Então, uma conversão de tempo e frequência individual em conversor de tempo-frequência para cada um do componente W, X, Y, Z então resultaria em uma descrição do campo sonoro diferente do que é ilustrado na Figura 4c.
[088] A cena é gravada do ponto de vista (PoV) do microfone, cuja posição é usada como a origem do sistema de coordenadas de referência. A cena deve ser reproduzida a partir do ponto de vista do ouvinte, rastreado em 6DoF, conforme a
Figura 5. Uma única fonte sonora é mostrada aqui para ilustração, a relação é válida para cada compartimento de frequência e tempo.
[089] A Figura 5 ilustra a reprodução 6DoF de áudio espacial. Uma fonte sonora é registrada por um microfone com o DoA rr na distância dr em relação à posição e orientação microfones ((linha preta e arco). Ele deve ser reproduzido em relação ao ouvinte em movimento com o DoA rl e distância dl (tracejada). Isso deve considerar a translação | e rotação o dos ouvintes (pontilhada). O DOA é representado como um vetor com o comprimento da unidade apontando para a fonte.
[090] A fonte sonora nas coordenadas d, ER é registrada a partir da direção de chegada (DoA) expressada pelo vetor da unidade r, = d,/|ld,|| .Esse DoA pode ser estimado a partir da análise da gravação. Está vindo da distância d, = ||dyf|l. É considerado que esta informação pode ser derivada a partir dos metadados para cada fonte ou, geralmente, a partir do item 352, 353, 354 da Figura 3b, e pode ser representada como descrição da distância tendo qualquer direção r a partir da posição de gravação para a distância (por exemplo, dada em metros ou mais), obtida pelo processo de triangulação, por exemplo, usando dois ângulos em relação a dois locais de referência diferentes e à distância/posições ou locais de referência.
[091] O ouvinte é rastreado em 6DoF. Em um determinado momento, ele está na posição | ER em relação ao microfone e tem uma rotação o ER em relação aos sistema de coordenadas dos microfones'. A posição de gravação é escolhida como a origem do sistema de coordenadas para simplificar a notação.
[092] Assim, o som deve ser reproduzido com uma distância diferente d1, levando a um volume alterado e com um DoA r; diferente que é o resultado tanto da translação quanto da subsequente rotação.
[093] Um método para obter um sinal virtual da perspectiva dos ouvintes por transformações dedicadas com base em uma representação paramétrica, conforme explicado na seção a seguir, é descrito.
[094] O método proposto é baseado na abordagem DIirAC básica para codificação de som espacial paramétrico, conforme [16]. É considerado que exista uma fonte direta dominante por instância de tempo-frequência do espectro analisado e estes possam ser tratados independentemente. A gravação é transformada em uma representação de frequência e tempo com uso da transformada de Fourier de curto tempo (STFT). O índice do período é indicado com n e o índice de frequência com Kk. A gravação transformada é então analisada, estimando as direções r, (k, n) e difusão y (kn) para cada compartimento de frequência e tempo do espectro complexo P (Kk, n). Na síntese, o sinal é dividido em uma parte direta e difusa. Aqui, os sinais dos alto- falantes são calculados deslocando a parte direta, dependendo das posições dos alto- falantes, e adicionando a parte difusa.
[095] O método para transformar um sinal FOA de acordo com a perspectiva dos ouvintes em 6DoF pode ser dividido em cinco etapas, conforme a Figura 6c.
[096] A Figura 6c ilustra um método de reprodução de 6DoF. O sinal FOA gravado no formato B é processado por um codificador DirAC que calcula os valores de direção e difusão para cada compartimento de tempo-frequência do espectro complexo. O vetor de direção é então transformado pela posição rastreada do ouvinte e de acordo com as informações de distância fornecidas em um mapa de distância para cada fonte derivada, por exemplo, cálculos de triangulação. O vetor de direção resultante é então girado de acordo com a rotação da cabeça. Finalmente, os sinais para 8 + 4 canais de alto-falante virtual são sintetizados no decodificador DIirAC. Estes são então binauralizados.
[097] Na modalidade, o sinal de entrada é analisado no codificador DIrAC 422, a informação de distância é adicionada a partir do mapa de distância m(r) dando uma distância para cada fonte (correspondente), em seguida, a translação e a rotação rastreadas do ouvinte são aplicadas nas novas transformadas 423 e 424. O decodificador DirAC 425 sintetiza sinais para 8 + 4 alto-falantes virtuais, que por sua vez são binauralizados 427 para reprodução de fones de ouvido. Observe que, como a rotação da cena sonora após a translação é uma operação independente, ela pode ser aplicada alternativamente no renderizador binaural. O único parâmetro transformado para 6DoF é o vetor de direção. Pela definição do modelo, a parte difusa é assumida como isotrópica e homogênea e, portanto, é mantida inalterada.
[098] A entrada para o codificador DirAC é um sinal sonoro FOA na representação no formato B. Consiste em quatro canais, isto é, a pressão sonora omnidirecional e os três gradientes espaciais de primeira ordem, que sob certas suposições são proporcionais à velocidade da partícula. Este sinal é codificado de forma paramétrica, conforme [18]. Os parâmetros são derivados da pressão sonora complexa P (k,n), que é o sinal omnidirecional transformado e o vetor de velocidade de partículas complexa U (k,n)=[Ux (kn), Uy (kn), Uz (k n)]T correspondente aos sinais de gradiente transformados.
[099] A representação DirAC consiste no sinal P(k,n), a difusão y (k,n) e direção r(k,n) da onda sonora em cada compartimento de frequência e tempo. Para derivar este último, primeiro, o vetor de intensidade sonora ativo Il, (k, n) é calculado como a parte real (denotada por Re(-)) do produto do vetor de pressão com o conjugado complexo (denotado por (-)”) do vetor de velocidade [18]: Ia(k,n) = IRe(PCk, n)U * (k,n)). (1)
[0100] A difusão é estimada a partir do coeficiente de Variação desse vetor [18]. Etla(k,n VOS 1 EaD (2) onde E denota o operador de expectativa ao longo dos prazos, implementado como média móvel.
[0101] Visto que se destina a manipular o som com uso de um mapa de distância baseado em direção com uma distância para cada fonte (correspondente) ao local de referência, a variação das estimativas de direção deve ser baixa em uma modalidade opcional. Como os quadros geralmente são curtos, esse nem sempre é o caso. Portanto, uma média móvel é aplicada para obter uma estimativa de direção suavizada T,(k, n). O DoA da parte direta do sinal é então, em uma modalidade calculada como vetor de comprimento unitário na direção oposta:
rr(kn)= — Tam) IMaCk, no) (3)
[0102] Como a direção é codificada como um vetor tridimensional do comprimento da unidade para cada compartimento de tempo-frequência, é fácil integrar as informações de distância. Os vetores de direção são multiplicados com sua entrada de mapa correspondente, de modo que o comprimento do vetor represente a distância da fonte sonora correspondente dr(k, n): dr(k,n) = r,(k, n)dr(k,n) = rr (k, n)m(ry(k, n)) (4) onde dr (k, n) é um vetor apontando a partir da posição de gravação do microfone para a fonte sonora ativa no tempo n e compartimento de frequência k.
[0103] A posição do ouvinte é dada pelo sistema de rastreamento para o quadro de processamento atual como I(n). Com a representação do vetor das posições de origem, pode-se subtrair o vetor de posição de rastreamento I(n) para gerar o novo vetor de direção traduzido di (Kk, n) com o comprimento d, (k,n) = |ldi(k,n)|l, conforme a Figura 6b. As distâncias entre o ponto de vista do ouvinte e as fontes sonoras são derivadas e os DoAs são adaptados em uma única etapa: d,(k,n) = d.(k,n) — Im) (5)
[0104] Um aspecto importante da reprodução realista é a atenuação da distância. A atenuação é assumida como uma função da distância entre a fonte sonora e o ouvinte [19]. O comprimento dos vetores de direção é codificar a atenuação ou amplificação para reprodução. A distância para a posição de gravação é codificada em dr (k, n) de acordo com o mapa de distância e a distância a ser reproduzida codificada em d7 (k, n). Se normalizarmos os vetores para o comprimento unitário e, em seguida, multiplicarmos pela razão entre a distância antiga e a nova, veremos que o comprimento necessário é dado dividindo di: (k, n) pelo comprimento do vetor original:
dem = 2 Idkmal dkm) Ida n)l Markl NarCkn)l (6)
[0105] As alterações na orientação do ouvinte são aplicadas na etapa a seguir. À orientação dada pelo rastreamento pode ser escrita como vetor composto pela inclinação, guinada, e rotação o(n) = [ox (n), oz(n), oy (n)]” em relação à posição de gravação como origem. A direção da fonte é girada de acordo com a orientação do ouvinte, que é implementada usando matrizes de rotação 2D: dy(k,n) = Ry(0y(m)Rz(07(M))Rx(0x(n1))d,(k,n) (7)
[0106] O DoA resultante para o ouvinte é fornecido pelo vetor normalizado para o comprimento da unidade:
[0107] r(km)= ars (8)
[0108] O vetor de direção transformado, a difusão e o espectro complexo são usados para sintetizar sinais para uma configuração de alto-falante virtual 8 + 4 uniformemente distribuída. Oito alto-falantes virtuais estão localizados em etapas de 45º azimute no plano do ouvinte (elevação 0º), e quatro em uma formação cruzada de 90º acima na elevação de 45º. A síntese é dividida em uma parte direta e difusa para cada canal de alto-falante 1 < i < /, onde! = 12é o número de alto-falantes [16]: Y(k,n) = Y,s(k,n) + Y,p(k,n) (9)
[0109] Para a parte diretay panorama panorâmico de amplitude de desvanecimento das bordas (EFAP) é aplicado para reproduzir o som da direção correta, dada a geometria do alto-falante virtual [20]. Dado o vetor DoA rp (k, n), isso fornece um ganho panorâmico Gi(r) para cada canal de alto-falante virtual i. O ganho dependente da distância para cada DoOA é derivado do comprimento resultante do vetor de direção, dp (k, n). A síntese direta para canal i se torna: Yslkh,n) = /1-%k,nm)P(k,n) Grp kn) lap nm) |”
(10) Onde o exponente y é um fator de ajuste que normalmente é definido como cerca de 1 [19]. Observe que com y = O o ganho dependente da distância é desativado.
[0110] A pressão P(k,n) é usada para gerar / sinais correlacionados P;(k,n). Esses sinais relacionados são adicionados aos canais individuais dos alto-falantes como componente difuso. Isto segue o método padrão [16]: Nolkm) = EO km (11)
[0111] A parte difusa e direta de cada canal são somadas e os sinais são transformados de volta ao domínio do tempo por um STFT inverso. Esses sinais no domínio do tempo do canal são convoluídos com HRTFs para os ouvidos esquerdo e direito, dependendo da posição do alto-falante para criar sinais binauralizados.
[0112] A Figura 6a ilustra uma outra modalidade preferencial para calcular o campo sonoro modificado com uso das informações espaciais, e a primeira e a segunda descrições do campo sonoro e as informações de translação que indicam uma translação de um local de referência para um local de referência diferente como, por exemplo, discutido em relação ao vetor | na Figura 4c ou Figura 5.
[0113] A Figura 6a ilustra o bloco 700 que indica um aplicativo de uma separação sonora ou, geralmente, procedimento de análise sonora para a primeira descrição do campo sonoro relacionada à posição de referência A da Figura 4c e a segunda descrição do campo sonoro relacionada à posição de referência B da Figura 4c.
[0114] Esse procedimento resultará em um primeiro grupo de um ou mais objetos extraídos e, adicionalmente, em um segundo grupo de um ou mais objetos extraídos.
[0115] Esses grupos são usados dentro do bloco 702 para calcular a direção de informações de chegada para todas as fontes separadas, isto é, para o primeiro grupo de fontes extraídas e o segundo grupo de uma ou mais fontes extraídas.
[0116] Em outras modalidades, as etapas 700 e 702 são implementadas dentro de um único procedimento fornecendo, por um lado, o sinal para a fonte e, por outro lado, as informações de DoA para a fonte. Isso também é válido para procedimentos paramétricos, como procedimentos seletivos de tempo/frequência como DIirAC, em que o sinal de origem é o sinal da representação no formato B em um compartimento de tempo/frequência ou o sinal de pressão ou sinal omnidirecional do compartimento de tempo/frequência e as informações de DOA como o parâmetro de DoA para este compartimento específico.
[0117] Então, na etapa 704, uma correspondência da fonte é realizada entre as fontes do primeiro grupo e as fontes do segundo grupo e o resultado da correspondência da fonte são fontes correspondentes.
[0118] Essas fontes correspondentes são usadas para calcular um campo sonoro para cada objeto correspondente, usando o novo DoA e a nova distância, conforme ilustrado no bloco 710. Além disso, as informações de direção de chegada dos objetos correspondentes, ou seja, duas por cada objeto, como a e B da Figura 4c para a fonte A são usados no bloco 706 para calcular as posições dos objetos correspondentes ou, alternativamente ou adicionalmente, as distâncias dos objetos correspondentes usando, por exemplo, operações de triangulação.
[0119] O resultado do bloco 706 é a posição de cada objeto correspondente ou Alternativamente ou além disso, a distância de um objeto correspondente a um do primeiro ou do segundo local de referência A, B, ilustrado, por exemplo na Figura 4c.
[0120] Adicionalmente, é preferível não apenas usar informações de conversão no bloco 708, mas também informações de rotação para calcular a nova informação de direção de chegada e as novas distâncias para os objetos correspondentes.
[0121] Embora tenha sido destacado que as posições dos objetos correspondentes são inseridas na etapa 708, deve-se enfatizar que, para calcular apenas a nova informação de direção de chegada de um objeto correspondente, a posição real do objeto correspondente ou, em outra Em outras palavras, a distância do objeto correspondido não é necessária para calcular a nova direção de chegada em relação a um novo local de referência (diferente), para o qual um ouvinte se mudou, por exemplo, a distância não é necessária.
[0122] Entretanto, a distância é então necessária para adaptar o sinal da fonte à nova situação. Assim, quando a distância do objeto de origem ou sonoro à nova posição de referência se tornar menor, será calculado um fator de escala menor que um. Quando, no entanto, a distância se torna mais alta, um fator de escala é calculado para ser maior que um, como, por exemplo, discutido em relação à Figura 6b. Consequentemente, embora ilustrado na Figura 6a para uma modalidade, não é necessariamente o caso em que posições explícitas dos objetos correspondentes e, então, as distâncias dos objetos correspondentes são calculadas e, em seguida, o campo sonoro é calculado para cada objeto correspondente com uso da nova direção de chegada e a nova distância. Em vez disso, apenas a distância de um objeto correspondido a um local de referência dos dois locais de referência é geralmente suficiente e, então, um campo sonoro para cada objeto correspondido é calculado usando o novo DoA e a nova distância.
[0123] Adicionalmente, o bloco 714 ilustra o cálculo de campos sonoros para os objetos não correspondentes com uso das antigas informações DoA obtidas pelo bloco 702. Além disso, os campos sonoros para os objetos correspondentes obtidos nos blocos 710 e os objetos não correspondentes obtidos pelo bloco 714 são combinados no bloco 712 de modo a obter a descrição do campo sonoro modificada que pode, por exemplo, ser uma descrição Ambisonics como uma descrição Ambisonics de primeira ordem, uma descrição Ambisonics de ordem superior ou, alternativamente, uma descrição do canal de alto-falante relacionada a determinado alto-falante configuração que, é claro, é a mesma para o bloco 710 e o bloco 714, para que uma simples adição de canal por canal possa ser realizada no bloco 712.
[0124] A Figura 6b ilustra uma implementação preferencial do calculador de campo sonoro 420. No bloco 1102, uma separação de fonte e uma direção de chegada ou geralmente informações de direção cálculo para cada fonte são realizadas. Então, no bloco 1104, o vetor de direção de chegada é multiplicado pelo vetor de informação de distância, ou seja, o vetor do local de referência original para a fonte sonora, ou seja, o vetor do item 520 ao item 510 da Figura 5, por exemplo. Em seguida, no bloco 1106, as informações de translação, isto é, o vetor do item 520 ao item 500 da Figura é levado em consideração de modo a calcular o novo vetor de direção transladado que é o vetor da posição do ouvinte 500 para a posição da fonte sonora 510. Em seguida, o novo vetor de direção de chegada com o comprimento correto indicado por d, é calculado no bloco 1108. Esse vetor é direcionado na mesma direção que dr, mas tem um comprimento diferente, visto que o comprimento desse vetor reflete o fato de que o som a fonte 510 é gravada no campo sonoro original com um certo volume e, portanto, o comprimento de dy mais ou menos indica a mudança de volume. Isso é obtido dividindo-se o vetor di pela distância de gravação dr, isto é, o comprimento de vetor dr do microfone 520 para a fonte sonora 510. Como estabelecido, o comprimento do vetor dr; do microfone 520 para a fonte sonora 510 pode ser derivado pelo cálculo de triangulação. Quando o microfone está no local de referência da primeira descrição do campo sonoro, é usada a distância do local de referência da primeira descrição do campo sonoro até a fonte sonora. Quando, no entanto, o microfone estiver no local de referência adicional da segunda descrição do campo sonoro, será usada a distância do local de referência adicional da segunda descrição do campo sonoro até a fonte sonora.
[0125] Quando, como na Figura 5, a distância reproduzida for maior que a distância registrada, o comprimento de dv será menor que a unidade. Isso resultará em uma atenuação da fonte de som 510 para a reprodução na nova posição de ouvinte. Quando, no entanto, a distância reproduzida dl é menor que a distância registrada, o comprimento de dv como calculado pelo bloco 1108 será maior que 1 e um fator de escala correspondente resultará em uma amplificação da fonte sonora.
[0126] Na Figura 6a, o item 710 indica que o campo sonoro para cada objeto correspondente é calculado com uso da nova direção de informações de chegada e a nova distância. Entretanto, basicamente, para calcular o campo sonoro para cada objeto correspondente, os sinais de objeto obtidos do primeiro grupo de uma ou mais fontes extraídas ou do segundo grupo de uma ou mais fontes extraídas podem ser usados em geral. Em uma modalidade, entretanto, uma seleção específica ilustrada na Figura 7 é realizada de modo a determinar que descrição do campo sonoro é usada para realizar o cálculo do campo sonoro no bloco 710. No bloco 720, a primeira distância da nova posição do ouvinte para o primeiro local de referência da primeira descrição do campo sonoro é determinada. Em relação à Figura 4c, essa é a distância entre a diferença local de referência e a posição de referência A.
[0127] Além disso, na etapa 722, a segunda distância da nova posição de ouvinte até o segundo local de referência da segunda descrição do campo sonoro é determinada. Nesta modalidade da Figura 4c, essa seria a distância entre o local de referência diferente (devido à translação) e a posição de referência B.
[0128] Parece que a distância do local de referência diferente para a posição de referência B é menor que a diferença do local de referência diferente para a posição de referência A. Assim, isso seria determinado na etapa 724. E, na etapa 726, o sinal do objeto é selecionado do grupo derivado da descrição do campo sonoro com a menor distância. Assim, a fim de renderizar as fontes A e B que correspondem às fontes correspondentes na ilustração da Figura 4c, os sinais de fonte sonora derivados a partir da segunda descrição do campo sonoro relacionada à posição de referência adicional B seriam usados.
[0129] Em outras modalidades, entretanto, onde a translação aponta da origem para um local de referência diferente, por exemplo, para a esquerda na ilustração da Figura 4c, a menor distância seria desse outro local de referência para a posição de referência A e, em seguida, a primeira descrição do campo sonoro seria usada para finalmente computar o campo sonoro para cada objeto correspondente no bloco 710 da Figura 6b. Novamente, a seleção seria realizada pelo procedimento ilustrado na Figura 7.
[0130] A Figura 9 ilustra uma outra modalidade preferencial. Na etapa 740, uma análise de campo sonoro na primeira descrição do campo sonoro é realizada, por exemplo, uma análise paramétrica do campo sonoro na forma de uma análise DIrAC ilustrada no bloco 422 da Figura 6c.
[0131] Isso resulta em um primeiro conjunto de parâmetros, por exemplo, para cada compartimento de frequência/tempo, onde cada conjunto de parâmetros compreende um parâmetro DoA e, opcionalmente, um parâmetro difuso.
[0132] Na etapa 741, uma análise de campo sonoro é realizada na segunda descrição do campo sonoro e, novamente, uma análise DirAC é realizada como no bloco 740 e como, por exemplo, discutido em relação ao bloco 422 da Figura 6c.
[0133] Isso resulta em um segundo conjunto de parâmetros, por exemplo, para compartimentos de frequência/tempo.
[0134] Então, no bloco 746, uma posição para cada par de parâmetros pode ser determinada usando o parâmetro DoA correspondente do primeiro compartimento de tempo / frequência e o parâmetro DOA do mesmo compartimento de tempo / frequência do segundo conjunto de parâmetros. Isso resultará em uma posição para cada par de parâmetros. No entanto, a posição será mais útil quanto menor a difusão do compartimento de tempo / frequência correspondente estiver no primeiro conjunto de parâmetros e / ou no segundo conjunto de parâmetros.
[0135] Assim, é preferível usar ainda mais as posições dos compartimentos de tempo / frequência que resultaram em uma difusão bastante baixa no primeiro e no segundo conjunto de parâmetros.
[0136] Adicionalmente, é preferível também executar uma correlação para os sinais correspondentes no compartimento de tempo / frequência, como também emitido pelo bloco 740 e pelo bloco 741.
[0137] Assim, a “correspondência de fonte” da etapa 704 na Figura 6a pode, por exemplo, ser totalmente evitada e substituída por uma determinação de fontes / compartimentos de tempo / compartimentos de frequência correspondentes com base nos parâmetros de difusão ou a correspondência pode ser realizada adicionalmente usando o sinal correspondente no compartimento de tempo / frequência dos componentes no formato B, por exemplo, ou do sinal de pressão ou sinal de objeto emitido pelo bloco 422 da Figura 6c.
[0138] Em qualquer caso, o bloco 46 resultará em certas posições para determinados — compartimentos de tempo / frequência (selecionados) que correspondem aos “objetos correspondentes” encontrados no bloco 704 da Figura 6a.
[0139] Então, no bloco 748, parâmetros e / ou sinais modificados para as posições obtidas pelo bloco 746 e / ou a translação / rotação correspondente como obtidos, por exemplo, por um rastreador de chapéu são calculados e a saída do bloco 748 representa parâmetros modificados e / ou sinais modificados para diferentes caixas de tempo / frequência.
[0140] Assim, o bloco 748 pode corresponder à transformação de translação 423 e à transformação de rotação do bloco 424 com a finalidade de calcular parâmetros modificados e o cálculo de sinais modificados seria, por exemplo, realizado pelo bloco 425 da Figura 6c preferencialmente também sob a consideração de um certo fator de escala derivado das posições para os compartimentos de tempo / frequência correspondentes.
[0141] Finalmente, uma síntese da descrição do campo sonoro é realizada no bloco 750 com uso dos dados modificados. Isso pode, por exemplo, ser feito por uma síntese do DIrAC com uso da primeira ou a segunda descrição do campo sonoro ou pode ser realizada pelo gerador de sinal Ambisonics, conforme ilustrado no bloco 425, e o resultado será a nova descrição do campo sonoro para transmissão / armazenamento / Renderização.
[0142] A Figura 10 ilustra uma outra implementação preferencial do calculador de campo sonoro 420. Pelo menos partes do procedimento ilustrado na Figura 10 são realizadas para cada fonte correspondente separadamente. O bloco 1120 determina a distância para uma fonte correspondente, por exemplo, pelo cálculo de triangulação.
[0143] Com base na descrição do campo sonoro, uma direção de chegada de banda completa ou uma direção de chegada por banda é determinada em 1100. Essas informações de direção de chegada representam os dados de direção de chegada do campo sonoro. Com base nesses dados de direção de chegada, uma transformação de conversão é realizada no bloco 1110. Para esse fim, o bloco 1120 calcula a distância para cada fonte correspondente. Com base nos dados, o bloco 1110 gera a nova direção dos dados de chegada para o campo sonoro que, nesta implementação, depende apenas da translação do local de referência para o local de referência diferente. Para esse fim, o bloco 1110 recebe as informações de translação geradas, por exemplo, por um rastreamento no contexto de uma implementação de realidade virtual.
[0144] De preferência ou alternativamente, também são utilizados dados de rotação. Para este fim, o bloco 1130 executa uma transformação de rotação com uso das informações de rotação. Quando a translação e a rotação são realizadas, é preferível executar a transformação de rotação subsequente ao cálculo dos novos DoAs do campo sonoro que já incluem as informações da translação e a distância da fonte do bloco 1120.
[0145] Então, no bloco 1140, a nova descrição do campo sonoro é gerada. Para esse fim, a descrição original do campo sonoro pode ser usada ou, alternativamente, os sinais de fonte que foram separados da descrição do campo sonoro por um algoritmo de separação de fontes podem ser usados ou quaisquer outras aplicações. Basicamente, a nova descrição do campo sonoro pode ser, por exemplo, uma descrição direcional do campo sonoro obtida pelo gerador Ambisonics 430 ou gerada por um sintetizador DirAC 425 ou pode ser uma representação binaural gerada a partir de uma representação de alto-falante virtual na renderização binaural subsequente.
[0146] Preferencialmente, como ilustrado na Figura 10, a distância por direção de chegada também é usada na geração da nova descrição do campo sonoro, a fim de adaptar o volume ou a sonoridade de uma determinada fonte sonora para o novo local, isto é, o local de referência novo ou diferente.
[0147] Embora a Figura 10 ilustre uma situação em que a transformação de rotação é realizada após a transformação de translação, deve-se notar que a ordem pode ser diferente. Particularmente, a transformação de rotação pode ser aplicada aos DoAs do campo sonoro, conforme gerado pelo bloco 1100 e, então, a transformação de conversão adicional é aplicada devido à conversão de um sujeito do local de referência para o local de referência diferente.
[0148] Assim que os DoAs do campo sonoro tiverem sido determinados pelo bloco 1100, as informações de distância são obtidas dos metadados usando o bloco 1120 e essas informações de distância são usadas pela geração da nova descrição do campo sonoro no bloco 1140 para contabilizar uma alteração distância e, portanto, uma alteração da intensidade da fonte em relação a um determinado local de referência. Basicamente, pode-se dizer que, caso a distância se torne maior, o sinal específico da fonte sonora será atenuado, enquanto, quando a distância for menor, o sinal da fonte sonora será amplificado. Naturalmente, a atenuação ou amplificação de certa fonte de som dependendo da distância é feita proporcionalmente à mudança de distância, mas, em outras modalidades, operações menos complexas podem ser aplicadas a essa amplificação ou atenuação de sinais de fonte de som em incrementos bastante grosseiros. Mesmo uma implementação menos complexa fornece resultados superiores em comparação com uma situação em que qualquer mudança de distância é totalmente negligenciada.
[0149] A Figura 11 ilustra uma outra implementação preferencial do calculador de campo sonoro. No bloco 1200, as fontes individuais a partir do campo sonoro são determinadas, por exemplo, por banda ou como banda completa. Quando uma determinação por quadro e banda é realizada, isso pode ser feito por uma análise DirAC. Se uma determinação de banda ou sub-banda completa for realizada, isso poderá ser feito por qualquer tipo de algoritmo de separação de fonte de banda ou sub-banda.
[0150] No bloco 1210, uma translação e/ou uma rotação de um ouvinte é determinada, por exemplo, pelo rastreamento da cabeça.
[0151] No bloco 1220, uma distância antiga para cada fonte é determinada com uso dos metadados e, por exemplo, com uso dos metadados para o cálculo da triangulação. Assim, cada banda é considerada uma determinada fonte (desde que a difusão seja menor que determinado limite) e, em seguida, é determinada uma certa distância para cada compartimento de tempo / frequência com um baixo valor de difusão.
[0152] Então, no bloco 1230, uma nova distância por fonte é obtida, por exemplo, por um cálculo vetorial por banda que é, por exemplo, discutido no contexto da Figura
6b.
[0153] Além disso, como ilustrado no bloco 1240, uma direção antiga por fonte é determinada, por exemplo, por um cálculo de DoA obtido em uma análise DirAC ou por uma direção de chegada ou análise de informações de direção em um algoritmo de separação de fontes, por exemplo.
[0154] Então, no bloco 1250, uma nova direção por fonte é determinada, por exemplo, executando um cálculo de vetor por banda ou banda completa.
[0155] Então, no bloco 1260, um novo campo sonoro é gerado para o ouvinte transladado e girado. Isso pode ser feito, por exemplo, escalando-se a parte direta por canal na síntese do DIirAC. Dependendo da implementação específica, a modificação da distância pode ser feita nos blocos 1270a, 1270b ou 1270c, além ou alternativamente, para executar a modificação da distância no bloco 1260.
[0156] Quando, por exemplo, é determinado que o campo sonoro possui apenas uma única fonte, a modificação da distância já pode ser realizada no bloco 1270a.
[0157] Alternativamente, quando os sinais de fonte individuais são calculados pelo bloco 1200, a modificação da distância pode ser realizada para as fontes individuais no bloco 1270b, antes que o novo campo sonoro real seja gerado no bloco 1260.
[0158] Adicionalmente, quando a geração do campo sonoro no bloco 1260, por exemplo, não renderiza um sinal de configuração de alto-falante ou um sinal binaural, mas outra descrição do campo sonoro, por exemplo, com uso de um codificador ou calculador Ambisonics 430, a modificação de distância também pode ser executada subsequentemente à geração no bloco 1260, o que significa no bloco 1270c. Dependendo da implementação, uma modificação de distância também pode ser distribuída para vários modificadores, de modo que, no final, uma certa fonte sonora esteja em um certo volume que é direcionado pela diferença entre a distância original entre a fonte sonora e o local de referência e a nova distância entre a fonte sonora e o local de referência diferente.
[0159] A Figura 12a ilustra um analisador DirAC como originalmente divulgado, por exemplo, na referência citada anteriormente “Codificação de áudio direcional” de
IWPASH de 2009.
[0160] O analisador DIrAC compreende um banco de filtros de banda 1310, um analisador de energia 1320, um analisador de intensidade 1330, um bloco de média temporal 1340 e um calculador de difusão 1350 e o calculador de direção 1360.
[0161] No DIirAC, tanto a análise quanto a síntese são realizadas no domínio da frequência. Existem vários métodos para dividir o som em faixas de frequência, com propriedades distintas cada. As transformações de frequência mais usadas incluem a transformada de Fourier de curto período (STFT) e o banco de filtros de espelho em quadratura (QMF). Além desses, há uma liberdade total para projetar um banco de filtros com filtros arbitrários que são otimizados para quaisquer fins específicos. O objetivo da análise direcional é estimar em cada faixa de frequência a direção de chegada do som, juntamente com uma estimativa se o som está chegando de uma ou várias direções ao mesmo tempo. Em princípio, isso pode ser realizado com várias técnicas, no entanto, a análise energética do campo sonoro foi considerada adequada, o que é ilustrado na Figura 12a. A análise energética pode ser realizada quando o sinal de pressão e os sinais de velocidade em uma, duas ou três dimensões são capturados de uma única posição. Nos sinais de formato B de primeira ordem, o sinal omnidirecional é chamado de sinal W, que foi reduzido pela raiz quadrada de dois. A pressão sonora pode ser estimada como P = V2 * W, expressa no domínio de STFT.
[0162] Os canais X, Y e Z têm o padrão direcional de um dipolo direcionado ao longo do eixo cartesiano, que forma um vetor U = [X, Y, Z]. O vetor estima o vetor de velocidade do campo sonoro e também é expresso no domínio de STFT. A energia E do campo sonoro é calculada. A captura de sinais no formato B pode ser obtida com o posicionamento coincidente de microfones direcionais ou com um conjunto bem espaçado de microfones omnidirecionais. Em algumas aplicações, os sinais de microfone podem ser formados em um domínio computacional, isto é, simulado.
[0163] A direção do som é definida como a direção oposta do vetor de intensidade |. A direção é indicada como azimute angular e valores de elevação correspondentes nos metadados transmitidos. A difusão do campo sonoro também é calculada com uso de um operador de expectativa do vetor de intensidade e da energia. O resultado dessa equação é um número com valor real entre zero e um, caracterizando se a energia sonora está chegando de uma única direção (difusão é zero) ou de todas as direções (difusão é um). Este procedimento é apropriado no caso em que as informações completas sobre velocidade 3D ou menos dimensional estão disponíveis.
[0164] A Figura 12b ilustra uma síntese de DirAC, tendo mais uma vez um banco de filtros de banda 1370, um bloco de microfone virtual 1400, um bloco de sintetizador direto / difuso 1450 e uma certa configuração de alto-falante ou uma configuração de alto-falante virtual pretendida 1460. Adicionalmente, um transformador de ganho de difusão 1380, um bloco de tabela de ganho de panorama de amplitude com base em vetor (VBAP) 1390, um bloco de compensação de microfone 1420, um bloco de média de ganho de alto-falante 1430 e um distribuidor 1440 para outros canais é usado.
[0165] Nesta síntese do DIrAC com alto-falantes, a versão de alta qualidade da síntese do DIrAC mostrada na Figura 12b recebe todos os sinais no formato B, para os quais um sinal de microfone virtual é calculado para cada direção do alto-falante da configuração do alto-falante 1460. O padrão direcional utilizado é tipicamente um dipolo. Os sinais do microfone virtual são modificados de maneira não linear, dependendo dos metadados. A versão de baixa taxa de bits do DirAC não é mostrada na Figura 12b, entretanto, nessa situação, apenas um canal de áudio é transmitido como ilustrado na Figura 6. A diferença no processamento é que todos os sinais de microfone virtual seriam substituídos pelo único canal de áudio recebido. Os sinais do microfone virtual são divididos em dois fluxos: o difuso e o não difuso, processados separadamente.
[0166] O som não difuso é reproduzido como fonte pontual usando o panorama de amplitude de base vetorial (VBAP). No panorama, um sinal sonoro monofônico é aplicado a um subconjunto de alto-falantes após a multiplicação com fatores de ganho específicos do alto-falante. Os fatores de ganho são calculados com uso das informações de uma configuração de alto-falante e a direção de deslocamento especificada. Na versão de baixa taxa de bits, o sinal de entrada é simplesmente deslocado para as direções implícitas pelos metadados. Na versão de alta qualidade, cada sinal de microfone virtual é multiplicado pelo fator de ganho correspondente, que produz o mesmo efeito com o movimento panorâmico, no entanto, é menos propenso a artefatos não lineares.
[0167] Em muitos casos, os metadados direcionais estão sujeitos a mudanças temporais abruptas. Para evitar artefatos, os fatores de ganho para os alto-falantes calculados com VBAP são suavizados pela integração temporal com constantes de tempo dependentes da frequência iguais a cerca de 50 períodos de ciclo em cada banda. Isso efetivamente remove os artefatos, no entanto, as mudanças na direção não são percebidas como mais lentas do que sem a média na maioria dos casos.
[0168] O objetivo da síntese sonora difusa é criar a percepção do som que circunda o ouvinte. Na versão de baixa taxa de bits, o fluxo difuso é reproduzido descorrelacionando o sinal de entrada e reproduzindo-o em todos os alto-falantes. Na versão de alta qualidade, os sinais de microfone virtual de fluxo difuso já são incoerentes em algum grau e precisam ser correlacionados apenas levemente. Essa abordagem fornece melhor qualidade espacial para reverberação surround e som ambiente do que a versão de baixa taxa de bits.
[0169] Para a síntese do DIrAC com fones de ouvido, o DIrAC é formulado com uma certa quantidade de alto-falantes virtuais em torno do ouvinte para o fluxo não difuso e um certo número de alto-falantes para o vapor difuso. Os alto-falantes virtuais são implementados como convolução de sinais de entrada com funções de transferência relacionadas à cabeça medidas (HRTFs).
[0170] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é claro que esses aspectos também representam uma descrição do método correspondente, em que um bloco ou dispositivo corresponde a uma etapa do método ou a um recurso de uma etapa do método. Analogamente, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item ou característica correspondente de um aparelho correspondente.
[0171] A descrição inventiva do campo sonoro aprimorada pode ser armazenada em um meio de armazenamento digital ou em um meio de armazenamento não transitório ou pode ser transmitida em um meio de transmissão, como um meio de transmissão sem fio ou um meio de transmissão com fio, como a Internet.
[0172] Dependendo de certos requisitos de implementação, as modalidades da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada com uso de um meio de armazenamento digital, por exemplo, um disquete, um DVD, um CD, uma ROM, uma PROM, uma EPROM, uma EEPROM ou uma memória FLASH, com sinais de controle legíveis eletronicamente armazenados nele, os quais cooperam (ou sejam capazes de cooperar) com um sistema de computador programável, de modo que o método respectivo seja executado.
[0173] Algumas modalidades de acordo com a invenção compreendem um suporte de dados não transitório com sinais de controle legíveis eletronicamente, capazes de cooperar com um sistema de computador programável, de modo que um dos métodos aqui descritos seja realizado.
[0174] Geralmente, as modalidades da presente invenção podem ser implementadas como um produto de programa de computador com um código de programa, sendo o código de programa operacional para executar um dos métodos quando o produto de programa de computador é executado em um computador. O código de programa pode, por exemplo, ser armazenado em uma portadora legível por máquina.
[0175] Outras modalidades compreendem o programa de computador para realizar um dos métodos descritos aqui, armazenados em uma portadora legível por máquina.
[0176] Em outras palavras, uma modalidade do método inventivo é, portanto, um programa de computador tendo um código de programa para executar um dos métodos descritos aqui, quando o programa de computador é executado em um computador.
[0177] Uma outra modalidade dos métodos inventivos é, portanto, um suporte de dados (ou um meio de armazenamento digital ou um meio legível por computador)
compreendendo, gravado nele, o programa de computador para executar um dos métodos aqui descritos.
[0178] Uma outra modalidade do método inventivo é, portanto, um fluxo de dados ou uma sequência de sinais representando o programa de computador para executar um dos métodos aqui descritos. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido através de uma conexão de comunicação de dados, por exemplo, através da Internet.
[0179] Uma outra modalidade compreende um meio de processamento, por exemplo, um computador ou um dispositivo lógico programável, configurado ou adaptado para executar um dos métodos aqui descritos.
[0180] Uma outra modalidade compreende um computador tendo instalado nele o programa de computador para executar um dos métodos aqui descritos.
[0181] Em algumas modalidades, um dispositivo lógico programável (por exemplo, uma matriz de portas programável em campo) pode ser usado para executar algumas ou todas as funcionalidades dos métodos aqui descritos. Em algumas modalidades, uma matriz de portas programável em campo pode cooperar com um microprocessador para executar um dos métodos descritos aqui. Geralmente, os métodos são preferencialmente realizados por qualquer aparelho de hardware.
[0182] As modalidades descritas acima são meramente ilustrativas para os princípios da presente invenção. Entende-se que modificações e variações dos arranjos e os detalhes aqui descritos serão evidentes para outras pessoas versadas na técnica. É intenção, portanto, limitar-se apenas ao escopo das reivindicações iminentes de patentes e não aos detalhes específicos apresentados por meio de descrição e explicação das modalidades aqui apresentadas.
Referências
[1] Liitola, T, Headphone sound externalization, Ph.D. thesis, Helsinki University of Technology. Department of Electrical and Communications Engineering Laboratory of Acoustics and Audio Signal Processing., 2006.
[2] Blauert, J., Spatial Hearing - Revised Edition: The Psychophysics of
Human Sound Localization, The MIT Press, 1996, ISBN 0262024136.
[3] Zhang, W., Samarasinghe, P. N., Chen, H., e Abhayapala, T. D., “Surround by Sound: A Re-view of Spatial Audio Recording and Reproduction”, Applied Sciences, 7(5), página 532, 2017.
[4] Bates, E. e Boland, F., “Spatial Music, Virtual Reality, and 360 Media”, in Audio Eng. Soc. Int. Conf. on Audio for Virtual and Augmented Reality, Los Angeles, CA, EUA., 2016.
[5] Anderson, R., Gallup, D., Barron, J. T., Kontkanen, J., Snavely, N., Esteban, C. H., Agarwal, S., e Seitz, S. M., “Jump: Virtual Reality Video”, ACM Transactions em Graphics, 35(6), página 198, 2016.
[6] Merimaa, J., Analysis, Synthesis, and Perception of Spatial Sound: Binaural Localization Modeling and Multichannel Loudspeaker Reproduction, Ph.D. thesis, Helsinki University of Technology, 2006.
[7] Kronlachner, M. e Zotter, F., “Spatial Transformations for the Enhancement of Ambisonics Recordings”, in 2nd International Conference on Spatial Audio, Erlangen, Alemanha, 2014.
[8] Tsingos, N., Gallo, E., e Drettakis, G., “Perceptual Audio Rendering of Complex Virtual Environments”, ACM Transactions on Graphics, 23(3), páginas 249- 258, 2004.
[9] Taylor, M., Chandak, A., Mo, Q., Lauterbach, C., Schissler, C., e Manocha, D., “Guided multi-view ray tracing for fast auralization”, /EEE Trans. Visualization & Comp. Graphics, 18, páginas 1797- 1810, 2012.
[10] Rungta, A., Schissler, C., Rewkowski, N., Mehra, R., e Manocha, D., “Diffraction Kernels for Interactive Sound Propagation in Dynamic Environments”, IEEE Trans. Visualization & Comp. Graphics, 24(4), páginas 1613-1622, 2018.
[11] Thiergart, O., Kowalczyk, K., e Habets, E. A. P., “An Acoustical Zoom based on Informed Spatial Filtering”, em /nt Workshop on Acoustic Signal Enhancement, páginas 109-113, 2014.
[12] Khaddour, H., Schimmel, J., e Rund, F., “A Novel Combined System of Direction Estimation and Sound Zooming of Multiple Speakers”, Radioengineering, 24(2), 2015.
[13] Ziegler, M., Keinert, J., Holzer, N., Wolf, T., Jaschke, T., op het Veld, R., Zakeri, F. S., e Foessel, S., “Immersive Virtual Reality for Live-Action Video using Camera Arrays”, em /BC, Amsterdam, Países Baixos, 2017.
[14] Thiergart, O., Galdo, G. D., Taseska, M., e Habets, E. A. P., “Geometry- Based Spatial Sound Acquisition using Distributed Microphone Arrays”, IEEE Trans. Audio, Speech, Language Process., 21(12), páginas 2583-2594, 2013.
[15] Kowalczyk, K., Thiergart, O., Taseska, M., Del Galdo, G., Pulkki, V., e Habets, E. A. P., “Parametric Spatial Sound Processing: A Flexible and Efficient Solution to Sound Scene Acquisition, Modification, and Reproduction”, IEEE Signal Process. Mag., 32(2), páginas 31-42, 2015.
[16] Pulkki, V, “Spatial Sound Reproduction with Directional Audio Coding”, J. Audio Eng. Soc., 55(6), páginas 503-516, 2007.
[17] International Telecommunication Union, “TU-R BS.1534-3, Method for the subjective assessment of intermediate quality level of audio systems”, 2015.
[18] Thiergart, O., Del Galdo, G., Kuech, F., e Prus, M., “Three-Dimensional Sound Field Analysis with Directional Audio Coding Based on Signal Adaptive Parameter Estimators”, em Audio Eng. Soc. Conv. Spatial Audio: Sense the Sound of Space, 2010.
[19] Kuttruff, H., Room Acoustics, Taylor & Francis, 4 edição, 2000.
[20] Borf, C., “A polygon-based panning method for 3D loudspeaker setups”, em Audio Eng. Soc. Conv., páginas 343-352, Los Angeles, CA, EUA, 2014.
[21] Rummukainen, O., Schlecht, S., Plinge, A., e Habets, E. A. P, “Evaluating Binaural Reproduction Systems from Behavioral Patterns in a Virtual Reality — A Case Study with Impaired Binaural Cues and Tracking Latency”, em Audio Eng. Soc. Conv. 143, Nova lorque, NY, EUA, 2017.
[22] Engelke, U., Darcy, D. P., Mulliken, G. H., Bosse, S., Martini, M. G,, Arndt, S. Antons, J-N.,, Chan, K. Y, Ramzan, N. e Brunnstróm, K,
“Psychophysiology-Based QoE Assessment: A Survey”, IEEE Selected Topics in Signal Processing, 11(1), páginas 6-21, 2017.
[23] Schlecht, S. J. e Habets, E. A. P., “Sign-Agnostic Matrix Design for Spatial Artificial Reverberation with Feedback Delay Networks”, em Proc. Audio Eng. Soc. Conf., páginas 1-10- accepted, Tóquio, Japão, 2018
[81] M. A. Gerzon, “Periphony: With-height sound reproduction,” J. Acoust. Soc. Am., vol. 21,110. 1, páginas 2-10, 1973.
[32] V. Pulkki, “Directional audio coding in spatial sound reproduction and stereo upmixing”, em Proc. of the 28th AES International Conference, 2006.
[33]-—, “Spatial sound reproduction with directional audio coding”, Journal Audio Eng. Soc, vol. 55, nº 6, páginas 503 - 516, Jun. 2007.
[314] C. G. e G. M., “Coincident microphone simulation covering three dimensional space and yielding various directional outputs”, Patente U.S. 4 042 779, 1977.
[35] C. Faller e F. Baumgarte, “Binaural cue coding - part ii: Schemes and applications, "IEEE Trans. Speech Audio Process, vol. 11, nº. 6, Nov. 2003.
[36] C. Faller, “Parametric multichannel audio coding: Synthesis of coherence cues”, IEEE Trans. Speech Audio Process., vol. 14, nº. 1, Jan. 2006.
[867] H]. PR. J. E. E. Schuijjers, J. Breebaart, “Low complexity parametric stereo coding”, em Proc. of the 116th AES Convention, Berlin, Alemanha, 2004.
[38] V. Pulkki, “Virtual sound source positioning using vector base amplitude panning”, J. Acoust. Soc. A m, vol. 45, nº. 6, páginas 456 - 466, Jun.
1997.
[39] J. G. Tylka e. Y. Choueiri, “Comparison of techniques for binaural navigation of higher order ambisonics sound fields”, em Proc. of the AES International Conference on Audio for Virtual and Augmented Reality, Nova lorque, Set. 2016.

Claims (50)

REIVINDICAÇÕES
1. Aparelho para gerar uma descrição do campo sonoro aprimorada caracterizado por compreender: um gerador de campo sonoro para gerar pelo menos uma descrição do campo sonoro que indica um campo sonoro em relação a pelo menos um local de referência; e um gerador de metadados para gerar metadados relacionados às informações espaciais do campo sonoro, em que a pelo menos uma descrição do campo sonoro e os metadados constituem a descrição do campo sonoro aprimorada.
2. Aparelho, de acordo com a reivindicação 1, caracterizado por o gerador de campo sonoro estar configurado para gerar uma primeira descrição do campo sonoro em relação ao local de referência e uma segunda descrição do campo sonoro em relação a um local de referência adicional, sendo que o local de referência adicional é diferente do local de referência, e em que o gerador de metadados está configurado para determinar a posição de referência e a posição de referência adicional individualmente ou para determinar uma distância entre a posição de referência e a posição de referência adicional ou um vetor de localização entre a posição de referência e a posição de referência adicional como os metadados.
3. Aparelho, de acordo com a reivindicação 2, caracterizado por a primeira descrição do campo sonoro ser uma primeira descrição Ambisonics, sendo que a segunda descrição do campo sonoro é uma segunda descrição Ambisonics, ou em que a primeira descrição do campo sonoro e a segunda descrição do campo sonoro são uma dentre uma descrição Ambisonics ou uma descrição DirAC.
4. Aparelho, de acordo com qualquer uma das reivindicações 1 a 3, caracterizado por a primeira descrição geométrica ser uma informação sobre um primeiro vetor direcionado a partir de uma origem predeterminada para um local de referência da primeira descrição do campo sonoro, e em que a segunda descrição geométrica é uma informação em um segundo vetor direcionado a partir da origem predeterminada para um local de referência adicional da segunda descrição do campo sonoro.
5. Aparelho, de acordo com qualquer uma das reivindicações 1 a 4, caracterizado por a primeira descrição geométrica ser uma informação em um dentre um primeiro vetor direcionado a partir de uma origem predeterminada para um local de referência de uma primeira descrição do campo sonoro e um segundo vetor direcionado a partir da origem predeterminada para um local de referência adicional de uma segunda descrição do campo sonoro, e uma informação no vetor entre o local de referência e o local de referência adicional.
6. Aparelho, de acordo com qualquer uma das reivindicações 1 a5, caracterizado por um dentre o local de referência e o local de referência adicional ser uma origem predeterminada, e em que os metadados compreendem uma informação no vetor entre a origem predeterminada e o outro do local de referência e do local de referência adicional.
7. Aparelho, de acordo com qualquer uma das reivindicações 1 a 6, caracterizado por o gerador de campo sonoro estar configurado para gerar a primeira descrição do campo sonoro ou a segunda descrição do campo sonoro com uso de um dispositivo de microfone real ou por uma síntese sonora com uso de uma técnica de microfone virtual.
8. Aparelho para gerar uma descrição do campo sonoro modificada a partir de uma descrição do campo sonoro e metadados relacionados às informações espaciais da descrição do campo sonoro caracterizado por compreender: um calculador de campo sonoro para calcular o campo sonoro modificado com uso das informações espaciais, a descrição do campo sonoro e uma informação de translação que indica uma translação de um local de referência para um local de referência diferente.
9. Aparelho, de acordo com a reivindicação 8, caracterizado por o calculador de campo sonoro estar configurado para calcular a descrição do campo sonoro modificada com uso de um método de translação com base em sinal.
10. Aparelho, de acordo com a reivindicação 8 ou 9, caracterizado por o calculador de campo sonoro estar configurado para receber uma primeira descrição do campo sonoro relacionada ao primeiro local de referência e para receber uma segunda descrição do campo sonoro relacionada a um local de referência adicional que é diferente do local de referência, para realizar uma separação de fonte para a primeira descrição do campo sonoro para obter um primeiro grupo de um ou mais objetos extraídos e a segunda descrição do campo sonoro para obter um segundo grupo de um ou mais objetos extraídos, para calcular direção de dados de chegada (DoA) para os objetos extraídos, para corresponder ao primeiro grupo de objetos extraídos da primeira descrição do campo sonoro e ao segundo grupo de objetos extraídos da segunda descrição do campo sonoro, para estimar uma posição de um ou mais objetos correspondentes, e para modificar um ou mais objetos correspondentes com base na posição estimada do objeto correspondente e do local de referência diferente.
11. Aparelho, de acordo com a reivindicação 10, caracterizado por o calculador de campo sonoro estar configurado para calcular direção de dados de chegada dos objetos correspondentes, e para determinar dados de descrição do campo sonoro para cada objeto correspondente com uso da direção calculada de dados de chegada para o local de referência diferentes.
12. Aparelho, de acordo com qualquer uma das reivindicações 9 a 11,
caracterizado por o calculador de campo sonoro estar configurado para calcular um dados de campo sonoro para um ou mais objetos não correspondentes com uso da direção de dados de chegada obtidos para os objetos não correspondentes.
13. Aparelho, de acordo com qualquer uma das reivindicações 9 a 12, caracterizado por o calculador de campo sonoro estar configurado para calcular a descrição do campo sonoro modificada combinando-se os dados de descrição do campo sonoro para o um ou mais objetos correspondentes e o um ou mais objetos não correspondentes.
14. Aparelho, de acordo com a reivindicação 8, caracterizado por o calculador de campo sonoro configurado realizar um método de translação com base em parâmetros.
15. Aparelho, de acordo com a reivindicação 8 ou a reivindicação 14, caracterizado por o calculador de campo sonoro estar configurado para assumir um modelo de campo sonoro, para estimar componentes de sinal e/ou parâmetros do campo sonoro considerado, para modificar os componentes de sinal e/ou os parâmetros dependendo das informações de translação ou dependendo do local de referência diferente, e para gerar a descrição do campo sonoro modificada com uso dos componentes de sinal modificados e/ou os parâmetros modificados.
16. Aparelho, de acordo com a reivindicação 15, caracterizado por o calculador de campo sonoro estar configurado para estimar os componentes de sinal e/ou os parâmetros com uso de uma decomposição do campo sonoro em um ou mais componentes sonoros diretos e um ou mais componentes sonoros difusos ou com uso de uma decomposição do campo sonoro em um ou mais componentes sonoros diretos/principais e um componente sonoro residual, em que o componente sonoro residual pode ser um sinal de canal único ou um sinal multicanal.
17. Aparelho, de acordo com qualquer uma das reivindicações 8 a 16, caracterizado por o calculador de campo sonoro estar configurado para aplicar uma rotação da descrição do campo sonoro modificada.
18. Aparelho, de acordo com qualquer uma das reivindicações 8 a 12, caracterizado por a descrição do campo sonoro modificada ser uma descrição do campo sonoro Ambisonics.
19. Aparelho, de acordo com qualquer uma das reivindicações 8 a 18, caracterizado por o calculador de campo sonoro (420) estar configurado para receber, como a descrição do campo sonoro, uma primeira descrição do campo sonoro e uma segunda descrição do campo sonoro, para realizar uma separação de fonte na primeira e segunda descrições do campo sonoro, para extrair fontes da primeira e a segunda descrições do campo sonoro e direção de dados de chegada (DoA) para fontes extraídas, para calcular, para cada fonte extraída, dados de DoOs modificados em relação ao local diferente com uso dos dados de DoOs e as informações de translação, e para processar as fontes extraídas e os dados de DoOs modificados para obter a descrição do campo sonoro modificada.
20. Aparelho, de acordo com qualquer uma das reivindicações 8 a 19, caracterizado por o calculador de campo sonoro (420) estar configurado para realizar individualmente a separação de fonte para cada descrição do campo sonoro e para extrair um sinal de ambiente/difuso/residual para cada descrição do campo sonoro.
21. Aparelho, de acordo com qualquer uma das reivindicações 8 a 20, caracterizado por ainda compreender: uma interface de translação (410) para fornecer as informações de translação ou informações de rotação que indicam uma rotação de um ouvinte pretendido para o campo sonoro modificado; um fornecedor de metadados (402, 400) para fornecer os metadados para o calculador de campo sonoro (420); um fornecedor de campo sonoro (404, 400) para fornecer a descrição do campo sonoro para o calculador de campo sonoro (420); e uma interface de saída (421) para emitir o campo sonoro modificado compreendendo a descrição do campo sonoro modificada e metadados modificados, sendo que os metadados modificados são derivados dos metadados com uso das informações de translação, ou para emitir uma pluralidade de canais de alto-falante, sendo que cada canal de alto-falante é relacionado a uma posição de alto-falante predefinida, ou para emitir uma representação binaural do campo sonoro modificado.
22. Aparelho, de acordo com qualquer uma das reivindicações 8 a 21, caracterizado por a descrição do campo sonoro compreender uma pluralidade de componentes do campo sonoro, sendo que a pluralidade de componentes do campo sonoro compreende um componente omnidirecional e pelo menos um componente direcional, em que o calculador de campo sonoro compreende: um analisador de campo sonoro (422) para analisar os componentes do campo sonoro para derivar, para diferentes compartimentos de frequência, direção de informações de chegada; um transformador de translação (423) para calcular direção modificada de informações de chegada por compartimento de frequência com uso das informações de direção e metadados, sendo que os metadados compreendem um mapa de profundidade associando uma informação de distância a uma fonte representada pelo compartimento de frequência; e um compensador de distância para calcular o campo sonoro modificado com uso de uma informação de compensação de distância dependendo da distância fornecida pelo mapa de profundidade para a fonte, e uma nova distância associada ao compartimento de frequência sendo relacionada à direção modificada de informações de chegada.
23. Aparelho, de acordo com qualquer uma das reivindicações 8 a 22,
caracterizado por o calculador de campo sonoro (420) ser configurado, para uma ou mais fontes, para calcular (1104) um primeiro vetor apontando a partir do local de referência para uma fonte sonora (510) obtida pela análise (1102) do campo sonoro; para calcular (1106) um segundo vetor apontando a partir do local de referência diferente (500) para a fonte sonora (510) com uso do primeiro vetor e as informações de translação, sendo que as informações de translação definem um vetor de translação a partir do local de referência (522) para o local de referência diferente (500); e para calcular (1106) um valor de modificação de distância usando o local de referência diferente (500), um local da fonte sonora (510), e o segundo vetor, ou com uso de uma distância do local de referência diferente (500) para o local da fonte sonora (510) e o segundo vetor.
24. Aparelho, de acordo com qualquer uma das reivindicações 8 a 23, caracterizado por um primeiro vetor ser calculado multiplicando-se uma direção de vetor de unidade de chegada por uma distância incluída nos metadados, ou em que um segundo vetor é calculado subtraindo-se o vetor de translação a partir do primeiro vetor, ou em que o valor de modificação de distância é calculado dividindo-se o segundo vetor por uma norma do primeiro vetor.
25. Aparelho, de acordo com qualquer uma das reivindicações 8 a 24, caracterizado por o calculador de campo sonoro (420) estar configurado para receber, além das informações de translação, uma informação de rotação, e em que o calculador de campo sonoro (420) está configurado para realizar uma transformação de rotação (424) para girar uma direção de dados de chegada para um campo sonoro com uso das informações de rotação, em que a direção de dados de chegada é derivada de uma direção de dados de chegada obtidos por uma análise de campo sonoro da descrição do campo sonoro e com uso das informações de translação.
26. Aparelho, de acordo com qualquer uma das reivindicações 8 a 25, caracterizado por o calculador de campo sonoro (420) estar configurado: para determinar (1200, 1240) fontes a partir da descrição do campo sonoro e direções para as fontes por uma análise de campo sonoro; para determinar (1220), para uma fonte, uma distância da fonte a partir do local de referência com uso dos metadados; para determinar (1250) uma nova direção da fonte relacionada ao local de referência diferente com uso da direção para a fonte e as informações de translação; para determinar (1230) uma nova informação de distância para a fonte relacionada ao local de referência diferente; e para gerar (1260) o campo sonoro modificado com uso da nova direção da fonte, a nova informação de distância, e a descrição do campo sonoro ou sinais de fonte correspondentes às fontes derivadas a partir da descrição do campo sonoro.
27. Aparelho, de acordo com qualquer uma das reivindicações 8 a 26, caracterizado por o calculador de campo sonoro estar configurado: para determinar (1200) sinais de fonte a partir da descrição do campo sonoro e direções dos sinais de fonte relacionados ao local de referência por uma análise sonora; para calcular (1230) novas direções dos sinais de fonte relacionados ao local de referência diferente com uso das informações de translação; para calcular (1230) informações de distância para as fontes sonoras relacionadas ao local de referência diferente; e para sintetizar (1260) o campo sonoro modificado com uso das informações de distância, os sinais de fonte e as novas direções.
28. Aparelho, de acordo com a reivindicação 27, caracterizado por o calculador de campo sonoro (420) ser configurado: para sintetizar o campo sonoro modificado deslocando-se um sinal de fonte sonora para uma direção dada pela nova direção em relação a uma configuração de reprodução, e escalando-se o sinal de fonte sonora com uso das informações de distância antes de realizar o panorama ou subsequente para realizar o panorama.
29. Aparelho, de acordo com a reivindicação 27 ou 28, caracterizado por o calculador de campo sonoro (420) ser configurado para adicionar um sinal difuso a uma parte direta do sinal de fonte sonora, sendo que a parte direta é modificada pela informação de distância antes de ser adicionada ao sinal difuso.
30. Aparelho, de acordo com qualquer uma das reivindicações 27 a 29, caracterizado por o calculador de campo sonoro (420) ser configurado para realizar uma conversão de frequência no tempo da descrição do campo sonoro e para calcular (422) uma direção de chegada para uma pluralidade de compartimentos de frequência de um período de tempo; para calcular (423, 424) a nova direção para cada um dos compartimentos de frequência, para calcular as informações de distância para cada compartimento de frequência, e para realizar uma síntese direta para cada compartimento de frequência com uso de um sinal de áudio para um compartimento de frequência, sendo que um ganho panorâmico para o compartimento de frequência é derivado da nova direção para o compartimento de frequência e um fator de escala para o compartimento de frequência derivado das informações de distância para a fonte correspondente.
31. Aparelho, de acordo com a reivindicação 30, caracterizado por o calculador de campo sonoro (420) ser configurado para realizar uma síntese difusa com uso de um sinal de áudio difuso derivado do sinal de áudio para o compartimento de frequência e com uso de um parâmetro difuso derivado pela análise sonora para o compartimento de frequência e para combinar a parte direta e a parte difusa para obter um sinal de áudio sintetizado para o compartimento de frequência; e para realizar uma conversão de tempo e frequência com uso dos sinais de áudio para os compartimentos de frequência para um período de tempo para obter um sinal de áudio sintetizado no domínio de tempo como o campo sonoro modificado.
32. Aparelho, de acordo com qualquer uma das reivindicações 27 a 31, caracterizado por o calculador de campo sonoro (420) ser configurado para sintetizar, para cada fonte sonora, um campo sonoro relacionado ao local de referência diferente, sendo que a síntese compreende: para cada fonte, processar (430) um sinal de fonte com uso da nova direção para o sinal de fonte para obter uma descrição do campo sonoro do sinal de fonte relacionado ao local de referência diferente; modificar o sinal de fonte antes de processar o sinal de fonte ou modificar a descrição do campo sonoro com uso das informações de direção; e adicionar as descrições do campo sonoro para as fontes para obter um campo sonoro modificado relacionado ao local de referência diferente.
33. Aparelho, de acordo com qualquer uma das reivindicações 27 a 32, caracterizado por a análise sonora (1200) ser configurada para determinar os sinais de fonte por um algoritmo de separação de fonte e subtrair pelo menos alguns dos sinais de fonte a partir da descrição do campo sonoro para obter o sinal difuso.
34. Aparelho, de acordo com qualquer uma das reivindicações 8 a 33, caracterizado por o calculador de campo sonoro (420) ser configurado para determinar uma direção de informações de chegada para cada fonte correspondente, para determinar uma distância de uma fonte para o novo local de referência com uso da direção de informações de chegada e os metadados para a pelo menos uma descrição do campo sonoro, e para determinar um fator de escala com uso da distância da fonte para o novo local de referência.
35. Aparelho, de acordo com qualquer uma das reivindicações 8 a 34,
caracterizados por o calculador de campo sonoro (420) ser configurado para realizar uma análise sonora (700, 740, 741) para a descrição do campo sonoro para obter um primeiro grupo de um ou mais objetos extraídos ou uma direção de informações de chegada para um ou mais objetos extraídos e para uma descrição adicional do campo sonoro relacionado a um local de referência adicional para obter um segundo grupo de um ou mais objetos extraídos ou uma direção de informações de chegada para um ou mais objetos extraídos com uso dos metadados; para corresponder (704) o primeiro grupo e o segundo grupo com uso de sinais de objeto a partir dos grupos ou direção de informações de chegada para o objeto a partir dos grupos encontrar pelo menos um objeto correspondente; para calcular (706, 746) uma posição estimada do objeto correspondente com uso dos metadados e uma primeira direção de informações de chegada obtida para o objeto correspondente realizando-se a análise sonora para obter o primeiro grupo e uma segunda direção de informações de chegada obtida para o objeto correspondente realizando-se a análise sonora para obter o segundo grupo; para aplicar (710, 748) um processamento de compensação de distância para o objeto correspondente com base na posição estimada e as informações de translação.
36. Aparelho, de acordo com a reivindicação 35, caracterizado por a análise sonora ser uma análise DirAC (740, 741) resultando em um sinal para cada compartimento de frequência e tempo e a direção de valor de chegada para cada compartimento de frequência e tempo e um valor de difusão opcional, em que a correspondência é realizada para cada compartimento de frequência e tempo individual para determinar pelo menos um compartimento como o objeto correspondente, e em que uma posição estimada para o pelo menos um compartimento é calculado (746).
37. Aparelho, de acordo com a reivindicação 35,
caracterizado por a análise sonora ser uma análise de fonte de banda larga (700) resultando em um sinal de banda larga extraído e uma direção de informações de chegada para o sinal de banda larga extraído e, opcionalmente, um sinal difuso, em que a correspondência da fonte (704) é realizada para os sinais de banda larga extraídos com uso de uma medição de correlação para cada par de um sinal de banda larga extraído a partir do primeiro grupo e um sinal de banda larga extraído a partir do segundo grupo, e em que a posição estimada para o pelo menos um objeto de banda larga correspondente é calculada (706).
38. Aparelho, de acordo com qualquer uma das reivindicações 35 a 37, caracterizado por o calculador de campo sonoro (420) ser configurado para realizar o cálculo das posições dos objetos correspondentes com uso de um cálculo de triangulação que recebe uma primeira direção de informações de chegada derivadas a partir da descrição do campo sonoro e a segunda direção de informações de chegada derivadas a partir da descrição adicional do campo sonoro, e os metadados compreendendo informações, a partir dos quais uma informação em um vetor entre o local de referência e o local de referência adicional pode ser derivada.
39. Aparelho, de acordo com qualquer uma das reivindicações 1 a 38, caracterizado por o calculador de campo sonoro (420) ser configurado para selecionar, para um cálculo de uma descrição do campo sonoro para um objeto correspondente relacionado ao local de referência diferente, informações relacionadas à descrição do campo sonoro ou relacionadas à descrição adicional do campo sonoro dependendo de uma distância do local de referência ou do local de referência adicional para um local de ouvinte determinado pelas informações de translação.
40. Aparelho, de acordo com a reivindicação 39, caracterizado por o calculador de campo sonoro ser configurado para calcular (720) uma primeira distância entre o local de referência e a nova posição do ouvinte; para calcular (722) uma segunda distância entre o local de referência adicional e a nova posição do ouvinte; para selecionar (724) a descrição do campo sonoro que tem um local de referência que tem a menor distância da primeira e da segunda distâncias.
41. Aparelho, de acordo com qualquer uma das reivindicações 35 a 40, caracterizado por o calculador de campo sonoro ser configurado para calcular, para cada objeto correspondente, uma nova direção de informações de chegada com uso de uma da direção de informações de chegada derivadas a partir da descrição do campo sonoro e da descrição adicional do campo sonoro.
42. Aparelho, de acordo com uma das reivindicações 40 ou 41, caracterizado por o calculador de campo sonoro (420) ser configurado para calcular, para cada objeto correspondente, uma descrição do campo sonoro com uso da nova direção de informações de chegada e escalar o sinal de fonte ou a descrição do campo sonoro do sinal de fonte com uso da posição estimada do objeto correspondente.
43. Aparelho, de acordo com qualquer uma das reivindicações 35 a 42, caracterizado por o calculador de campo sonoro (420) ser configurado para calcular uma descrição do campo sonoro para cada objeto não correspondente a partir do primeiro grupo e para calcular uma descrição do campo sonoro para cada objeto não correspondente a partir do segundo grupo com uso da direção correspondente de informações de chegada.
44. Aparelho, de acordo com a reivindicação 43, caracterizado por o calculador de campo sonoro (420) ser configurado para calcular o campo sonoro modificado combinando-se (712) a descrição do campo sonoro dos objetos correspondentes e a descrição do campo sonoro dos objetos não correspondentes.
45. Aparelho, de acordo com qualquer uma das reivindicações 35 a 44, caracterizado por o calculador de campo sonoro (420) ser configurado para determinar uma informação em um sinal difuso para pelo menos um dentre o primeiro grupo e o segundo grupo, e em que o calculador de campo sonoro está configurado para adicionar o sinal difuso para uma descrição do campo sonoro de um objeto correspondente ou uma descrição do campo sonoro de um objeto não correspondente.
46. Método de gerar uma descrição do campo sonoro aprimorada caracterizado por compreender: gerar pelo menos uma descrição do campo sonoro que indica um campo sonoro em relação a pelo menos um local de referência; e gerar metadados relacionados às informações espaciais do campo sonoro, em que a pelo menos uma descrição do campo sonoro e os metadados constituem a descrição do campo sonoro aprimorada.
47. Método de gerar uma descrição do campo sonoro modificada a partir de uma descrição do campo sonoro e metadados relacionados às informações espaciais da descrição do campo sonoro, sendo que o método é caracterizado por compreender: calcular o campo sonoro modificado com uso das informações espaciais, a descrição do campo sonoro e uma informação de translação que indica uma translação a partir de um local de referência para um local de referência diferente.
48. Programa de computador caracterizada por realizar, quando executado em um computador ou processador, o método de acordo com a reivindicação 46 ou o método de acordo com a reivindicação 47.
49. Descrição do campo sonoro aprimorada caracterizada por compreender: pelo menos uma descrição do campo sonoro que indica um campo sonoro em relação a pelo menos um local de referência e metadados relacionados às informações espaciais do campo sonoro.
50. Descrição do campo sonoro aprimorada, de acordo com a reivindicação 49,
caracterizada por pelo menos uma descrição do campo sonoro compreender uma primeira descrição do campo sonoro em relação ao local de referência e uma segunda descrição do campo sonoro em relação a um local de referência adicional, sendo que o local de referência adicional é diferente do local de referência, e em que os metadados compreendem a posição de referência e a posição de referência adicional individualmente ou uma distância entre a posição de referência e a posição de referência adicional ou um vetor de localização entre a posição de referência e a posição de referência adicional ou qualquer informação relacionado à posição de referência e à posição de referência adicional.
BR112020000775-7A 2017-07-14 2018-07-13 aparelho para gerar uma descrição do campo sonoro, programa de computador, descrição do campo sonoro aprimorada e seu método de geração BR112020000775A2 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17181488 2017-07-14
EP17181488.2 2017-07-14
PCT/EP2018/069140 WO2019012131A1 (en) 2017-07-14 2018-07-13 CONCEPT FOR GENERATING AN ENHANCED AUDIO FIELD DESCRIPTION OR A MODIFIED AUDIO FIELD DESCRIPTION USING A MULTIPOINT SOUND FIELD DESCRIPTION

Publications (1)

Publication Number Publication Date
BR112020000775A2 true BR112020000775A2 (pt) 2020-07-14

Family

ID=59631530

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112020000775-7A BR112020000775A2 (pt) 2017-07-14 2018-07-13 aparelho para gerar uma descrição do campo sonoro, programa de computador, descrição do campo sonoro aprimorada e seu método de geração

Country Status (14)

Country Link
US (3) US11463834B2 (pt)
EP (1) EP3652735A1 (pt)
JP (2) JP7119060B2 (pt)
KR (2) KR102491818B1 (pt)
CN (2) CN111149155B (pt)
AR (1) AR112451A1 (pt)
AU (1) AU2018298874C1 (pt)
BR (1) BR112020000775A2 (pt)
CA (1) CA3069241C (pt)
RU (1) RU2736418C1 (pt)
SG (1) SG11202000330XA (pt)
TW (1) TWI713866B (pt)
WO (1) WO2019012131A1 (pt)
ZA (1) ZA202000020B (pt)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11432099B2 (en) 2018-04-11 2022-08-30 Dolby International Ab Methods, apparatus and systems for 6DoF audio rendering and data representations and bitstream structures for 6DoF audio rendering
US10735882B2 (en) * 2018-05-31 2020-08-04 At&T Intellectual Property I, L.P. Method of audio-assisted field of view prediction for spherical video streaming
BR112020026728A2 (pt) * 2018-07-04 2021-03-23 Sony Corporation Dispositivo e método de processamento de informação, e, meio de armazenamento legível por computador
US11019449B2 (en) * 2018-10-06 2021-05-25 Qualcomm Incorporated Six degrees of freedom and three degrees of freedom backward compatibility
GB2582748A (en) * 2019-03-27 2020-10-07 Nokia Technologies Oy Sound field related rendering
WO2021018378A1 (en) * 2019-07-29 2021-02-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for processing a sound field representation in a spatial transform domain
US11341952B2 (en) * 2019-08-06 2022-05-24 Insoundz, Ltd. System and method for generating audio featuring spatial representations of sound sources
CN110544486B (zh) * 2019-09-02 2021-11-02 上海其高电子科技有限公司 基于麦克风阵列的语音增强方法及系统
WO2021086809A1 (en) 2019-10-28 2021-05-06 Arizona Board Of Regents On Behalf Of Arizona State University Methods and systems for remote sleep monitoring
EP4052067A4 (en) * 2019-11-01 2022-12-21 Arizona Board of Regents on behalf of Arizona State University REMOTE RECOVERY OF ACOUSTIC SIGNALS FROM PASSIVE SOURCES
DE112020005550T5 (de) * 2019-11-13 2022-09-01 Sony Group Corporation Signalverarbeitungsvorrichtung, verfahren und programm
CN112153538B (zh) * 2020-09-24 2022-02-22 京东方科技集团股份有限公司 显示装置及其全景声实现方法、非易失性存储介质
FR3115103B1 (fr) * 2020-10-12 2023-05-12 Renault Sas Dispositif et procédé de mesure et de visualisation d’un champ sonore
KR102508815B1 (ko) 2020-11-24 2023-03-14 네이버 주식회사 오디오와 관련하여 사용자 맞춤형 현장감 실현을 위한 컴퓨터 시스템 및 그의 방법
US11930348B2 (en) 2020-11-24 2024-03-12 Naver Corporation Computer system for realizing customized being-there in association with audio and method thereof
JP2022083445A (ja) 2020-11-24 2022-06-03 ネイバー コーポレーション ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法
CN114584913B (zh) * 2020-11-30 2023-05-16 华为技术有限公司 Foa信号和双耳信号的获得方法、声场采集装置及处理装置
US11653166B2 (en) * 2021-05-27 2023-05-16 Qualcomm Incorporated Directional audio generation with multiple arrangements of sound sources
WO2024044113A2 (en) * 2022-08-24 2024-02-29 Dolby Laboratories Licensing Corporation Rendering audio captured with multiple devices

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1512514A (en) * 1974-07-12 1978-06-01 Nat Res Dev Microphone assemblies
JPH08107600A (ja) 1994-10-04 1996-04-23 Yamaha Corp 音像定位装置
US5970152A (en) * 1996-04-30 1999-10-19 Srs Labs, Inc. Audio enhancement system for use in a surround sound environment
JP2006074589A (ja) 2004-09-03 2006-03-16 Matsushita Electric Ind Co Ltd 音響処理装置
EP2205007B1 (en) * 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
EP2346028A1 (en) * 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
AR084091A1 (es) 2010-12-03 2013-04-17 Fraunhofer Ges Forschung Adquisicion de sonido mediante la extraccion de informacion geometrica de estimativos de direccion de llegada
EP2469741A1 (en) 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
EP2541547A1 (en) * 2011-06-30 2013-01-02 Thomson Licensing Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation
EP2600343A1 (en) * 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for merging geometry - based spatial audio coding streams
EP2600637A1 (en) 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for microphone positioning based on a spatial power density
CN104054126B (zh) 2012-01-19 2017-03-29 皇家飞利浦有限公司 空间音频渲染和编码
US9516446B2 (en) 2012-07-20 2016-12-06 Qualcomm Incorporated Scalable downmix design for object-based surround codec with cluster analysis by synthesis
JP6038312B2 (ja) 2012-07-27 2016-12-07 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン ラウドスピーカ・エンクロージャ・マイクロホンシステム記述を提供する装置及び方法
US9826328B2 (en) * 2012-08-31 2017-11-21 Dolby Laboratories Licensing Corporation System for rendering and playback of object based audio in various listening environments
WO2014080074A1 (en) 2012-11-20 2014-05-30 Nokia Corporation Spatial audio enhancement apparatus
CN104019885A (zh) 2013-02-28 2014-09-03 杜比实验室特许公司 声场分析系统
US9685163B2 (en) * 2013-03-01 2017-06-20 Qualcomm Incorporated Transforming spherical harmonic coefficients
US9384741B2 (en) * 2013-05-29 2016-07-05 Qualcomm Incorporated Binauralization of rotated higher order ambisonics
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9854377B2 (en) 2013-05-29 2017-12-26 Qualcomm Incorporated Interpolation for decomposed representations of a sound field
CN104244164A (zh) 2013-06-18 2014-12-24 杜比实验室特许公司 生成环绕立体声声场
US20150127354A1 (en) * 2013-10-03 2015-05-07 Qualcomm Incorporated Near field compensation for decomposed representations of a sound field
EP2866475A1 (en) 2013-10-23 2015-04-29 Thomson Licensing Method for and apparatus for decoding an audio soundfield representation for audio playback using 2D setups
EP2884491A1 (en) * 2013-12-11 2015-06-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Extraction of reverberant sound using microphone arrays
DE102013225892A1 (de) 2013-12-13 2015-06-18 Robert Bosch Gmbh Schrägscheibenmaschine, Schrägscheibe und Verfahren zur hydrostatischen Entlastung einer Stellteilanbindung einer Schrägscheibenmaschine und zum Druckabbau eines Arbeitsmediums während eines Umsteuervorgangs der Schrägscheibenmaschine
CN109996166B (zh) 2014-01-16 2021-03-23 索尼公司 声音处理装置和方法、以及程序
US10412522B2 (en) 2014-03-21 2019-09-10 Qualcomm Incorporated Inserting audio channels into descriptions of soundfields
EP3007167A1 (en) * 2014-10-10 2016-04-13 Thomson Licensing Method and apparatus for low bit rate compression of a Higher Order Ambisonics HOA signal representation of a sound field
CN105635635A (zh) 2014-11-19 2016-06-01 杜比实验室特许公司 调节视频会议系统中的空间一致性
US10524075B2 (en) 2015-12-10 2019-12-31 Sony Corporation Sound processing apparatus, method, and program
US10659906B2 (en) 2017-01-13 2020-05-19 Qualcomm Incorporated Audio parallax for virtual reality, augmented reality, and mixed reality
US10182303B1 (en) * 2017-07-12 2019-01-15 Google Llc Ambisonics sound field navigation using directional decomposition and path distance estimation

Also Published As

Publication number Publication date
WO2019012131A1 (en) 2019-01-17
CN111149155B (zh) 2023-10-10
CA3069241A1 (en) 2019-01-17
AR112451A1 (es) 2019-10-30
AU2018298874B2 (en) 2021-08-19
AU2018298874C1 (en) 2023-10-19
US20240098445A1 (en) 2024-03-21
US11950085B2 (en) 2024-04-02
AU2018298874A1 (en) 2020-02-20
CN111149155A (zh) 2020-05-12
EP3652735A1 (en) 2020-05-20
KR102654507B1 (ko) 2024-04-05
US11463834B2 (en) 2022-10-04
KR20220098261A (ko) 2022-07-11
JP2020527746A (ja) 2020-09-10
SG11202000330XA (en) 2020-02-27
CA3069241C (en) 2023-10-17
US20200228913A1 (en) 2020-07-16
ZA202000020B (en) 2021-10-27
JP2022153626A (ja) 2022-10-12
CN117319917A (zh) 2023-12-29
RU2736418C1 (ru) 2020-11-17
KR20200040745A (ko) 2020-04-20
KR102491818B1 (ko) 2023-01-26
JP7119060B2 (ja) 2022-08-16
TWI713866B (zh) 2020-12-21
US20220417695A1 (en) 2022-12-29
TW201909657A (zh) 2019-03-01

Similar Documents

Publication Publication Date Title
BR112020000775A2 (pt) aparelho para gerar uma descrição do campo sonoro, programa de computador, descrição do campo sonoro aprimorada e seu método de geração
JP7122793B2 (ja) 深度拡張DirAC技術またはその他の技術を使用して、拡張音場記述または修正音場記述を生成するための概念
AU2021225242B2 (en) Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description

Legal Events

Date Code Title Description
B350 Update of information on the portal [chapter 15.35 patent gazette]
B06W Patent application suspended after preliminary examination (for patents with searches from other patent authorities) chapter 6.23 patent gazette]