BR112020000759A2 - aparelho para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro, método para gerar uma descrição aprimorada de campo sonoro, método para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro, programa de computador, descrição aprimorada de campo sonoro - Google Patents

aparelho para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro, método para gerar uma descrição aprimorada de campo sonoro, método para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro, programa de computador, descrição aprimorada de campo sonoro Download PDF

Info

Publication number
BR112020000759A2
BR112020000759A2 BR112020000759-5A BR112020000759A BR112020000759A2 BR 112020000759 A2 BR112020000759 A2 BR 112020000759A2 BR 112020000759 A BR112020000759 A BR 112020000759A BR 112020000759 A2 BR112020000759 A2 BR 112020000759A2
Authority
BR
Brazil
Prior art keywords
sound field
sound
layer
source
description
Prior art date
Application number
BR112020000759-5A
Other languages
English (en)
Inventor
Jürgen Herre
Emanuel Habets
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Publication of BR112020000759A2 publication Critical patent/BR112020000759A2/pt

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • H04S7/306For headphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Building Environments (AREA)
  • Pinball Game Machines (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Trata-se de um aparelho para gerar uma descrição aprimorada de campo sonoro que compreende: um gerador de campo sonoro (100) para gerar pelo menos duas descrições de camada de campo sonoro que indicam campos sonoros com relação a pelo menos uma localização de referência; e um gerador de metadados (110) para gerar metadados em relação a informações espaciais dos campos sonoros, em que as descrições de campo sonoro e os metadados constituem a descrição aprimorada de campo sonoro. Os metadados podem ser uma informação geométrica para cada camada, tal como uma distância representativa à localização de referência.

Description

Relatório Descritivo da Patente de Invenção para “APARELHO PARA GERAR UMA
DESCRIÇÃO MODIFICADA DE CAMPO SONORO DE UMA DESCRIÇÃO DE CAMPO SONORO E METADADOS EM RELAÇÃO A INFORMAÇÕES ESPACIAIS DA DESCRIÇÃO DE CAMPO SONORO, MÉTODO PARA GERAR UMA DESCRIÇÃO APRIMORADA DE CAMPO SONORO, MÉTODO PARA GERAR UMA DESCRIÇÃO MODIFICADA DE CAMPO SONORO DE UMA DESCRIÇÃO DE CAMPO SONORO E METADADOS EM RELAÇÃO A INFORMAÇÕES ESPACIAIS DA DESCRIÇÃO DE CAMPO SONORO, PROGRAMA DE COMPUTADOR, DESCRIÇÃO APRIMORADA DE CAMPO SONORO”
[001] A presente invenção refere-se a processamento de áudio e, particularmente, a processamento de áudio em relação a campos sonoros que são definidos com relação a uma localização de referência, tal como um microfone ou uma localização de microfone virtual.
[002] Os sinais de Ambisonics compreendem uma decomposição harmônica esférica truncada do campo sonoro. A tecnologia Ambisonics tem diferentes definições. Há a Ambisonics “tradicional” [31] que atualmente é conhecida como 'Ambisonics de Primeira Ordem' (FOA) e compreende quatro sinais (isto é, um sinal omnidirecional e até três sinais direcionais de figura oito). As variantes da tecnologia Ambisonics mais recentes são conhecidas como “Ambisonics de Ordem Superior (HOA) e fornecem resolução espacial aprimorada e fornecem uma área ideal maior para o ouvinte com a desvantagem de portar mais sinais. De modo geral, uma representação de HOA de N-ésima ordem completamente definida consiste em (N+1)? sinais.
[003] Em relação à ideia da tecnologia Ambisonics, a representação de Codificação de Áudio Direcional (DirAC) foi concebida para representar um cenário sonoro de FOA ou HOA de maneira paramétrica mais compacta. De modo específico, o cenário sonoro espacial é representado por um (ou mais) canal de áudio transmitido que representa uma mixagem com redução de canais da cena acústica e informações secundárias associadas da direção e capacidade de difusão em cada recolhedor de tempo-frequência (TF). Mais informações sobre DirAC podem ser encontradas em [32, 33].
[004] A DirAC [32] pode ser usada com diferentes sistemas de microfone e com configurações arbitrárias de alto-falante. O propósito do sistema de DirAC é reproduzir a impressão espacial de um ambiente acústico existente o mais precisamente possível com o uso de um sistema de alto-falante de múltiplos canais/3D. Dentro do ambiente escolhido, as respostas (som contínuo ou respostas de impulso) são medidas com um microfone omnidirecional (W) e com um conjunto de microfones que possibilitam medir a direção-de-chegada do som e a capacidade de difusão do som. Um método comum é aplicar três microfones de figura oito (X,Y,Z) alinhados com os eixos geométricos de coordenada cartesiana [34]. Um modo de realizar isso é usar um microfone de campo sonoro que rende diretamente todas as respostas desejadas. Os sinais W, X, Y e Z também podem ser computados a partir de um conjunto de microfones omnidirecionais distintos.
[005] Em DIirAC, o sinal de som é dividido primeiramente em canais de frequência. A direção do som e a capacidade de difusão é medida dependendo do tempo em cada canal de frequência. Em transmissão, um ou mais canais de áudio são enviados, junto de dados analisados sobre direção e capacidade de difusão. Em síntese, o áudio que é aplicado aos alto-falantes pode ser, por exemplo, o canal omnidirecional W, ou o som para cada alto-falante pode ser computado como uma soma ponderada de W, X, Y e Z, o que forma um sinal que tem uma determinada característica direcional para cada alto-falante. Cada canal de áudio é dividido em canais de frequência que são, em seguida, divididos opcionalmente para fluxos difusos ou não difusos dependendo da capacidade de difusão analisada. O fluxo difuso é reproduzido com uma técnica que produz percepção difusa do cenário sonoro, por exemplo, as técnicas de descorrelação usadas na Codificação de Codificação de Indicação Binaural [35-37]. O som não difuso é reproduzido com uma técnica que visa produzir uma fonte virtual do tipo ponto de acordo com os dados de direção (por exemplo, VBAP [38]).
[006] Três técnicas para navegação em 6DoF com um grau de liberdade limitado são propostas em [39]. Visto um único sinal de Ambisonics, um único sinal de Ambisonics é computado com o uso de: 1) simulação de reprodução de HOA e movimento do ouvinte dentro de um arranjo virtual de alto-falantes, 2) computação e translação ao longo de ondas planas e 3) expansão nova do campo sonoro em torno do ouvinte.
[007] Além disso, a referência é feita à tecnologia de DIrAC conforme descrita, por exemplo, na publicação “Directional Audio Coding — Perception-Based Reproduction of Spatial Sound”, V. Pulkki et al, International Workshop on the Principles and Applications of Spatial Hearing, 11 a 13 de novembro de 2009, Zao, Miyagi, Japão. A referência descreve a codificação de áudio direcional como um exemplo para um processamento de campo sono relacionado à localização de referência particularmente como uma técnica motivada de maneira perceptual para processamento de áudio espacial. Esta tem aplicações na captação, codificação e nova síntese de som espacial, em teleconferência, em filtragem direcional e em ambientes auditivos virtuais.
[008] A reprodução de cenários de som tem se voltado frequentemente para configurações de alto-falante, uma vez que esta era a reprodução típica em um ambiente privado, por exemplo, sala de estar, e em contexto profissional, isto é, cinemas. No presente contexto, a relação do cenário e a geometria de reprodução são estáticas uma vez que acompanham uma imagem bidimensional que força o ouvinte a olhar para frente. Subsequentemente, a relação espacial do som e de objetos visuais é definida e fixa no tempo de produção.
[009] Em realidade virtual (VR), a imersão é explicitamente obtida permitindo-se que o usuário se mova livremente no cenário. Portanto, é necessário rastrear o movimento do usuário e ajustar a reprodução visual e auditiva à posição do usuário. Tipicamente, o usuário está vestindo um visor montado na cabeça (HMD) e fontes de ouvido. Para uma experiência imersiva com fontes de ouvido, o áudio tem que se tornar binaural. A binauralização é uma simulação de como a cabeça, orelhas e tronco de um ser humano mudam o som de uma fonte dependendo de sua direção e distância. Isso é obtido por convolução dos sinais com funções de transferência relacionada à cabeça (HRTFs) para direção relativa [1, 2]. A binauralização também faz com que o apareça partindo do cenário em vez de no interior da cabeça [3]. Um cenário que já foi tratado com êxito é a reprodução de 360º [4, 5]. No presente contexto, o usuário usa ou um HMD ou segura um dispositivo do tipo tablet ou telefone em suas mãos. Movendo-se sua cabeça ou o dispositivo, o usuário pode olhar ao redor em qualquer direção. Esse é um cenário de três graus de liberdade (8DoF), um a vez que o usuário tem três graus de movimento (passo, guinada, rolagem). Visualmente, isso se concretiza projetando-se o vídeo em uma esfera ao redor do usuário. O áudio é registrado frequentemente com um microfone espacial
[6], por exemplo, Ambisonics de Primeira Ordem (FOA), próxima da câmera de vídeo. No domínio de Ambisonics, a rotação da cabeça do usuário é adaptada para frente [7]. Em seguida, o áudio é renderizado, por exemplo, para alto-falantes virtuais colocados ao redor do usuário. Esses sinais de alto-falante virtuais, em seguida, se tornam binaurais.
[010] As aplicações modernas de VR permitem seis graus de liberdade (6DoF). Adicionalmente à rotação, o usuário pode se mover resultando na translação de sua posição em três dimensões espaciais. A reprodução de 6DoF é limitada pelo tamanho geral da área de caminhada. Em muitos casos, essa área é muito pequena, por exemplo, uma sala de estar convencional. 6DoF é encontrada comumente em jogos de VR. No presente contexto, toda a cena sintética com imagens geradas por computador (CGI). O áudio é gerado, muitas vezes, com o uso de renderização com base em objeto em que cada objeto de áudio é renderizado com ganho dependente de distância e direção relativa do usuário com base nos dados de rastreamento. O realismo pode ser intensificado por reverberação e difração artificial [8, 9, 10].
[011] Em relação ao conteúdo registrado, há alguns desafios distintos para convencer a reprodução audiovisual de 6DoF. Um exemplo precoce de manipulação espacial do som no domínio de translação espacial é o que de técnicas de
“ampliação acústica” [11, 12]. No presente contexto, a posição do ouvinte é movida virtualmente para o cenário visual registrado, semelhante à ampliação de uma imagem. O usuário escolhe uma direção ou porção de imagem e pode, então, escutar de um ponto transladado. Isso faz com que todas as direções de chegada (DoAs) mudam em relação à reprodução original não ampliada.
[012] Foram propostos métodos para reprodução de 6DoF do conteúdo que têm usado posições de registro distribuídas espacialmente. Para vídeo, arranjos de câmeras podem ser empregados para gerar renderização de campo de luz [13]. Para áudio, uma configuração semelhante emprega arranjos de microfones distribuídos ou microfones Ambisonics. Mostrou-se que é possível gerar o sinal de um “microfone virtual” colocado em uma posição arbitrária de tais registros [14].
[013] A fim de concretizar tais modificações de som espacial de maneira tecnicamente conveniente, o processamento de som paramétrico ou técnica de codificação pode ser empregado (consultar [15] para uma visão geral). A codificação de áudio direcional (DIrAC) [16] é um método popular para transformar a gravação em uma representação que consiste em um espectro de áudio e informações secundárias paramétricas na direção do som e capacidade de difusão. É usada para aplicações de ampliação acústica [11] e de microfone virtual [14].
[014] No presente contexto, o método proposto possibilitar a reprodução de 6DoF da gravação de um único microfone de FOA. As gravações de uma única posição espacial foram usadas para reprodução de 3DoF ou ampliação acústica. No entanto, o conhecimento dos inventores, no método para reprodução completamente de 6DoF interativa de tais dados foram propostos até então. A reprodução de 6DoF é realizada integrando-se informações sobre a distância das fontes sonoras no registro. Essas informações de distância são incorporadas na representação paramétrica de DirAC, de modo que a perspectiva mudada do ouvinte seja mapeada corretamente.
[015] Nenhuma das representações do campo sonoro de Ambisonics (seja representação de campo sonoro paramétrico como Ambisonics FOA ou HOA regular ou como estilo DirAC) fornece informações suficientes para permitir uma comutação de translação da posição do ouvinte como é necessário para aplicações de 6DoF visto que nem a distância do objeto nem as posições de objeto absolutas no cenário sonoro são determinadas nesses formatos. Deve-se verificar que a comutação na posição do ouvinte pode ser transladada para uma comutação equivalente do cenário sonoro na direção oposta.
[016] Um problema típico durante o movimento da 6DoF é ilustrado na Figura 1b. Supondo que o cenário sonoro é descrito na posição A com o uso da tecnologia Ambisonics. Nesse caos, os sons da Fonte A e Fonte B chegam da mesma direção, isto é, têm a mesma direção de chega (DOA). Caso haja movimento da Posição B, a DOA da Fonte A e da Fonte B são diferentes. Com o uso da descrição padrão da tecnologia Ambisonics do campo sonoro, isto é, sem mais informações, não é possível computar os sinais de Ambisonics na Posição B, visto os sinais de Ambisonics na Posição A.
[017] Um objetivo da presente invenção é fornecer uma descrição aprimorada de campo sonoro, por um lado, ou uma geração de uma descrição modificada de campo sonoro, por outro lado, que permite um processamento aprimorado flexível ou eficiente.
[018] Esse objetivo é alcançado por um aparelho para gerar uma descrição aprimorada de campo sonoro da reivindicação 1, por um aparelho para gerar uma descrição modificada de campo sonoro da reivindicação 10, por um método para gerar uma descrição aprimorada de campo sonoro da reivindicação 27, por um método para gerar a descrição modificada de campo sonoro da reivindicação 28, por um programa de computador da reivindicação 29 ou por uma descrição aprimorada de campo sonoro da reivindicação 30.
[019] A presente invenção se baseia na constatação de que descrições de campo sonoro típicas que estão relacionadas a uma localização de referência precisam de informações adicionais de modo que essas descrições de campo sonoro possam ser processadas de modo que uma descrição modificada de campo sonoro que não está relacionada à localização de referência original, porém a outra localização de referência, possa ser calculada. Com essa finalidade, os metadados em relação a informações espaciais desse campo sonoro são gerados, e os metadados junto da descrição de campo sonoro correspondem à descrição aprimorada de campo sonoro que pode, por exemplo, ser transmitida ou armazenada. A fim de gerar uma descrição modificada de campo sonoro da descrição de campo sonoro e os metadados e, especificamente, os metadados em relação a informações espaciais da descrição de campo sonoro, o campo sonoro modificado é calculado com o uso dessas informações espaciais, da descrição de campo sonoro e de uma informação de translação que indica uma translação de uma localização de referência a uma localização de referência diferente. Desse modo, a descrição aprimorada de campo sonoro que consiste em uma descrição de campo sonoro e metadados em relação a informações espaciais desse campo sonoro que são subjacentes à descrição de campo sonoro é processada para obter uma descrição modificada de campo sonoro que está relacionada a uma localização de referência diferente definida por informações de translação adicionais que podem, por exemplo, ser fornecidas ou usadas no lado de um decodificador.
[020] No entanto, a presente invenção não está relacionada apenas a um cenário de codificador/decodificador, porém também pode ser aplicado em uma aplicação tanto a geração da descrição aprimorada de campo sonoro quanto a geração da descrição modificada de campo sonoro ocorrem em basicamente uma e na mesma localização. A descrição modificada de campo sonoro pode ser, por exemplo, uma descrição do campo sonoro modificado por si só ou, na realidade, o campo sonoro modificado em sinais de canal, sinais binaurais ou, novamente, um campo sonoro relacionado à localização de referência que, no entanto, está agora relacionado à localização de referência nova ou diferente da localização de referência original. Tal aplicação ocorre, por exemplo, em um cenário de realidade virtual em que uma há descrição de campo sonoro junto de um metadado e em que um ouvinte se move para fora da localização de referência à qual o campo sonoro é fornecido e se move para uma localização de referência diferente e em que, em seguida, o campo sonoro para o ouvinte que se move pela área virtual é calculado para corresponder ao campo sonoro, porém agora na localização de referência diferente para a qual o usuário se moveu.
[021] Em uma modalidade, o gerador de campo sonoro pode gerar, para cada camada dentre uma pluralidade de pelo menos duas camadas, uma descrição de DirAC do campo sonoro que tem um ou mais sinais de mixagem com redução de canais e dados de direção individuais e, opcionalmente, dados sobre capacidade de difusão para diferentes recolhedores de tempo-frequência. Nesse contexto, o gerador de metadados é configurado para gerar informações adicionais sobre distância ou profundidade para cada camada, uma vez que os metadados são iguais para todas as fontes incluídas na camada e para todos recolhedores de frequência em relação à camada. A modalidade preferencial tem uma distância ou faixa de distância associada à camada. Alternativamente, um mapa de profundidade pode ser fornecido a cada camada. Particularmente, em uma modalidade adicionalmente, os metadados em relação a informações espaciais são um mapa de profundidade que associa uma determinada distância a uma determinada informação de posição, tal como uma direção de informações de chegada.
[022] Nas modalidades, a direção de chegada é determinada apenas por ângulos apenas de elevação ou azimutais ou os dois e o mapa de profundidade se associaria a cada fonte em uma camada as mesmas informações de distância, tais como uma distância em metros ou aproximadamente ou uma distância relativa ou uma distância absoluta ou relativa quantificada ou quaisquer outras informações de distância, a partir das quais, por fim, uma distância com relação à localização de referência diferente ou nova, à qual o campo sonoro é relacionado e pode ser derivado.
[023] Subsequentemente, outras implantações preferenciais são delineadas.
[024] A tecnologia Ambisonics se tornou um dos formatos mais comumente usados para áudio 3D no contexto de aplicações de realidade virtual, aumentada e mixado. Desenvolveu-se uma ampla variedade de ferramentas de obtenção e produção de áudio que gera um sinal de saída em formato de Ambisonics. Até então, a tecnologia Ambisonics codificou conteúdo em aplicações de realidade virtual (VR) interativa, o formato Ambisonics é convertido em um sinal binaural ou canais para reprodução. Nas aplicações fornecidas acima, o ouvinte pode normalmente mudar de maneira interativa sua orientação no cenário presente até o ponto em que o ouvinte pode girar sua cabeça no cenário sonoro, o que possibilita três graus de liberdade (3DoF, isto é, passo, guinada e rolagem) e ainda experimentar uma qualidade de som adequada. Isso é implantando girando-se o cenário sonoro antes da renderização de acordo com a orientação da cabeça, o que pode ser implantado com baixa complexidade de computacional e é uma vantagem da representação de Ambisonics. Em aplicações emergentes, tais como VR, é, no entanto, desejável permitir o movimento livre do usuário no cenário sonoro em vez de apenas mudanças de orientação (então chamados “seis graus de liberdade” ou 6DoF). Como consequência, processamento de sinal é necessário para mudar a perspectiva do cenário sonoro (isto é, mover virtualmente dentro do cenário sonoro ao longo dos eixos geométricos x-, y- ou z). No entanto, uma grande vantagem da tecnologia Ambisonics é o fato de que o formato descreve o campo sonoro a partir de uma única perspectiva no cenário sonoro. Especificamente, não contém informações sobre a real localização de fontes sonoras no cenário sonoro, o que permitiria a comutação do cenário sonoro (“translação”) uma vez que é necessário para 6DoF. A descrição da invenção fornece diversas extensões de Ambisonics para superar esse problema e facilitar, também, a translação e, por conseguinte, possibilitar 6DoF reais.
[025] As gravações de Ambisonics de Primeira Ordem (FOA) podem ser processadas e reproduzidas sobre fontes de ouvido. As mesmas podem ser giradas para considerar a orientação da cabeça do ouvinte. No entanto, os sistemas de realidade virtual (VR) permitem que o ouvinte se mova em seis degraus de liberdade (6DoF), isto é, três graus de rotação mais três graus transicionais de liberdade. No presente contexto, os ângulos e distâncias evidentes das fontes sonoras dependem da posição do ouvinte. Uma técnica para facilitar 6DoF é descrita. Em particular, uma gravação de FOA é descrita com o uso de um modelo paramétrico, que é modificado com base na posição do ouvinte e informações sobre as distâncias até as fontes. O método é avaliado por um teste de escuta, comparando diferentes renderizações binaurais de um cenário sonoro sintético no qual o ouvinte pode se mover livremente.
[026] Em modalidades adicionais preferenciais, a descrição aprimorada de campo sonoro é emitida por uma interface de saída para gerar um sinal de saída para transmissão ou armazenamento, em que o sinal de saída compreende, para um quadro de tempo, um ou mais sinais de áudio derivados do campo sonoro e as informações espaciais para o quadro de tempo. Particularmente, o gerador de campo sonoro é, em modalidades adicionais, adaptável para derivar dados de direção a partir do campo sonoro, em que os dados de direção se referem a uma direção de chegada de som por um período de tempo ou um recolhedor de frequência, e o gerador de metadados é configurado para derivar as informações espaciais como itens de dados que são associadas a informações de distância aos dados de direção.
[027] Particularmente, em tal modalidade, uma interface de saída é configurada para gerar os sinais de saída de modo que os itens de dados para o quadro de tempo sejam ligados aos dados de direção para os diferentes recolhedores de frequência.
[028] Em uma modalidade adicional, o gerador de campo sonoro também é configurado para gerar uma informação sobre capacidade de difusão para uma pluralidade de recolhedores de frequência de um quadro de tempo do campo sonoro, em que o gerador de metadados é configurado para gerar apenas uma informação de distância para um recolhedor de frequência que é diferente de um valor predeterminado ou que é diferente de infinito ou para gerar um valor de distância para o recolhedor de frequência, quando o valor de capacidade de difusão é inferior a um limiar predeterminado ou adaptável. Desse modo, para recolhedores de tempo/frequência que têm uma alta capacidade de difusão, nenhum valor de distância não é gerado, ou é gerado um valor de distância predeterminado que é interpretado de determinado modo por um decodificador. Portanto, certifica-se que para recolhedores de tempo/frequência que têm uma alta capacidade de difusão, qualquer renderização relacionada à distância não é realizada, visto que uma alta capacidade de difusão indica que para tal recolhedor de tempo/frequência o som não parte de uma determinada fonte localizada que parte de qualquer direção e, portanto, é igual independentemente da possibilidade de o campo sonoro ser percebido na localização de referência original ou na localização de referência nova ou diferente.
[029] Com relação ao calculador de campo sonoro, modalidades preferenciais compreendem uma interface de translação para fornecer as informações de translação ou informações de rotação que indicam uma rotação de um ouvinte destinado para o campo sonoro modificado, um fornecedor de metadados para fornecer os metadados ao calculador de campo sonoro e um fornecedor de campo sonoro para fornecer a descrição de campo sonoro ao calculador de campo sonoro e, adicionalmente, uma interface de saída para emitir o campo sonoro modificado que compreende a descrição modificada de campo sonoro e metadados modificados, sendo que os metadados modificados são derivados dos metadados com o uso das informações de translação ou a interface de saída emite uma pluralidade de canais de alto-falante, em que cada canal de alto-falante está relacionado a uma posição de alto-falante predefinida, ou a interface de saída emite uma representação binaural do campo sonoro modificado.
[030] Em uma modalidade, a descrição de campo sonoro compreende pluralidade de componentes de campo sonoro. A pluralidade de componentes de campo sonoro compreende um componente omnidirecional e pelo menos um componente direcional. Tal descrição de campo sonoro é, por exemplo, uma descrição de campo sonoro de Ambisonics de primeira ordem que tem um componente omnidirecional e três componentes direcionais X, Y, Z ou tal campo sonoro é uma descrição de Ambisonics de ordem superior que compreende o componente omnidirecional, os três componentes direcionais com relação às direções X, Y e Z e, adicionalmente, mais componentes direcionais que se referem a outras direções diferentes das direções X, Y, Z.
[031] Em uma modalidade, o aparelho compreende um analisador para analisar os componentes de campo sonoro para derivar, para diferentes recolhedores de tempo ou de frequência, a direção de informações de chegada. O aparelho tem adicionalmente um transformador de translação para calcular informações de DoA modificadas por recolhedor de frequência ou de tempo com o uso das informações de DoA e dos metadados, em que os metadados se referem a um mapa de profundidade que se associa uma distância a uma descrição de camada, isto é, a todas as fontes de uma camada, para todos os recolhedores de frequência de um quadro de tempo. Por conseguinte, um "mapa de profundidade" bem simples é suficiente para cada camada. O mapa de profundidade para uma camada exige apenas pelo menos uma distância ou faixa de distância para essa camada conforme na Figura 4c.
[032] Além disso, o calculador de campo sonoro tem um compensador de distância para calcular o campo sonoro modificado com o uso de uma informação de compensação de distância dependendo da distância fornecida dos metadados que são iguais para cada recolhedor de frequência ou de tempo de uma fonte da camada e de uma nova distância associada ao recolhedor de tempo ou de frequência, em que a nova distância está relacionada às informações de DoA modificadas.
[033] Em uma modalidade, o calculador de campo sonoro calcula um primeiro vetor que aponta da localização de referência para uma fonte sonora obtida por uma análise do campo sonoro. Além disso, o calculador de campo sonoro calcula um segundo vetor que aponta da localização de referência diferente para a fonte sonora, e esse cálculo é feito com o uso do primeiro vetor e das informações de translação, em que as informações de translação definem um vetor de translação da localização de referência até a localização de referência diferente. Ademais, em seguida, uma distância da localização de referência diferente da fonte sonora é calculada com o uso do segundo vetor.
[034] Além disso, o calculador de campo sonoro é configurado para receber, além das informações de translação, uma informação de rotação que indica uma rotação da cabeça do ouvinte em uma dentre as direções de rotação fornecida pelo passo, guinada e rolagem. Em seguida, o calculado é configurado para realizar a transformação de rotação para girar um dado de direção modificada de chegada para um campo sonoro com o uso das informações de rotação, em que os dados de direção modificada de chegada são derivados de um dado de direção de chegada obtido por uma análise de som da descrição de campo sonoro e as informações de translação.
[035] Em uma modalidade, o calculador de campo sonoro é configurado para determinar sinais de fonte da descrição de campo sonoro e as direções dos sinais de fonte em relação à localização de referência por uma análise de som.
[036] Em seguida, são calculadas as novas direções das fontes sonoras que estão relacionadas à localização de referência diferente, e isso é feito com o uso dos metadados e, em seguida, as informações de distância das fontes sonoras em relação à localização de referência diferente são calculadas em, em seguida, o campo sonoro modificado é sintetizado com o uso das informações de distância e das novas direções das fontes sonoras.
[037] Em uma modalidade, uma síntese de campo sonoro é realizada realizando-se um movimento panorâmico dos sinais de fonte sonora para uma direção fornecida pelas novas informações de direção em relação a uma preparação de reprodução e um escalonamento dos sinais de fonte sonora é feito com o uso das informações de distância antes de realizar a operação de operação de movimento panorâmico ou subsequente à realização da operação de movimento panorâmico. Os sinais de fonte podem precisar ser associados a uma nova camada, caso a distância mude. Em seguida, um fator de escalonamento diferente de 1 é usado,
caso uma descrição de campo sonoro seja gerada. Caso, no sentido de um transcodificador, uma nova descrição de múltiplas camadas é gerada, então, apenas uma mudança de uma camada para a outra é suficiente para considerar a mudança de distância. O "movimento panorâmico" pode ser feito conforme delineado na Figura 4i para gerar uma nova descrição de campo sonoro na forma de um campo em relação a uma localização específica. No entanto, para gerar sinais de alto- falante, o movimento panorâmico com o uso de ganhos de movimento panorâmico derivados da nova DoA pode ser realizado.
[038] Em uma modalidade adicional, uma síntese de campo sonoro é realizada girando-se os sinais de fonte sonora de FOA ou HOA em uma camada a uma direção fornecida pelas novas informações de direção em relação a uma preparação de reprodução, um escalonamento dos sinais de fonte sonora e, por fim, associando-se o sinal de fonte sonora a uma camada com o uso das informações de distância. Isso pode substituir o "movimento panorâmico” conforme discutido.
[039] Em uma modalidade adicional, uma parte difusa do sinal de fonte sonora é adicionada a uma parte direta do sinal de fonte sonora, em que a parte direta é modificada pelas informações de distância antes de ser adicionada à parte difusa.
[040] Em uma modalidade adicional, uma parte difusa do sinal de fonte sonora e adicionada a uma camada dedicada. Os sinais associadas a essa camada dedicada são girados com base nas novas informações de direção em relação a uma preparação de reprodução.
[041] Particularmente, é preferencial realizar uma síntese de fonte sonora em uma representação espectral em que as novas informações de direção são calculadas para cada recolhedor de frequência, em que as informações de distância são calculadas para cada recolhedor de frequência, e em que uma síntese direta para cada recolhedor de frequência com o uso do sinal de áudio para o recolhedor de frequência é realizada com o uso de um sinal de áudio para o recolhedor de frequência, um ganho de movimento panorâmico para o recolhedor de frequência derivado das novas informações de direção e um fator de escalonamento para o recolhedor de frequência derivado das informações de distância para o recolhedor de frequência é realizado.
[042] Além disso, uma síntese difusa é realizada com o uso de um sinal de áudio difuso derivada do sinal de áudio do recolhedor de frequência e com o uso de um parâmetro de capacidade de difusão derivado pela análise de sinal para o recolhedor de frequência e, em seguida, o sinal direto e o sinal difuso são combinados para obter um sinal de áudio sintetizado para o recolhedor de tempo ou de frequência e, em seguida, uma conversão de frequência-tempo é realizada com o uso de sinais de áudio para outros recolhedores de tempo/frequência a fim de obter um sinal de áudio sintetizado de domínio de tempo como o campo sonoro modificado.
[043] Portanto, de modo geral, o calculador de campo sonoro é configurado para sintetizar, para cada fonte sonora, um campo sonoro em relação à localização de referência diferente, por exemplo, processando-se, para cada fonte, um sinal de fonte com o uso da nova direção para o sinal de fonte a fim de obter uma descrição de campo sonoro do sinal de fonte em relação à localização de referência nova/diferente. Além disso, o sinal de fonte é modificado antes de processar o sinal de fonte ou subsequente ao processamento do sinal de fonte com o uso das informações de direção. Além disso, por fim, as descrições de campo sonoro para as fontes são adicionadas juntas para obter o campo sonoro modificado em relação à localização de referência diferente.
[044] Em uma modalidade adicional, o calculador de campo sonoro realiza, alternativamente a uma análise de DirAC ou qualquer outra análise de fonte sonora, um a algoritmo de separação de fonte. O algoritmo de separação de fonte resulta, ao final, em sinais de fonte sonora, por exemplo, no domínio de tempo ou no domínio de frequência. Em seguida, o sinal difuso é calculado subtraindo-se os sinais de fonte sonora do campo sonoro original de modo que o campo sonoro original seja decomposto em um sinal difuso e diversos sinais de fonte sonora, em que cada sinal de fonte sonora tem associado ao mesmo uma determinada direção.
[045] Em conformidade com modalidades preferenciais, o gerador de campo sonoro gera uma primeira descrição de campo sonoro com relação à localização de referência em que a primeira descrição de campo sonoro compreende dados de som apenas das fontes sonoras localizadas na primeira descrição de campo sonoro na localização de referência, e o gerador de campo sonoro adicionalmente gera uma segunda descrição de campo sonoro com relação à localização de referência em que a segunda descrição de campo sonoro tem dados de som apenas da segunda fonte localizada em um segundo volume na localização de referência, em que o segundo volume é diferente do primeiro volume. Cada volume compreende uma, e de preferência mais de uma, fonte sonora, porém os metadados são configurados para fornecer a descrição espacial do primeiro volume e/ou o segundo volume que é, em seguida, aplicável a todas as fontes sonoras dentro do volume. Quando, por exemplo, a descrição espacial é uma distância representativa da determinada camada para a localização de referência, essa distância é usada, em seguida, da mesma maneira para todas as fontes dentro da camada a fim de determinar, junto da estimativa de direção de chegada correspondente, a posição da fonte dentro da camada. No entanto, a posição na camada é determinada apenas, com relação à posição de referência de maneira radial, ao passo que a distância de cada fonte na mesma camada corresponde à descrição espacial ou, na modalidade específica, à distância representativa associada a esse volume/camada. Por conseguinte, é obtida uma representação de metadados eficiente e compacta que consiste, tipicamente, em um único valor para um número arbitrário de fontes dentro da camada e, adicionalmente, é igual para todas as sub-bandas de um sinal de som. Quando, por exemplo, uma análise de som de um campo sonoro de camada é usada, em seguida, as informações de distância devem ser iguais para cada sub- banda.
[046] Deve-se verificar que cada volume é representado por uma camada e, de preferência, uma camada separada de modo que os volumes não se sobreponham.
[047] Desse modo, a presente invenção em relação à descrição de campo sonoro de múltiplas camadas tem uma informação secundária muito compacta por um lado, porém, com relação a uma única descrição de campo sonoro, mais sobrecarga, visto que a descrição de campo sonoro completa é fornecida para cada camada. Quando, por exemplo, uma única camada é representa por sinais de formato B, em seguida, são necessários, para cada camada, quatro componentes de som, isto é, o componente omnidirecional e os três componentes direcionais. Portanto, quando o campo sonoro é representado por três camadas, então, juntos, doze componentes de som, isto é, quatro a cada camada são exigidos quando cada camada é representada por sinais de Ambisonics de primeira ordem ou sinais de formato B. Naturalmente, diferentes descrições de campo sonoro podem ser usadas para diferentes camadas, tal descrição de campo sonoro de ordem superior para uma camada que tem um número mais alto de fontes em comparação a uma descrição de campo sonoro que tem um número menor de componentes para uma camada que tem um número inferior de fontes.
[048] No entanto, por outro lado, apenas uma única informação geométrica é exigida como metadados para cada camada de campo sonoro.
[049] Nas modalidades preferenciais, os volumes são esferas ou coroas esféricas na localização de referência 3, tipicamente, a camada mais inferior é uma esfera ao redor da localização de referência e uma camada superior é uma coroa esférica que se estende ao redor da primeira camada representada por uma esfera.
[050] No entanto, um volume representado por um campo sonoro não necessariamente tem que ser uma esfera. Alternativamente, o volume pode ser um cubo, um elemento de paralelepípedo ou qualquer outra forma geométrica tipicamente tridimensional. No entanto, a presente invenção também pode ser aplicada em uma situação bidimensional, de modo que o volume seja representado por uma área e, tipicamente, uma extensão pequena infinitesimal na terceira dimensão. Desse modo, o termo “volume” não se refere apenas a um volume tridimensional real como também se refere a um caso bidimensional em que o volume no caso bidimensional é um plano com uma extensão pequena infinitesimal na terceira direção. Por conseguinte, o “volume” no caso bidimensional é um círculo ao redor do ponto de referência para a primeira camada e um anel circular em torno do primeiro “volume” que tem um raio representativo maior que um raio representativo da primeira camada.
[051] Além disso, o aparelho para gerar uma descrição aprimorada de campo sonoro não pode ser configurado apenas como um tipo de um codificado que gera, a partir de um campo sonoro original, duas ou mais descrições de campo sonoro em camadas e que associa essas descrições de campo sonoro às descrições espaciais do primeiro volume e/ou do segundo volume. Em outras modalidades, o aparelho para gerar uma descrição aprimorada de campo sonoro também pode ser implantado como um transcodificador que recebe uma descrição de camada com metadados e que gera uma nova descrição em camadas com novos metadados. Quando, por exemplo, os metadados para cada camada são representados por uma distância representativa ao ponto de referência, e quando a descrição aprimorada transcodificada de campo sonoro tem camadas com as mesmas distâncias representativas ao ponto de referência (novo) diferente, em seguida, os metadados para o campo sonoro aprimorado gerados pelo transcodificador serão iguais aos metadados originais, porém o transcodificador gerará uma descrição modificada de campo sonoro para cada camada em que as novas direções das fontes individuais são consideradas e em que, também, uma nova distância de uma fonte sonora para a localização de referência é considerada movendo-se uma fonte sonora de uma camada para a outra e evidentemente ou atenuando-se ou amplificando-se o sinal de fonte sonora para a fonte sonora. Particularmente, uma atenuação será fornecida ao sinal de fonte sonora, quando a fonte sonora se move se uma camada inferior a uma camada superior ou, alternativamente, uma amplificação ao sinal de fonte sonora é fornecida, quando a fonte sonora se move de uma camada superior para uma camada inferior, isto é, mais próxima para a nova localização de referência.
[052] Cada descrição de campo sonoro para cada camada pode ser analisada por qualquer separação de fonte técnica que pode ser, por exemplo, ser qualquer separação de fonte técnica de banda completa que não gera apenas um sinal de fonte a partir da descrição de camada, porém determina, também, uma direção de chegada dessa fonte. Alternativamente, uma descrição de campo sonoro do mesmo também pode ser analisada por um analisador de DirAC que realiza uma separação de fonte selecionada por frequência de modo que, para cada recolhedor de tempo/frequência, um sinal de fonte de áudio tipicamente junto de um valor de capacidade de difusão é calculado.
[053] No entanto, em se tratando ao cálculo da distância de uma determinada fonte à nova localização de referência, as informações de distância são obtidas a partir dos metadados para cada camada são iguais para cada fonte determinada a partir de uma determinada descrição de camada. Desse modo, em um caso de análise de banda larga em que, por exemplo, duas ou mais fontes com diferentes direções de chegada foram determinadas a partir de uma descrição de camada, as informações de distância são iguais para cada fonte.
[054] Alternativamente, quando a descrição de campo sonoro para uma camada é analisada por um analisador de DirAC, então, as informações de distância para cada recolhedor de tempo/frequência serão iguais novamente, isto é, serão iguais à distância de referência para a camada correspondente.
[055] Nesse caso, a presente invenção é aplicada como um decodificador, isto é, em que o calculador de campo sonoro calcula o campo sonoro modificado na forma, por exemplo, de uma representação de componente direcional completo, tal como uma representação de Ambisonics, os metadados é exigido apenas para escalonar sinais sonoros correspondentes que dependem na distância nova/anterior até a localização de referência. Em seguida, pode-se calcular, para cada fonte sonora de cada camada, uma determinada representação de Ambisonics e essa representação de Ambisonics é calculada com o uso da nova direção de chegada determinada a partir da direção anterior de informações de chegada e as informações de translação da localização de referência anterior até a nova localização de referência e, em seguida, cada sinal de fonte é escalonado a fim de considerar a distância da fonte da localização de referência anterior para a localização de referência nova e, subsequente a um escalonamento correspondente, a representação de Ambisonics individual das fontes pode se sobrepor uma a outra para ter uma representação de Ambisonics completa do campo sonoro. Desse modo, tal “decodificador” é configurado para transformar uma representação em camadas e uma descrição de campo sonoro única com relação à nova localização de referência que pode ser, em seguida, processada adicionalmente, tal como convertida m sinais de alto-falante ou semelhante.
[056] Alternativamente, o calculador de campo sonoro pode ser configurado para realizar uma representação de alto-falante para uma configuração destinada de alto-falante virtual ou real a partir de cada camada individual, por exemplo, uma síntese de DirAC da descrição de campo sonoro de uma camada e, em seguida, os sinais de alto-falante individuais das camadas diferentes podem ser adicionados um ao outro para, ao final formar uma representação de alto-falante que pode ser, em seguida, renderizada por essa configuração de alto-falante predeterminada ou que pode ser até mesmo convertida em uma representação binaural por um renderizador binaural.
[057] Portanto, a presente invenção pode ser usada para gerar uma descrição de campo sonoro em camadas com metadados com relação a uma determinada localização de referência ou para gerar um campo sonoro aprimorado transcodificado novamente com o uso de uma representação em camadas, porém agora com camadas que estão relacionadas à nova localização de referência, ou a presente invenção pode ser aplicada para decodificar a representação em camadas mais metadados em uma determinada descrição de campo sonoro em metadados que estão relacionados à nova localização de referência.
[058] As “modalidades preferenciais da presente invenção são subsequentemente discutidas em relação aos desenhos anexos, em que: A Figura 1a é uma modalidade preferencial de um aparelho para gerar uma descrição aprimorada de campo sonoro;
A Figura 1b é uma ilustração que explica um problema exemplificativo que é subjacente à presente invenção;
A Figura 2 é uma implantação preferencial do aparelho para gerar uma descrição aprimorada de campo sonoro;
A Figura 3a ilustra a descrição aprimorada de campo sonoro que compreende dados de áudio e informações secundárias para dados de áudio;
A Figura 3b ilustra uma ilustração adicional de um campo sonoro aprimorado que compreende dados de áudio e metadados em relação a informações espaciais, tais como informações geométricas para cada descrição de camada;
A Figura 4a ilustra uma implantação de um aparelho para gerar uma descrição modificada de campo sonoro;
A Figura 4b ilustra uma implantação adicional de um aparelho para gerar uma descrição modificada de campo sonoro;
A Figura 4c ilustra um cenário de múltiplas camadas;
A Figura 4d ilustra uma modalidade de uma opção 1 de decodificador ou de transcodificador 1;
A Figura 4e ilustra um renderizador para um único objeto;
A Figura 4f ilustra uma modalidade de uma opção 2 de decodificador ou de transcodificador 1;
A Figura 49 ilustra uma parte de um decodificador/renderizador;
A Figura 4h ilustra uma parte de um transcodificador;
A Figura 4i ilustra um dispositivo exemplificativo para gerar uma descrição de campo sonoro de um sinal de áudio, tal como um sinal mono e direcional dos dados de chegada;
A Figura 5 ilustra a reprodução de seis DoF de áudio espacial;
A Figura 6 ilustra uma modalidade preferencial de uma sexta reprodução de DoF que compreende um aparelho para gerar uma descrição aprimorada de campo sonoro e um aparelho para gerar uma descrição modificada de campo sonoro a cada camada; A Figura 7 ilustra a implantação preferencial para calcular uma nova DoA e a uma nova distância de uma fonte sonora com relação a uma nova localização de referência nova/diferente; A Figura 8 ilustra uma modalidade de uma determinação e aplicação de fator de escalonamento; A Figura 9 ilustra outra modalidade preferencial de uma sexta reprodução de DoF que compreende um aparelho para gerar uma descrição aprimorada de campo sonoro e um aparelho para gerar uma descrição modificada de campo sonoro a cada camada no contexto de DirAC a cada camada; A Figura 10 ilustra uma implantação preferencial do aparelho para gerar uma descrição modificada de campo sonoro; A Figura 11 ilustra uma implantação preferencial adicional de um aparelho para gerar uma descrição modificada de campo sonoro; A Figura 11 ilustra uma implantação preferencial adicional de um aparelho para gerar uma descrição modificada de campo sonoro; A Figura 12a ilustra uma implantação de análise de DIrAC de técnica anterior; e A Figura 12b ilustra uma implantação de síntese de DIirAC de técnica anterior.
[059] As aplicações de 6DoF habilitada para as representações de Ambisonics/DIrAC mencionadas, é necessário estender essas representações de maneira que forneçam as informações ausentes para processamento de translação. Verifica-se que essa extensão pode, por exemplo, 1) adicionar a distância ou posições dos objetos para a representação do cenário existente e/ou 2) adicionar informações que facilitam o processo de separar os objetos individuais.
[060] Além disso, é um objetivo das modalidades preservar/reutilizar a estrutura dos sistemas de tecnologia Ambisonics existentes (não paramétricos ou paramétricos) para fornecer retrocompatibilidade com essas representações/sistemas no sentido de que * as representações estendidas podem ser convertidas nas representações não estendidas existentes (por exemplo, para renderização), e * permitir a reutilização de implantações de software e de hardware existentes durante o trabalho com a representação estendida.
[061] A seguir, são descritas diversas abordagens, a saber, uma abordagem limitada (porém, muito simples) e três formatos de Ambisonics estendidos para possibilitar o 6DoF.
[062] Em vez da representação de Ambisonics regular, múltiplos sinais de Ambisonics (isto é, conjuntos de múltiplos sinais) são definidos. Cada sinal de Ambisonics corresponde a uma faixa de distância específica do cenário sonoro As faixas de distância podem compreender partições uniformes (por exemplo, 0 a 1 metro, 1 a 2 metros, 2 a 3 metros, ...) ou partições não uniformes (por exemplo, 0 a 1 metro, 1 a 3 metros, mais de 3 metros). As faixas de distância em não sobreposição podem ser definidas estaticamente ou podem ser dinâmicas em resposta às reais propriedades do cenário sonoro e são definidos no formato de Ambisonics em múltiplas camadas. Alternativamente, as faixas de distâncias em sobreposições juntas com funções de janela podem ser definidas. Uma dentre as camadas pode ser alocada separada para sons difusos/ambientes que não exijam uma descrição de distância precisa, porém são distribuídos em todo o cenário sonoro.
[063] O conceito de representação de Ambisonics de múltiplas camadas é aplicável tanto para Ambisonics (de estilo DirAC tradicional e paramétrica). Um exemplo com três camadas é mostrado na Figura 4c.
[064] O texto a seguir descreve como a Ambisonics de múltiplas camadas proposta pode ser usada para implantar translações.
[065] Opção | (Figura 4d): Os objetos em cada camada de Ambisonics são gerados aplicando-se uma separação de fonte técnica. Um sinal de Ambisonics de ambiência/difuso/residual também pode ser gerado. A DOA é obtida com o uso de localização de fonte 1D/2D, e a distância é fornecida pelos metadados da camada.
Verifica-se que em muitos casos, a DOA pode ser extraída também da separação de filtros de fonte e que os métodos existem para realizar a separação de fonte e estimativa de DOA.
[066] Cada objeto de canal único é, em seguida, renderizado para uma ou mais camadas, conforme mostrado na Figura 4e. Primeiramente, a DOA e a distância após a translação, representadas respectivamente como DOA' e Distância, são computadas com base nas informações de translação (por exemplo, representadas como um vetor) e a distância de camada (por exemplo, a distância média ou representativa dessa camada). Em segundo lugar, um sinal de Ambisonics é gerado para o objeto com base na DOA'. Em terceiro lugar, o objeto é renderizado para a camada apropriada (ou camadas apropriadas) com base na Distância' e na distância de camada a partir da qual o objeto foi extraído. Após gerar os sinais de Ambisonics modificados para todos os, a résima camada de Ambisonics modificada (i E (1, ..., LJ) é computada adicionando-se juntamente saída de Ambisonics modificada da camada i de todos os objetos. O sinal de Ambisonics de ambiência/difuso/residual para a jésima camada é adicionado diretamente à résima saída de Ambisonics modificada.
[067] Adicionalmente, um então chamado filtro de compensação de distância pode ser aplicado para compensar a mudança na distância. O filtro pode ser aplicado diretamente ao objeto com base na Distância' e na distância de camada .
[068] Opção 1! (Figura 4f): Os objetos são gerados com o uso de todas as L camadas aplicando-se uma separação de fonte técnica. Um único sinal de Ambisonics de ambiência/difuso/residual também pode ser gerado.
[069] Cada objeto de canal único é, em seguida, renderizado para uma ou mais camadas, conforme mostrado na Figura 4e. Primeiramente, a DOA e a distância após a translação, representadas respectivamente como DOA' e Distância, são computadas com base nas informações de translação (por exemplo, representadas como um vetor) e a distância de camada (por exemplo, a distância média ou representativa dessa camada). Em segundo lugar, um sinal de Ambisonics é gerado para o objeto com base na DOA'. Em terceiro lugar, o objeto é renderizado para a camada apropriada (ou camadas apropriadas) com base na Distância' e na distância de camada a partir da qual o objeto foi extraído. Adicionalmente, um então chamado filtro de compensação de distância pode ser aplicado a cada objeto para compensar a mudança na distância. Após gerar os sinais de Ambisonics modificados para todos os, a jésima camada de Ambisonics modificada (i e (1, ... , LJ) é computada adicionando-se juntamente saída de Ambisonics modificada da camada i de todos os objetos. O sinal de Ambisonics de ambiência/difuso/residual para a résima camada é adicionado diretamente à iésima saída de Ambisonics modificada.
[070] Adicionalmente, um então chamado filtro de compensação de distância pode ser aplicado para compensar a mudança na distância. O filtto pode ser aplicado diretamente ao objeto com base na Distância' e na distância de camada .
[071] A geração de sinais de Ambisonics de múltiplas camadas é objetiva para conteúdo gerado e produzido por computador. É menos objetiva para converter gravação natural por meio de arranjos de microfones ou microfones espaciais (por exemplo, microfone em formato B) em sinais de Ambisonics de múltiplas camadas.
[072] As camadas podem ser convertidas em um sinal de Ambisonics tradicional por meio de projeção, soma ou mixagem com redução de canais. Uma conversão simples e eficiente em temos de computação é mostrada na Figura 49.
[073] Uma mudança na orientação pode ser feita aplicando-se uma rotação de camada independente a cada um dos sinais de Ambisonics de múltiplas camadas ou aplicando-se uma única rotação ao sinal de Ambisonics tradicional. A rotação de camada independente pode ser realizada antes ou após a translação.
[074] A Figura 1a ilustra um aparelho para gerar uma descrição aprimorada de campo sonoro que compreende um gerador de campo sonoro (descrição) 100 para gerar pelo menos uma descrição de campo sonoro que indica um campo sonoro com relação a pelo menos uma localização de referência. Além disso, o aparelho compreende um gerador de metadados 110 para gerar metadados em relação a informações espaciais do campo sonoro. Os metadados recebem, como uma entrada, o campo sonoro ou alternativa ou adicionalmente, informações separadas sobre fontes sonoras.
[075] Tanto a saída do gerador de descrição de campo sonoro 100 quanto a saída do gerador de metadados 110 constituem uma descrição aprimorada de campo sonoro. Em uma modalidade, tanto a saída do gerador de descrição de campo sonoro 100 quanto a saída do gerador de metadados 110 podem ser combinadas dentro de um combinador 120 ou interface de saída 120 para obter a descrição aprimorada de campo sonoro que inclui os metadados espaciais ou informações espaciais do campo sonoro, conforme gerado pelo gerador de metadados 110.
[076] A Figura 1b ilustra a situação à qual a presente invenção se refere. À posição A, por exemplo, é a pelo menos uma localização de referência e um campo sonoro é gerado pela fonte A e fonte B e um determinado microfone real ou virtual que é localizado na posição A detecta o som da Fonte A e Fonte B. O som é uma sobreposição do som que parte das fontes sonoras emissoras. Isso representa a descrição de campo sonoro, conforme gerado pelo gerador de descrição de campo sonoro.
[077] Adicionalmente, o gerador de metadados deriva, por determinadas implantações, uma informação espacial com relação à fonte A e outras informações espaciais com relação à fonte B, tais como as distâncias dessas fontes até a posição de referência, tal como a posição A.
[078] Naturalmente, a posição de referência pode ser alternativamente a posição B. Então, o microfone real ou virtual é colocado na posição B e a descrição de campo sonoro é um campo sonoro, por exemplo, representado pelos componentes de Ambisonics de Primeira Ordem ou componentes de Ambisonics de ordem superior ou quaisquer outros componentes de som que têm o potencial de descrever um campo sonoro com relação a pelo menos uma localização de referência, isto é, posição B.
[079] O gerador de metadados precisa, então, gerar como as informações sobre as fontes sonoras, a distância da fonte sonora A para a posição B ou a distância da fonte B para a posição B. Informações alternativas sobre fontes sonoras podem, evidentemente, ser a posição absoluta ou relativa com relação a uma posição de referência. A posição de referência pode estar na origem de um sistema de coordenadas geral ou pode estar localizada em uma relação definida à origem de um sistema de coordenadas geral.
[080] Outros metadados podem ser a posição absoluta da fonte sonora e a posição relativa de outra fonte sonora com relação à primeira fonte sonora e assim por diante.
[081] A Figura 2 ilustra um aparelho para gerar uma descrição aprimorada de campo sonoro, em que o gerador de campo sonoro compreende um gerador de campo sonoro 250 para o primeiro campo sonoro, um gerador de campo sonoro 260 para o segundo campo sonoro e, um número arbitrário de geradores de campo sonoro para um ou mais campos sonoros, tais como um terceiro, quarto campo sonoro e assim por diante. Adicionalmente, os metadados são configurados para calcular e encaminhar ao combinador uma informação sobre o primeiro campo sonoro e o segundo campo sonoro. Todas essas informações são usadas pelo combinador 120 a fim de gerar a descrição aprimorada de campo sonoro. Desse modo, o combinador 120 também é configurado como uma interface de saída para gerar a descrição aprimorada de campo sonoro.
[082] A Figura 3a ilustra uma descrição aprimorada de campo sonoro como um fluxo de dados que compreende uma primeira descrição de campo sonoro 330, uma segunda descrição de campo sonoro 340 e, associados à mesma, os metadados 350 que compreendem informações sobre a primeira descrição de campo sonoro e a segunda descrição de campo sonoro. A primeira descrição de campo sonoro pode ser, por exemplo, uma descrição de formato B ou uma descrição de ordem superior ou qualquer outra descrição que permite determinar uma distribuição direcional de fontes sonoras ou em uma representação de banda completa ou em uma representação selecionada por frequência. Desse modo, a primeira descrição de campo sonoro 330 e a segunda descrição de campo sonoro 340 também podem ser, por exemplo, descrições de campo sonoro paramétricas para as camadas individuais que têm, por exemplo, um sinal de mixagem com redução de canais e direção de dados de chegada para diferentes recolhedores de tempo/frequência.
[083] No entanto, as informações geométricas 350 para a primeira e segunda descrições de campo sonoro são iguais para todas as fontes incluídas na primeira descrição de campo sonoro 330 ou, para as fontes na segunda descrição de campo sonoro 340, respectivamente. Desse modo, a título de exemplo, quando há três fontes na primeira descrição de campo sonoro 330 e uma informação geométrica sobre a primeira descrição de campo sonoro, então, essa informação geométrica é igual para as três fontes na primeira descrição de campo sonoro. De maneira análoga, quando há, por exemplo, cinco fontes na segunda descrição de campo sonoro, então, as informações geométricas para o segundo campo sonoro incluída nos metadados 350 são iguais para todas as fontes na segunda descrição de campo sonoro.
[084] A Figura 3b ilustra uma construção exemplificativa dos metadados 350 da Figura 3a. Em uma modalidade, o ponto de referência 351 pode estar incluído nos metadados. No entanto, esse não é necessariamente o caso no ponto de referência 351, as informações também podem ser omitidas.
[085] Para o primeiro campo sonoro, é fornecida uma primeira informação geométrica que pode ser, por exemplo, um raio intermediário ou um raio representativo da primeira camada que pode, por exemplo, ser um valor de 0,5 metro da modalidade exemplificativa da Figura 4c que será descrita posteriormente.
[086] O segundo campo sonoro é descrito pelas segundas informações geométricas 353 que corresponde, por exemplo, a raio intermediário da segunda camada, tal como dois metros para a modalidade da Figura 4c, visto que a segunda camada se estende de um metro até três metros.
[087] Um terceiro campo sonoro é descrito por terceiras informações geométricas 354 e a distância representativa é, por exemplo, um “raio intermediário”
da terceira camada, tal como quatro metros ou semelhante. Naturalmente, cada descrição de campo sonoro compreende, de preferência, mais de uma fonte, porém, o também pode ser o fato de que uma descrição de campo sonoro de uma determinada camada inclui apenas uma única fonte.
[088] Quando é considerada, por exemplo, a Figura 4c que ilustra uma abordagem Ambisonics de múltiplas camadas preferencial, uma primeira camada se estende de O ou uma distância, por exemplo, 0,5 m a 1 m. A segunda camada se estende de 1 m a 3 m, e a terceira camada compreende todas as fontes sonoras que têm uma distância maior que 3 m a partir do primeiro ponto de referência que é o centro dos três círculos ilustrados na Figura 4c.
[089] Além disso, a Figura 4c ilustra o fato de que as duas fontes sonoras 1, 2 estão incluídas na camada 1, a duas fontes sonoras 3, 4 estão incluídas na camada 2 e as fontes sonoras 5 e 6 estão incluídas na camada 3.
[090] Conforme delineado, a Figura 3a ilustra um exemplo de um fluxo de bits ou fluxo de dados geral que compreende a descrição aprimorada de campo sonoro. O fluxo de dados pode compreender os quadros de tempo i, i +1 e assim por diante e informações secundárias relacionadas para o quadro de tempo correspondente.
[091] A Figura 4b ilustra outra implantação em que o analisador de campo sonoro 210 na Figura 2 não gera precisamente uma mixagem com redução de canais, porém gera uma representação completa no formato B ou formato A ou qualquer outro como representação de ordem superior por um determinado período de tempo.
[092] A Figura 4c também ilustra uma nova posição de ouvinte. Quando as mesmas camadas são desenhadas ao redor da nova posição do ouvinte, fica claro que a fonte sonora 1 se move, devido à translação para a nova posição do ouvinte, da camada 1 para a camada 3 e, portanto, tem que ser atenuados (fortemente).
[093] Além disso, a fonte sonora 2 se move da camada 1 para a camada 2 e, portanto, também deve ser atenuada (levemente).
[094] Além disso, a fonte sonora 3 se move da camada anterior 2 para a nova camada 3 e, portanto, também tem que ser atenuada (levemente).
[095] Adicionalmente, a fonte sonora 4 permanece na segunda camada e, portanto, não é necessária qualquer atenuação. Além disso, a fonte sonora 5 também permanece na mesma camada e, portanto, não precisa ser escalonada. Por fim, a fonte sonora 6 é movida da terceira camada anterior para a nova primeira camada e, portanto, precisa ser amplificada (intensamente).
[096] Portanto, de modo geral, quando uma fonte sonora se move, devido à translação do ponto de referência para o ponto de referência (novo) diferente, então, um certo fator de escalonamento é determinado. Quando o “movimento” da fonte sonora ocorre de uma camada superior para uma camada inferior, então, o escalonamento é uma atenuação e quando a “movimentação” ocorre da camada inferior para a camada superior, então, o escalonamento é uma atenuação. Além disso, quando o “movimento” ocorre de uma camada para a próxima camada, então, o fator de escalonamento será um fator de escalonamento leve, tal como uma atenuação leve ou uma aplicação leve e quando a movimentação não ocorre de uma camada para a próxima camada, porém de uma camada para outra camada que não seja a camada adjacente para a camada desejada, isto é, da primeira camada para a terceira camada ou vice-versa, então, o fator de escalonamento será de modo que uma atenuação ou amplificação mais intensa seja realizada.
[097] Quando, por exemplo, uma fonte se move da terceira camada para a segunda camada e quando os valores exemplificativos da Figura 3b são considerados, então, o fator de escalonamento será um fator de amplificação de 2,0, isto é, 4 m divididos por 2 m. No entanto, quando uma fonte sonora se move da segunda camada para a terceira camada, então, o fator de escalonamento será 0,5, isto é, 2 m divididos por 4 m.
[098] Alternativamente, quando uma fonte sonora se move da primeira camada para a terceira camada e, supondo que as Figuras exemplificativas da Figura 3b, então, o fator de escalonamento será 0,1 a 5 obtido dividindo-se 0,5 m por 5 m.
[099] Alternativamente, quando a fonte sonora se move do terceiro campo sonoro para o primeiro campo sonoro, tal como a fonte sonora 6 na modalidade da Figura 4c, então, o fator de escalonamento será 8,0 obtido dividindo-se 4 m por 0,5 m.
[0100] Naturalmente, embora esses exemplos tenham sido descritos com relação a um caso de “volume” bidimensional ilustrado na Figura 4c, as mesmas considerações também estão disponíveis para um caso de volume tridimensional real quando os círculos na Figura 4c são considerados como representativos de uma esfera para a camada | e uma coroa esférica para a camada 2 ou camada 3.
[0101] A Figura 4d ilustra, de modo geral, a implantação do calculador de campo sonoro para um aparelho para gerar uma descrição modificada de campo sonoro ou, alternativamente, para o aparelho para gerar uma descrição aprimorada de campo sonoro no contexto de uma representação de transcodificador. A primeira representação de camada ilustrada a título de exemplo como a camada de Ambisonics 1, a segunda descrição de campo sonoro ilustrada como a camada de Ambisonics 2 e uma descrição de campo sonoro adicional opcional ilustrada na camada de Ambisonics L são introduzidas nos diferentes blocos de separação de fonte e de estimativa de DoA 422, 422a, 422b. Além disso, é usado um renderizador 450 que é configurado para renderizar os objetos constatados pelos procedimentos nos blocos 422, 422a, 422b ás “novas” camadas correspondentes. Além disso, os blocos de análise 422, 422a, 422b não são configurados apenas para extrair os sinais de objeto e direção de chegadas para os sinais de objeto, porém também são configurados para gerar, a partir de cada descrição de campo sonoro de camada, um sinal de ambiência/difuso/residual. Esse sinal pode ser obtido, por exemplo, subtraindo-se uma soma de todos os sinais de fonte individuais derivados por um procedimento de separação de fonte da representação individual. Alternativamente, quando a separação de fonte 422, 422a, 422b é configurada como uma análise de DirAC, por exemplo, então, o sinal difusa/ambiência/residual é representado de maneira paramétrica, por parâmetros de capacidade de difusão.
[0102] — Além disso, a Figura 4d ilustra o adicionador 601, 602, 603 para adicionar a representação de Ambisonics modificada de uma determinada camada, o sinal de capacidade de difusão correspondente para a camada.
[0103] Isso é feito para cada uma dentre a camada 1, a camada 2, a camada L, e a saída na Figura 4d representa novamente uma descrição aprimorada de campo sonoro transcodificada, visto que a saída de representações modificadas diferentes pelo bloco 601, 602, 603, determinados metadados são associadas à indicação da distância representativa da camada 1, camada 2 e camada L.
[0104] A Figura 4e ilustra, para o caso na Figura 4d, um renderizador para um único objeto ou fonte. O objeto obtido, por exemplo, pelo bloco 422 para a primeira camada ou pelo bloco 422a para a segunda camada ou pelo 422b para a L-ésima camada é inserido no bloco 430 para computar um sinal de Ambisonics e o bloco 430 pode ser configurado, por exemplo, conforme ilustrado na Figura 4i. Para computar o sinal de Ambisonics, uma nova DoA', isto é, o valor de direção de chegada para uma fonte conforme gerado pelo bloco 423, 423a, 423b pela DoA anterior, as informações de translação da posição de referência original à nova posição do ouvinte.
[0105] Desse modo, um novo sinal de Ambisonics para o objeto com relação à nova DoA' é calculado e emitido como o objeto”. Desse modo, a saída do bloco 430 da Figura 4i, por exemplo, é o sinal do objeto. Além disso, o bloco 423, 423a, 423b calcula/determina a nova distância, conforme discutido anteriormente, com relação à Figura 4c e, portanto, calcula, por exemplo, fatores de escalonamento, conforme discutido anteriormente com relação à Figura 4c, e o exemplo na Figura 4b e, então, um renderizador para o bloco de camadas 810 pode ser configurado para escalonar o sinal do objeto' obtidos a partir do bloco 4380 com um determinado fator de escalonamento derivado da distância anterior (distância de camada) e da nova distância e, em seguida, todos os sinais que pertencem a uma determinada camada 1, 2 ou L na nova posição do ouvinte da Figura 4c podem ser adicionados correspondentemente um ao outro para ter novamente uma representação em camadas. Desse modo, com relação à modalidade da Figura 4c, a única fonte que agora está na camada 1 é a fonte original 6, ao passo que as fontes originais 5, 3, 1 são adicionadas juntas com relação ás suas representações de Ambisonics subsequentes ao escalonamento conforme determinado individualmente para cada fonte a fim de obter o sinal da camada 3 quando L = 3 e, de modo análogo, o sinal de fonte para as fontes 2, não representa o sinal da camada 2 em que, conforme ilustrado na tabela na Figura 4c, a fonte 4 não precisa de escalonamento, porém a fonte 2 precisa de uma operação de escalonamento.
[0106] Desse modo, a Figura 4e ilustra como os objetos são determinados para cada camada e, subsequente à adição do sinal de ambiência/difuso/residual pelo adicionador 601, 602, 603, a representação de Ambisonics modificada completa para cada camada é obtida e, isso pode ser, então, emitido como a descrição modificada/aprimorada de campo sonoro junto dos metadados associados conforme ilustrado pela Figura 4h.
[0107] No entanto, alternativamente, a representação de Ambisonics para cada camada pode ser adicionada simplesmente por um adicionador 600 ilustrado na Figura 4g a fim de converter a representação de Ambisonics de múltiplas camadas na representação de Ambisonics tradicional que pode ser, em seguida, renderizada tradicionalmente para uma representação real ou de alto-falante para uma representação binaural.
[0108] A outra opção |l ilustrada na Figura 4f é diferente da Figura 4e que pode ser apenas um sinal único de ambiência/capacidade de difusão/residual é gerada de todas as camadas individuais, e esse sinal único de ambiência/difuso/residual é adicionado apenas pelos adicionadores 604 à camada mais alta. A separação de fonte e estimativa de DOoA 422c pode ser, por exemplo, realizada a cada descrição de campo sonoro para cada camada individualmente para cada camada, conforme na Figura 4d. No entanto, a o algoritmo de separação de fonte e estimativa de DoA também pode ser implantado para adicionar juntos todas as descrições de camada e para, então, obter uma descrição de camada de sinal e para, então, realizar a separação de fonte e estimativa de DOA nessa única representação de Ambisonics.
No entanto, é preferencial prosseguir individualmente para cada camada e, a fim de gerar o único sinal difuso, os sinais difusos individuais obtidos pela modalidade da Figura 4d podem ser adicionados juntos dentro do bloco 422c.
[0109] Desse modo, a opção || pode resultar completamente nas representações de Ambisonics completamente secas para camadas inferiores e apenas em uma representação “molhada” para a camada mais alta, o sinal difuso é adicionado apenas à camada mais alta. Naturalmente, esse procedimento é útil, visto que os sinais de capacidade de difusão não são escalonados por um procedimento de distância, porém é usado igualmente à determinação original independentemente da possibilidade de a descrição de campo sonoro estar relacionada a uma localização de referência ou a uma localização de referência original ou a uma localização referência nova correspondente, por exemplo, à posição do ouvinte da Figura 4c.
[0110] A Figura6 ilustra um algoritmo de separação de fonte para cada camada que pode ser configurada, por exemplo, como análise de DirAC. Em seguida, o sinal difuso ilustrado na Figura 6 emitido pelo bloco 422 não está nesse local, porém esse sinal difuso é representado pelo parâmetro de capacidade de difusão, isto é, é representado parametricamente. Correspondentemente, o sinal de objeto é, para o procedimento de DIirAC, o sinal de pressão a cada recolhedor de tempo/frequência. No entanto, de modo geral, o sinal de objeto também pode ser um sinal de banda completa.
[0111] A primeira camada é representada pela ramificação superior, a segunda camada é representa pela ramificação no meio da Figura 6 e a terceira camada é representada pela ramificação no fundo da Figura 6.
[0112] No caso de um procedimento de separação de fonte geral, o sintetizador correspondente 425 gera um sinal de Ambisonics para cada camada como ilustrado, por exemplo, na Figura 4d ou 4f. Em seguida, todos esses sinais de Ambisonics podem ser combinados conforme discutidos geralmente com relação à Figura 49 e, em seguida, o sinal pode ser renderizado pelo renderizador 427, por exemplo, em um caso binaural, quando o sinal é enviado a um fone aplicado à cabeça do ouvinte no ambiente de realidade virtual ilustrado em 500 na Figura 6.
[0113] A Figura6 aponta adicionalmente ao fato de que os procedimentos de separação de fonte, translação, a geração de sinais de Ambisonics ou rotação podem ser aplicados em muitas ordens diferentes.
[0114] Embora a Figura 6, a camada superior ilustra que a separação de fonte é realizada antes da transformada de rotação e também antes da transformada de translação/escalonamento de volume, a ramificação intermediária na Figura 6 declara que a separação de fonte 533a é realizada antes da translação 423a, e a geração dos sinais de Ambisonics é realizada pelo bloco 425a, porém, em seguida, subsequente a essa etapa, a transformação de rotação é aplicada no bloco 422a.
[0115] Novamente, a ramificação inferior na Figura 6 ilustra que a transformada de rotação 424b pode ser aplicada até mesmo antes da separação de fonte 422b, porém também pode ser aplicada subsequente à separação de fonte, visto que o movimento da cabeça de um ouvinte é, evidentemente, igual para todas as fontes de uma camada e, até mesmo, para todas as fontes de todas as camadas. Além disso, a transformada de translação 423b também pode ser realizada antes da geração de sinais de Ambisonics e, até mesmo, antes da transformação de rotação, porém não antes da separação de fonte, visto que nenhuma translação precisa da direção de chegada de cada fonte.
[0116] No caso de sinais de Ambisonics na entrada ao combinador 600 e no caso de a saída do combinador 600 ser, adicionalmente, um sinal de Ambisonics tradicional como por exemplo, discutido com relação à Figura 49, então, a transformada de rotação pode ser aplicada até mesmo subsequente ao bloco 600 e, em seguida, o renderizador 427 ter que renderizar ou diretamente para uma representação binaural ou diretamente para uma representação de alto-falante ou em uma representação binaural por meio de uma representação de alto-falante virtual. No entanto, uma translação completamente transformada e uma descrição de campo sonoro completamente girada não estão mais em camadas, porém as “características' da camada são abandonadas devido à combinação no combinador
600.
[0117] Nesse contexto, também fica claro a partir da Figura 6 e da Figura 4e que, no caso de não apenas transcrever o sinal, porém no caso de gerar uma única descrição de campo sonoro, o “renderizar para as camadas 810” discutido no contexto da tabela na Figura 4c não é necessário da maneira ilustrada ilustrado com relação à Figura 4c. Visto que apenas um único campo sonoro é gerado, não é importante e uma fonte se move de uma camada para outra ou semelhante. Em vez disso, apenas os fatores de escalonamento são exigidos, porém esses fatores de escalonamento podem ser derivados diretamente das respectivas distâncias para as camadas ou da distância anterior fornecida pelas informações de camada 350 e a nova distância obtida com o uso da distância anterior, da DOA da fonte e das informações de translação, conforme discutido, por exemplo, com relação à Figura
7. Logo, a possibilidade de uma fonte mudar ou “se mover” de uma camada para a outra é apenas uma questão de uma representação de transcodificador, porém não é uma questão no caso da Figura 4g ou da Figura 6.
[0118] A Figurad4a ilustra a implantação preferencial de um aparelho para gerar a descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro. Particularmente, o aparelho compreende um calculador de campo sonoro 420 que gera o campo sonoro modificado com o uso de metadados, em que as descrições de campo sonoro e informações de translação indicam uma translação de uma localização de referência a uma localização de referência diferente.
[0119] Quando, por exemplo, campo sonoro é fornecido com relação à posição A na Figura 1b, em seguida, a localização de referência diferente poderia ser a posição B e as informações de translação seriam, por exemplo, um vetor que indica a translação da posição A para a posição B. P calculador de campo sonoro 420 calcaria, em seguida, o campo sonoro modificado como se fosse percebido por um ouvinte que está localizado na posição B e, para esse cálculo, o calculador de campo sonoro tem a descrição de campo sonoro em relação à posição A e as informações de translação e, adicionalmente, os metadados em relação à posição espacial da fonte A e da fonte B.
[0120] Em uma modalidade, o calculador de campo sonoro 420 é conectado a uma interface de entrada 400 para receber a descrição aprimorada de campo sonoro, por exemplo, conforme discutido com relação à Figura 1a ou 2 e à interface de entrada 400, em seguida, separa a descrição de campo sonoro por um lado, isto é, o que foi gerado pelo bloco 100 da Figura 1a ou bloco 210 da Figura 2. Além disso, a interface de entrada 400 separa os metadados da descrição aprimorada de campo sonoro, isto é, o item 350 da Figura 3a ou opcional 351 e 352 a 354 da Figura 3b.
[0121] Além disso, uma interface de translação 410 obtém de um ouvinte as informações de translação e/ou informações de rotação separadas ou adicionais. Uma implantação da interface de translação 410 pode ser uma unidade de captação de cabeça que apenas capta a rotação de uma cabeça em um ambiente de realidade virtual, porém também uma translação da cabeça de uma posição, isto é, a posição A na Figura 1b, para outra posição, isto é, Posição B na Figura 1b.
[0122] A Figura 4b ilustra outra implantação semelhante à Figura 1a, porém não em relação a um cenário de codificação/decodificador, porém em relação a um cenário geral em que o fornecimento de metadados indicado por um fornecedor de metadados 402, o fornecimento de campo sonoro indicado por um fornecedor de campo sonoro 404 são feitos sem uma determinada interface de entrada que separa uma descrição aprimorada ou codificada de campo sonoro, porém são todos feitos, por exemplo, em um cenário real existente, por exemplo, em uma aplicação de realidade virtual. No entanto, a presente invenção não se limita a aplicações de realidade virtual, porém também pode ser implantada em quaisquer outras aplicações, em que o processamento de áudio espacial dos campos sonoros que estão relacionadas a uma localização de referência é útil a fim de transformar um campo sonoro em relação a uma primeira localização de referência em outro campo sonoro em relação a uma segunda localização de referência diferente.
[0123] O calculador de campo sonoro 420, então, gera a descrição modificada de campo sonoro ou, alternativamente, gera uma representação de alto-falante (virtual) ou gera uma representação binaural, tal como uma representação de dois canais para uma reprodução de fone. Desse modo, o calculador de campo sonoro 420 pode gerar, como o campo sonoro modificado, uma descrição modificada de campo sonoro, que é basicamente igual à descrição de campo sonoro original, porém agora com relação a uma nova posição de referência. Em uma modalidade alternativa, uma representação de alto-falante virtual ou real pode ser gerada para uma configuração de alto-falante predeterminada, tal como o esquema 5.1 ou uma configuração de alto-falante que tem mais alto-falantes e, particularmente, que tem uma disposição tridimensional de alto-falantes em vez de apenas uma disposição bidimensional, isto é, uma disposição de alto-falante que tem alto-falantes que são elevados com relação à posição do usuário. Outras aplicações que são especificamente úteis para aplicações de realidade virtual são aplicações para reprodução binaural, isto é, para um fone que pode ser aplicado à cabeça do usuário em realidade virtual.
[0124] A título de exemplo, a Figura 6 ou A Figura 9 descritas subsequentemente ilusttam uma situação, em que o sintetizar de DIrAC opera apenas em um componente de mixagem com redução de canais, tal como o componente omnidirecional ou de pressão, ao passo que, em uma modalidade alternativa adicional ilustrada com relação à Figura 12b, o sintetizador de DIirAC opera nos dados de todo o campo sonoro, isto é, a representação completa de componente que tem, nessa modalidade, na Figura 12b, uma descrição de campo com um componente omnidirecional w e três componentes direcionais x, y, z.
[0125] A Figura 4i ilustra outra implantação para realizar uma síntese diferente do sintetizar de DirAC. Quando, por exemplo, um analisado de campo sonoro gera, para cada sinal de fonte, um sinal mono separado S e uma direção de chegada original e quando, dependendo das informações de translação, uma nova direção de chegada é calculada, então, o gerador de sinal de Ambisonics 430 da Figura 4i, por exemplo, é usado para gerar uma descrição de campo sonoro para o sinal de fonte sonora, isto é, o sinal mono S, porém para os dados de nova direção de chegada (DoA) que consiste em um ângulo horizontal 8 ou um ângulo de elevação 6 e um ângulo azimutal q. Em seguida, um procedimento pelo calculador de campo sonoro 420 da Figura 4b seria gerar, por exemplo, uma representação de campo sonoro de Ambisonics de primeira ordem para cada fonte sonora com a nova direção de chegada e, em seguida, uma modificação adicional de acordo com uma fonte sonora poderia ser realizada com o uso de um fator de escalonamento dependendo da distância do campo sonoro para a nova localização de referência e, em seguida, todos os campos sonoros das fontes individuais podem ser sobrepostos entre si para obter, ao final, o campo sonoro modificado, novamente, por exemplo, em uma representação de Ambisonics em relação a uma determinada nova localização de referência.
[0126] Quando interpreta-se que cada recolhedor de tempo/frequência processado por um analisador de DirAC 422, 422a, 422b da Figura 6 ou da Figura 9 representa uma determinada fonte sonora (largura de banda limitada), então, o gerador de sinal de Ambisonics 430 pode ser usado, em vez do sintetizador de DirAC 425, 425a, 425b para gerar, para cada recolhedor de tempo/frequência, uma representação de Ambisonics completa com o uso do sinal de mixagem com redução de canais ou sinal de pressão ou componente omnidirecional para esse recolhedor de tempo/frequência como o “sinal mono S” da Figura 4i. Então, uma conversão de frequência-tempo individual no conversor de frequência-tempo para cada um dentre os componentes W, X, Y, Z resultaria, então, em uma descrição de campo sonoro diferente do que é ilustrado na Figura 4c.
[0127] As modalidades adicionais são delineadas a seguir. O objetivo é obter um sinal binaural virtual na posição do ouvinte, dado um sinal na posição de gravação original e informações sobre as distâncias das fontes de som da posição de gravação. Supõe-se que as fontes físicas são separáveis por seu ângulo em direção à posição de gravação.
[0128] A cena6é gravada do ponto de vista (PoV) do microfone cuja a posição é usada como a origem do sistema de coordenada de referência. A cena tem que ser reproduzida o PoV do ouvinte, que é captado em 6DoF, consultar a Figura 5. Uma única fonte sonora é mostrada no presente contexto a título de ilustração, a relação retém cada recolhedor de tempo-frequência.
[0129] A Figura 5 ilustra a reprodução de 6DoF do áudio espacial. A fonte sonora é registrada por um microfone com a DoA r, na distância a, em relação à posição e orientação do microfone (linha preta e arco). A mesma pode ser reproduzida em relação ao ouvinte em movimento com a DoA r e distância a (pontilhada). Isso tem que considerar a translação / e rotação o (pontilhada) dos ouvintes.
[0130] A fonte sonora nas coordenadas d, ER são registradas a partir da direção de chegada (DoA) expressa pelo vetor de unidade r, = d, / |ld.||l. A DoA pode ser estimada a partir da análise da gravação. A mesma parte da distância d, = ||d,||. Supõe-se que essas informações são incluídas nos metadados para cada camada como a distância de camada ou, de modo geral, como o item 352, 353, 354 da Figura 3b e podem ser representadas como informações de distância na forma de um mapa de profundidade m(/,r) que mapeia cada fonte de uma camada | que tem qualquer direção r a partir da posição de gravação até a distância (por exemplo, fornecida em metros ou semelhantes) da camada a partir do ponto de referência.
[0131] O ouvinte é captado em 6DoF. Em um determinado momento, o ouvinte está em uma posição / ER em relação ao microfone e tem uma rotação o ER em relação ao sistema de coordenadas do microfone. A posição de gravação é escolhida como a origem do sistema de coordenada para simplificar a notação.
[0132] Desse modo, o som tem que ser reproduzido com uma distância diferente d,, o que leva a um volume alterado, e uma DoA r; diferente que é o resultado tanto da translação quanto da rotação subsequente.
[0133] Um método para obter um sinal virtual da perspectiva do ouvinte por transformações dedicadas com base em uma representação paramétrica, conforme explicado na seção a seguir, é descrito.
[0134] O método proposto se baseia na abordagem básica de DirAC para codificação de som espacial paramétrica consultar [16]. Supõe-se que não há uma fonte direta dominante a cada ocorrência de tempo-frequência do espectro analisado e essas podem ser tratadas independentemente. A gravação é transformada em uma representação de tempo-frequência com o uso de transformada de Fourier de tempo curto (STFT). O índice de quadro de tempo é denotado com n e o índice de frequência com k. Em seguida, a gravação transformada é analisada, estimando direções r, (k, n) e capacidade de difusão y (k, n) para cada recolhedor de tempo- frequência do espectro complexo P (k, n). Na síntese, o sinal é dividido em uma parte direta e difusa. No presente contexto, os sinais de alto-falante são computados aplicando-se movimento panorâmico na parte direta dependendo das posições de alto-falante e adicionando-se a parte difusa.
[0135] O método para transformar um sinal de FOA de acordo com a perspectiva do ouvinte em 6DoF pode ser dividido em cinco etapas, consultar a Figura 6.
[0136] A Figura6 ilustra um método de reprodução de 6DoF. O sinal de FOA registrado no formato B é processado por um codificador de DirAC que computa os valores de direção e de capacidade de difusão para cada recolhedor de tempo- frequência do espectro complexo. Em seguida, o vetor de direção é transformado pela posição captada do ouvinte e de acordo com as informações de distância fornecida em um mapa de distância para cada camada. Em seguida, o vetor de direção resultante é girado de acordo com a rotação da cabeça. Por fim, os sinais para 8+4 canais de alto-falante virtuais são sintetizados no decodificador de DirAC. Em seguida, estes são binauralizados.
[0137] Na modalidade, o sinal de entrada é analisado no codificador de DIrAC 422, as informações de distância são adicionadas do mapa de distância m(l) gerando uma distância para cada camada, em seguida, a translação e rotação captada do ouvinte são aplicadas em transformadas inovadoras 423 e 424. O decodificador de DirAC 425 sintetiza sinais para 8+4 alto-falantes virtuais, que, por sua vez, são binauralizados 427 para reprodução no fone. Verifica-se uma vez que a rotação do cenário sonoro após a translação é uma operação independente, a mesma pode ser replicada alternativamente no renderizador binaural. O único parâmetro transformado para 6DoF é o vetor de direção. Pela definição de modelo, supõe-se que a parte difusa é isotrópica e homogênea e, então, se mantém inalterada.
[0138] A entrada ao codificador de DIrAC é um sinal de som de FOA na apresentação de formato B. Esta consiste em quatro canais, isto é, a pressão do som omnidirecional e os três gradientes espaciais de primeira ordem que sob determinadas suposições são proporcionais à velocidade de partícula. Esse sinal é codificado de maneira paramétrica, consultar [18]. Os parâmetros são derivados da pressão da pressão complexa do som P (k, n), que é o sinal omnidirecional transformado e o vetor de velocidade de partícula U (k, n) = [U,(k, n), Uy(k, n), Uz (k, nm correspondente aos sinais de gradiente transformado.
[0139] A representação de DirAC consiste no sinal P (k, n), na capacidade de difusão y (k, n) e na direção r (k, n) da onda de som em cada recolhedor de tempo- frequência. A fim de derivar o último, primeiramente, o vetor de intensidade de som ativo 1, (k, n) pé computado como a parte real (denotado por Re(-)) do produto do vetor de pressão com o conjugado complexo (denotado por (-)”) do vetor de velocidade [18]: I(kn) = 3 Re(PCk, n)U » (k,n)). (0)
[0140] A capacidade de difusão é estimada a partir do coeficiente de Variação desse vetor [18]: IE UC, 1) VLS [1º EGO (2) em que E denota o operador de expectativa ao longo dos quadros de tempo, implantado como uma média de movimento.
[0141] Visto que o mesmo está destinado a manipular o som com o uso de um mapa de distância com base em direção que tem uma distância para cada fonte de uma camada até a localização de referência, a variação das estimativas de direção deve ser baixa. Visto que os quadros são tipicamente curtos, esse nem sempre é o caso. Portanto, uma média de movimento é aplicada para obter uma estimativa de direção suavizada T,(k, n). Em seguida, a DoA da parte direta do sinal é computada com um vetor de comprimento de unidade na direção oposta: rm = EP. Ia 7) | (3)
[0142] Conforme a direção é codificada como um vetor tridimensional do comprimento de comprimento de unidade para cada recolhedor de tempo- frequência, é objetivo integrar as informações de distância. Os vetores de direção são multiplicados com sua entrada de mapa correspondente de modo que o comprimento de vetor represente a distância da fonte sonora correspondente d(k, n): d,(k,n) = r,(k, n)dr(k,n) = r,(k, n)m(l, r7(k, n)) (4) em que d, (k, n) é um vetor que aponta da posição de gravação do microfone para a fonte sonora ativa no tempo n e para o recolhedor de frequência k.
[0143] A posição do ouvinte é fornecida pelo sistema de captação para o atual quadro de processamento como /I(n). Com a representação de vetor das posições da fonte, pode-se subtrair o vetor de posição de captação Nn) para gerar o novo vetor de direção transladado d; (K, n) com o comprimento d, (k,n) = ||da(k,n)||, consultar a Figura 7. As distâncias do PoV do ouvinte para as fontes sonoras são derivadas, e as DoAs são adaptadas em uma única etapa: d,(k,n) = d,(k,n) — ln) (5)
[0144] Um aspecto importante de reprodução realística é a atenuação da distância. Supõe-se que a atenuação é uma função da distância entre a fonte sonora e o ouvinte [19]. O comprimento dos vetores de direção deve codificar a atenuação ou amplificação para reprodução. A distância até a posição de gravação é codificada em d, (k, n) de acordo com o mapa de distância, e a distância a ser reproduzida codificada em d; (k, n). Caso os vetores sejam normalizados ao comprimento da unidade e, em seguida, sejam multiplicados pela razão entre a distância anterior a distância nova, verifica-se que o comprimento necessário é fornecido por meio de divisão. d; (K, n) pelo comprimento do vetor original: dem = 2 Mad —a(km) Id kn) Nadrk,nIl ldrk,7o|| (6)
[0145] As mudanças para a orientação do ouvinte são aplicadas na etapa a seguir. A orientação fornecida pela captação pode ser escrita como um vetor composto de passo, guinada e rolagem o(n) = [ox (n), o7(n), oy (n)]” em relação à posição de gravação como a origem. A fonte direção é girada de acordo com a orientação do ouvinte, que é implantada com o uso de matrizes de rotação 2D: dy(k,n) = Ry(oy(n))Rz(07(n))Rx(0x(1))d,(k, 7) (7)
[0146] Em seguida, a DoA resultante para o ouvinte é fornecida pelo vetor normalizado para o comprimento de unidade: dy (k,n) MAM O Taco] (8)
[0147] O vetor de direção transformado, a capacidade de difusão e o espectro complexo são usados para sintetizar sinais para uma configuração de alto-falante virtual 8+4 distribuída de maneira uniforme. Oito alto-falantes estão localizados em degraus azimutais de 45º no plano do ouvinte (elevação 0º, e quatro em uma formação cruzada de 90º acima em uma elevação de 45º. A síntese é dividida em uma parte direta e difusa para cada canal de alto-falante 1 < i < /, em que 1 = 12é o número de alto-falantes [16]: Y(k,n) = Y,s(k,n) + Y,p(k,n)
(2)
[0148] Para a parte direta, movimento panorâmico de movimento panorâmico de amplitude de esmaecimento em borda (EFAP) é aplicado para reproduzir o som da direção certa dada a geometria de alto-falante virtual [20]. Dado o vetor DoA r, (K, n), isso fornece um ganho de movimento panorâmico Gi(r) para cada canal de alto- falante virtual i. O ganho dependente de distância para cada DoA é derivado do comprimento resultante do vetor de direção, d, (k, n). A síntese direta para o canal i se torna: Yslkh,nm) = 1 %k,m)P(k,n) Gi(rp(k, nm) dy (k, nm) |)” (10) em que o exponente y é um fator de sintonização que é definido tipicamente em cerca de 1 [19]. Verifica-se que com y = O, o ganho dependente de distância é desligado.
[0149] A pressão P(k,n) é usada para gerar ! sinais descorrelacionados P;(k,n). . Esses sinais descorrelacionados são adicionados aos canais de alto-falante individuais como o componente difuso. Isso segue o método padrão [16]: Niolkn) = OE km) (11)
[0150] As partes difusa e direta de cada canal são adicionadas juntas, e os sinais são transformados de volta no domínio de tempo por uma STFT inversa. Esses sinais de domínio de tempo de canal são convolvidos com HRTFs para a orelha esquerda e direita dependendo da posição de alto-falante para criar sinais binauralizados.
[0151] A Figura 8 ilustra uma implantação preferencial de um transcodificador implantação que opera, por exemplo, sem distâncias representativas, porém com determinações gerais de fatores de escalonamento que não são derivados das distâncias das camadas, porém apenas se uma fonte se move de uma camada para outra camada que é adjacente ou não adjacente à camada anterior. Desse modo, o bloco 800 é configurado para determinar se uma fonte permanece na mesma camada ou não. Caso seja determinado que a mesma camada é o resultado como, por exemplo, para as fontes 4 e 5, então, o bloco 802 determina que nenhum escalonamento específico do sinal de objeto para a nova direção de chegada é necessário e um “fator de escalonamento” que indica que nenhum escalonamento é definido como 1 ou, alternativamente, pode ser simplesmente sinalizado ou notificado de qualquer maneira que para tal fonte qualquer escalonamento não deve realizado.
[0152] No entanto, quando é determinado que a fonte se move para uma camada inferior, então, o bloco 804 determina um fator de escalonamento que é maior que 1. Essa determinação pode ser feita com o uso das distâncias representativas das duas camadas, isto é, a camada de fonte e a camada-alvo. No entanto, caso um determinado fator de escalonamento também possa ser usado que é, por exemplo, entre 1 e 2 quando o movimento ocorre de uma camada para a camada adjacente e que é, por exemplo, igual a 4 quando a fonte se move em duas camadas e assim por diante.
[0153] A Figura8 ilustra adicionalmente uma situação no bloco 806 em que a fonte se move para uma camada superior como, por exemplo, a fonte 1, 2, 3. Em seguida, é determinado um fator de escalonamento para essa fonte inferior a 1. Novamente, o fator de escalonamento pode ser determinado a partir da distância representativa conforme foi discutido anteriormente, porém também pode ser obtido alternativamente com o uso de fatores de escalonamento fixos que dependem de como muitas camadas foram movidas devido à translação da localização de referência original para a nova localização de referência ou posição do ouvinte. Por exemplo, quando um movimento ocorre por uma camada apenas, então um fator de escalonamento moderador, tal como entre 0,5 e 1 pode ser usado e quando o movimento ocorre por duas ou mais camadas, então, um fator de escalonamento superior entre 0,1 e 0,5 podem ser usados.
[0154] O processador/escalonamento do sinal de objeto 808, então, aplica um escalonamento ou ao sinal de objeto antes da geração de Ambisonics ou aplicaria o escalonamento para todos os componentes da representação de Ambisonics para, por fim, obter o sinal de objeto processado ou em uma representação mono de acordo com uma fonte ou em uma representação de Ambisonics.
[0155] A Figura9 ilustra uma modalidade adicional que é semelhante à Figura 6, porém em que os blocos individuais 422, 422a, 422b, por exemplo, da Figura 4d são implantados como implantações de codificador/decodificador de DirAC. Em seguida, o resultado pode ser o canal individual de sinais de alto-falante ou sinais de Ambisonics ou quaisquer outras representações de sinal, por exemplo, para um transcodificador. No entanto, quando a saída são sinais de canal ou, até mesmo, os sinais binaurais, então, aqueles sinais correspondentes podem ser adicionados juntos no combinador 600 para representar uma única descrição de campo sonoro que pode, então, ser renderizada no bloco 427 por qualquer procedimento adicional.
[0156] A Figura 10 ilustra uma implantação preferencial adicional do calculador de campo sonoro 420. O procedimento ilustrado na Figura 10 é realizado para cada camada separadamente. A única diferença é que para cada camada, uma informação de camada diferente 350 é usada, e essa informação de camada é igual para cada fonte na camada. A informação de camada é lida a partir dos metadados pelo determinante de distância 1120 que gera um valor de distância. Caso os metadados já incluam a distância em metros ou semelhante, então, o bloco 1120 extrai simplesmente os dados de um fluxo de dados ou o que encaminhar essas informações ao bloco 1140. Logo, as mesmas informações de distância para cada DoA de cada fonte na mesma camada são geradas e usadas pelo bloco 1140.
[0157] Com base na descrição de campo sonoro, uma banda completa direção de chegada ou uma direção de chegada a cada banda é determinada em 1100. Essas direções de informações de chegada representam a direção de dados de chegada do campo sonoro. Com base nessa direção de dados de chegada, uma transformação de translação é realizada no bloco 1110. Com essa finalidade, o bloco 1120 recupera os metadados para a descrição de campo sonoro para uma camada. Com base nos dados, o bloco 1110 gera a nova direção de dados de chegada para o campo sonoro que, nessa implantação, depende apenas da translação da localização de referência para a localização de referência diferente. Com essa finalidade, o bloco 1110 recebe as informações de translação geradas, por exemplo, por uma captação no contexto de uma implantação de realidade virtual.
[0158] De preferência, ou alternativamente, um dado de rotação também é usado. Com essa finalidade, o bloco 1130 realiza uma transformação de rotação com o uso das informações de rotação. Quando tanto a translação quanto a rotação são realizadas, então, é preferencial realizar a transformação de rotação subsequente ao cálculo das novas DoAs do campo sonoro que já incluem as informações da translação e a distância de camada do bloco 1120.
[0159] Em seguida, no bloco 1140, a nova descrição de campo sonoro é gerada. Com essa finalidade, a descrição de campo sonoro original pode ser usada ou, alternativamente, os sinais de fonte que foram separados da descrição de campo sonoro por um algoritmo de separação de fonte podem ser usados ou quaisquer outras aplicações podem ser usadas. Basicamente, a nova descrição de campo sonoro pode ser, por exemplo, uma descrição de campo sonoro direcional conforme obtido pelo gerador de Ambisonics 430 ou conforme gerado por um sintetizador de DirAC 425 ou pode ser uma representação binaural gerada a partir de uma representação de alto-falante virtual na renderização binaural subsequente.
[0160] De preferência, conforme ilustrado na Figura 10, a distância a cada direção de chegada também é usada na geração da nova descrição de campo sonoro a fim de adaptar o volume ou altura de uma determinada fonte sonora para a nova localização, isto é, a nova ou localização de referência diferente.
[0161] Embora a Figura 10 ilustre uma situação, em que a transformação de rotação é realizada subsequente à transformação de translação, deve-se verificar que a ordem pode ser diferente. Particularmente, a transformação de rotação pode ser aplicada às DoAs do campo sonoro, conforme gerado pelo bloco 1100 e, em seguida, uma transformação de translação adicional é aplicada que é devido à translação de um indivíduo da localização de referência para a localização de referência diferente.
[0162] Assim que as DoAs do campo sonoro foram determinadas pelo bloco 1100, as informações de distância são obtidas dos metadados com o uso do bloco 1120 e essas informações de distância são, em seguida, usadas gerando-se a nova descrição de campo sonoro no bloco 1140 para considerar uma distância mudada e, portanto, uma altura mudada da determinada fonte com relação a uma determinada localização de referência. Basicamente, pode-se dizer que caso a distância se torne maior, então, o sinal de fonte sonora específico é atenuado, ao passo que quando a distância se torna mais curta, então, o sinal de fonte sonora é amplificado. Naturalmente, a atenuação ou amplificação da determinada fonte sonora dependendo da distância é feita proporcionalmente à mudança de distância, porém, em outras modalidades, operações menos complexas podem ser aplicadas a essa amplificação atenuação de sinais de fonte sonora em incrementos muito brutos. Até tal implantação menos complexa fornece resultados superiores em comparação a uma situação em que qualquer mudança de distância é completamente negligenciada.
[0163] A Figura 7 ilustra uma implantação preferencial do calculador de campo sonoro 420. No bloco 1102, uma separação de fonte e uma direção de chegada ou, de modo geral, um cálculo de informações de direção para cada fonte é realizado. Então, no bloco 1104, o vetor de direção de chegada é multiplicado pelo vetor de informações de distância, isto é, o vetor da localização de referência original para a fonte sonora, isto é, o vetor do item 520 para o item 510 da Figura 5, por exemplo. Então, no bloco 1106, as informações de translação, isto é, o vetor do item 520 para o item 500 da Figura 5 é considerado a fim de calcular o novo vetor de direção transladado que é o vetor da posição do ouvinte 500 para a posição de fonte sonora
510. Em seguida, o novo vetor de direção de chegada com o comprimento corretor indicado por d, é calculado no bloco 1108. Esse vetor é direcionado na mesma direção as d,, porém tem um comprimento diferente, visto que o comprimento desse vetor reflete o fato de que a fonte sonora 510 é gravada no campo sonoro original com uma determinada altura e, portanto, o comprimento de d, indica mais ou menos a mudança de altura. Isso é obtido dividindo-se o vetor d, pela distância de registro d,, isto é, o comprimento do vetor d, do microfone 520 para a fonte sonora 510.
[0164] Quando, conforme na Figura. 5, a distância reproduzida é maior que a distância gravada, então, o comprimento de d, será inferior à unidade. Isso resultará uma atenuação da fonte sonora 510 para a reprodução na nova posição do ouvinte. No entanto, quando a distância reproduzida d, for menor que a distância gravada, então, o comprimento de d, conforme calculado pelo bloco 1108 será maior que 1 e um fator de escalonamento correspondente resultará em uma amplificação da fonte sonora.
[0165] A Figura 11 ilustra uma implantação preferencial adicional do calculador de campo sonoro.
[0166] No bloco 1200, as fontes individuais do campo sonoro são determinadas, por exemplo, a cada banda ou banda completa. Quando uma determinação a cada quadro e banda é realizada, então, isso pode ser feito por uma análise de DirAC. Caso uma determinação de banda completa ou de sub-banda seja realizada, então, isso pode ser feito por qualquer tipo dentre um algoritmo de separação de fonte de banda completa ou sub-banda.
[0167] No bloco 1210, a translação e/ou a rotação de um ouvinte é determinado, por exemplo, por captação de cabeça.
[0168] No bloco 1220, uma distância anterior para cada fonte é determinada com o uso dos metadados e, por exemplo, com o uso dos metadados para a camada, tal como a distância representativa. Desse modo, cada banda é considerada como uma determinada fonte (desde que a capacidade de difusão seja inferior a um determinado limiar), e, em seguida, uma determinada distância para cada recolhedor de tempo/frequência que tem um baixo valor de capacidade de difusão é determinado.
[0169] Em seguida, no bloco 1230, uma nova distância de acordo com uma fonte é obtida, por exemplo, por um cálculo de vetor a cada banda que é, por exemplo, discutido no contexto da Figura 7 ou com o uso do procedimento da Figura 8 que depende da detecção de uma mudança de camada.
[0170] Além disso, conforme ilustrado no bloco 1240, uma direção anterior de acordo com uma fonte é determinada, por exemplo, pelo cálculo de DoA obtido em uma análise de DirAC ou por uma análise de direção de chegada ou informações de direção em um algoritmo de separação de fonte, por exemplo.
[0171] Em seguida, no bloco 1250, uma nova direção de acordo com uma fonte é determinada, por exemplo, realizando-se um cálculo de vetor a cada banda ou banda completa.
[0172] Em seguida, no bloco 1260, um novo campo sonoro é gerado para o ouvinte transladado e girado. Isso pode ser feito, por exemplo, escalonando-se a porção direta a cada canal na síntese de DIrAC. Dependendo da implantação específica, a modificação de distância pode ser feita nos blocos 1270a, 1270b ou 1270c adicional ou alternativamente à realização da modificação de distância no bloco 1260.
[0173] Quando, por exemplo, determina-se que o campo sonoro tem apenas uma única fonte, então, a modificação de distância já pode ser realizada no bloco 1270a.
[0174] Alternativamente, quando os sinais de fonte individuais são calculados pelo bloco 1200, então, a modificação de distância pode ser realizada para as fontes individuais no bloco 1270b, antes o novo campo sonoro real é gerado no bloco 1260.
[0175] — Adicionalmente, quando o campo sonoro geração no bloco 1260, por exemplo, não gera um sinal de configuração de alto-falante ou um sinal binaural, porém outra descrição de campo sonoro, por exemplo, com o uso de um codificador ou calculador de Ambisonics 430, então, a modificação de distância também pode ser realizada subsequente à geração no bloco 1260, o que significa no bloco 1270c. Dependendo da implantação, uma modificação de distância também pode ser distribuída a diversos modificantes de modo que, ao final, uma determinada fonte sonora está em uma determinada altura que é direcionada pela diferença entre a distância original entre a fonte sonora e a localização de referência e a nova distância entre a fonte sonora e a localização de referência diferente.
[0176] A Figura 12a ilustra um analisador de DirAC, conforme revelado, por exemplo, na referência citada anterior “Directional Audio Coding” de IVPASH de
2009.
[0177] O analisador de DIrAC compreende um banco de filtros de banda 1310, um analisador de energia 1320, um analisador de intensidade 1330, um bloco de cálculo em média temporal 1340 e um calculador de capacidade de difusão 1350 e o calculador de direção 1360.
[0178] Em DIirAC, tanto análise quanto síntese são realizadas no domínio de frequência. Há diversos métodos para dividir o som em bandas de frequência, cada uma dentro de propriedades distintas. As transformadas de frequência usadas mais comumente incluem transformada de Fourier de tempo curto (STFT) e banco de filtro de espelho em quadratura (QMF). Além desses, há uma total liberdade de projetar um banco de filtos que são otimizados para qualquer fim específico. Independentemente da transformada de tempo-frequência selecionada, a meta de projeto é imitar a resolução da audição espacial humana. O alvo de análise direcional é estimar a cada banda de frequência, a direção de chegada de som, junto de uma estimativa, caso o som chegue de uma ou múltiplas direções ao mesmo tempo. A princípio, isso pode ser realizado com várias técnicas, no entanto, constatou-se que a análise energética do campo sonoro é adequada, o que é ilustrado na Figura 12a. A análise energética pode ser realizada, quando o sinal de pressão e os sinais de velocidade em uma, duas ou três dimensões são capturadas a partir de uma única posição. Nos sinais de formato B de primeira ordem, o sinal omnidirecional é denominado de sinal W, que foi diminuído pela raiz quadrada de dois. A pressão sonora pode ser estimada como P = V2*W, expressa o domínio de STFT.
[0179] Os canais X-, Y- e Z têm o padrão direcional de um dipolo direcionado ao lingo do eixo geométrico cartesiano que formam juntos um vetor U = [X, Y, Z.. O vetor estima o vetor de velocidade de campo sonoro, e também é expresso no domínio de STFT. A energia E do campo sonoro é computada. A captura dos sinais de formato B pode ser obtida ou com posicionamento coincidente de microfones direcionais ou com um conjunto de microfones omnidirecionais muito próximos um do outro. Em algumas aplicações, os sinais de microfone podem ser formados em um domínio computacional, isto é, simulados.
[0180] A direção do som é definida como a direção oposta do vetor de intensidade |. A direção é denominada como valores azimutais e de elevação angular correspondente nos metadados transmitidos. A capacidade de difusão do campo sonoro também é computada com o uso de um operador de expectativas do vetor de intensidade e a energia. O resultado dessa equação é um número de valor real entre zero e um, o que caracteriza se a energia de som chegando de uma única direção (capacidade de difusão é zero) ou de todas as direções (a capacidade de difusão é um). Esse procedimento é apropriado caso as informações de velocidade dimensionais completamente 3D ou menos estejam disponíveis.
[0181] A Figura 12b ilustra uma síntese de DIirAC, que tem novamente um banco de filttos de banda 1370, um bloco de microfone virtual 1400, um bloco sintetizador/direto/difuso 1450 e uma determinada configuração de alto-falante ou uma configuração de alto-falante virtual destinada 1460. Adicionalmente, um transformador de ganho de capacidade de difusão 1380, um bloco de tabela e ganho (VBAP) de movimento panorâmico de amplitude com base em vetor 1390, um bloco de compensação de microfone 1420, um bloco de cálculo de em média de ganho de alto-falante 1430 e um distribuidor 1440 para outros canais é usado.
[0182] Nessa síntese de DirAC com alto-falantes, a versão de alta qualidade de síntese de DIirAC mostrada na Figura 12b recebe todos os sinais de formato B, para os quais um sinal de microfone virtual é computado para cada direção de alto-falante da configuração de alto-falante 1460. O padrão direcional utilizado é tipicamente um dipolo. Os sinais de microfone virtuais são, então, modificados de maneira não linear, dependendo dos metadados. A versão de baixa taxa de bits da DirAC não é mostrada na Figura 12b, no entanto, nessa situação, apenas um canal de áudio é transmitido conforme ilustrado na Figura 6. A diferença no processamento é o fato de que todos os sinais de microfone virtual serão substituídos pelo canal único de canal do áudio recebido. Os sinais de microfone virtual são divididos em dois fluxos: os fluxos difuso e não difuso, que são processados separadamente.
[0183] O som não difuso é reproduzido como fontes de ponto com o uso de vetor base amplitude movimento panorâmico (VBAP). No movimento panorâmico, um sinal de som monofônico é aplicado a um subconjunto de alto-falantes após a multiplicação com fatores de ganho específicos de alto-falante. Os fatores de ganho são computados com o uso das informações de uma configuração de alto-falante e da direção do movimento panorâmico especificada. Na versão de baixa taxa de bits, o sinal de entrada é simplesmente realiza movimento panorâmico para as direções implicadas pelos metadados. Na versão de alta qualidade, cada sinal de microfone virtual é multiplicado com o fator de ganho correspondente que produz o mesmo efeito com movimento panorâmico, no entanto, está menos propenso a quaisquer artefatos não lineares.
[0184] Em muitos casos, os metadados direcionais estão submetidos a mudanças temporais abruptas. A fim de evitar artefatos, os fatores de ganho para os alto-falantes computados com VBAP são suavizados por integração temporal com constantes de tempo dependentes de frequência que são iguais a um período de cerca de 50 ciclos em cada banda. Isso remover com eficácia os artefatos, no entanto, as mudanças na direção não são percebidas como mais lentas comparadas à média na maioria dos casos.
[0185] A metada dessa síntese do som difuso é criar uma percepção de som que cerca o ouvinte. Na versão de baixa taxa de bits, o fluxo difuso é reproduzido descorrelacionando-se o sinal de entrada e reproduzindo-se o mesmo em cada alto- falante. Na versão de alta qualidade, os sinais de microfone virtual do fluxo difuso já são incoerentes em certo grau, e devem ser descorrelacionados de maneira apenas branda. Essa abordagem fornece uma qualidade espacial para reverberação circundante e som ambiente melhor que a versão de baixa taxa de bits.
[0186] Para a síntese de DIrAC com fontes de ouvido, a DIrAC é formulada com uma determinada quantidade de alto-falantes virtuais ao redor do ouvinte para o fluxo não difuso e um determinado número de alto-falantes para o fluxo difuso. Os alto-falantes virtuais são implantados como convolução de sinais de entrada com uma função de transferência relacionada à cabeça (HRTFs).
[0187] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é evidente que esses aspectos também representam uma descrição do método correspondente, em que um bloco ou um dispositivo corresponde a uma etapa do método ou um recurso de uma etapa do método. De modo análogo, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item ou recurso correspondente de um aparelho correspondente.
[0188] A descrição aprimorada de campo sonoro da invenção pode ser armazenada em uma mídia de armazenamento digital ou em uma mídia de armazenamento não transitória ou pode ser transmitida em uma mídia de transmissão, tal como uma mídia de transmissão sem fio ou uma mídia de transmissão cabeada, tal como a Internet.
[0189] Dependendo de determinados requisitos de implantação, as modalidades da invenção podem ser implantadas em hardware ou em software. A implantação pode ser realizada com o uso de um meio de armazenamento digital, por exemplo, um disco flexível, um DVD, um CD, uma ROM, uma PROM, uma EPROM, uma EEPROM ou uma memória FLASH, que tenha sinais de controle eletronicamente legíveis armazenados na mesma, que cooperam (ou têm capacidade de cooperar) com um sistema de computador programável de modo que o respectivo método seja realizado.
[0190] Algumas modalidades de acordo com a invenção compreendem uma portadora de dados não transitória que tem sinais de controle legíveis eletronicamente, que são capazes de cooperar com um sistema de computador programável, de modo que um dos métodos descritos no presente documento seja realizado.
[0191] Em geral, as modalidades da presente invenção podem ser implantadas como um produto de programa de computador com um código de programa, em que o código de programa é operacional para realizar um dos métodos quando o produto de programa de computador é executado em um computador. O código de programa pode, por exemplo, ser armazenado em uma portadora legível por máquina.
[0192] Outras modalidades compreendem o programa de computador para desempenho de um dentre os métodos descritos no presente documento, armazenado em uma portadora legível por máquina.
[0193] Em outras palavras, uma modalidade do método inventivo é, portanto, um programa de computador que tem um código de programa para desempenho de um dos métodos descritos no presente documento, quando o programa de computador é executado em um computador.
[0194] Uma modalidade adicional dos métodos inventivos é, portanto, uma portadora de dados (ou uma mídia de armazenamento digital, ou uma mídia legível por computador) que compreende, registrado no mesmo, o programa de computador para desempenho de um dentre os métodos descritos no presente documento.
[0195] Uma modalidade adicional do método da invenção é, portanto, um fluxo de dados ou uma sequência de sinais que representa o programa de computador para realizar um dos métodos descritos no presente documento. O fluxo de dados ou a sequência de sinais podem ser configurados, por exemplo, para serem transferidos por meio de uma conexão de comunicação de dados, por exemplo, por meio da internet.
[0196] Uma modalidade adicional compreende meios de processamento, por exemplo, um computador ou um dispositivo de lógica programável, configurados ou adaptados para realizar um dentre os métodos descritos no presente documento.
[0197] Uma modalidade adicional compreende um computador que tem instalado em si o programa de computador para desempenho de um dos métodos descritos no presente documento.
[0198] Em algumas modalidades, um dispositivo de lógica programável (por exemplo, uma matriz de portas programável em campo) pode ser usado para realizar algumas ou todas as funcionalidades dos métodos descritos no presente documento. Em algumas modalidades, uma matriz de portas programável em campo pode cooperar com um microprocessador a fim de realizar um dentre os métodos descritos no presente documento. De modo geral, os métodos são realizados, de preferência, por meio de qualquer aparelho de hardware.
[0199] As modalidades descritas acima são meramente ilustrativas para os princípios da presente invenção. Entende-se que as modificações e as variações das disposições e os detalhes descritos no presente documento serão evidentes para outras pessoas versadas na técnica. Portanto, pretende-se que as mesmas sejam limitadas apenas pelo escopo das reivindicações da patente iminentes e não pelos detalhes específicos apresentados a título de descrição e explicação das modalidades no presente documento.
Referências
[1] Liitola, T, Headphone sound externalization, Ph.D. thesis, Helsinki University of Technology. Department of Electrical and Communications Engineering Laboratory of Acoustics and Audio Signal Processing., 2006.
[2] Blauert, J., Spatial Hearing - Revised Edition: The Psychophysics of Human Sound Localization, The MIT Press, 1996, ISBN 0262024136.
[3] Zhang, W., Samarasinghe, P. N., Chen, H., and Abhayapala, T. D., “Surround by Sound: A Re-view of Spatial áudio Recording and Reproduction,” Applied Sciences, 7(5), página 532, 2017.
[4] Bates, E. e Boland, F., “Spatial Music, Virtual Reality, and 360 Media,” in áudio Eng. Soc. Int. Conf. on áudio for Virtual and Augmented Reality, Los Angeles, CA, EUA, 2016.
[5] Anderson, R., Gallup, D., Barron, J. T., Kontkanen, J., Snavely, N., Esteban, C. H., Agarwal, S. e Seitz, S. M., “Jump: Virtual Reality Video,” ACM Transactions on Graphics, 35(6), página 198, 2016.
[6] Merimaa, J., Analysis, síntese, and Perception of Spatial som: Binaural Localization Modeling and Multichannel alto-falante Reproduction, Ph.D. thesis, Helsinki University of Technology, 2006.
[7] Kronlachner, M. and Zotter, F., “Spatial Trans-formations for the Enhancement of Ambisonics Recordings,” em 2nd International Conference on Spatial áudio, Erlangen, Alemanha, 2014.
[8] Tsingos, N., Gallo, E., and Drettakis, G., “Perceptual áudio Rendering of Complex Virtual Environments,” ACM Transactions on Graphics, 23(3), páginas 249 a 258, 2004.
[9] Taylor, M., Chandak, A., Mo, Q., Lauterbach, C., Schissler, C., and Manocha, D., “Guided multi-view ray tracing for fast auralization,” /EEE Trans. Visualization & Comp. Graphics, 18, páginas 1.797- a 1.810, 2012.
[10] Rungta, A., Schissler, C., Rewkowski, N., Mehra, R. e Manocha, D., “Diffraction Kernels for Interactive som Propagation in Dynamic Environments,” IEEE Trans. Visualization & Comp. Graphics, 24(4), páginas 1.613 a 1.622, 2018.
[11] Thiergart, O., Kowalczyk, K., and Habets, E. A. P., “An Acoustical Zoom based on Informed Spatial Filtering,” in /nt. Workshop on Acoustic Signal Enhancement, páginas 109 a 113, 2014.
[12] Khaddour, H., Schimmel, J. e Rund, F., “A Novel Combined System of Direction Estimation and Sound Zooming of Multiple Speakers,” Radioengineering, 24(2), 2015.
[13] Ziegler, M., Keinert, J., Holzer, N., Wolf, T., Jaschke, T., op het Veld, R., Zakeri, F. S., and Foessel, S., “IMmersive Virtual Reality for Live-Action Video using Camera Arrays,” em /BC, Amsterdam, Países Baixos, 2017.
[14] Thiergart, O., Galdo, G. D., Taseska, M., and Habets, E. A. P., “Geometry-Based Spatial Sound Acquisition using Distributed Microphone Arrays,”
IEEE Trans. Audio, Speech, Language Process., 21(12), páginas 2.583 a 2.594,
2013.
[15] Kowalczyk, K., Thiergart, O., Taseska, M., Del Galdo, G., Pulkki, V., and Habets, E. A. P., “Parametric Spatial Sound Processing: A Flexible and Efficient Solution to Sound Scene Acquisition, Modification, and Reproduction,” /EEE Signal Process. Mag., 32(2), páginas 31 a 42, 2015.
[16] Pulkki, V., “Spatial Sound Reproduction with Directional Audio Coding,” J. Audio Eng. Soc., 55(6), páginas 503 a 516, 2007.
[17] International Telecommunication Union, “ITU-R BS.1534-3, Method for the subjective assessment of intermediate quality level of audio systems,” 2015.
[18] Thiergart, O., Del Galdo, G., Kuech, F., and Prus, M., “Three- Dimensional Sound Field Analysis with Directional Audio Coding Based on Signal Adaptive Parameter Estimators,” em Audio Eng. Soc. Conv. Spatial Audio: Sense the Sound of Space, 2010.
[19] Kuttruff, H., Room Acoustics, Taylor & Francis, 4º Edição , 2000.
[20] BorB, C., “A polygon-based panning method for 3D loudspeaker setups,” em Audio Eng. Soc. Conv., páginas 343 a 352, Los Angeles, CA, EUA, 2014.
[21] Rummukainen, O., Schlecht, S., Plinge, A., and Habets, E. A. P., “Evaluating Binaural Reproduction Systems from Behavioral Patterns in a Virtual Reality — A Case Study with Impaired Binaural Cues and Tracking Latency,” em Audio Eng. Soc. Conv. 143, Nova lorque, NY, EUA, 2017.
[22] Engelke, U., Darcy, D. P., Mulliken, G. H., Bosse, S., Martini, M. G., Arndt, S., Antons, J-N., Chan, K. Y, Ramzan, N. e Brunnstrôm, K, “Psychophysiology-Based QoE Assessment: A Survey,” /EEE Selected Topics in Signal Processing, 11(1), páginas 6 a 21, 2017.
[23] Schlecht, S. J. and Habets, E. A. P., “Sign-Agnostic Matrix Design for Spatial Artificial Reverberation with Feedback Delay Networks," em Proc. Audio Eng. Soc. Conf., páginas 1 a 10-aceitas, Tóquio, Japão, 2018.
[31] M. A. Gerzon, "Periphony: With-height sound reproduction," J. Acoust.
Soc. Am., volume 21,110. 1, páginas 2 a 10, 1973.
[32] V. Pulkki, "Directional audio coding in spatial sound reproduction and stereo upmixing," em Proc. of the 28th AES International Conference, 2006.
[33] --, "Spatial sound reproduction with directional audio coding," Journal Audio Eng. Soc, volume 55, nº 6, páginas 503 a 516, junho de 2007.
[314] C. G. e G. M., "Coincident microphone simulation covering three dimensional space and yielding various directional outputs," Patente nº U.S. 4 042 779, 1977.
[35] C. Faller and F. Baumgarte, "Binaural cue coding - part ii: Schemes and applications, "IEEE Trans. Speech Audio Process, vol. 11, no. 6, Nov. 2003.
[86] C. Faller, "Parametric multichannel audio coding: Synthesis of coherence cues," IEEE Trans. Speech Audio Process., volume 14, nº 1, janeiro de
2006.
[867] H PR. J. E. E. Schuijers, J. Breebaart, "Low complexity parametric stereo coding," em Proc. of the 116th A ES Convention, Berlin, Alemanha, 2004.
[88] V. Pulkki, "Virtual sound source positioning using vector base amplitude panning," J. Acoust. Soc. A m, volume 45, nº 6, páginas 456 a 466, junho de 1997.
[39] J. G. Tylka and E. Y. Choueiri, "Comparison of techniques for binaural navigation of higher order ambisonics sound fields," em Proc. of the AES International Conference on Audio for Virtual and Augmentead Reality, Nova lorque, setembro de 2016.

Claims (43)

REIVINDICAÇÕES
1. Aparelho para gerar uma descrição aprimorada de campo sonoro caracterizado por compreender: um gerador de campo sonoro (100, 250, 260) para gerar pelo menos uma descrição de campo sonoro que indica um campo sonoro com relação a pelo menos uma localização de referência; e um gerador de metadados (110) para gerar metadados em relação a informações espaciais do campo sonoro, em que a pelo menos uma descrição de campo sonoro e os metadados constituem a descrição aprimorada de campo sonoro.
2. Aparelho, de acordo com a reivindicação 1, caracterizado por o gerador de campo sonoro (100, 250, 260) ser configurado para gerar uma primeira descrição de campo sonoro com relação à localização de referência, em que a primeira descrição de campo sonoro compreende dados de som apenas de fontes sonoras localizadas em um primeiro volume ao redor da localização de referência, em que o gerador de campo sonoro (100, 250, 260) é configurado para gerar a segunda descrição de campo sonoro com relação à localização de referência, em que a segunda descrição de campo sonoro compreende dados de som apenas das segundas fontes localizadas em um segundo volume ao redor da localização de referência, em que o segundo volume é diferente do primeiro volume, e em que o gerador de metadados (110) é configurado para fornecer uma descrição espacial do primeiro volume e/ou do segundo volume.
3. Aparelho, de acordo com a reivindicação 2, caracterizado por o primeiro volume ser uma esfera ao redor da localização de referência e em que o segundo volume é uma coroa esférica ao redor da localização de referência, em que a coroa esférica tem um diâmetro maior que o diâmetro da esfera, ou em que o primeiro volume é uma primeira coroa esférica, e o segundo volume é uma segunda coroa esférica, em que um diâmetro da primeira coroa esférica é inferior a um diâmetro da segunda coroa esférica, em que o gerador de metadados (110) é configurado para fornecer uma descrição espacial da esfera e da coroa esférica ou da primeira coroa esférica e da segunda coroa esférica.
4. Aparelho, de acordo com qualquer uma das reivindicações 2 ou 3, caracterizado por a primeira descrição de campo sonoro e a segunda descrição de campo sonoro serem descrições de Ambisonics ou DirAC.
5. Aparelho, de acordo com qualquer uma das reivindicações 2 a 4, caracterizado por o gerador de campo sonoro (100, 250, 260) ser configurado para determinar o primeiro e o segundo volumes diferentes de maneira estatística ou dependente do campo sonoro.
6. Aparelho, de acordo com qualquer uma das reivindicações 2 a 5, caracterizado por o gerador de metadados (110) ser configurado para determinar uma faixa de distância para cada descrição de campo sonoro, em que a faixa de distância é uniforme para cada volume ou não uniforme, em que, quando a faixa de distância é não uniforme para cada volume, uma faixa de distância para um volume que se estende para mais distante da localização de referência é maior que uma faixa de distância mais próxima da localização de referência.
7. Aparelho, de acordo com qualquer uma das reivindicações 1 a 6, caracterizado por o gerador de campo sonoro (100) ser configurado para gerar, para cada camada dentre uma pluralidade de camadas, uma descrição de DirAC de um campo sonoro que tem um ou mais sinais de mixagem com redução de canais e dados de direção individuais e, opcionalmente, dados sobre capacidade de difusão para diferentes recolhedores de tempo-frequência, e em que o gerador de metadados (110) é configurado para gerar um único item de informações de distância para cada camada.
8. Aparelho, de acordo com qualquer uma das reivindicações | a 7,
caracterizado por compreender uma interface de saída (120) para gerar um sinal de saída para transmissão ou armazenamento, em que o sinal de saída compreende, para um quadro de tempo, um ou mais sinais de áudio derivado do campo sonoro e as informações espaciais para o quadro de tempo.
9. Aparelho, de acordo com qualquer uma das reivindicações 1 a 8, caracterizado por o aparelho ser configurado para gerar a descrição aprimorada de campo sonoro de modo que a descrição aprimorada de campo sonoro compreenda uma primeira descrição de campo sonoro (330), uma segunda descrição de campo sonoro (340) e a informações espaciais (350) na primeira descrição de campo sonoro e a segunda descrição de campo sonoro como os metadados.
10. Aparelho, de acordo com qualquer uma das reivindicações 1 a 9, caracterizado por o gerador de metadados (110) ser configurado para gerar, como os metadados uma primeira informação geométrica (352) para a primeira descrição de campo sonoro, uma segunda informação geométrica (353) para a segunda descrição de campo sonoro.
11. Aparelho, de acordo com a reivindicação 10, caracterizado por a primeira descrição geométrica (352) ser uma primeira distância representativa de um primeiro volume até a posição de referência; em que a segunda informação geométrica (353) ser uma segunda distância representativa de um segundo volume até o ponto de referência, em que o ponto de referência é a localização de referência ou vetor que aponta da localização de referência para o ponto de referência.
12. Aparelho para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro caracterizado por compreender: um calculador de campo sonoro (420) para calcular o campo sonoro modificado com o uso das informações espaciais, a descrição de campo sonoro e uma informação de translação que indica uma translação de uma localização de referência para uma localização de referência diferente.
13. Aparelho, de acordo com a reivindicação 12, caracterizado por o campo sonoro calculador (420) ser configurado para receber, como a descrição de campo sonoro, uma primeira descrição de campo sonoro de camada e uma segunda descrição de campo sonoro de camada, realizar uma separação de fonte na primeira e segunda descrições de campo sonoro de camada, a fim de extrair fontes da primeira e da segunda descrições de campo sonoro de camada e direção dos dados de chegada (DoA) para fontes extraídas, calcular, para cada fonte extraída, dados de DoA modificados com relação a uma localização diferente com o uso dos dados de DoA e as informações de translação, e processar as fontes extraídas e os dados de DoA modificados para obter a descrição modificada de campo sonoro.
14. Aparelho, de acordo com as reivindicações 12 ou 13, caracterizado por o campo sonoro calculador (420) ser configurado para realizar individualmente a separação de fonte para cada descrição de campo sonoro de camada e extrair um sinal de ambiência/difuso/residual para cada camada, ou realizar a separação de fonte para todas as camadas juntas e extrair um sinal único de ambiência/difuso/residual para pelo menos duas camadas.
15. Aparelho, de acordo com qualquer uma das reivindicações 12 a 14 caracterizado por o campo sonoro calculador (420) ser configurado para gerar, para cada fonte de extraída, uma descrição de campo sonoro com o uso dos dados de DoA modificados, selecionar descrições de campo sonoro de fontes sonoras com base em uma distância entre a fonte de extraída correspondente e a localização de referência diferente para uma camada específica e para adicionar a descrição de campo sonoro de cada fonte selecionada na camada a fim de obter uma descrição modificada de campo sonoro de camada, ou adicionar a descrição de campo sonoro de cada fonte no cenário sonoro a fim de obter uma descrição modificada de campo sonoro geral.
16. Aparelho, de acordo com a reivindicação 15, caracterizado por o calculador de campo sonoro (420) ser configurado para adicionar um sinal de ambiência/difuso/residual para cada camada no cálculo uma descrição modificada de campo sonoro de camada ou para calcular um sinal de ambiência/difuso/residual único de modo a ser adicionado à descrição de campo sonoro geral.
17. Aparelho, de acordo com qualquer uma das reivindicações 12 a 16, caracterizado por o calculador de campo sonoro (420) ser configurado para calcular, para cada fonte, uma distância modificada e para calcular uma descrição modificada de campo sonoro de camada com o uso das distâncias modificadas das fontes extraídas.
18. Aparelho, de acordo com qualquer uma das reivindicações 12 a 17, caracterizado por o calculador de campo sonoro (420) ser configurado para adicionar, para cada componente correspondente de cada descrição de campo sonoro de camada, as descrições de campo sonoro de camada para obter uma descrição de campo sonoro geral.
19. Aparelho, de acordo com qualquer uma das reivindicações 12 a 18, caracterizado por o calculador de campo sonoro (420) ser configurado para aplicar uma rotação à descrição modificada de campo sonoro, em que a descrição modificada de campo sonoro é uma descrição de campo sonoro de camada ou uma descrição de campo sonoro geral em relação à localização de referência diferente.
20. Aparelho, de acordo com qualquer uma das reivindicações 12 a 19, caracterizado por o calculador de campo sonoro (420) ser configurado, para cada camada, para calcular, para uma descrição de DirAC como a descrição de campo sonoro, os dados de direção modificada para diferentes recolhedores de tempo- frequência com o uso dos dados de direção, das informações de profundidade e das informações de translação, e renderizar a descrição de DIrAC com o uso dos dados de direção modificada para uma descrição de som que compreende uma pluralidade de canais de áudio ou a fim de transmitir ou armazenar a descrição de DirAC com o uso dos dados de direção modificada em vez dos dados de direção para recolhedores de tempo-frequência e opcionalmente dados sobre capacidade de difusão iguais aos incluídos na descrição de DirAC.
21. Aparelho, de acordo com qualquer uma das reivindicações 12 a 20, caracterizado por o calculador de campo sonoro (420) ser configurado para determinar, para cada camada, para um recolhedor de tempo-frequência, manter os dados de direção ou calcular um dado de direção modificada com base nos dados sobre capacidade de difusão para o recolhedor de tempo-frequência, em que um dado de direção modificada é calculado apenas para um dado sobre capacidade de difusão que indica que a capacidade de difusão é inferior a um nível de capacidade de difusão predefinido ou adaptável.
22. Aparelho, de acordo com qualquer uma das reivindicações 12 a 21, caracterizado por compreender: uma interface de translação (410) para fornecer as informações de translação ou informações de rotação que indica uma rotação de um ouvinte destinado para o campo sonoro modificado; um fornecedor de metadados (402, 400) para fornecer os metadados ao calculador de campo sonoro (420); um fornecedor de campo sonoro (404, 400) para fornecer a descrição de campo sonoro ao calculador de campo sonoro (420); e uma interface de saída (421) para emitir o campo sonoro modificado que compreende a descrição modificada de campo sonoro e metadados modificados, em que os metadados modificados são derivados dos metadados com o uso das informações de translação ou para emitir uma pluralidade de canais de alto-falante, sendo que cada canal de alto-falante está relacionado a uma posição de alto-falante predefinida ou para emitir uma representação binaural do campo sonoro modificado.
23. Aparelho, de acordo com qualquer uma das reivindicações 12 a 22, caracterizado por a descrição de campo sonoro compreende, para cada camada, pluralidade de componentes de campo sonoro, em que a pluralidade de componentes de campo sonoro compreende um componente omnidirecional e pelo menos um componente direcional, em que o calculador de campo sonoro (420) ser configurado, para cada camada, para um analisador de campo sonoro (422) para analisar os componentes de campo sonoro a fim de derivar, para diferentes recolhedores de frequência, a direção das informações de chegada; um transformador de translação (423) para calcular direção modificada de informações de chegada por recolhedor de frequência com o uso das informações e metadados de direção, em que os metadados compreendem um mapa de profundidade que associa uma informação de distância a uma camada; e um compensador de distância para calcular o campo sonoro modificado com o uso de uma informação de compensação de distância que depende da distância fornecida pelo mapa de profundidade para a camada e uma nova distância associada ao recolhedor de frequência que está relacionada à direção modificada de informações de chegada.
24. Aparelho, de acordo com qualquer uma das reivindicações 12 a 23, caracterizado por o calculador de campo sonoro (420) ser configurado, para cada camada, para calcular (1104) um primeiro vetor que aponta da localização de referência a uma fonte sonora (510) obtida pela análise (1102) do campo sonoro; calcular (1106) um segundo vetor que aponta da localização de referência diferente (500) para a fonte sonora (510) com o uso do primeiro vetor e as informações de translação, em que as informações de translação definem um vetor de translação da localização de referência (522) para a localização de referência diferente (500); e calcular (1106) um valor de modificação de distância com o uso da localização de referência diferente (500), uma localização da fonte sonora (510), e o segundo vetor ou com o uso de uma distância da localização de referência diferente (500) para a localização da fonte sonora (510) e o segundo vetor.
25. Aparelho, de acordo com qualquer uma das reivindicações 13 a 24, caracterizado por um primeiro vetor ser calculado multiplicando-se uma direção do vetor de unidade de chegada por uma distância incluída nos metadados, ou em que um segundo vetor é calculado subtraindo-se o vetor de translação do primeiro vetor, ou em que o valor de modificação de distância é calculado dividindo-se o segundo vetor por uma norma do primeiro vetor.
26. Aparelho, de acordo com qualquer uma das reivindicações 13 a 25, caracterizado por o calculador de campo sonoro (420) ser configurado para receber, além das informações de translação, uma informação de rotação, e em que o calculador de campo sonoro (420) é configurado para realizar uma transformação de rotação (424) para girar em uma direção dos dados de chegada para um campo sonoro com o uso das informações de rotação, em que a direção dos dados de chegada é derivada de uma direção dos dados de chegada obtidos por uma análise de campo sonoro da descrição de campo sonoro e com o uso das informações de translação.
27. Aparelho, de acordo com qualquer uma das reivindicações 13 a 26, caracterizado por o calculador de campo sonoro (420) ser configurado, para cada camada, para determinar (1200, 1240) fontes da descrição de campo sonoro e direções das fontes por uma análise de campo sonoro; determinar (1220), para cada fonte, uma distância da fonte da localização de referência com o uso dos metadados; determinar (1250) uma nova direção da fonte em relação à localização de referência diferente com o uso da direção para a fonte e as informações de translação; determinar (1230) um a nova informação de distância para a fonte em relação à localização de referência diferente; e gerar (1260) o campo sonoro modificado com o uso da nova direção da fonte, as novas informações de distância, e a descrição de campo sonoro ou sinais de fonte correspondentes às fontes derivadas da descrição de campo sonoro.
28. Aparelho, de acordo com qualquer uma das reivindicações 13 a 27, caracterizado por o calculador de campo sonoro ser configurado, para cada camada, para determinar (1200) sinais de fonte da descrição de campo sonoro e direções dos sinais de fonte em relação à localização de referência por uma análise de som; calcular (1230) novas direções dos sinais de fonte em relação à localização de referência diferente com o uso das informações de translação; calcular (1230) informações de distância para as fontes sonoras em relação à localização de referência diferente; e sintetizar (1260) o campo sonoro modificado com o uso das informações de distância, os sinais de fonte e as novas direções.
29. Aparelho, de acordo com a reivindicação 28, caracterizado por o calculador de campo sonoro (420) ser configurado para: sintetizar o campo sonoro modificado realizando-se um movimento panorâmico de um sinal de fonte sonora em uma direção fornecida pela nova direção em relação a uma preparação de reprodução, e escalando-se o sinal de fonte sonora com o uso das informações de distância antes da realização do movimento panorâmico ou subsequente à realização do movimento panorâmico.
30. Aparelho, de acordo com as reivindicações 28 ou 29, caracterizado por o calculador de campo sonoro (420) ser configurado para adicionar, para cada camada, ou apenas a uma única camada, um sinal difuso para uma parte direta do sinal de fonte sonora, em que a parte direta é modificada pelas informações de distância antes será adicionado ao sinal difuso.
31. Aparelho, de acordo com qualquer uma das reivindicações 28 a 30, caracterizado por o calculador de campo sonoro (420) ser configurado, para cada camada, para realizar uma conversão de tempo-frequência da descrição de campo sonoro e calcular (422) uma direção de chegada para uma pluralidade de recolhedores de frequência de um quadro de tempo; calcular (423, 424) a nova direção para cada recolhedor de frequência, calcular as informações de distância para cada recolhedor de frequência, e realizar uma síntese direta para cada recolhedor de frequência com o uso de um sinal de áudio para um recolhedor de frequência, um ganho de movimento panorâmico para o recolhedor de frequência que é derivado da nova direção para o recolhedor de frequência e um valor de escalonamento para o recolhedor de frequência derivado das informações de distância para a camada correspondente.
32. Aparelho, de acordo com a reivindicação 31, caracterizado por o calculador de campo sonoro (420) ser configurado para, para cada camada, realizar uma síntese difusa com o uso de um sinal de áudio difuso derivado do sinal de áudio para o recolhedor de frequência e com o uso de um parâmetro de capacidade de difusão derivado pela análise de som para o recolhedor de frequência e para combinar a parte direta e a parte difusa a fim de obter um sinal de áudio sintetizado para o recolhedor de frequência; e realizar uma conversão de frequência-tempo com o uso dos sinais de áudio para os recolhedores de frequência para um quadro de tempo a fim de obter um sinal de áudio sintetizado de domínio de tempo como o campo sonoro modificado.
33. Aparelho, de acordo com qualquer uma das reivindicações 28 a 32, caracterizado por o calculador de campo sonoro (420) ser configurado para sintetizar, para cada fonte sonora, um campo sonoro em relação à localização de referência diferente, sendo que a síntese compreende: para cada fonte, processar (430) um sinal de fonte com o uso da nova direção para que o sinal de fonte obtenha uma descrição de campo sonoro do sinal de fonte em relação à localização de referência diferente; modificar a sinal de fonte antes de processar o sinal de fonte ou modificar a descrição de campo sonoro com o uso das informações de direção; e adicionar as descrições de campo sonoro para que as fontes obtenham um campo sonoro modificado em relação à localização de referência diferente.
34. Aparelho, de acordo com qualquer uma das reivindicações 28 a 33, caracterizado por a análise de som (1200) ser configurada para determinar os sinais de fonte por um algoritmo de separação de fonte e subtrair pelo menos alguns dos sinais de fonte da descrição de campo sonoro para obter o sinal difuso.
35. Aparelho, de acordo com qualquer uma das reivindicações 12 a 34, caracterizado por o calculador de campo sonoro (420) ser configurado para receber, para cada descrição de campo sonoro de camada, uma distância representativa para a descrição de campo sonoro de camada dos metadados, em que o calculador de campo sonoro é configurado para determinar um valor de escalonamento para uma fonte determinada a partir de uma descrição de campo sonoro de camada com o uso de uma determinação, se a fonte permanece na mesma camada com relação a uma nova posição de referência determinadas pelas informações de translação, em que o valor de escalonamento é determinado como maior que um,
caso a fonte esteja em uma camada inferior com relação à localização de referência diferente, ou em que o valor de escalonamento é determinado como inferior a um, caso a fonte esteja em uma camada superior com relação à localização de referência diferente.
36. Aparelho, de acordo com qualquer uma das reivindicações 12 a 35, caracterizado por o calculador de campo sonoro ser configurado para analisar cada descrição de campo sonoro de camada, para obter uma direção de informações de chegada para cada fonte incluída na descrição de campo sonoro de camada, analisar uma distância of a fonte da descrição de campo sonoro de camada para a nova localização de referência com o uso da direção das informações de chegada e dos metadados para a descrição de campo sonoro de camada, e determinar um fator de escalonamento com o uso da distância da fonte da descrição de campo sonoro de camada para a nova localização de referência e os metadados para a descrição de campo sonoro, a partir dos quais a fonte foi extraída.
37. Aparelho, de acordo com a reivindicação 36, caracterizado por o calculador de campo sonoro ser configurado para determinar uma distância da nova localização de referência até a posição da fonte com o uso da posição da fonte e das informações de translação, e comparar a distância à nova localização de referência a uma distância representativa de uma camada ao redor da localização de referência diferente, de modo que a fonte seja renderizada para uma camada ao redor da localização de referência diferente em conformidade com a comparação.
38. Aparelho, de acordo com qualquer uma das reivindicações 12 a 37, caracterizado por o calculador de campo sonoro (420) ser configurado para formar, para uma fonte, um primeiro vetor a partir da localização de referência até a fonte com o uso da direção de informações de chegada e das informações geométricas, em que as mesmas informações geométricas são usadas para cada fonte em uma descrição de campo sonoro de camada, em que o calculador de campo sonoro (420) é configurado para formar um segundo vetor a partir do primeiro vetor e das informações de translação para cada fonte na descrição de campo sonoro de camada, e em que o calculador de campo sonoro é configurado para calcular o valor de escalonamento para cada fonte dividindo-se um comprimento do segundo vetor por um comprimento do primeiro vetor.
39. Método para gerar uma descrição aprimorada de campo sonoro caracterizado por compreender: gerar pelo menos uma descrição de campo sonoro que indica um campo sonoro com relação a pelo menos uma localização de referência; e gerar metadados em relação a informações espaciais do campo sonoro, em que a pelo menos uma descrição de campo sonoro e os metadados constituem a descrição aprimorada de campo sonoro.
40. Método para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro, sendo que o método é caracterizado por compreender: calcular o campo sonoro modificado com o uso das informações espaciais, a descrição de campo sonoro e uma informação de translação que indica uma translação de uma localização de referência a partir de uma localização de referência diferente.
41. Programa de computador caracterizado por realizar, quando é executado em um computador ou processador, o método, de acordo com a reivindicação 39, ou o método, de acordo com a reivindicação 40.
42. Descrição aprimorada de campo sonoro caracterizada por compreender pelo menos uma descrição de campo sonoro que indica um campo sonoro com relação a pelo menos uma localização de referência e metadados em relação a informações espaciais do campo sonoro.
43. Descrição aprimorada de campo sonoro, de acordo com a reivindicação 42, caracterizado por a pelo menos uma descrição de campo sonoro compreende a primeira descrição de campo sonoro com relação à localização de referência, em que a primeira descrição de campo sonoro compreende dados de som apenas das fontes sonoras localizadas em um primeiro volume ao redor da localização de referência, e uma segunda descrição de campo sonoro com relação à localização de referência, em que a segunda descrição de campo sonoro compreende dados de som apenas das segundas fontes localizadas em um segundo volume ao redor da localização de referência, em que o segundo volume é diferente do primeiro volume, e em que os dos metadados compreendem uma descrição espacial do primeiro volume e/ou do segundo volume.
BR112020000759-5A 2017-07-14 2018-07-13 aparelho para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro, método para gerar uma descrição aprimorada de campo sonoro, método para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro, programa de computador, descrição aprimorada de campo sonoro BR112020000759A2 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17181484 2017-07-14
EP17181484.1 2017-07-14
PCT/EP2018/069145 WO2019012133A1 (en) 2017-07-14 2018-07-13 CONCEPT OF GENERATING AN ENHANCED AUDIO FIELD DESCRIPTION OR A MODIFIED AUDIO FIELD DESCRIPTION USING A MULTILAYER DESCRIPTION

Publications (1)

Publication Number Publication Date
BR112020000759A2 true BR112020000759A2 (pt) 2020-07-14

Family

ID=59631529

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112020000759-5A BR112020000759A2 (pt) 2017-07-14 2018-07-13 aparelho para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro, método para gerar uma descrição aprimorada de campo sonoro, método para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro, programa de computador, descrição aprimorada de campo sonoro

Country Status (14)

Country Link
US (2) US11153704B2 (pt)
EP (1) EP3652736A1 (pt)
JP (1) JP6983484B2 (pt)
KR (2) KR102652670B1 (pt)
CN (1) CN111183479B (pt)
AR (1) AR112504A1 (pt)
AU (2) AU2018298876A1 (pt)
BR (1) BR112020000759A2 (pt)
CA (1) CA3069403C (pt)
RU (1) RU2740703C1 (pt)
SG (1) SG11202000285QA (pt)
TW (1) TWI692753B (pt)
WO (1) WO2019012133A1 (pt)
ZA (1) ZA202000023B (pt)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109683845B (zh) * 2017-10-18 2021-11-23 宏达国际电子股份有限公司 声音播放装置、方法及非暂态存储媒体
US11019449B2 (en) * 2018-10-06 2021-05-25 Qualcomm Incorporated Six degrees of freedom and three degrees of freedom backward compatibility
US11432097B2 (en) * 2019-07-03 2022-08-30 Qualcomm Incorporated User interface for controlling audio rendering for extended reality experiences
US11430451B2 (en) 2019-09-26 2022-08-30 Apple Inc. Layered coding of audio with discrete objects
BR112022013235A2 (pt) * 2020-01-10 2022-09-06 Sony Group Corp Dispositivo e método de codificação, programa para fazer com que um computador execute processamento, dispositivo de decodificação, e, método de decodificação desempenhado
CN113747335A (zh) * 2020-05-29 2021-12-03 华为技术有限公司 音频渲染方法及装置
US20210409888A1 (en) * 2020-06-29 2021-12-30 Qualcomm Incorporated Sound field adjustment
KR20240049682A (ko) * 2021-09-03 2024-04-16 돌비 레버러토리즈 라이쎈싱 코오포레이션 공간 메타데이터 출력을 이용하는 음악 신디사이저
GB2614254A (en) * 2021-12-22 2023-07-05 Nokia Technologies Oy Apparatus, methods and computer programs for generating spatial audio output
GB2620591A (en) * 2022-07-12 2024-01-17 Frontier Dev Ltd System for audio and video simulation

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1512514A (en) 1974-07-12 1978-06-01 Nat Res Dev Microphone assemblies
JPH08107600A (ja) 1994-10-04 1996-04-23 Yamaha Corp 音像定位装置
US5970152A (en) 1996-04-30 1999-10-19 Srs Labs, Inc. Audio enhancement system for use in a surround sound environment
JP2006074589A (ja) 2004-09-03 2006-03-16 Matsushita Electric Ind Co Ltd 音響処理装置
EP2205007B1 (en) 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
EP2346028A1 (en) 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
WO2012072798A1 (en) * 2010-12-03 2012-06-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sound acquisition via the extraction of geometrical information from direction of arrival estimates
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
EP2541547A1 (en) 2011-06-30 2013-01-02 Thomson Licensing Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation
EP2600343A1 (en) 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for merging geometry - based spatial audio coding streams
EP2600637A1 (en) 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for microphone positioning based on a spatial power density
EP2805326B1 (en) 2012-01-19 2015-10-14 Koninklijke Philips N.V. Spatial audio rendering and encoding
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
KR101828448B1 (ko) * 2012-07-27 2018-03-29 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 확성기-인클로져-마이크로폰 시스템 표현을 제공하기 위한 장치 및 방법
JP6085029B2 (ja) 2012-08-31 2017-02-22 ドルビー ラボラトリーズ ライセンシング コーポレイション 種々の聴取環境におけるオブジェクトに基づくオーディオのレンダリング及び再生のためのシステム
WO2014080074A1 (en) 2012-11-20 2014-05-30 Nokia Corporation Spatial audio enhancement apparatus
CN104019885A (zh) * 2013-02-28 2014-09-03 杜比实验室特许公司 声场分析系统
US9959875B2 (en) 2013-03-01 2018-05-01 Qualcomm Incorporated Specifying spherical harmonic and/or higher order ambisonics coefficients in bitstreams
US9466305B2 (en) * 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9384741B2 (en) 2013-05-29 2016-07-05 Qualcomm Incorporated Binauralization of rotated higher order ambisonics
US10499176B2 (en) * 2013-05-29 2019-12-03 Qualcomm Incorporated Identifying codebooks to use when coding spatial components of a sound field
CN104244164A (zh) 2013-06-18 2014-12-24 杜比实验室特许公司 生成环绕立体声声场
US20150127354A1 (en) 2013-10-03 2015-05-07 Qualcomm Incorporated Near field compensation for decomposed representations of a sound field
EP2866475A1 (en) 2013-10-23 2015-04-29 Thomson Licensing Method for and apparatus for decoding an audio soundfield representation for audio playback using 2D setups
DE102013225892A1 (de) 2013-12-13 2015-06-18 Robert Bosch Gmbh Schrägscheibenmaschine, Schrägscheibe und Verfahren zur hydrostatischen Entlastung einer Stellteilanbindung einer Schrägscheibenmaschine und zum Druckabbau eines Arbeitsmediums während eines Umsteuervorgangs der Schrägscheibenmaschine
CN109996166B (zh) 2014-01-16 2021-03-23 索尼公司 声音处理装置和方法、以及程序
US10412522B2 (en) 2014-03-21 2019-09-10 Qualcomm Incorporated Inserting audio channels into descriptions of soundfields
EP3007167A1 (en) 2014-10-10 2016-04-13 Thomson Licensing Method and apparatus for low bit rate compression of a Higher Order Ambisonics HOA signal representation of a sound field
CN105635635A (zh) 2014-11-19 2016-06-01 杜比实验室特许公司 调节视频会议系统中的空间一致性
JP6841229B2 (ja) * 2015-12-10 2021-03-10 ソニー株式会社 音声処理装置および方法、並びにプログラム
US10659906B2 (en) * 2017-01-13 2020-05-19 Qualcomm Incorporated Audio parallax for virtual reality, augmented reality, and mixed reality
US10182303B1 (en) 2017-07-12 2019-01-15 Google Llc Ambisonics sound field navigation using directional decomposition and path distance estimation

Also Published As

Publication number Publication date
KR20220044973A (ko) 2022-04-12
AR112504A1 (es) 2019-11-06
ZA202000023B (en) 2021-10-27
CA3069403C (en) 2023-05-09
KR20200041860A (ko) 2020-04-22
CN111183479B (zh) 2023-11-17
EP3652736A1 (en) 2020-05-20
CA3069403A1 (en) 2019-01-17
US11153704B2 (en) 2021-10-19
US11863962B2 (en) 2024-01-02
KR102540642B1 (ko) 2023-06-08
WO2019012133A1 (en) 2019-01-17
TWI692753B (zh) 2020-05-01
AU2021225242A1 (en) 2021-09-30
KR102652670B1 (ko) 2024-04-01
TW201909170A (zh) 2019-03-01
US20200145776A1 (en) 2020-05-07
AU2021225242B2 (en) 2023-07-06
CN111183479A (zh) 2020-05-19
AU2018298876A1 (en) 2020-02-27
SG11202000285QA (en) 2020-02-27
JP2020527745A (ja) 2020-09-10
JP6983484B2 (ja) 2021-12-17
RU2740703C1 (ru) 2021-01-20
US20210289310A1 (en) 2021-09-16

Similar Documents

Publication Publication Date Title
US11950085B2 (en) Concept for generating an enhanced sound field description or a modified sound field description using a multi-point sound field description
JP7122793B2 (ja) 深度拡張DirAC技術またはその他の技術を使用して、拡張音場記述または修正音場記述を生成するための概念
BR112020000759A2 (pt) aparelho para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro, método para gerar uma descrição aprimorada de campo sonoro, método para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro, programa de computador, descrição aprimorada de campo sonoro

Legal Events

Date Code Title Description
B350 Update of information on the portal [chapter 15.35 patent gazette]
B06W Patent application suspended after preliminary examination (for patents with searches from other patent authorities) chapter 6.23 patent gazette]