BR112020012299A2 - método e sistema para manuseio de transições globais entre posições de ouvinte em um ambiente de realidade virtual - Google Patents

método e sistema para manuseio de transições globais entre posições de ouvinte em um ambiente de realidade virtual Download PDF

Info

Publication number
BR112020012299A2
BR112020012299A2 BR112020012299-8A BR112020012299A BR112020012299A2 BR 112020012299 A2 BR112020012299 A2 BR 112020012299A2 BR 112020012299 A BR112020012299 A BR 112020012299A BR 112020012299 A2 BR112020012299 A2 BR 112020012299A2
Authority
BR
Brazil
Prior art keywords
source
audio
destination
listener
audio signal
Prior art date
Application number
BR112020012299-8A
Other languages
English (en)
Inventor
Leon Terentiv
Christof FERSCH
Daniel Fischer
Original Assignee
Dolby International Ab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International Ab filed Critical Dolby International Ab
Publication of BR112020012299A2 publication Critical patent/BR112020012299A2/pt

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Computer Graphics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Stereophonic System (AREA)

Abstract

Um método (900) para renderizar áudio em um ambiente de renderização de realidade virtual (180) é descrito. O método (900) compreende renderizar (901), um sinal de áudio de origem de uma fonte de áudio de origem (113) de uma cena de áudio de origem (111) a partir de uma posição de fonte de origem em uma esfera (114) em torno de uma posição de ouvinte de origem ( 201) de um ouvinte (181). Além disso, o método (900) compreende determinar (902) que o ouvinte (181) se move a partir da posição de ouvinte (201) dentro da cena de áudio de origem (111) para uma posição de ouvinte (202) dentro de uma cena de áudio de destino diferente (112). Além disso, o método (900) compreende a aplicar (903) um ganho de saída gradual para o sinal de áudio de origem para determinar um sinal de áudio de origem modificado e renderizar (903) o sinal de áudio de origem modificado a partir da fonte de áudio de origem (113) de a posição da fonte de origem na esfera (114) em torno da posição de ouvinte (201, 202).

Description

“MÉTODO E SISTEMA PARA MANUSEIO DE TRANSIÇÕES GLOBAIS ENTRE POSIÇÕES DE OUVINTE EM UM AMBIENTE DE REALIDADE VIRTUAL” REFERÊNCIA CRUZADA A PEDIDOS RELACIONADOS
[001] Este pedido reivindica prioridade para o os seguintes pedidos de prioridade: Pedido Provisório dos Estados Unidos nº. 62/599.841 (referência: D17085USP1), depositado em 18 de dezembro de 2017 e pedido de EP 17208088.9 (referência: D17085EP), depositado em 18 de dezembro de 2017, cujas descrições encontram-se inteiramente incorporadas ao presente por referência.
CAMPO DA TÉCNICA
[002] O presente documento se refere a um manuseio eficiente e consistente de transições entre portas de visualização auditivas e/ou posições de ouvinte em um ambiente de renderização de realidade virtual (VR).
ANTECEDENTES DA INVENÇÃO
[003] Os aplicativos de realidade virtual (VR), realidade aumentada (AR) e realidade mista (MR) estão evoluindo rapidamente para incluir modelos acústicos cada vez mais refinados de fontes de som e cenas que podem ser apreciadas de diferentes pontos de vista/perspectivas ou posições de ouvinte. Duas classes diferentes de representações de áudio flexíveis podem, por exemplo, ser empregadas para aplicações de VR: representações de campos de som e representações baseadas em objetos. As representações do campo de som são abordagens baseadas fisicamente que codificam a frente de onda incidente na posição de ouvinte.
Por exemplo, abordagens como ambissônicos de ordem superior (HOA) ou formato B representam a frente de onda espacial usando uma decomposição harmônica esférica. As abordagens baseadas em objetos representam uma cena auditiva complexa como uma coleção de elementos singulares que compreendem uma forma de onda de áudio ou sinal de áudio e parâmetros ou metadados associados, possivelmente com variação temporal.
[004] Apreciar os aplicativos de VR, AR e MR pode incluir experimentar pontos de vista ou perspectivas auditivas diferentes pelo usuário. Por exemplo, a realidade virtual baseada em sala pode ser fornecida com base em um mecanismo usando 6 graus de liberdade (DoF). FIG. 1 ilustra um exemplo de interação 6 DoF que mostra o movimento de translação (frente/trás, cima/baixo e esquerda/direita) e movimento de rotação (inclinação, guinada e rotação). Ao contrário de uma experiência de vídeo esférica de 3 DoF, limitada às rotações da cabeça, o conteúdo criado para a interação com 6 DoF também permite a navegação em um ambiente virtual (por exemplo, caminhar fisicamente dentro de uma sala), além das rotações da cabeça. Isso pode ser realizado com base em rastreadores posicionais (por exemplo, baseados em câmera) e rastreadores orientacionais (por exemplo, giroscópios e/ou acelerômetros).
A tecnologia de rastreamento de 6DoF pode estar disponível em sistemas de VR de desktop de ponta (por exemplo, PlayStation®VR, Oculus Rift, HTC Vive), bem como em plataformas móveis de VR de ponta (por exemplo, Google Tango). A experiência do usuário de direcionalidade e extensão espacial de fontes de som ou áudio é fundamental para o realismo de experiências de 6DoF, particularmente uma experiência de navegação através de uma cena e em torno de fontes de áudio virtuais.
[005] Os sistemas de renderização de áudio disponíveis (como o renderizador de áudio 3D MPEG-H) geralmente são limitados à renderização de 3 DoFs (isto é, movimento rotacional de uma cena de áudio causada por um movimento da cabeça de um ouvinte). Alterações transacionais da posição de ouvinte de um ouvinte e dos DoFs associados normalmente não podem ser manipulados por esses renderizadores.
[006] O presente documento é direcionado ao problema técnico de fornecer métodos e sistemas eficientes em recursos para lidar com o movimento de translação no contexto da renderização de áudio.
SUMÁRIO
[007] De acordo com um aspecto, é descrito um método para renderizar áudio em um ambiente de renderização de realidade virtual. O método compreende renderizar um sinal de áudio de origem de uma fonte de áudio de origem de uma cena de áudio de origem a partir de uma posição de fonte de origem em uma esfera em torno de uma posição de ouvinte de origem de um ouvinte. Além disso, o método compreende determinar que o ouvinte se move a partir da posição de ouvinte dentro da cena de áudio de origem para uma posição de ouvinte dentro de uma cena de áudio de destino diferente. Além disso, o método compreende aplicar um ganho de saída gradual ao sinal de áudio de origem para determinar um sinal de áudio de origem modificado. O método compreende ainda renderizar o sinal de áudio de origem modificado da fonte de áudio de origem a partir da posição da fonte de origem na esfera em torno da posição de ouvinte.
[008] De acordo com um aspecto adicional, é descrito um renderizador de áudio de realidade virtual para renderizar áudio em um ambiente de renderização de realidade virtual. O renderizador de áudio de realidade virtual é configurado para renderizar um sinal de áudio de origem de uma fonte de áudio de origem de uma cena de áudio de origem a partir de uma posição de fonte de origem em uma esfera em torno de uma posição de ouvinte de um ouvinte. Além disso, o renderizador de áudio de realidade virtual é configurado para determinar que o ouvinte se move a partir da posição de ouvinte dentro da cena de áudio de origem para uma posição de ouvinte dentro de uma cena de áudio de destino diferente. Além disso, o renderizador de áudio de realidade virtual está configurado para aplicar um ganho de saída gradual ao sinal de áudio de origem para determinar um sinal de áudio de origem modificado e para renderizar o sinal de áudio de origem modificado da fonte de áudio de origem a partir da posição da fonte de origem na esfera em torno da posição de ouvinte.
[009] De acordo com um aspecto adicional, é descrito um método para gerar um fluxo de bits indicativo de um sinal de áudio a ser renderizado dentro de um ambiente de renderização de realidade virtual. O método compreende: determinar um sinal de áudio de origem de uma fonte de áudio de origem de uma cena de áudio de origem; determinar dados de posição de origem em relação a uma posição de fonte de origem da fonte de áudio de origem; gerar um fluxo de bits compreendendo o sinal de áudio de origem e os dados de posição de origem; receber uma indicação de que um ouvinte se move a partir da cena de áudio de origem para uma cena de áudio de destino dentro do ambiente de renderização de realidade virtual; determinar um sinal de áudio de destino de uma fonte de áudio de destino da cena de áudio de destino; determinar dados da posição de destino em relação a uma posição da fonte de destino da fonte de áudio de destino; e gerar um fluxo de bits compreendendo o sinal de áudio de destino e os dados da posição de destino.
[010] De acordo com outro aspecto, é descrito um codificador configurado para gerar um fluxo de bits indicativo de um sinal de áudio a ser renderizado dentro de um ambiente de renderização de realidade virtual. O codificador está configurado para: determinar um sinal de áudio de origem de uma fonte de áudio de origem de uma cena de áudio de origem; determinar os dados da posição de origem em relação a uma posição da fonte de origem da fonte de áudio de origem; gerar um fluxo de bits compreendendo o sinal de áudio de origem e os dados de posição de origem; receber uma indicação de que um ouvinte se move a partir da cena de áudio de origem para uma cena de áudio de destino dentro do ambiente de renderização de realidade virtual; determinar um sinal de áudio de destino de uma fonte de áudio de destino da cena de áudio de destino; determinar os dados da posição de destino em relação a uma posição da fonte de destino da fonte de áudio de destino; e gerar um fluxo de bits compreendendo o sinal de áudio de destino e os dados da posição de destino.
[011] De acordo com um aspecto adicional, é descrito um renderizador de áudio de realidade virtual para renderizar um sinal de áudio em um ambiente de renderização de realidade virtual. O renderizador de áudio compreende um renderizador de áudio 3D que está configurado para renderizar um sinal de áudio de uma fonte de áudio a partir de uma posição de fonte em uma esfera em torno de uma posição de ouvinte de um ouvinte dentro do ambiente de renderização de realidade virtual. Além disso, o renderizador de áudio de realidade virtual compreende uma unidade de pré-processamento que é configurada para determinar uma nova posição de ouvinte do ouvinte dentro do ambiente de renderização de realidade virtual. Além disso, a unidade de pré-processamento está configurada para atualizar o sinal de áudio e a posição da fonte da fonte de áudio em relação a uma esfera em torno da nova posição de ouvinte. O renderizador de áudio 3D está configurado para renderizar o sinal de áudio atualizado da fonte de áudio a partir da posição de fonte atualizada na esfera em torno da nova posição de ouvinte.
[012] De acordo com outro aspecto, um programa de software é descrito. O programa de software pode ser adaptado para execução em um processador e para executar as etapas do método descritas no presente documento quando executadas no processador.
[013] De acordo com outro aspecto, um meio de armazenamento é descrito.
O meio de armazenamento pode compreender um programa de software adaptado para execução em um processador e para executar as etapas do método descritas no presente documento quando executadas no processador.
[014] De acordo com outro aspecto, um produto de programa de computador é descrito. O programa de computador pode compreender instruções executáveis para executar as etapas do método descritas no presente documento quando executadas em um computador.
[015] Deve-se notar que os métodos e sistemas, incluindo suas modalidades preferenciais, conforme descritos no presente pedido de patente, podem ser utilizados de forma independente ou em combinação com os outros métodos e sistemas divulgados neste documento. Além disso, todos os aspectos dos métodos e sistemas descritos no presente pedido de patente podem ser arbitrariamente combinados. Em particular, os recursos das reivindicações podem ser combinados entre si de maneira arbitrária.
BREVE DESCRIÇÃO DAS FIGURAS
[016] A invenção é explicada abaixo de uma maneira exemplar com referência aos desenhos anexos, em que
[017] A Fig. 1a mostra um exemplo de sistema de processamento de áudio para fornecer 6 áudio DoF;
[018] A Fig. 1b mostra exemplos de situações dentro de um ambiente de áudio e/ou renderização de 6 DoF;
[019] A Fig. 1c mostra um exemplo de transição a partir de uma cena de áudio de origem para uma cena de áudio de destino;
[020] A Fig. 2 ilustra um exemplo de esquema para determinar sinais de áudios espaciais durante uma transição entre diferentes cenas de áudio;
[021] A Fig. 3 mostra um exemplo de cena de áudio;
[022] A Fig. 4a ilustra o remapeamento das fontes de áudio em reação a uma mudança da posição de ouvinte dentro de uma cena de áudio;
[023] A Fig. 4b mostra um exemplo de função de distância;
[024] A Fig. 5a ilustra uma fonte de áudio com um perfil de diretividade não uniforme;
[025] A Fig. 5b mostra um exemplo de função de diretividade de uma fonte de áudio;
[026] A Fig. 6 mostra um exemplo de cena de áudio com um obstáculo acusticamente relevante;
[027] A Fig. 7 ilustra um campo de visão e um foco de atenção de um ouvinte;
[028] A Fig. 8 ilustra o manuseio do áudio ambiente em caso de mudança da posição de ouvinte dentro de uma cena de áudio;
[029] A Fig. 9a mostra um fluxograma de um exemplo de método para renderizar um sinal de áudio 3D durante uma transição entre diferentes cenas de áudio;
[030] A Fig. 9b mostra um fluxograma de um exemplo de método para gerar um fluxo de bits para a transição entre diferentes cenas de áudio;
[031] A Fig. 9c mostra um fluxograma de um exemplo de método para renderizar um sinal de áudio 3D durante uma transição dentro de uma cena de áudio; e
[032] A Fig. 9d mostra um fluxograma de um exemplo de método para gerar um fluxo de bits para a transição.
DESCRIÇÃO DETALHADA
[033] Conforme descrito acima, o presente documento se refere ao fornecimento eficiente de 6DoF em um ambiente de áudio 3D (tridimensional). A Fig.
1a ilustra um diagrama de blocos de um exemplo de sistema de processamento de áudio 100. Um ambiente acústico 110, como um estádio, pode compreender várias fontes de áudio diferentes 113. Exemplos de fontes de áudio 113 dentro de um estádio são espectadores individuais, um alto-falante do estádio, os jogadores no campo, etc.
O ambiente acústico 110 pode ser subdividido em diferentes cenas de áudio 111, 112.
A título de exemplo, uma primeira cena de áudio 111 pode corresponder ao bloco de suporte do time da casa e uma segunda cena de áudio 112 pode corresponder ao bloco de suporte da equipe visitante. Dependendo de onde um ouvinte está posicionado dentro do ambiente de áudio, o ouvinte perceberá fontes de áudio 113 a partir da primeira cena de áudio 111 ou fontes de áudio 113 a partir da segunda cena de áudio 112.
[034] As diferentes fontes de áudio 113 de um ambiente de áudio 110 podem ser capturadas usando sensores de áudio 120, principalmente usando matrizes de microfone. Em particular, as uma ou mais cenas de áudio 111, 112 de um ambiente de áudio 110 podem ser descritas usando sinais de áudio multicanais, um ou mais objetos de áudio e/ou sinais ambissônicos de ordem superior (HOA). A seguir, supõe- se que uma fonte de áudio 113 esteja associada a dados de áudio que são capturados pelos sensores de áudio 120, em que os dados de áudio indicam um sinal de áudio e a posição da fonte de áudio 113 em função do tempo (a um taxa de amostragem específica de, por exemplo, 20 ms).
[035] Um renderizador de áudio 3D, como o renderizador de áudio MPEG-H 3D, normalmente assume que um ouvinte está posicionado em uma posição de ouvinte específica dentro de uma cena de áudio 111, 112. Os dados de áudio para as diferentes fontes de áudio 113 de uma cena de áudio 111, 112 são tipicamente fornecidos sob a suposição de que o ouvinte está posicionado nessa posição de ouvinte específica. Um codificador de áudio 130 pode compreender um codificador de áudio 3D 131 que está configurado para codificar os dados de áudio das fontes de áudio 113 de uma ou mais cenas de áudio 111, 112.
[036] Além disso, os metadados de VR (realidade virtual) podem ser fornecidos, o que permite ao ouvinte alterar a posição de ouvinte dentro de uma cena de áudio 111, 112 e/ou mover-se entre diferentes cenas de áudio 111, 112. O codificador 130 pode compreender um codificador de metadados 132 que está configurado para codificar os metadados de VR. Os metadados de VR codificados e os dados de áudio codificados das fontes de áudio 113 podem ser combinados na unidade de combinação 133 para fornecer um fluxo de bits 140 que é indicativo dos dados de áudio e dos metadados de VR. Os metadados de VR podem, por exemplo, compreender dados do ambiente que descrevem as propriedades acústicas de um ambiente de áudio 110.
[037] O fluxo de bits 140 pode ser decodificado usando um decodificador 150 para fornecer os dados de áudio (decodificados) e os metadados de VR (decodificados). Um renderizador de áudio 160 para renderizar áudio dentro de um ambiente de renderização 180 que permite 6DoFs pode compreender uma unidade de pré-processamento 161 e um renderizador de áudio 3D (convencional) 3D 162 (como áudio 3D MPEG-H). A unidade de pré-processamento 161 pode ser configurada para determinar a posição de ouvinte 182 de um ouvinte 181 dentro do ambiente de ouvinte 180. A posição de ouvinte 182 pode indicar a cena de áudio 111 dentro da qual o ouvinte 181 está posicionado. Além disso, a posição de ouvinte 182 pode indicar a posição exata dentro de uma cena de áudio 111. A unidade de pré- processamento 161 pode ainda ser configurada para determinar um sinal de áudio 3D para a posição de ouvinte atual 182 com base nos dados de áudio (decodificados) e possivelmente com base nos metadados de VR (decodificados). O sinal de áudio 3D pode então ser renderizado usando o renderizador de áudio 3D 162.
[038] Deve-se notar que os conceitos e esquemas, descritos no presente documento, podem ser especificados de uma forma variante de frequência, podem ser definidos globalmente ou de maneira dependente de objeto/mídia, podem ser aplicados diretamente em tempo espectral ou temporal domínio e/ou pode ser codificado no renderizador de VR 160 ou pode ser especificado através de uma interface de entrada correspondente.
[039] A Fig. 1b mostra um exemplo de ambiente de renderização 180. O ouvinte 181 pode ser posicionado dentro de uma cena de áudio de origem 111. Para propósitos de renderização, pode-se assumir que as fontes de áudio 113, 194 são colocadas em diferentes posições de renderização em uma esfera (unidade) 114 em torno do ouvinte 181. As posições de renderização das diferentes fontes de áudio 113, 194 podem mudar ao longo do tempo (de acordo com uma determinada taxa de amostragem). Diferentes situações podem ocorrer dentro de um ambiente de renderização de VR 180: O ouvinte 181 pode executar uma transição global 191 a partir da cena de áudio de origem 111 para uma cena de áudio de destino 112.
Alternativamente ou, além disso, o ouvinte 181 pode executar uma transição local 192 para uma posição de ouvinte diferente 182 dentro da mesma cena de áudio 111.
Alternativamente ou, além disso, uma cena de áudio 111 pode exibir propriedades ambientais, acusticamente relevantes (como uma parede), que podem ser descritas usando dados de ambiente 193 e que devem ser levadas em consideração quando ocorre uma mudança na posição de ouvinte 182. Alternativamente ou além disso, uma cena de áudio 111 pode compreender uma ou mais fontes de áudio de ambiente 194 (por exemplo, para ruído de fundo) que devem ser levadas em consideração quando ocorre uma mudança da posição de ouvinte 182.
[040] A Fig. 1c mostra um exemplo de transição global 191 a partir de uma cena de áudio de origem 111 com as fontes de áudio 113 A1 a An para uma cena de áudio de destino 112 com as fontes de áudio 113 B1 a Bm. Notavelmente, cada fonte de áudio 113 pode ser incluída apenas em uma cena de áudio de origem 111 e na cena de áudio de destino 112, por exemplo, fontes de áudio 113 A1 a An são incluídas na cena de áudio de origem 111, mas não na cena de áudio de destino 112, enquanto que as fontes de áudio 113 B1 a Bm estão incluídas na cena de áudio de destino 112, mas não na cena de áudio de origem 111.
[041] Uma fonte de áudio 113 pode ser caracterizada pelas propriedades correspondentes do objeto entre locais (coordenadas, diretividade, função de atenuação do som à distância, etc.). A transição global 191 pode ser realizada dentro de um certo intervalo de tempo de transição (por exemplo, no intervalo de 5 segundos, 1 segundo ou menos). A posição de ouvinte 182 na cena de origem 111, no início da transição global 191, é marcada com "A". Além disso, a posição de ouvinte 182 dentro da cena de destino 112, no final da transição global 191, é marcada com "B". Além disso, a Fig. 1c ilustra uma transição local 192 dentro da cena de destino 112 entre a posição de ouvinte "B" e a posição de ouvinte "C".
[042] A Fig. 2 mostra a transição global 191 a partir da cena de origem 111 (ou porta de visualização de origem) para a cena de destino 112 (ou porta de visualização de destino) durante o intervalo de tempo de transição t. Essa transição 191 pode ocorrer quando um ouvinte 181 alterna entre diferentes cenas ou portas de visualização 111, 112, por exemplo, dentro de um estádio. Como tal, a transição global 191 a partir da cena de origem 111 para a cena de destino 112 não precisa corresponder ao movimento físico real do ouvinte 181, mas pode simplesmente ser iniciada pelo comando do ouvinte para alternar ou fazer a transição para outra porta de visualização 111, 112. Não obstante, a presente divulgação faz referência a uma posição do ouvinte, que é entendida como uma posição do ouvinte no ambiente de VR/AR/MR.
[043] Em um instante de tempo intermediário 213, o ouvinte 181 pode ser posicionado em uma posição intermediária entre a cena de origem 111 e a cena de destino 112. O sinal de áudio 3D 203, que deve ser renderizado na posição intermediária e/ou no instante de tempo intermediário 213, pode ser determinado pela determinação da contribuição de cada uma das fontes de áudio 113 A1 a An da cena de origem 111 e de cada uma das fontes de áudio 113 B1 a Bm da cena de destino 112, levando em consideração a propagação do som de cada fonte de áudio 113. Isso, no entanto, estaria vinculado a uma complexidade computacional relativamente alta (principalmente no caso de um número relativamente alto de fontes de áudio 113).
[044] No início da transição global 191, o ouvinte 181 pode ser posicionado na posição de ouvinte de origem 201. Durante toda a transição 191, um sinal de áudio de origem 3D AG pode ser gerado em relação à posição de ouvinte de origem 201, em que o sinal de áudio de origem depende apenas das fontes de áudio 113 da cena de origem 111 (e não depende das fontes de áudio 113 da cena de destino 112). A transição global 191 não afeta as posições de fonte a parentes das fontes de áudio 113 da cena de origem 111. Por conseguinte, assumindo fontes de áudio estacionárias 113 da cena de origem 111, as posições de renderização das fontes de áudio 113 durante a transição global 191 em relação à posição de ouvinte 201 não mudam, mesmo que a posição de ouvinte possa fazer a transição da cena de origem para a cena de destino (em relação ao ouvinte).
[045] Além disso, pode ser fixado no início da transição global 191 que o ouvinte 181 chegará à posição de ouvinte de destino 202 dentro da cena de destino 112 no final da transição global 191. Durante toda a transição 191, um sinal de áudio de destino 3D AG pode ser gerado em relação à posição de ouvinte de destino 202, em que o sinal de áudio de destino depende apenas das fontes de áudio 113 da cena de destino 112 (e não depende das fontes de áudio 113 da cena de fonte 111). A transição global 191 não afeta as posições de fonte aparentes das fontes de áudio 113 da cena de destino 112 (em relação ao ouvinte).
[046] Para determinar o sinal de áudio intermediário 3D 203 em uma posição intermediária e/ou em um instante de tempo intermediário 213 durante a transição global 191, o sinal de áudio de origem no instante de tempo intermediário 213 pode ser combinado com o sinal de áudio de destino no instante de tempo intermediário 213 Em particular, um fator ou ganho de saída gradual derivado de uma função de saída gradual 211 pode ser aplicado ao sinal de áudio de origem. A função de saída gradual 211 pode ser tal que o fator de saída gradual ou ganho "a" diminua dentro de uma distância crescente da posição intermediária da cena de origem 111. Além disso, um fator ou ganho de entrada gradual derivado de uma função de entrada gradual 212 pode ser aplicado ao sinal de áudio de destino. A função de entrada gradual 212 pode ser tal que o fator ou ganho de entrada gradual "b" aumenta com a distância decrescente da posição intermediária da cena de destino 112. Um exemplo de função de saída gradual 211 e um exemplo de função de entrada gradual 212 são mostrados na Fig. 2. O sinal de áudio intermediário pode então ser dado pela soma ponderada do sinal de áudio de origem e do sinal de áudio de destino, em que os pesos correspondem ao ganho de saída gradual e ganho de entrada gradual, respectivamente.
[047] Portanto, uma função ou curva de entrada gradual 212 e uma função ou curva de saída gradual 211 podem ser definidas para uma transição global 191 entre diferentes portas de visualização 3DoF 201, 202. As funções 211, 212 podem ser aplicadas a objetos virtuais pré-renderizados ou sinais de áudio 3D que representam a cena de áudio de origem 111 e a cena de áudio de destino 112. Ao fazer isso, uma experiência de áudio consistente pode ser fornecida durante uma transição global 191 entre diferentes cenas de áudio 111, 112, com cálculos de renderização de áudio de VR reduzidos.
[048] O sinal de áudio intermediário 203 em uma posição intermediária xi pode ser determinado usando a interpolação linear do sinal de áudio de origem e do sinal de áudio de destino. A intensidade F dos sinais de áudio pode ser dada por: F(xi)=a*F(AG)+(1-a)*F(BG). O fator "a" e "b = 1-a" pode ser dado por uma função de norma a = a (), que depende da posição de ouvinte de origem 201, da posição de ouvinte de destino 202 e da posição intermediária. Alternativamente a uma função, uma tabela de consulta a = [1,..., 0] pode ser fornecida para diferentes posições intermediárias.
[049] Acima, entende-se que o sinal de áudio intermediário 203 pode ser determinado e renderizado para uma pluralidade de posições intermediárias xi para permitir uma transição suave da cena de origem 111 para a cena de destino 112.
[050] Durante uma transição global, 191 efeitos adicionais (por exemplo, efeito Doppler e/ou reverberação) podem ser levados em consideração. As funções 211, 212 podem ser adaptadas por um provedor de conteúdo, por exemplo, para refletir uma intenção artística. Informações sobre as funções 211, 212 podem ser incluídas como metadados no fluxo de bits 140. Portanto, um codificador 130 pode ser configurado para fornecer informações sobre uma função de entrada gradual 212 e/ou uma função de saída gradual 211 como metadados dentro de um fluxo de bits 140.
Alternativamente ou além disso, um renderizador de áudio 160 pode aplicar uma função 211, 212 armazenada no renderizador de áudio 160.
[051] Um sinalizador pode ser sinalizada a partir de um ouvinte para o renderizador 160, notadamente para a unidade de pré-processamento de VR 161, para indicar ao renderizador 160 que uma transição global 191 deve ser realizada a partir de uma cena de origem 111 para uma cena de destino 112. O sinalizador pode acionar o processamento de áudio descrito no presente documento para gerar um sinal de áudio intermediário durante a fase de transição. O sinalizador pode ser sinalizado explícita ou implicitamente através de informações relacionadas (por exemplo, através de coordenadas da nova janela de exibição ou posição de ouvinte 202). O sinalizador pode ser enviado de qualquer lado da interface de dados (por exemplo, servidor/conteúdo, usuário/cena, auxiliar). Juntamente com o sinalizador, podem ser fornecidas informações sobre o sinal de áudio de origem AG e o sinal de áudio de destino BG. A título de exemplo, um ID de um ou mais objetos de áudio ou fontes de áudio pode ser fornecido. Alternativamente, uma solicitação para calcular o sinal de áudio de origem e/ou o sinal de áudio de destino pode ser fornecida ao renderizador 160.
[052] Por isso, um renderizador de VR 160 compreendendo uma unidade de pré-processamento 161 para um renderizador 3DoF 162 é descrito para ativar a funcionalidade 6DoF de uma maneira eficiente em termos de recursos. A unidade de pré-processamento 161 permite o uso de um renderizador 3DoF padrão 162, como o renderizador de áudio 3D MPEG-H. A unidade de pré-processamento de VR 161 pode ser configurada para executar cálculos com eficiência para uma transição global 191 usando objetos de áudio virtual pré-renderizados AG e BG que representam a cena de origem 111 e a cena de destino 112, respectivamente. A complexidade computacional é reduzida usando apenas dois objetos virtuais pré-renderizados durante uma transição global 191. Cada objeto virtual pode compreender uma pluralidade de sinais de áudio para uma pluralidade de fontes de áudio. Além disso, os requisitos de taxa de bits podem ser reduzidos, pois durante a transição 191 apenas os objetos de áudio virtual pré-renderizados AG e BG podem ser fornecidos no fluxo de bits 140. Além disso, os atrasos no processamento podem ser reduzidos.
[053] A funcionalidade 3DoF pode ser fornecida para todas as posições intermediárias ao longo da trajetória de transição global. Isso pode ser alcançado sobrepondo o objeto de áudio de origem e o objeto de áudio de destino usando as funções saída gradual/entrada gradual 211, 212. Além disso, objetos de áudio adicionais podem ser renderizados e/ou efeitos de áudio extras podem ser incluídos.
[054] A Fig. 3 mostra um exemplo de transição local 192 a partir de uma posição de ouvinte de origem B 301 para uma posição de ouvinte de destino C 302 dentro da mesma cena de áudio 111. A cena de áudio 111 compreende diferentes fontes ou objetos de áudio 311, 312, 313. As diferentes fontes ou objetos de áudio 311, 312, 313 podem ter diferentes perfis de diretividade 332. Além disso, a cena de áudio 111 pode ter propriedades ambientais, notavelmente um ou mais obstáculos, que influenciam a propagação do áudio dentro da cena de áudio 111. As propriedades ambientais podem ser descritas usando dados de ambiente 193. Além disso, as distâncias relativas 321, 322 de um objeto de áudio 311 às posições de ouvinte 301, 302 podem ser conhecidas.
[055] As Figuras 4a e 4b ilustram um esquema para lidar com os efeitos de uma transição local 192 na intensidade das diferentes fontes ou objetos de áudio 311, 312, 313. Como descrito acima, a fonte de áudio 311, 312, 313 de uma cena de áudio 111 é tipicamente assumida por um renderizador de áudio 3D 162 como posicionado em uma esfera 114 em torno da posição de ouvinte 301. Como tal, no início de uma transição local 192, as fontes de áudio 311, 312, 313 podem ser colocadas em uma esfera de origem 114 em torno da posição de ouvinte de origem 301 e no final da transição local 192, as fontes de áudio 311, 312, 313 pode ser colocadas em uma esfera de destino 114 em torno da posição de ouvinte de destino 302. Uma fonte de áudio 311, 312, 313 pode ser remapeada a partir da esfera de origem 114 para a esfera de destino 114. Para este propósito, um raio que vai da posição de ouvinte de destino 302 para a posição de fonte da fonte de áudio 311, 312, 313 na esfera de origem 114 pode ser considerado. A fonte de áudio 311, 312, 313 pode ser colocada na interseção do raio com a esfera de destino 114.
[056] A intensidade F de uma fonte de áudio 311, 312, 313 na esfera de destino 114 difere tipicamente da intensidade na esfera de origem 114. A intensidade F pode ser modificada usando uma função de ganho de intensidade ou função de distância 415, que fornece um ganho de distância 410 em função da distância 420 de uma fonte de áudio 311, 312, 313 da posição de ouvinte 301, 302. A função de distância 415 exibe tipicamente uma distância de corte 421 acima da qual um ganho de distância 410 de zero é aplicado. A distância de origem 321 de uma fonte de áudio 311 para a posição de ouvinte de origem 301 fornece um ganho de origem 411. Além disso, a distância de destino 322 da fonte de áudio 311 para a posição de ouvinte de destino 302 fornece um ganho de destino 412. A intensidade F da fonte de áudio 311 pode ser redimensionada usando o ganho de origem 411 e o ganho de destino 412, fornecendo, assim, a intensidade F da fonte de áudio 311 na esfera de destino 114.
Em particular, a intensidade F do sinal de áudio de origem da fonte de áudio 311 na esfera de origem 114 pode ser dividida pelo ganho de origem 411 e multiplicada pelo ganho de destino 412 para fornecer a intensidade F do sinal de áudio de destino da fonte de áudio 311 na esfera de destino 114.
[057] Portanto, a posição de uma fonte de áudio 311 subsequente a uma transição local 192 pode ser determinada como: Ci= função_remapear_fonte (Bi, C) (por exemplo, utilizando uma transformação geométrica). Além disso, a intensidade de uma fonte de áudio 311 subsequente a uma transição local 192 pode ser determinada como: F(Ci)=F(Bi)* função_distância(Bi, Ci, C). A atenuação da distância pode, portanto, ser modelada pelos correspondentes ganhos de intensidade fornecidos pela função de distância 415.
[058] As Figuras 5a e 5b ilustram uma fonte de áudio 312 tendo um perfil de diretividade não uniforme 332. O perfil de diretividade pode ser definido usando ganhos de diretividade 510 que indicam um valor de ganho para diferentes direções ou ângulos de diretividade 520. Em particular, o perfil de diretividade 332 de uma fonte de áudio 312 pode ser definido usando uma função de ganho de diretividade 515 que indica o ganho de diretividade 510 como uma função do ângulo de diretividade 520 (em que o ângulo 520 pode variar de 0° a 360°). Deve-se notar que, para fontes de áudio 3D 312, o ângulo de diretividade 520 é tipicamente um ângulo bidimensional que compreende um ângulo azimutal e um ângulo de elevação. Portanto, a função de ganho de diretividade 515 é tipicamente uma função bidimensional do ângulo de diretividade bidimensional 520.
[059] O perfil de diretividade 332 de uma fonte de áudio 312 pode ser levado em consideração no contexto de uma transição local 192, determinando o ângulo de diretividade de origem 521 do raio de origem entre a fonte de áudio 312 e a posição de ouvinte de origem 301 (com a fonte de áudio 312 sendo colocado na esfera de origem 114 em torno da posição de ouvinte de origem 301) e no ângulo de diretividade de destino 522 do raio de destino entre a fonte de áudio 312 e a posição de ouvinte de destino 302 (com a fonte de áudio 312 sendo colocada na esfera de destino 114 em torno do posição de ouvinte de destino 302). Usando a função de ganho de diretividade 515 da fonte de áudio 312, o ganho de diretividade de origem 511 e o ganho de diretividade de destino 512 podem ser determinados como os valores de função da função de ganho de diretividade 515 para o ângulo de diretividade de origem 521 e o ângulo de diretividade de destino 522, respectivamente (veja a Fig. 5b). A intensidade F da fonte de áudio 312 na posição de ouvinte de origem 301 pode então ser dividida pelo ganho de diretividade de origem 511 e multiplicada pelo ganho de diretividade de destino 512 para determinar a intensidade F da fonte de áudio 312 na posição de ouvinte de destino 302.
[060] Portanto, a diretividade da fonte de som pode ser parametrizada por um fator de diretividade ou ganho 510 indicado por uma função de ganho de diretividade
515. A função de ganho de diretividade 515 pode indicar a intensidade da fonte de áudio 312 a alguma distância em função do ângulo 520 em relação à posição de ouvinte 301, 302. Os ganhos de diretividade 510 podem ser definidos como razões em relação aos ganhos de uma fonte de áudio 312 na mesma distância, tendo a mesma potência total que é irradiada uniformemente em todas as direções. O perfil de diretividade 332 pode ser parametrizado por um conjunto de ganhos 510 que correspondem a vetores que se originam no centro da fonte de áudio 312 e que terminam em pontos distribuídos em uma esfera unitária em torno do centro da fonte de áudio 312. O perfil de diretividade 332 de uma fonte de áudio 312 pode depender de um cenário de caso de uso e de dados disponíveis (por exemplo, uma distribuição uniforme para um caso de voo 3D, uma distribuição plana para casos de uso 2D +, etc.).
[061] A intensidade de áudio resultante de uma fonte de áudio 312 em uma posição de ouvinte de destino 302 pode ser estimada como: F(Ci) = F(Bi)*função_distância()*função_ganho_diretividade(Ci,C,parametrização_ diretividade), em que função_ganho_diretividade é dependente do perfil de diretividade 332 da fonte de áudio 312. A função_distância() leva em consideração a intensidade modificada causada pela mudança na distância 321, 322 da fonte de áudio 312 devido à transição da fonte de áudio 312.
[062] A Fig. 6 mostra um exemplo de obstáculo 603 que pode precisar ser levado em consideração no contexto de uma transição local 192 entre diferentes posições de ouvinte 301, 302. Em particular, a fonte de áudio 313 pode estar escondida atrás do obstáculo 603 na posição de ouvinte de destino 302. O obstáculo 603 pode ser descrito por dados de ambiente 193 compreendendo um conjunto de parâmetros, como dimensões espaciais do obstáculo 603 e uma função de atenuação de obstáculo, que indica a atenuação do som causado pelo obstáculo 603.
[063] Uma fonte de áudio 313 pode exibir uma distância livre de obstáculos 602 (OFD) até a posição de ouvinte de destino 302. O OFD 602 pode indicar o comprimento do caminho mais curto entre a fonte de áudio 313 e a posição de ouvinte de destino 302, que não atravessa o obstáculo 603. Além disso, a fonte de áudio 313 pode exibir uma distância de passagem 601 (GHD) para a posição de ouvinte de destino 302. A GHD 601 pode indicar o comprimento do caminho mais curto entre a fonte de áudio 313 e a posição de ouvinte de destino 302, que normalmente passa pelo obstáculo 603. A função de atenuação de obstáculos pode ser uma função do OFD 602 e do GHD 601. Além disso, a função de atenuação de obstáculos pode ser uma função da intensidade F(Bi) da fonte de áudio 313.
[064] A intensidade da fonte de áudio Ci na posição de ouvinte de destino 302 pode ser uma combinação do som proveniente da fonte de áudio 313, que passa em torno do obstáculo 603 e do som proveniente da fonte de áudio 313 que atravessa o obstáculo 603.
[065] Portanto, o renderizador de VR 160 pode ser fornecido com parâmetros para controlar a influência da geometria e do ambiente. Os dados de geometria/mídia de obstáculo 193 ou parâmetros podem ser fornecidos por um provedor de conteúdo e/ou codificador 130. A intensidade de áudio de uma fonte de áudio 313 pode ser estimada como: F(Ci)=F(Bi)* Função_distância(OFD)*Função_ganho_diretividade(OFD)+ Função_atenuação_obstáculo(F(Bi), OFD, GHD). O primeiro termo corresponde à contribuição do som que passa em torno de um obstáculo 603. O segundo termo corresponde à contribuição do som que atravessa um obstáculo 603.
[066] A distância livre de obstáculos mínima (OFD) 602 pode ser determinada usando o algoritmo de busca de caminhos de A*Dijkstra e pode ser usada para controlar a atenuação direta do som. A distância de passagem (GHD) 601 pode ser usada para controlar reverberação e distorção. Alternativamente ou, além disso, uma abordagem de radiodifusão pode ser usada para descrever os efeitos de um obstáculo 603 na intensidade de uma fonte de áudio 313.
[067] A Fig. 7 ilustra um exemplo de campo de visão 701 de um ouvinte 181 colocado na posição de ouvinte de destino 302. Além disso, a Fig. 7 mostra um exemplo de foco de atenção 702 de um ouvinte colocado na posição de ouvinte de destino 302. O campo de visão 701 e/ou o foco de atenção 702 pode ser usado para aprimorar (por exemplo, amplificar) o áudio proveniente de uma fonte de áudio que se encontra dentro do campo de visão 701 e/ou o foco de atenção 702. O campo de visão 701 pode ser considerado um efeito acionado pelo usuário e pode ser usado para ativar um aprimorador de som para fontes de áudio 311 associadas ao campo de visão do usuário 701. Em particular, uma simulação de "efeito de coquetel" pode ser realizada removendo blocos de frequência de uma fonte de áudio de fundo para melhorar a compreensibilidade de um sinal de fala associado à fonte de áudio 311 que se encontra dentro do campo de visão do ouvinte 701. O foco de atenção 702 pode ser visto como um efeito acionado por conteúdo e pode ser usado para ativar um aprimorador de som para fontes de áudio 311 associadas a uma região de conteúdo de interesse (por exemplo, atrair a atenção do usuário para olhar e/ou mover na direção de uma fonte de áudio 311)
[068] A intensidade de áudio de uma fonte de áudio 311 pode ser modificada como: F(Bi)=Função_do_campo_de_visão(C,F(Bi), Dados_do_campo_ de_visão), em que a função do campo de visão descreve a modificação que é aplicada a um sinal de áudio de uma fonte de áudio 311 que se encontra dentro do campo de visão 701 do ouvinte 181. Além disso, a intensidade de áudio de uma fonte de áudio situada dentro do foco de atenção 702 do ouvinte pode ser modificada como: F(Bi)= Função_foco_atenção(F(Bi), Dados_foco_atenção), em que a função_ foco_atenção descreve a modificação que é aplicado a um sinal de áudio de uma fonte de áudio 311 que se situa no interior do foco de atenção 702.
[069] As funções que são descritas no presente documento para lidar com a transição do ouvinte 181 de uma posição de ouvinte de origem 301 para uma posição de ouvinte de destino 302 podem ser aplicadas de maneira análoga a uma mudança de posição de uma fonte de áudio 311, 312, 313.
[070] Portanto, o presente documento descreve meios eficientes para calcular coordenadas e/ou intensidades de áudio de objetos de áudio virtual ou fontes de áudio 311, 312, 313 que representam uma cena de áudio VR local 111 em posições de ouvinte arbitrárias 301, 302. As coordenadas e/ou intensidades podem ser determinadas levando em consideração as curvas de atenuação da distância da fonte de som, a orientação e a diretividade da fonte de som, a geometria ambiental/influência da mídia e/ou dados de "campo de visão" e "foco de atenção" para aprimoramentos adicionais do sinal de áudio. Os esquemas descritos podem reduzir significativamente a complexidade computacional executando cálculos apenas se a posição de ouvinte 301, 302 e/ou a posição de um objeto/fonte de áudio 311, 312, 313 mudar.
[071] Além disso, o presente documento descreve conceitos para a especificação de distâncias, diretividade, funções geométricas, mecanismos de processamento e/ou sinalização para um renderizador de VR 160. Além disso, é descrito um conceito de “distância livre de obstáculos” mínima para controlar a atenuação direta do som e “distância de passagem” para controlar a reverberação e distorção. Além disso, é descrito um conceito para parametrização da diretividade da fonte de som.
[072] A Fig. 8 ilustra o manuseio de fontes de som de ambiente 801, 802, 803 no contexto de uma transição local 192. Em particular, a Fig. 8 mostra três fontes de som de ambiente diferentes 801, 802, 803, em que um som de ambiente pode ser atribuído a uma fonte de áudio pontual. Um sinalizador de ambiente pode ser fornecido à unidade de pré-processamento 161, com o propósito de indicar que uma fonte de áudio pontual 311 é uma fonte de áudio de ambiente 801. O processamento durante uma transição local e/ou global da posição de ouvinte 301, 302 pode depender do valor do sinalizador de ambiente.
[073] No contexto de uma transição global 191, uma fonte de som de ambiente 801 pode ser manipulada como uma fonte de áudio normal 311. A Fig. 8 ilustra uma transição local 192. A posição de uma fonte de som de ambiente 801, 802, 803 pode ser copiada da esfera de origem 114 para a esfera de destino 114, fornecendo assim a posição da fonte de som ambiente 811, 812, 813 na posição de ouvinte de destino
302. Além disso, a intensidade da fonte de som do ambiente 801 pode ser mantida inalterada, se as condições ambientais permanecerem inalteradas, F(CAi) = F(BAi). Por outro lado, no caso de um obstáculo 603, a intensidade de uma fonte de som de ambiente 803, 813 pode ser determinada usando a função de atenuação de obstáculos, por exemplo, como F(CAi)=F(BAi)*Função_distânciaAi(OFD)+ Função_atenuação_obstáculo(F(BAi), OFD, GHD).
[074] A Fig. 9a mostra o fluxograma de um exemplo de método 900 para renderizar áudio em um ambiente de renderização de realidade virtual 180. O método 900 pode ser executado por um renderizador de áudio de VR 160. O método 900 compreende renderizar 901, um sinal de áudio de origem de uma fonte de áudio de origem 113 de uma cena de áudio de origem 111 a partir de uma posição de fonte de origem em uma esfera 114 em torno de uma posição de ouvinte de origem 201 de um ouvinte 181. A renderização 901 pode ser realizada usando um renderizador de áudio 3D 162 que pode ser limitado ao manuseio de apenas 3DoF, notavelmente o que pode ser limitado ao manuseio de movimentos rotacionais da cabeça do ouvinte 181. Em particular, o renderizador de áudio 3D 162 pode não ser configurado para lidar com movimentos de translação da cabeça do ouvinte. O renderizador de áudio 3D 162 pode compreender ou pode ser um renderizador de áudio MPEG-H.
[075] Deve-se notar que a expressão "renderizar um sinal de áudio de uma fonte de áudio 113 a partir de uma posição de fonte específica" indica que o ouvinte 181 percebe o sinal de áudio como proveniente da posição de fonte específica. A expressão não deve ser entendida como uma limitação de como o sinal de áudio é realmente renderizado. Várias técnicas de renderização diferentes podem ser usadas para "renderizar um sinal de áudio a partir de uma posição de fonte específica", isto é, para fornecer a um ouvinte 181 a percepção de que um sinal de áudio está vindo de uma posição de fonte específica.
[076] Além disso, o método 900 compreende determinar 902 que o ouvinte 181 se move a partir da posição de ouvinte 201 dentro da cena de áudio de origem 111 para uma posição de ouvinte 202 dentro de uma cena de áudio de destino diferente 112. Portanto, uma transição global 191 da cena de áudio de origem 111 para a cena de áudio de destino 112 pode ser detectada. Neste contexto, o método 900 pode compreender receber uma indicação de que o ouvinte 181 se move da cena de áudio de origem 111 para a cena de áudio de destino 112. A indicação pode compreender ou pode ser um sinalizador. A indicação pode ser sinalizada a partir do ouvinte 181 para o renderizador de áudio de VR 160, por exemplo, através de uma interface de usuário do renderizador de áudio VR 160.
[077] Tipicamente, a cena de áudio de origem 111 e a cena de áudio de destino 112 compreendem uma ou mais fontes de áudio 113 que são diferentes uma da outra. Em particular, os sinais de áudio de origem de uma ou mais fontes de áudio de origem 113 podem não ser audíveis na cena de áudio de destino 112 e/ou os sinais de áudio de destino de uma ou mais fontes de áudio de destino 113 podem não ser audíveis dentro da cena de áudio de origem 111.
[078] O método 900 pode compreender (em reação à determinação de que uma transição global 191 para uma nova cena de áudio de destino 112 é executada)
aplicando 903 um ganho de saída gradual ao sinal de áudio de origem para determinar um sinal de áudio de origem modificado. Notavelmente, o sinal de áudio de origem é gerado como seria percebido na posição de ouvinte na cena de áudio de origem 111, independentemente do movimento do ouvinte 181 da posição de ouvinte 201 dentro da cena de áudio de origem 111 para a posição de ouvinte 202 dentro da cena de cena de áudio de destino 112. Além disso, o método 900 pode compreender (em reação à determinação de que uma transição global 191 para uma nova cena de áudio de destino 112 é executada) renderizar 904 o sinal de áudio de origem modificado da fonte de áudio de origem 113 a partir da posição da fonte de origem na esfera 114 em torno a posição de ouvinte 201, 202. Essas operações podem ser executadas repetidamente, por exemplo, em intervalos de tempo regulares, durante a transição global 191.
[079] Portanto, uma transição global 191 entre diferentes cenas de áudio 111, 112 pode ser realizada diminuindo progressivamente os sinais de áudio de origem de uma ou mais fontes de áudio de origem 113 da cena de áudio de origem 111. Como resultado disso, é fornecida uma transição global 191 computacionalmente eficiente e acusticamente consistente entre diferentes cenas de áudio 111, 112.
[080] Pode ser determinado que o ouvinte 181 se move a partir da cena de áudio de origem 111 para a cena de áudio de destino 112 durante um intervalo de tempo de transição, em que o intervalo de tempo de transição normalmente tem uma certa duração (por exemplo, 2s, 1s, 500ms ou menos). A transição global 191 pode ser realizada progressivamente dentro do intervalo de tempo de transição. Em particular, durante a transição global 191, um instante de tempo intermediário 213 dentro do intervalo de tempo de transição pode ser determinado (por exemplo, de acordo com uma certa taxa de amostragem de, por exemplo, 100 ms, 50 ms, 20 ms ou menos). O ganho de saída gradual pode ser determinado com base em uma localização relativa do instante de tempo intermediário 213 dentro do intervalo de tempo de transição.
[081] Em particular, o intervalo de tempo de transição para a transição global 191 pode ser subdividido em uma sequência de instantes de tempo intermediários
213. Para cada instante de tempo intermediário 213 da sequência de instantes de tempo intermediários 213, um ganho de saída gradual para modificar os sinais de áudio de origem de uma ou mais fontes de áudio de origem pode ser determinado.
Além disso, em cada instante de tempo intermediário 213 da sequência de instantes de tempos intermediários 213, os sinais de áudio de origem modificados de uma ou mais fontes de áudio de origem 113 podem ser renderizados a partir da posição da fonte de origem na esfera 114 em torno da posição de ouvinte 201, 202. Ao fazer isso, uma transição global acusticamente consistente 191 pode ser realizada de uma maneira computacionalmente eficiente.
[082] O método 900 pode compreender fornecer uma função de saída gradual 211 que indica o ganho de saída gradual em diferentes instantes de tempos intermediários 213 dentro do intervalo de tempo de transição, em que a função de saída gradual 211 é tipicamente tal que o ganho de de saída gradual diminui com o progresso instantes de tempos intermediários 213, fornecendo assim uma transição global suave 191 para a cena de áudio de destino 112. Em particular, a função de saída gradual 211 pode ser tal que o sinal de áudio de origem permaneça não modificado no início do intervalo de tempo de transição, que o sinal de áudio de origem seja cada vez mais atenuado nos instantes de tempos intermediários 213 em andamento e/ou que o áudio de origem o sinal é totalmente atenuado no final do intervalo de tempo de transição.
[083] A posição da fonte de origem da fonte de áudio de origem 113 na esfera 114 em torno da posição de ouvinte 201, 202 pode ser mantida à medida que o ouvinte 181 se move da cena de áudio de origem 111 para a cena de áudio de destino 112 (principalmente durante todo o intervalo de tempo de transição). Alternativamente ou,
além disso, pode-se presumir (durante todo o intervalo de tempo de transição) que o ouvinte 181 permanece na mesma posição de ouvinte 201, 202. Ao fazer isso, a complexidade computacional para uma transição global 191 entre as cenas de áudio 111, 112 pode ser reduzida ainda mais.
[084] O método 900 pode ainda compreender determinar um sinal de áudio de destino de uma fonte de áudio de destino 113 da cena de áudio de destino 112.
Além disso, o método 900 pode compreender determinar uma posição de fonte de destino na esfera 114 em torno da posição de ouvinte 201, 202. Notavelmente, o sinal de áudio de destino é gerado como seria percebido na posição de ouvinte na cena de áudio de destino 112, independentemente do movimento do ouvinte 181 da posição de ouvinte 201 dentro da cena de áudio de origem 111 para a posição de ouvinte 202 dentro da cena de cena de áudio de destino 112. Além disso, o método 900 pode compreender aplicar um ganho de entrada gradual ao sinal de áudio de destino para determinar um sinal de áudio de destino modificado. e O sinal de áudio de destino modificado da fonte de áudio de destino 113 pode então ser renderizado a partir da posição da fonte de destino na esfera 114 em torno da posição de ouvinte 201, 202.
Essas operações podem ser executadas repetidamente, por exemplo, em intervalos de tempo regulares, durante a transição global 191.
[085] Portanto, de maneira análoga ao desaparecimento dos sinais de áudio de origem de uma ou mais fontes de áudio de origem 113 da cena de origem 111, os sinais de áudio de destino de uma ou mais fontes de áudio de destino 113 da cena de destino 112 podem ser entradas gradualmente, fornecendo, assim, uma transição global suave 191 entre as cenas de áudio 111, 112.
[086] Como indicado acima, o ouvinte 181 pode se mover da cena de áudio de origem 111 para a cena de áudio de destino 112 durante um intervalo de tempo de transição. O ganho de entrada gradual pode ser determinado com base em uma localização relativa do instante de tempo intermediário 213 dentro do intervalo de tempo de transição. Em particular, uma sequência de ganhos de entrada gradual pode ser determinada para uma sequência correspondente de instantes de tempo intermediários 213 durante a transição global 191.
[087] Os ganhos de entrada gradual podem ser determinados usando uma função de entrada gradual 212 que indica o ganho de entrada gradual em diferentes instantes de tempo intermediários 213 dentro do intervalo de tempo de transição, em que a função de entrada gradual em 212 é tipicamente tal que o ganho de entrada gradual aumenta com o progresso de instantes de tempo intermediários 213. Em particular, a função de entrada gradual 212 pode ser tal que o sinal de áudio de destino seja totalmente atenuado no início do intervalo de tempo de transição, que o sinal de áudio de destino seja atenuado de forma decrescente nos instantes de tempos intermediários 213 e/ou que o sinal de áudio de destino permanece não modificado no final do intervalo de tempo de transição, fornecendo assim uma transição global suave 191 entre as cenas de áudio 111, 112 de uma maneira computacionalmente eficiente.
[088] Da mesma maneira que a posição da fonte de origem de uma fonte de áudio de origem 113, a posição da fonte de destino de uma fonte de áudio de destino 113 na esfera 114 em torno da posição de ouvinte 201, 202 pode ser mantida à medida que o ouvinte 181 se move da cena de áudio de origem 111 para a cena de áudio de destino 112, especialmente durante todo o intervalo de tempo de transição.
Alternativamente ou, além disso, pode-se presumir (durante todo o intervalo de tempo de transição) que o ouvinte 181 permanece na mesma posição de ouvinte 201, 202.
Ao fazer isso, a complexidade computacional para uma transição global 191 entre as cenas de áudio 111, 112 pode ser reduzida ainda mais.
[089] A função de saída gradual 211 e a função de entrada gradual 212 em combinação fornecem um ganho constante para uma pluralidade de diferentes instantes de tempo intermediários 213. Em particular, a função de saída gradual 211 e a função de entrada gradual 212 podem adicionar até um valor constante (por exemplo, 1) para uma pluralidade de diferentes instantes de tempo intermediários 213.
Portanto, a função de entrada gradual 212 e a função de saída gradual 211 podem ser interdependentes, fornecendo assim uma experiência de áudio consistente durante a transição global 191.
[090] A função de saída gradual 211 e/ou a função de entrada gradual 212 pode ser derivada de um fluxo de bits 140 que é indicativo do sinal de áudio de origem e/ou do sinal de áudio de destino. O fluxo de bits 140 pode ser fornecido por um codificador 130 para o renderizador de áudio de VR 160. Portanto, a transição global 191 pode ser controlada por um provedor de conteúdo. Alternativamente ou além disso, a função de de saída gradual 211 e/ou a função de entrada gradual 212 pode ser derivada de uma unidade de armazenamento da renderização de áudio de realidade virtual (VR) 160 que está configurada para renderizar o sinal de áudio de origem e/ou o sinal de áudio de destino dentro do ambiente de renderização de realidade virtual 180, fornecendo assim uma operação confiável durante transições globais 191 entre cenas de áudio 111, 112.
[091] O método 900 pode compreender enviar uma indicação (por exemplo, um sinalizador indicando) de que o ouvinte 181 se move da cena de áudio de origem 111 para a cena de áudio de destino 112 para um codificador 130, em que o codificador 130 pode ser configurado para gerar um fluxo de bits 140 que é indicativo do sinal de áudio de origem e/ou do sinal de áudio de destino. A indicação pode permitir que o codificador 130 forneça seletivamente os sinais de áudio para uma ou mais fontes de áudio 113 da cena de áudio de origem 111 e/ou para uma ou mais fontes de áudio 113 da cena de áudio de destino 112 dentro do fluxo de bits 140.
Portanto, fornecer uma indicação para uma próxima transição global 191 permite uma redução da largura de banda necessária para o fluxo de bits 140.
[092] Como já indicado acima, a cena de áudio de origem 111 pode compreender uma pluralidade de fontes de áudio de origem 113. Portanto, o método 900 pode compreender renderizar uma pluralidade de sinais de áudio de origem de uma correspondente pluralidade de fontes de áudio de origem 113 a partir de uma pluralidade de posições de fonte de origem diferentes na esfera 114 em torno da posição de ouvinte 201, 202. Além disso, o método 900 pode compreender aplicar o ganho de saída gradual para a pluralidade de sinais de áudio de origem para determinar uma pluralidade de sinais de áudio de origem modificados. e Além disso, o método 900 pode compreender renderizar a pluralidade de sinais de áudio de origem modificados da fonte de áudio de origem 113 a partir da correspondente pluralidade de posições de fonte de origem na esfera 114 em torno da posição de ouvinte 201,
202.
[093] De uma maneira análoga, o método 900 pode compreender determinar uma pluralidade de sinais de áudio de destino de uma pluralidade correspondente de fontes de áudio de destino 113 da cena de áudio de destino 112. Além disso, o método 900 pode compreender determinar uma pluralidade de posições de fonte de destino na esfera 114 em torno da posição de ouvinte 201, 202. Além disso, o método 900 pode compreender a aplicação do ganho de entrada gradual para a pluralidade de sinais de áudio de destino para determinar uma pluralidade correspondente de sinais de áudio de destino modificados. O método 900 compreende ainda renderizar a pluralidade de sinais de áudio de destino modificados da pluralidade de fontes de áudio de destino 113 a partir da pluralidade correspondente de posições de fonte de destino na esfera 114 em torno da posição de ouvinte 201, 202.
[094] Alternativamente ou, além disso, o sinal de áudio de origem que é renderizado durante uma transição global 191 pode ser uma sobreposição de sinais de áudio de uma pluralidade de fontes de áudio de origem 113. Em particular, no início do intervalo de tempo de transição, os sinais de áudio de (todas) as fontes de áudio 113 da cena de áudio de origem 111 podem ser combinados para fornecer um sinal de áudio de origem combinado. Este sinal de áudio de origem pode ser modificado com o ganho de saída gradual. Além disso, o sinal de áudio de origem pode ser atualizado a uma taxa de amostragem específica (por exemplo, 20 ms) durante o intervalo de tempo de transição. De uma maneira análoga, o sinal de áudio de destino pode corresponder a uma combinação dos sinais de áudio de uma pluralidade de fontes de áudio de destino 113 (principalmente de todas as fontes de áudio de destino 113). A fonte de áudio de destino combinada pode então ser modificada durante o intervalo de tempo de transição usando o ganho de entrada gradual. Ao combinar o sinal de áudio da cena de áudio de origem 111 e da cena de áudio de destino 112, respectivamente, a complexidade computacional pode ser ainda mais reduzida.
[095] Além disso, é descrito um renderizador de áudio de realidade virtual 160 para renderizar áudio em um ambiente de renderização de realidade virtual 180. Como descrito no presente documento, o renderizador de áudio de VR 160 pode compreender uma unidade de pré-processamento 161 e um renderizador de áudio 3D
162. O renderizador de áudio de realidade virtual 160 é configurado para renderizar um sinal de áudio de origem de uma fonte de áudio de origem 113 de uma cena de áudio de origem 111 a partir de uma posição de fonte de origem em uma esfera 114 em torno de uma posição de ouvinte 201 de um ouvinte 181. Além disso, o renderizador de áudio de VR 160 é configurado para determinar que o ouvinte 181 se move a partir da posição de ouvinte 201 dentro da cena de áudio de origem 111 para uma posição de ouvinte 202 dentro de uma cena de áudio de destino diferente 112.
Além disso, o renderizador de áudio de VR 160 está configurado para aplicar um ganho de saída gradual ao sinal de áudio de origem para determinar um sinal de áudio de origem modificado e para renderizar o sinal de áudio de origem modificado da fonte de áudio de origem 113 a partir da posição da fonte de origem na esfera 114 em torno da posição de ouvinte 201, 202.
[096] Além disso, um codificador 130 que está configurado para gerar um fluxo de bits 140 indicativo de um sinal de áudio a ser renderizado dentro de um ambiente de renderização de realidade virtual 180 é descrito. O codificador 130 pode ser configurado para determinar um sinal de áudio de origem de uma fonte de áudio de origem 113 de uma cena de áudio de origem 111. Além disso, o codificador 130 pode ser configurado para determinar dados de posição de origem em relação a uma posição de fonte de origem da fonte de áudio de origem 113. O codificador 130 pode então gerar um fluxo de bits 140 compreendendo o sinal de áudio de origem e os dados de posição de origem.
[097] O codificador 130 pode ser configurado para receber uma indicação de que um ouvinte 181 se move partir da cena de áudio de origem 111 para uma cena de áudio de destino 112 dentro do ambiente de renderização de realidade virtual 180 (por exemplo, através de um canal de retroalimentação de um renderizador de áudio de VR 160 em direção ao codificador 130)
[098] O codificador 130 pode então determinar um sinal de áudio de destino de uma fonte de áudio de destino 113 da cena de áudio de destino 112 e dados de posição de destino em relação a uma posição de fonte de destino da fonte de áudio de destino 113 (principalmente apenas em reação à recepção de tal indicação). Além disso, o codificador 130 pode gerar um fluxo de bits 140 compreendendo o sinal de áudio de destino e os dados da posição de destino. Portanto, o codificador 130 pode ser configurado para fornecer os sinais de áudio de destino de uma ou mais fontes de áudio de destino 113 da cena de áudio de destino 112 seletivamente, apenas sujeitos a receber uma indicação para uma transição global 191 para a cena de áudio de destino 112. Ao fazer isso, a largura de banda necessária para o fluxo de bits 140 pode ser reduzida.
[099] A Fig. 9b mostra um fluxograma de um método correspondente 930 para gerar um fluxo de bits 140 indicativo de um sinal de áudio a ser renderizado dentro de um ambiente de renderização de realidade virtual 180. O método 930 compreende determinar 931 um sinal de áudio de origem de uma fonte de áudio de origem 113 de uma cena de áudio de origem 111. Além disso, o método 930 compreende determinar 932 dados de posição de origem em relação a uma posição de fonte de origem da fonte de áudio de origem 113. Além disso, o método 930 compreende gerar 933 um fluxo de bits 140 compreendendo o sinal de áudio de origem e os dados de posição de origem.
[0100] O método 930 compreende receber 934 uma indicação de que um ouvinte 181 se move a partir da cena de áudio de origem 111 para uma cena de áudio de destino 112 dentro do ambiente de renderização de realidade virtual 180. Em reação a isso, o método 930 pode compreender determinar 935 um sinal de áudio de destino de uma fonte de áudio de destino 113 da cena de áudio de destino 112 e determinar 936 dados de posição de destino em relação a uma posição de fonte de destino da fonte de áudio de destino 113. Além disso, o método 930 compreende gerar 937 um fluxo de bits 140 compreendendo o sinal de áudio de destino e os dados da posição de destino.
[0101] A Fig. 9c mostra um fluxograma de um exemplo de método 910 para renderizar um sinal de áudio em um ambiente de renderização de realidade virtual
180. O método 910 pode ser executado por um renderizador de áudio de VR 160.
[0102] O método 910 compreende renderizar 911 um sinal de áudio de origem de uma fonte de áudio 311, 312, 313 a partir de uma posição de fonte de origem em uma esfera de origem 114 em torno de uma posição de ouvinte de origem 301 de um ouvinte 181. A renderização 911 pode ser realizada usando um renderizador de áudio 3D 162. Em particular, a renderização 911 pode ser realizada sob a suposição de que a posição de ouvinte de origem 301 é fixa. Portanto, a renderização 911 pode ser limitada a três graus de liberdade (notavelmente a um movimento rotacional da cabeça do ouvinte 181).
[0103] Para levar em conta três graus de liberdade adicionais (por exemplo,
para um movimento de translação do ouvinte 181), o método 910 pode compreender determinar 912 que o ouvinte 181 se move a partir da posição de ouvinte de origem 301 para uma posição de ouvinte de destino 302, em que o a posição de ouvinte de destino 302 normalmente fica dentro da mesma cena de áudio 111. Portanto, pode ser determinado 912 que o ouvinte 181 executa uma transição local 192 dentro da mesma cena de áudio 111.
[0104] Em reação à determinação de que o ouvinte 181 executa uma transição local 192, o método 910 pode compreender determinar 913 uma posição de fonte de destino da fonte de áudio 311, 312, 313 em uma esfera de destino 114 em torno da posição de ouvinte de destino 302 com base na posição de fonte de origem.
Em outras palavras, a posição da fonte da fonte de áudio 311, 312, 313 pode ser transferida a partir de uma esfera de origem 114 em torno da posição de ouvinte de origem 301 para uma esfera de destino 114 em torno da posição de destino 302. Isso pode ser alcançado projetando a posição de origem a partir da esfera de origem 114 para a esfera de destino 114. Em particular, a posição da fonte de destino pode ser determinada de modo que a posição da fonte de destino corresponda a uma interseção de um raio entre a posição de ouvinte de destino 302 e a posição da fonte de origem com a esfera de destino 114.
[0105] Além disso, o método 910 pode compreender (em reação à determinação de que o ouvinte 181 executa uma transição local 192) determinar 914 um sinal de áudio de destino da fonte de áudio 311, 312, 313 com base no sinal de áudio de origem. Em particular, a intensidade do sinal de áudio de destino pode ser determinada com base na intensidade do sinal de áudio de origem. Alternativamente ou, além disso, a composição espectral do sinal de áudio de destino pode ser determinada com base na composição espectral do sinal de áudio de origem. Por isso, pode ser determinado como o sinal de áudio da fonte de áudio 311, 312, 313 é percebido a partir da posição de ouvinte de destino 302 (notavelmente a intensidade e/ou a composição espectral do sinal de áudio pode ser determinada).
[0106] As etapas de determinação acima mencionadas 913, 914 podem ser executadas por uma unidade de pré-processamento 161 do renderizador de áudio de VR 160. A unidade de pré-processamento 161 pode lidar com um movimento de translação do ouvinte 181 transferindo os sinais de áudio de uma ou mais fontes de áudio 311, 312, 313 de uma esfera de origem 114 em torno da posição de ouvinte de origem 114 para uma esfera de destino 301 para uma esfera de destino 114 em torno da posição de escuta de destino 302. Como resultado disso, os sinais de áudio transferidos de uma ou mais fontes de áudio 311, 312, 313 também podem ser renderizados usando um renderizador de áudio 3D 162 (que pode ser limitado a 3DoFs). Portanto, o método 910 permite uma provisão eficiente de 6DoFs dentro de um ambiente de renderização de áudio de VR 180.
[0107] Consequentemente, o método 910 pode compreender renderizar 915 o sinal de áudio de destino da fonte de áudio 311, 312, 313 da posição de fonte de destino na esfera de destino 114 em torno da posição de ouvinte de destino 302 (por exemplo, usando um renderizador de áudio 3D, como o renderizador de áudio MPEG -H).
[0108] Determinar 914 o sinal de áudio de destino pode compreender determinar uma distância de destino 322 entre a posição da fonte de origem e a posição de ouvinte de destino 302. O sinal de áudio de destino (notavelmente a intensidade do sinal de áudio de destino) pode então ser determinado (notavelmente dimensionado) com base na distância de destino 322. Em particular, determinar 914 o sinal de áudio de destino pode compreender aplicar de um ganho de distância 410 ao sinal de áudio de origem, em que o ganho de distância 410 é dependente da distância de destino 322.
[0109] Uma função de distância 415 pode ser fornecida, o que é indicativo do ganho de distância 410 como uma função de uma distância 321, 322 entre uma posição de fonte de um sinal de áudio 311, 312, 313 e uma posição de ouvinte 301, 302 de um ouvinte 181. O ganho de distância 410 que é aplicado ao sinal de áudio de origem (para determinar o sinal de áudio de destino) pode ser determinado com base no valor funcional da função de distância 415 para a distância de destino 322. Ao fazer isso, o sinal de áudio de destino pode ser determinado de maneira eficiente e precisa.
[0110] Além disso, determinar 914 o sinal de áudio de destino pode compreender determinar uma distância de origem 321 entre a posição da fonte de origem e a posição de ouvinte de origem 301. O sinal de áudio de destino pode então ser determinado (também) com base na distância de origem 321. Em particular, o ganho de distância 410 que é aplicado ao sinal de áudio de origem pode ser determinado com base no valor funcional da função de distância 415 para a distância de origem 321. Em um exemplo preferencial, o valor funcional da função de distância 415 para a distância de origem 321 e o valor funcional da função de distância 415 para a distância de destino 322 são usados para redimensionar a intensidade do sinal de áudio de origem para determinar o sinal de áudio de destino. Portanto, uma transição local eficiente e precisa 191 dentro de uma cena de áudio 111 pode ser fornecida.
[0111] Determinar 914 o sinal de áudio de destino pode compreender determinar um perfil de diretividade 332 da fonte de áudio 311, 312, 313. O perfil de diretividade 332 pode ser indicativo da intensidade do sinal de áudio de origem em diferentes direções. O sinal de áudio de destino pode então ser determinado (também) com base no perfil de diretividade 332. Ao considerar o perfil de diretividade 332, a qualidade acústica de uma transição local 192 pode ser melhorada.
[0112] O perfil de diretividade 332 pode ser indicativo de um ganho de diretividade 510 a ser aplicado ao sinal de áudio de origem para determinar o sinal de áudio de destino. Em particular, o perfil de diretividade 332 pode ser indicativo de uma função de ganho de diretividade 515, em que a função de ganho de diretividade 515 pode indicar o ganho de diretividade 510 como uma função de um ângulo de diretividade (possivelmente bidimensional) 520 entre uma posição de fonte de um áudio fonte 311, 312, 313 e uma posição de ouvinte 301, 302 de um ouvinte 181.
[0113] Portanto, determinar 914 o sinal de áudio de destino pode compreender determinar um ângulo de destino 522 entre a posição de fonte de destino e a posição de ouvinte de destino 302. O sinal de áudio de destino pode então ser determinado com base no ângulo de destino 522. Em particular, o sinal de áudio de destino pode ser determinado com base no valor funcional da função de ganho de diretividade 515 para o ângulo de destino 522.
[0114] Alternativamente ou, além disso, determinar 914 o sinal de áudio de destino pode compreender determinar um ângulo de origem 521 entre a posição da fonte de origem e a posição de ouvinte da origem 301. O sinal de áudio de destino pode então ser determinado com base no ângulo de origem 521. Em particular, o sinal de áudio de destino pode ser determinado com base no valor funcional da função de ganho de diretividade 515 para o ângulo de origem 521. Em um exemplo preferencial, o sinal de áudio de destino pode ser determinado modificando a intensidade do sinal de áudio de origem usando o valor funcional da função de ganho de diretividade 515 para o ângulo de origem 521 e para o ângulo de destino 522, para determinar a intensidade do destino sinal de áudio.
[0115] Além disso, o método 910 pode compreender determinar os dados de ambiente de destino 193 que são indicativos de uma propriedade de propagação de áudio do meio entre a posição de fonte de destino e a posição de ouvinte de destino
302. Os dados de ambiente de destino 193 podem ser indicativos de um obstáculo 603 que está posicionado em um caminho direto entre a posição de origem de destino e a posição de ouvinte de destino 302; indicativo de informações sobre as dimensões espaciais do obstáculo 603; e/ou indicativo de uma atenuação incorrida por um sinal de áudio no caminho direto entre a posição de origem de destino e a posição de ouvinte de destino 302. Em particular, os dados de ambiente de destino 193 podem ser indicativos de uma função de atenuação de obstáculos de um obstáculo 603, em que a função de atenuação pode indicar uma atenuação incorrida por um sinal de áudio que passa através do obstáculo 603 no caminho direto entre a posição da fonte de destino e a posição de ouvinte de destino 302.
[0116] O sinal de áudio de destino pode então ser determinado com base nos dados de ambiente de destino 193, aumentando ainda mais a qualidade do áudio renderizado dentro de um ambiente de renderização de de VR 180.
[0117] Como indicado acima, os dados de ambiente de destino 193 podem ser indicativos de um obstáculo 603 no caminho direto entre a posição de origem de destino e a posição de ouvinte de destino 302. O método 910 pode compreender determinar uma distância de passagem 601 entre a posição de fonte de destino e a posição de ouvinte de destino 302 no caminho direto. O sinal de áudio de destino pode então ser determinado com base na distância de passagem 601. Alternativamente ou, além disso, uma distância livre de obstáculos 602 entre a posição de fonte de destino e a posição de ouvinte de destino 302 em um caminho indireto, que não atravessa o obstáculo 603, pode ser determinada. O sinal de áudio de destino pode então ser determinado com base na distância livre de obstáculos 602.
[0118] Em particular, um componente indireto do sinal de áudio de destino pode ser determinado com base no sinal de áudio de origem propagando ao longo do caminho de indicação. Além disso, um componente direto do sinal de áudio de destino pode ser determinado com base no sinal de áudio de origem propagando ao longo do caminho direto. O sinal de áudio de destino pode então ser determinado combinando o componente indireto e o componente direto. Ao fazer isso, os efeitos acústicos de um obstáculo 603 podem ser levados em consideração de maneira precisa e eficiente.
[0119] Além disso, o método 910 pode compreender determinar informações de foco em relação a um campo de visão 701 e/ou um foco de atenção 702 do ouvinte
181. O sinal de áudio de destino pode então ser determinado com base nas informações de foco. Em particular, uma composição espectral de um sinal de áudio pode ser adaptada dependendo da informação de foco. Ao fazer isso, a experiência de VR de um ouvinte 181 pode ser melhorada ainda mais.
[0120] Além disso, o método 910 pode compreender determinar que a fonte de áudio 311, 312, 313 é uma fonte de áudio ambiente. Neste contexto, uma indicação (por exemplo, um sinalizador) pode ser recebida dentro de um fluxo de bits 140 de um codificador 130, em que a indicação indica que uma fonte de áudio 311, 312, 313 é uma fonte de áudio ambiente. Uma fonte de áudio ambiente normalmente fornece um sinal de áudio em segundo plano. A posição da fonte de origem de uma fonte de áudio ambiente pode ser mantida como a posição da fonte de destino. Alternativamente ou além disso, a intensidade do sinal de áudio de origem da fonte de áudio do ambiente pode ser mantida como a intensidade do sinal de áudio de destino. Ao fazer isso, as fontes de áudio do ambiente podem ser manuseadas de forma eficiente e consistente no contexto de uma transição local 192.
[0121] Os aspectos acima mencionados são aplicáveis às cenas de áudio 111, compreendendo uma pluralidade de fontes de áudio 311, 312, 313. Em particular, o método 910 pode compreender renderizar uma pluralidade de sinais de áudio de origem de uma pluralidade correspondente de fontes de áudio 311, 312, 313 a partir de uma pluralidade de posições de fontes de origem diferentes na esfera de origem
114. Além disso, o método 910 pode compreender determinar uma pluralidade de posições de fonte de destino para a pluralidade correspondente de fontes de áudio 311, 312, 313 na esfera de destino 114 com base na pluralidade de posições de fonte de origem, respectivamente. Além disso, o método 910 pode compreender determinar uma pluralidade de sinais de áudio de destino da pluralidade correspondente de fontes de áudio 311, 312, 313 com base na pluralidade de sinais de áudio de origem, respectivamente. A pluralidade de sinais de áudio de destino da pluralidade correspondente de fontes de áudio 311, 312, 313 pode então ser renderizada a partir da pluralidade correspondente de posições de fonte de destino na esfera de destino 114 em torno da posição de ouvinte de destino 302.
[0122] Além disso, é descrito um renderizador de áudio de realidade virtual 160 para renderizar um sinal de áudio em um ambiente de renderização de realidade virtual 180. O renderizador de áudio 160 é configurado para renderizar um sinal de áudio de origem de uma fonte de áudio 311, 312, 313 a partir de uma posição de fonte de origem em uma esfera de origem 114 em torno de uma posição de ouvinte de origem 301 de um ouvinte 181 (notadamente usando um renderizador de áudio 3D 162 do renderizador de áudio de VR 160).
[0123] Além disso, o renderizador de áudio de VR 160 está configurado para determinar que o ouvinte 181 se move a partir da posição de ouvinte de origem 301 para uma posição de ouvinte de destino 302. Em reação a isso, o renderizador de áudio de VR 160 pode ser configurado (por exemplo, dentro de uma unidade de pré- processamento 161 do renderizador de áudio de VR 160) para determinar uma posição da fonte de destino da fonte de áudio 311, 312, 313 em uma esfera de destino 114 em torno a posição de ouvinte de destino 302 com base na posição da fonte de origem e para determinar um sinal de áudio de destino da fonte de áudio 311, 312, 313 com base no sinal de áudio de origem.
[0124] Além disso, o renderizador de áudio de VR 160 (por exemplo, o renderizador de áudio 3D 162) pode ser configurado para renderizar o sinal de áudio de destino da fonte de áudio 311, 312, 313 a partir da posição de fonte de destino na esfera de destino 114 em torno da posição de ouvinte de destino 302.
[0125] Portanto, o renderizador de áudio de realidade virtual 160 pode compreender uma unidade de pré-processamento 161 que está configurada para determinar a posição da fonte de destino e o sinal de áudio de destino da fonte de áudio 311, 312, 313. Além disso, o renderizador de áudio de VR 160 pode compreender um renderizador de áudio 3D 162 que está configurado para renderizar o sinal de áudio de destino da fonte de áudio 311, 312, 313. O renderizador de áudio 3D 162 pode ser configurado para adaptar a renderização de um sinal de áudio de uma fonte de áudio 311, 312, 313 em uma esfera (unidade) 114 em torno de uma posição de ouvinte 301, 302 de um ouvinte 181, sujeito a um movimento rotacional de uma cabeça do ouvinte 181 (para fornecer 3DoF dentro de um ambiente de renderização 180). Por outro lado, o renderizador de áudio 3D 162 pode não ser configurado para adaptar a renderização do sinal de áudio da fonte de áudio 311, 312, 313, sujeita a um movimento de translação da cabeça do ouvinte 181. Portanto, o renderizador de áudio 3D 162 pode ser limitado a 3 DoFs. Os DoFs de translação podem então ser fornecidos de maneira eficiente usando a unidade de pré- processamento 161, fornecendo assim um renderizador de áudio de VR global 160 com 6 DoFs.
[0126] Além disso, um codificador de áudio 130 configurado para gerar um fluxo de bits 140 é descrito. O fluxo de bits 140 é gerado de modo que o fluxo de bits 140 seja indicativo de um sinal de áudio de pelo menos uma fonte de áudio 311, 312, 313 e indicativo de uma posição de pelo menos uma fonte de áudio 311, 312, 313 dentro de um ambiente de renderização 180. Além disso, o fluxo de bits 140 pode ser indicativo de dados do ambiente 193 com relação a uma propriedade de propagação de áudio do áudio dentro do ambiente de renderização 180. Ao sinalizar dados do ambiente 193 em relação às propriedades de propagação de áudio, as transições locais 192 dentro do ambiente de renderização 180 podem ser ativadas de maneira precisa.
[0127] Além disso, é descrito um fluxo de bits 140, o qual é indicativo de um sinal de áudio de pelo menos uma fonte de áudio 311, 312, 313; de uma posição da pelo menos uma fonte de áudio 311, 312, 313 dentro de um ambiente de renderização 180; e de dados do ambiente 193 indicativos de uma propriedade de propagação de áudio do áudio dentro do ambiente de renderização 180. Alternativamente ou além disso, o fluxo de bits 140 pode ser indicativo de se a fonte de áudio 311, 312, 313 é ou não uma fonte de áudio do ambiente 801.
[0128] A Fig. 9d mostra um fluxograma de exemplo do método 920 para gerar um fluxo de bits 140. O método 920 compreende determinar 921 um sinal de áudio de pelo menos uma fonte de áudio 311, 312, 313. Além disso, o método 920 compreende determinar 922 dados de posição em relação a uma posição de pelo menos uma fonte de áudio 311, 312, 313 dentro de um ambiente de renderização 180. Além disso, o método 920 pode compreender determinar 923 dados do ambiente 193 indicativos de uma propriedade de propagação de áudio do áudio dentro do ambiente de renderização 180. O método 920 compreende ainda inserir 934 o sinal de áudio, os dados de posição e os dados do ambiente 193 no fluxo de bits 140. Alternativamente ou, além disso, a indicação pode estar interessada no fluxo de bits 140 de saber se a fonte de áudio 311, 312, 313 é ou não uma fonte de áudio do ambiente 801.
[0129] Portanto, no presente documento é descrito um renderizador de áudio de realidade virtual 160 (um método correspondente) para renderizar um sinal de áudio em um ambiente de renderização de realidade virtual 180. O renderizador de áudio 160 compreende um renderizador de áudio 3D 162 que está configurado para renderizar um sinal de áudio de uma fonte de áudio 113, 311, 312, 313 a partir de uma posição de fonte em uma esfera 114 em torno de uma posição de ouvinte 301, 302 de um ouvinte 181 dentro do ambiente de renderização de realidade virtual 180. Além disso, o renderizador de áudio de realidade virtual 160 compreende uma unidade de pré-processamento 161 que é configurada para determinar uma nova posição de ouvinte 301, 302 do ouvinte 181 dentro do ambiente de renderização de realidade virtual 180 (dentro da mesma ou dentro de uma cena de áudio diferente 111, 112) Além disso, a unidade de pré-processamento 161 está configurada para atualizar o sinal de áudio e a posição da fonte da fonte de áudio 113, 311, 312, 313 em relação a uma esfera 114 em torno da nova posição de ouvinte 301, 302. O renderizador de áudio 3D 162 está configurado para renderizar o sinal de áudio atualizado da fonte de áudio 311, 312, 313 a partir da posição de fonte atualizada na esfera 114 em torno da nova posição de ouvinte 301, 302.
[0130] Os métodos e sistemas descritos no presente documento podem ser implementados como software, firmware e/ou hardware. Certos componentes podem, por exemplo, ser implementados como software em execução em um processador de sinal digital ou microprocessador. Outros componentes podem, por exemplo, ser implementados como hardware e ou como circuitos integrados específicos da aplicação. Os sinais encontrados nos métodos e sistemas descritos podem ser armazenados em mídias como memória de acesso aleatório ou mídia de armazenamento óptico. Eles podem ser transferidos via redes, como redes de rádio, redes de satélite, redes sem fio ou redes com fio, por exemplo, a Internet. Dispositivos típicos que utilizam os métodos e sistemas descritos no presente documento são dispositivos eletrônicos portáteis ou outros equipamentos de consumo que são usados para armazenar e/ou renderizar sinais de áudio.
[0131] Exemplos enumerados (EE) do presente documento são: EE 1) Um método (900) para renderizar áudio em um ambiente de renderização de realidade virtual (180), o método (900) compreendendo,  renderizar (901), um sinal de áudio de origem de uma fonte de áudio de origem (113) de uma cena de áudio de origem (111) a partir de uma posição de fonte de origem em uma esfera (114) em torno de uma posição de ouvinte de origem ( 201) de um ouvinte (181);  determinar (902) que o ouvinte (181) se move a partir da posição de ouvinte (201) dentro da cena de áudio de origem (111) para uma posição de ouvinte (202) dentro de uma cena de áudio de destino diferente (112);  aplicar (903) um ganho de saída gradual do sinal de áudio de origem para determinar um sinal de áudio de origem modificado; e
 renderizar (904) o sinal de áudio de origem modificado da fonte de áudio de origem (113) a partir da posição da fonte de origem na esfera (114) em torno da posição de ouvinte (201, 202).
EE 2) O método (900) de acordo com EE 1, em que o método (900) compreende,  determinar que o ouvinte (181) se move a partir da cena de áudio de origem (111) para a cena de áudio de destino (112) durante um intervalo de tempo de transição;  determinar um instante de tempo intermediário (213) dentro do intervalo de tempo de transição; e  determinar o ganho de saída gradual com base em uma localização relativa do instante de tempo intermediário (213) dentro do intervalo de tempo de transição.
EE 3) O método (900) de acordo com EE 2, em que  o método (900) compreende fornecer uma função de saída gradual (211) que indica o ganho de saída gradual em diferentes instantes de tempo intermediários (213) dentro do intervalo de tempo de transição; e  a função de saída gradual (211) é tal que o ganho de saída gradual diminui com o progresso de instantes de tempo intermediários (213).
EE 4) O método (900) de acordo com EE 3, em que a função saída gradual (211) é tal que  o sinal de áudio de origem permanece não modificado no início do intervalo de tempo de transição; e/ou  o sinal de áudio de origem é cada vez mais atenuado em instantes de tempo intermediário em progresso (213); e/ou  o sinal de áudio de origem é totalmente atenuado no final do intervalo de tempo de transição.
EE 5) O método (900) de acordo com quaisquer EEs anteriores, em que o método (900) compreende  manter a posição da fonte de origem da fonte de áudio de origem (113) na esfera (114) em torno da posição de ouvinte (201, 202) à medida que o ouvinte (181) se move da cena de áudio de origem (111) para a cena de áudio de destino (112) ); e/ou  manter a posição de ouvinte (201, 202) inalterada à medida que o ouvinte (181) se move da cena de áudio de origem (111) para a cena de áudio de destino (112).
EE 6) O método (900) de acordo com quaisquer EEs anteriores, em que o método (900) compreende  determinar um sinal de áudio de destino de uma fonte de áudio de destino (113) da cena de áudio de destino (112);  determinar uma posição de fonte de destino na esfera (114) em torno da posição de ouvinte (201, 202);  aplicar um ganho de entrada gradual ao sinal de áudio de destino para determinar um sinal de áudio de destino modificado; e  renderizar o sinal de áudio de destino modificado da fonte de áudio de destino (113) a partir da posição de fonte de destino na esfera (114) em torno da posição de ouvinte (201, 202).
EE 7) O método (900) de acordo com EE 6, em que o método (900) compreende,  determinar que o ouvinte (181) se move a partir da cena de áudio de origem (111) para a cena de áudio de destino (112) durante um intervalo de tempo de transição;  determinar um instante de tempo intermediário (213) dentro do intervalo de tempo de transição; e  determinar o ganho de entrada gradual com base em uma localização relativa do instante de tempo intermediário (213) dentro do intervalo de tempo de transição.
EE 8) O método (900) de acordo com EE 7, em que  o método (900) compreende fornecer uma função de entrada gradual (212) que indica o ganho de entrada gradual em diferentes instantes de tempo intermediários (213) dentro do intervalo de tempo de transição; e  a função de entrada gradual (212) é tal que o ganho de entrada gradual aumenta com o progresso de instantes de tempo intermediário (213).
EE 9) O método (900) de acordo com EE 8, em que a função de entrada gradual (212) é tal que  o sinal de áudio de destino permanece não modificado no final do intervalo de tempo de transição; e/ou  o sinal de áudio de destino é atenuado decrescentemente em instantes de tempo intermediário em progresso (213); e/ou  o sinal de áudio de destino é totalmente atenuado no início do intervalo de tempo de transição.
EE 10) O método (900) de acordo com qualquer um dos EEs 6 a 9, em que o método (900) compreende  manter a posição da fonte de destino da fonte de áudio de destino (113) na esfera (114) em torno da posição de ouvinte (201, 202) à medida que o ouvinte (181) se move da cena de áudio de origem (111) para a cena de áudio de destino (112) ); e  manter a posição de ouvinte (201, 202) inalterada à medida que o ouvinte (181) se move da cena de áudio de origem (111) para a cena de áudio de destino (112).
EE 11) O método (900), de acordo com o EE 8, referente ao EE 3, em que a função saída gradual (211) e a função entrada gradual (212) em combinação fornecem um ganho constante para uma pluralidade de diferentes instantes de tempo intermediários (213).
EE 12) O método (900), de acordo com o EE 8, referente ao EE 3 em que a função saída gradual (211) e/ou a função entrada gradual (212)  são derivados de um fluxo de bits (140) que é indicativo do sinal de áudio de origem e/ou do sinal de áudio de destino; e/ou  são derivados de uma unidade de armazenamento de um renderizador de áudio de realidade virtual (160) configurada para renderizar o sinal de áudio de origem e/ou o sinal de áudio de destino dentro do ambiente de renderização de realidade virtual (180).
EE 13) O método (900) de acordo com qualquer EEs anteriores, em que o método (900) compreende receber uma indicação de que o ouvinte (181) se move da cena de áudio de origem (111) para a cena de áudio de destino (112).
EE 14) O método (900) de acordo com o EE 13, em que a indicação compreende um sinalizador.
EE 15) O método (900) de acordo com qualquer um dos EEs anteriores, em que o método (900) compreende, enviar uma indicação de que o ouvinte (181) se move a partir da cena de áudio de origem (111) para a cena de áudio de destino (112) para um codificador (130); em que o codificador (130) está configurado para gerar um fluxo de bits (140) que é indicativo do sinal de áudio de origem.
EE 16) O método (900) de acordo com qualquer um dos EEs anteriores, em que o primeiro sinal de áudio é renderizado usando um renderizador de áudio 3D (162), notadamente um renderizador de áudio MPEG-H.
EE 17) O método (900) de acordo com quaisquer EE anteriores, em que o método (900) compreende,  renderizar uma pluralidade de sinais de áudio de origem de uma correspondente pluralidade de fontes de áudio de origem (113) a partir de uma pluralidade de posições de fonte de origem diferentes na esfera (114) em torno da posição de ouvinte (201, 202);  aplicar o ganho de saída gradual para a pluralidade de sinais de áudio de origem para determinar uma pluralidade de sinais de áudio de origem modificados; e  renderizar a pluralidade de sinais de áudio de origem modificados da fonte de áudio de origem (113) a partir da correspondente pluralidade de posições de fonte de origem na esfera (114) em torno da posição de ouvinte (201, 202).
EE 18) O método (900) de acordo com qualquer um dos EEs 6 a 17, em que o método (900) compreende,  determinar uma pluralidade de sinais de áudio de destino de uma pluralidade correspondente de fontes de áudio de destino (113) da cena de áudio de destino (112);  determinar uma pluralidade de posições de fonte de destino na esfera (114) em torno da posição de ouvinte (201, 202); e  aplicar o ganho de entrada gradual à pluralidade de sinais de áudio de destino para determinar uma pluralidade correspondente de sinais de áudio de destino modificados; e  renderizar a pluralidade de sinais de áudio de destino modificados da pluralidade de fontes de áudio de destino (113) a partir da pluralidade correspondente de posições de fonte de destino na esfera (114) em torno da posição de ouvinte (201, 202).
EE 19) O método (900) de acordo com qualquer um dos EEs anteriores, em que o sinal de áudio de origem é uma sobreposição de sinais de áudio de uma pluralidade de fontes de áudio de origem (113).
EE 20) Um renderizador de áudio de realidade virtual (160) para renderizar áudio em um ambiente de renderização de realidade virtual (180), em que o renderizador de áudio de realidade virtual (160) está configurado para  renderizar um sinal de áudio de origem de uma fonte de áudio de origem (113) de uma cena de áudio de origem (111) a partir de uma posição de fonte de origem em uma esfera (114) em torno de uma posição de ouvinte de origem ( 201) de um ouvinte (181);  determinar que o ouvinte (181) se move a partir da posição de ouvinte (201) dentro da cena de áudio de origem (111) para uma posição de ouvinte (202) dentro de uma cena de áudio de destino diferente (112);  aplicar um ganho de saída gradual do sinal de áudio de origem para determinar um sinal de áudio de origem modificado; e  renderizar o sinal de áudio de origem modificado da fonte de áudio de origem (113) a partir da posição da fonte de origem na esfera (114) em torno da posição de ouvinte (201, 202).
EE 21) Um codificador (130) configurado para gerar um fluxo de bits (140) indicativo de um sinal de áudio a ser renderizado dentro de um ambiente de renderização de realidade virtual (180); em que o codificador (130) está configurado para  determinar um sinal de áudio de origem de uma fonte de áudio de origem (113) de uma cena de áudio de origem (111);  determinar dados de posição de origem em relação a uma posição de fonte de origem da fonte de áudio de origem (113);  gerar um fluxo de bits (140) compreendendo o sinal de áudio de origem e os dados de posição de origem;  receber uma indicação de que um ouvinte (181) se move a partir da cena de áudio de origem (111) para uma cena de áudio de destino (112) dentro do ambiente de renderização de realidade virtual (180);  determinar um sinal de áudio de destino de uma fonte de áudio de destino (113) da cena de áudio de destino (112);  determinar os dados da posição de destino em relação a uma posição da fonte de destino da fonte de áudio de destino (113); e
 gerar um fluxo de bits (140) compreendendo o sinal de áudio de destino e os dados da posição de destino.
EE 22) Um método (930) para gerar um fluxo de bits (140) indicativo de um sinal de áudio a ser renderizado dentro de um ambiente de renderização de realidade virtual (180); o método (930) compreendendo,  determinar (931) um sinal de áudio de origem de uma fonte de áudio de origem (113) de uma cena de áudio de origem (111);  determinar (932) os dados de posição de origem em relação a uma posição de fonte de origem da fonte de áudio de origem (113);  gerar (933) um fluxo de bits (140) compreendendo o sinal de áudio de origem e os dados de posição de origem;  receber (934) uma indicação de que um ouvinte (181) se move a partir da cena de áudio de origem (111) para uma cena de áudio de destino (112) dentro do ambiente de renderização de realidade virtual (180);  determinar (935) um sinal de áudio de destino de uma fonte de áudio de destino (113) da cena de áudio de destino (112);  determinar (936) os dados da posição de destino em relação a uma posição da fonte de destino da fonte de áudio de destino (113); e  gerar (937) um fluxo de bits (140) compreendendo o sinal de áudio de destino e os dados da posição de destino.
EE 23) Um renderizador de áudio de realidade virtual (160) para renderizar um sinal de áudio em um ambiente de renderização de realidade virtual (180), em que o renderizador de áudio (160) compreende,  um renderizador de áudio 3D (162) que está configurado para renderizar um sinal de áudio de uma fonte de áudio (113) a partir de uma posição de fonte em uma esfera (114) em torno de uma posição de ouvinte (201, 202) de um ouvinte (181) dentro do ambiente de renderização de realidade virtual (180);
 uma unidade de pré-processamento (161) configurada para
 determinar uma nova posição de ouvinte (201, 202) do ouvinte (181) dentro do ambiente de renderização de realidade virtual (180); e
 atualizar o sinal de áudio e a posição da fonte da fonte de áudio (201, 202)
em relação a uma esfera (114) em torno da nova posição do ouvinte (201, 202);
em que o renderizador de áudio 3D (162) está configurado para renderizar o sinal de áudio atualizado da fonte de áudio 113) a partir da posição de fonte atualizada na esfera (114) em torno da nova posição de ouvinte (201, 202).

Claims (30)

REIVINDICAÇÕES
1. Método (900) para renderizar áudio em um ambiente de renderização de realidade virtual (180) usando um renderizador 3DoF (162), o método (900) CARACTERIZADO pelo fato de que compreende:  renderizar (901), pelo renderizador 3DoF (162), um sinal de áudio de origem de uma fonte de áudio de origem (113) de uma cena de áudio de origem (111) a partir de uma posição de fonte de origem em uma esfera (114) em torno de uma posição de escuta de origem ( 201) de um ouvinte (181) dentro de um ambiente de renderização de realidade virtual (180);  determinar (902) que o ouvinte (181) se move dentro do ambiente de renderização de realidade virtual (180) a partir da posição de escuta de origem (201) dentro da cena de áudio de origem (111) para uma posição de escuta de destino (202) dentro de uma cena de áudio de destino diferente (112);  responder à determinação de que o ouvinte (181) se move a partir da posição de escuta de origem (201) dentro da cena de áudio de origem (111) para a posição de escuta de destino (202) dentro da cena de áudio de destino (112), aplicar (903) um ganho de saída gradual ao sinal de áudio de origem para determinar um sinal de áudio de origem modificado; e  renderizar (904), pelo renderizador 3DoF (162), o sinal de áudio de origem modificado da fonte de áudio de origem (113) a partir da posição de fonte de origem na esfera (114) em torno da posição de escuta de origem (201); em que o método compreende ainda:  determinar um sinal de áudio de destino de uma fonte de áudio de destino (113) da cena de áudio de destino (112);  determinar uma posição de fonte de destino na esfera (114) em torno da posição de escuta de destino (202);  aplicar um ganho de entrada gradual ao sinal de áudio de destino para determinar um sinal de áudio de destino modificado; e  renderizar, pelo renderizador 3DoF (162), o sinal de áudio de destino modificado da fonte de áudio de destino (113) a partir da posição de fonte de destino na esfera (114) em torno da posição de escuta de destino (202).
2. Método (900), de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que o sinal de áudio de origem modificado é renderizado a partir da mesma posição em relação ao ouvinte ao longo do movimento a partir da posição de ouvinte de origem (201) dentro da cena de áudio de origem (111) para a posição de ouvinte de destino (202) dentro da cena de áudio de destino (112).
3. Método (900), de acordo com a reivindicação 1 ou 2, CARACTERIZADO pelo fato de que a cena de áudio de destino (112) não inclui a fonte de áudio de origem (113).
4. Método (900), de acordo com qualquer uma das reivindicações anteriores, o método (900) CARACTERIZADO pelo fato de que compreende,  determinar que o ouvinte (181) se move a partir da cena de áudio de origem (111) para a cena de áudio de destino (112) durante um intervalo de tempo de transição;  determinar um instante de tempo intermediário (213) dentro do intervalo de tempo de transição; e  determinar o ganho de saída gradual com base em uma localização relativa do instante de tempo intermediário (213) dentro do intervalo de tempo de transição.
5. Método (900), de acordo com a reivindicação 4, CARACTERIZADO pelo fato de que  um respectivo ganho de saída gradual é determinado para cada um de uma pluralidade de instantes de tempo intermediários dentro do intervalo de tempo de transição com base na localização relativa do respectivo instante de tempo intermediário (213) dentro do intervalo de transição; e
 o respectivo ganho de saída gradual determinado é aplicado ao sinal de áudio de origem para determinar um respectivo sinal de áudio de origem modificado para cada pluralidade de constantes de tempo intermediárias dentro do intervalo de tempo de transição.
6. Método (900), de acordo com qualquer uma das reivindicações anteriores, CARACTERIZADO pelo fato de que o ganho de saída gradual é diferente de zero até que a posição de ouvinte de destino (202) dentro da cena de áudio de destino (112) seja alcançada.
7. Método (900), de acordo com a reivindicação 4 ou 5, CARACTERIZADO pelo fato de que  o método (900) compreende fornecer uma função de saída gradual (211) que indica o ganho de saída gradual em diferentes instantes de tempo intermediários (213) dentro do intervalo de tempo de transição; e  a função de saída gradual (211) é tal que o ganho de saída gradual diminui com o progresso de instantes de tempo intermediários (213).
8. Método (900), de acordo com a reivindicação 7, CARACTERIZADO pelo fato de que a função de saída gradual (211) é tal que  o sinal de áudio de origem permanece não modificado no início do intervalo de tempo de transição; e/ ou  o sinal de áudio de origem é cada vez mais atenuado em instantes de tempo intermediário em progresso (213); e/ ou  o sinal de áudio de origem é totalmente atenuado no final do intervalo de tempo de transição.
9. Método (900), de acordo com qualquer uma das reivindicações anteriores, o método (900) CARACTERIZADO pelo fato de que compreende,  manter a posição da fonte de origem da fonte de áudio de origem (113) na esfera (114) em torno da posição de ouvinte de origem (201) conforme o ouvinte (181)
se move dentro do ambiente de renderização de realidade virtual (180) a partir da cena de áudio de origem (111) para a cena de áudio de destino (112); e/ ou  manter a posição de ouvinte de origem (201) não modificada à medida que o ouvinte (181) se move dentro do ambiente de renderização de realidade virtual (180) da cena de áudio de origem (111) para a cena de áudio de destino (112).
10. Método (900), de acordo com qualquer uma das reivindicações anteriores, CARACTERIZADO pelo fato de que o sinal de áudio de destino modificado é renderizado a partir da mesma posição em relação ao ouvinte ao longo do movimento a partir da posição de ouvinte de origem (201) dentro da cena de áudio de origem (111) para a posição de ouvinte de destino (202) dentro da cena de áudio de destino (112).
11. Método (900), de acordo com a reivindicação 10, CARACTERIZADO pelo fato de que a cena de áudio de origem (111) não inclui a fonte de áudio de destino (113).
12. Método (900), de acordo com qualquer uma das reivindicações anteriores, o método (900) CARACTERIZADO pelo fato de que compreende,  determinar que o ouvinte (181) se move a partir da cena de áudio de origem (111) para a cena de áudio de destino (112) durante um intervalo de tempo de transição;  determinar um instante de tempo intermediário (213) dentro do intervalo de tempo de transição; e  determinar o ganho de entrada gradual com base em uma localização relativa do instante de tempo intermediário (213) dentro do intervalo de tempo de transição.
13. Método (900), de acordo com a reivindicação 12, CARACTERIZADO pelo fato de que:  um respectivo ganho de entrada gradual é determinado para cada um de uma pluralidade de instantes de tempo intermediários dentro do intervalo de tempo de transição com base na localização relativa do respectivo instante de tempo intermediário (213) dentro do intervalo de transição; e  o respectivo ganho de entrada gradual determinado é aplicado ao sinal de áudio de destino para determinar um respectivo sinal de áudio de destino modificado para cada pluralidade de constantes de tempo intermediárias dentro do intervalo de tempo de transição.
14. Método (900), de acordo com qualquer uma das reivindicações anteriores, CARACTERIZADO pelo fato de que o ganho de entrada gradual é diferente de zero durante o movimento a partir da cena de áudio de origem (111) para a cena de áudio de destino (112).
15. Método (900), de acordo com a reivindicação 12 ou 13, CARACTERIZADO pelo fato de que  o método (900) compreende fornecer uma função de entrada gradual (212) que indica o ganho de entrada gradual em diferentes instantes de tempo intermediários (213) dentro do intervalo de tempo de transição; e  a função de entrada gradual (212) é tal que o ganho de entrada gradual aumenta com o progresso de instantes de tempo intermediário (213).
16. Método (900), de acordo com a reivindicação 15, CARACTERIZADO pelo fato de que a função de entrada gradual (212) é tal que  o sinal de áudio de destino permanece não modificado no final do intervalo de tempo de transição; e/ ou  o sinal de áudio de destino é atenuado decrescentemente em instantes de tempo intermediário em progresso (213); e/ ou  o sinal de áudio de destino é totalmente atenuado no início do intervalo de tempo de transição.
17. Método (900), de acordo com qualquer uma das reivindicações anteriores,
o método (900) CARACTERIZADO pelo fato de que compreende,  manter a posição da fonte de destino da fonte de áudio de destino (113) na esfera (114) em torno da posição de ouvinte de destino (202) conforme o ouvinte (181) se move dentro do ambiente de renderização de realidade virtual (180) a partir da cena de áudio de origem (111) para a cena de áudio de destino (112); e/ ou  manter a posição de ouvinte de destino (202) não modificada à medida que o ouvinte (181) se move dentro do ambiente de renderização de realidade virtual (180) da cena de áudio de origem (111) para a cena de áudio de destino (112).
18. Método (900), de acordo com a reivindicação 15, referente à reivindicação 7, CARACTERIZADO pelo fato de que a função de saída gradual (211) e a função de entrada gradual (212) em combinação fornecem um ganho constante para uma pluralidade de diferentes instantes de tempo intermediários (213).
19. Método (900), de acordo com a reivindicação 15, referente à reivindicação 7, CARACTERIZADO pelo fato de que a função de saída gradual (211) e/ ou a função de entrada gradual (212)  são derivados de um fluxo de bits (140) que é indicativo do sinal de áudio de origem e/ ou do sinal de áudio de destino; e/ ou  são derivados de uma unidade de armazenamento de um renderizador de áudio de realidade virtual (160) configurada para renderizar o sinal de áudio de origem e/ ou o sinal de áudio de destino dentro do ambiente de renderização de realidade virtual (180).
20. Método (900), de acordo com qualquer uma das reivindicações anteriores, o método (900) CARACTERIZADO pelo fato de que compreende receber uma indicação de que o ouvinte (181) se move da cena de áudio de origem (111) para a cena de áudio de destino (112).
21. Método (900), de acordo com a reivindicação 20, CARACTERIZADO pelo fato de que a indicação compreende um sinalizador.
22. Método (900), de acordo com qualquer uma das reivindicações anteriores, o método (900) CARACTERIZADO pelo fato de que compreende, enviar uma indicação de que o ouvinte (181) se move a partir da cena de áudio de origem (111) para a cena de áudio de destino (112) para um codificador (130); em que o codificador (130) está configurado para gerar um fluxo de bits (140) que é indicativo do sinal de áudio de origem.
23. Método (900), de acordo com qualquer uma das reivindicações anteriores, CARACTERIZADO pelo fato de que o primeiro sinal de áudio é renderizado usando um renderizador de áudio 3D (162), notadamente um renderizador de áudio MPEG-H.
24. Método (900), de acordo com qualquer uma das reivindicações anteriores, o método (900) CARACTERIZADO pelo fato de que compreende,  renderizar uma pluralidade de sinais de áudio de origem de uma correspondente pluralidade de fontes de áudio de origem (113) a partir de uma pluralidade de posições de fonte de origem diferentes na esfera (114) em torno da posição de ouvinte (201, 202);  aplicar o ganho de saída gradual para a pluralidade de sinais de áudio de origem para determinar uma pluralidade de sinais de áudio de origem modificados; e  renderizar a pluralidade de sinais de áudio de origem modificados da fonte de áudio de origem (113) a partir da correspondente pluralidade de posições de fonte de origem na esfera (114) em torno da posição de ouvinte (201, 202).
25. Método (900), de acordo com qualquer uma das reivindicações anteriores, o método (900) CARACTERIZADO pelo fato de que compreende,  determinar uma pluralidade de sinais de áudio de destino de uma pluralidade correspondente de fontes de áudio de destino (113) da cena de áudio de destino (112);  determinar uma pluralidade de posições de fonte de destino na esfera (114) em torno da posição de ouvinte de destino (202); e
 aplicar o ganho de entrada gradual à pluralidade de sinais de áudio de destino para determinar uma pluralidade correspondente de sinais de áudio de destino modificados; e  renderizar a pluralidade de sinais de áudio de destino modificados da pluralidade de fontes de áudio de destino (113) a partir da pluralidade correspondente de posições de fonte de destino na esfera (114) em torno da posição de destino ( 202).
26. Método (900), de acordo com qualquer uma das reivindicações anteriores, CARACTERIZADO pelo fato de que o sinal de áudio de origem é uma sobreposição de sinais de áudio de uma pluralidade de fontes de áudio de origem (113).
27. Renderizador de áudio de realidade virtual (160) para renderizar áudio em um ambiente de renderização de realidade virtual (180) compreendendo um renderizador 3DoF (162), CARACTERIZADO pelo fato de que o renderizador de áudio de realidade virtual (160) está configurado para  renderizar, pelo renderizador 3DoF (162), um sinal de áudio de origem de uma fonte de áudio de origem (113) de uma cena de áudio de origem (111) a partir de uma posição de fonte de origem em uma esfera (114) em torno de uma posição de escuta de origem ( 201) de um ouvinte (181) dentro de um ambiente de renderização de realidade virtual (180);  determinar que o ouvinte (181) se move dentro do ambiente de renderização de realidade virtual (180) a partir da posição de escuta de origem (201) dentro da cena de áudio de origem (111) para uma posição de escuta de destino (202) dentro de uma cena de áudio de destino diferente (112);  responder à determinação de que o ouvinte (181) se move a partir da posição de ouvinte de origem (201) dentro da cena de áudio de origem (111) para a posição de ouvinte de destino (202) dentro da cena de áudio de destino (112), aplicar um ganho de saída gradual ao sinal de áudio de origem para determinar um sinal de áudio de origem modificado; e
 renderizar, pelo renderizador 3DoF (162), o sinal de áudio de origem modificado da fonte de áudio de origem (113) a partir da posição de fonte de origem na esfera (114) em torno da posição de ouvinte de origem (201), em que o renderizador de áudio de realidade virtual é ainda configurado para:  determinar um sinal de áudio de destino de uma fonte de áudio de destino (113) da cena de áudio de destino (112);  determinar uma posição de fonte de destino na esfera (114) em torno da posição de escuta de destino (202);  aplicar um ganho de entrada gradual ao sinal de áudio de destino para determinar um sinal de áudio de destino modificado; e  renderizar, pelo renderizador 3DoF (162), o sinal de áudio de destino modificado da fonte de áudio de destino (113) a partir da posição de fonte de destino na esfera (114) em torno da posição de escuta de destino (202).
28. Codificador (130) configurado para gerar um fluxo de bits (140) indicativo de um sinal de áudio a ser renderizado dentro de um ambiente de renderização de realidade virtual (180); CARACTERIZADO pelo fato de que o codificador (130) está configurado para  determinar um sinal de áudio de origem de uma fonte de áudio de origem (113) de uma cena de áudio de origem (111);  determinar dados de posição de origem em relação a uma posição de fonte de origem da fonte de áudio de origem (113);  gerar um fluxo de bits (140) compreendendo o sinal de áudio de origem e os dados de posição de origem;  receber uma indicação de que um ouvinte (181) se move a partir da cena de áudio de origem (111) para uma cena de áudio de destino (112) dentro do ambiente de renderização de realidade virtual (180);  determinar um sinal de áudio de destino de uma fonte de áudio de destino
(113) da cena de áudio de destino (112);  determinar os dados da posição de destino em relação a uma posição da fonte de destino da fonte de áudio de destino (113); e  gerar um fluxo de bits (140) compreendendo o sinal de áudio de destino e os dados da posição de destino.
29. Método (930) para gerar um fluxo de bits (140) indicativo de um sinal de áudio a ser renderizado dentro de um ambiente de renderização de realidade virtual (180); o método (930) CARACTERIZADO pelo fato de que compreende,  determinar (931) um sinal de áudio de origem de uma fonte de áudio de origem (113) de uma cena de áudio de origem (111);  determinar (932) os dados de posição de origem em relação a uma posição de fonte de origem da fonte de áudio de origem (113);  gerar (933) um fluxo de bits (140) compreendendo o sinal de áudio de origem e os dados de posição de origem;  receber (934) uma indicação de que um ouvinte (181) se move a partir da cena de áudio de origem (111) para uma cena de áudio de destino (112) dentro do ambiente de renderização de realidade virtual (180);  determinar (935) um sinal de áudio de destino de uma fonte de áudio de destino (113) da cena de áudio de destino (112);  determinar (936) os dados da posição de destino em relação a uma posição da fonte de destino da fonte de áudio de destino (113); e  gerar (937) um fluxo de bits (140) compreendendo o sinal de áudio de destino e os dados da posição de destino.
30. Renderizador de áudio de realidade virtual (160) para renderizar um sinal de áudio em um ambiente de renderização de realidade virtual (180), CARACTERIZADO pelo fato de que o renderizador de áudio (160) compreende,
 um renderizador de áudio 3D MPEG-H (162) que está configurado para renderizar um sinal de áudio de uma fonte de áudio (113) MPEG- partir de uma posição de fonte em uma esfera (114) em torno de uma posição de ouvinte (201, 202) de um ouvinte (181) dentro do ambiente de renderização de realidade virtual (180);  uma unidade de pré-processamento (161) configurada para  determinar uma nova posição de ouvinte (201, 202) do ouvinte (181) dentro do ambiente de renderização de realidade virtual (180); e  atualizar o sinal de áudio e a posição da fonte da fonte de áudio (201, 202) em relação a uma esfera (114) em torno da nova posição do ouvinte (201, 202); em que o renderizador de áudio 3D MPEG-H (162) está configurado para renderizar o sinal de áudio atualizado da fonte de áudio (113) a partir da posição de fonte atualizada na esfera (114) em torno da nova posição de ouvinte (201, 202).
BR112020012299-8A 2017-12-18 2018-12-18 método e sistema para manuseio de transições globais entre posições de ouvinte em um ambiente de realidade virtual BR112020012299A2 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762599841P 2017-12-18 2017-12-18
EP17208088.9 2017-12-18
US62/599,841 2017-12-18
EP17208088 2017-12-18
PCT/EP2018/085641 WO2019121775A1 (en) 2017-12-18 2018-12-18 Method and system for handling global transitions between listening positions in a virtual reality environment

Publications (1)

Publication Number Publication Date
BR112020012299A2 true BR112020012299A2 (pt) 2020-11-24

Family

ID=64664312

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112020012299-8A BR112020012299A2 (pt) 2017-12-18 2018-12-18 método e sistema para manuseio de transições globais entre posições de ouvinte em um ambiente de realidade virtual

Country Status (8)

Country Link
US (3) US11405741B2 (pt)
EP (1) EP3729831A1 (pt)
JP (2) JP7354107B2 (pt)
KR (2) KR102616673B1 (pt)
CN (3) CN111527760B (pt)
BR (1) BR112020012299A2 (pt)
RU (2) RU2022100301A (pt)
WO (1) WO2019121775A1 (pt)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111527760B (zh) * 2017-12-18 2022-12-20 杜比国际公司 用于处理虚拟现实环境中的听音位置之间的全局过渡的方法和系统
GB2587371A (en) * 2019-09-25 2021-03-31 Nokia Technologies Oy Presentation of premixed content in 6 degree of freedom scenes
GB2589603A (en) * 2019-12-04 2021-06-09 Nokia Technologies Oy Audio scene change signaling
GB2599359A (en) * 2020-09-23 2022-04-06 Nokia Technologies Oy Spatial audio rendering
US11750745B2 (en) 2020-11-18 2023-09-05 Kelly Properties, Llc Processing and distribution of audio signals in a multi-party conferencing environment
JP2024521689A (ja) * 2021-05-17 2024-06-04 ドルビー・インターナショナル・アーベー 仮想現実環境においてオーディオソースの指向性を制御するための方法およびシステム
US20230055690A1 (en) * 2021-08-19 2023-02-23 Semiconductor Components Industries, Llc Error correction overwrite for audio artifact reduction
US20230057207A1 (en) * 2021-08-23 2023-02-23 Tencent America LLC Immersive media compatibility
GB2614254A (en) * 2021-12-22 2023-07-05 Nokia Technologies Oy Apparatus, methods and computer programs for generating spatial audio output

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6077237A (en) 1998-11-06 2000-06-20 Adaboy, Inc. Headset for vestibular stimulation in virtual environments
WO2008032255A2 (en) * 2006-09-14 2008-03-20 Koninklijke Philips Electronics N.V. Sweet spot manipulation for a multi-channel signal
WO2009109217A1 (en) 2008-03-03 2009-09-11 Nokia Corporation Apparatus for capturing and rendering a plurality of audio channels
WO2010040408A1 (en) * 2008-10-09 2010-04-15 Telefonaktiebolaget L M Ericsson (Publ) A common scene based conference system
US20100197401A1 (en) 2009-02-04 2010-08-05 Yaniv Altshuler Reliable, efficient and low cost method for games audio rendering
CN104604255B (zh) 2012-08-31 2016-11-09 杜比实验室特许公司 基于对象的音频的虚拟渲染
EP2733964A1 (en) 2012-11-15 2014-05-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Segment-wise adjustment of spatial audio signal to different playback loudspeaker setup
JP6209359B2 (ja) 2013-05-14 2017-10-04 株式会社スクウェア・エニックス ビデオゲーム処理装置、及びビデオゲーム処理プログラム
US9384741B2 (en) 2013-05-29 2016-07-05 Qualcomm Incorporated Binauralization of rotated higher order ambisonics
US20150302651A1 (en) 2014-04-18 2015-10-22 Sam Shpigelman System and method for augmented or virtual reality entertainment experience
EP3192282A1 (en) * 2014-09-12 2017-07-19 Dolby Laboratories Licensing Corp. Rendering audio objects in a reproduction environment that includes surround and/or height speakers
US20160330563A1 (en) 2015-05-08 2016-11-10 Htc Corporation Virtual reality audio system and the player thereof, and method for generation of virtual reality audio
WO2017087460A1 (en) 2015-11-16 2017-05-26 D-Box Technologies Inc. Method and system for synchronizing vibro-kinetic effects to a virtual reality session
EP3174005A1 (en) 2015-11-30 2017-05-31 Nokia Technologies Oy Apparatus and method for controlling audio mixing in virtual reality environments
US10021373B2 (en) 2016-01-11 2018-07-10 Microsoft Technology Licensing, Llc Distributing video among multiple display zones
GB2546504B (en) 2016-01-19 2020-03-25 Facebook Inc Audio system and method
US10038967B2 (en) 2016-02-02 2018-07-31 Dts, Inc. Augmented reality headphone environment rendering
US11112266B2 (en) 2016-02-12 2021-09-07 Disney Enterprises, Inc. Method for motion-synchronized AR or VR entertainment experience
US10979843B2 (en) * 2016-04-08 2021-04-13 Qualcomm Incorporated Spatialized audio output based on predicted position data
CN111527760B (zh) * 2017-12-18 2022-12-20 杜比国际公司 用于处理虚拟现实环境中的听音位置之间的全局过渡的方法和系统

Also Published As

Publication number Publication date
CN111527760A (zh) 2020-08-11
CN111527760B (zh) 2022-12-20
US20210006924A1 (en) 2021-01-07
WO2019121775A1 (en) 2019-06-27
US11750999B2 (en) 2023-09-05
CN116017264A (zh) 2023-04-25
JP7354107B2 (ja) 2023-10-02
CN116017263A (zh) 2023-04-25
RU2022100301A (ru) 2022-03-05
KR20200098651A (ko) 2020-08-20
JP2021507559A (ja) 2021-02-22
US11405741B2 (en) 2022-08-02
JP2023179510A (ja) 2023-12-19
RU2020120210A (ru) 2021-12-20
EP3729831A1 (en) 2020-10-28
RU2765926C2 (ru) 2022-02-04
KR102616673B1 (ko) 2023-12-27
KR20240000641A (ko) 2024-01-02
US20240031760A1 (en) 2024-01-25
RU2020120210A3 (pt) 2021-12-20
US20230022740A1 (en) 2023-01-26

Similar Documents

Publication Publication Date Title
US11743672B2 (en) Method and system for handling local transitions between listening positions in a virtual reality environment
BR112020012299A2 (pt) método e sistema para manuseio de transições globais entre posições de ouvinte em um ambiente de realidade virtual
US20200367008A1 (en) System and method for rendering virtual sound sources
CN110121695B (zh) 虚拟现实领域中的装置及相关联的方法
US20240155304A1 (en) Method and system for controlling directivity of an audio source in a virtual reality environment
RU2777921C2 (ru) Способ и система для обработки локальных переходов между положениями прослушивания в среде виртуальной реальности
WO2024179939A1 (en) Multi-directional audio diffraction modeling for voxel-based audio scene representations
CN116998169A (zh) 在虚拟现实环境中控制音频源的指向性的方法和系统

Legal Events

Date Code Title Description
B350 Update of information on the portal [chapter 15.35 patent gazette]