BR112020008073A2 - otimização de fornecimento de áudio para aplicativos de realidade virtual - Google Patents

otimização de fornecimento de áudio para aplicativos de realidade virtual Download PDF

Info

Publication number
BR112020008073A2
BR112020008073A2 BR112020008073-0A BR112020008073A BR112020008073A2 BR 112020008073 A2 BR112020008073 A2 BR 112020008073A2 BR 112020008073 A BR112020008073 A BR 112020008073A BR 112020008073 A2 BR112020008073 A2 BR 112020008073A2
Authority
BR
Brazil
Prior art keywords
audio
scene
user
streams
video
Prior art date
Application number
BR112020008073-0A
Other languages
English (en)
Inventor
Adrian Murtaza
Harald Fuchs
Bernd CZELHAN
Jan PLOGSTIES
Matteo AGNELLI
Ingo Hofmann
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V.
Publication of BR112020008073A2 publication Critical patent/BR112020008073A2/pt

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/0093Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00 with means for monitoring data relating to the user, e.g. head-tracking, eye-tracking
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0179Display position adjusting means not related to the information to be displayed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/293Generating mixed stereoscopic images; Generating mixed monoscopic and stereoscopic images, e.g. a stereoscopic image overlay window on a monoscopic image background
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/361Reproducing mixed stereoscopic images; Reproducing mixed monoscopic and stereoscopic images, e.g. a stereoscopic image overlay window on a monoscopic image background
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/23439Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements for generating different versions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6587Control parameters, e.g. trick play commands, viewpoint selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0179Display position adjusting means not related to the information to be displayed
    • G02B2027/0187Display position adjusting means not related to the information to be displayed slaved to motion of at least a part of the body of the user, e.g. head, eye

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Optics & Photonics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Stereophonic System (AREA)
  • User Interface Of Digital Computer (AREA)
  • Position Input By Displaying (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

Existem técnicas, sistemas, métodos e instruções divulgadas para um ambiente de realidade virtual, RV, realidade aumentada, AR, realidade mista, RM ou vídeo em 360 graus. Em um exemplo, o sistema (102) compreende pelo menos um decodificador de vídeo de mídia configurado para decodificar sinais de vídeo de fluxos de vídeo para a representação de cenas do ambiente de vídeo VR, AR, MR ou 360 graus para um usuário. O sistema compreende pelo menos um decodificador de áudio (104) configurado para decodificar sinais de áudio (108) de pelo menos um fluxo de áudio (106). O sistema (102) está configurado para solicitar (112) pelo menos um fluxo de áudio (106) e / ou um elemento de áudio de um fluxo de áudio e / ou uma adaptação configurada para um servidor (120) com base em pelo menos o usuário viewport atual e / ou orientação da cabeça e / ou dados de movimento e / ou metadados de interação e / ou dados posicionais virtuais (110).

Description

“OTIMIZAÇÃO DE FORNECIMENTO DE ÁUDIO PARA APLICATIVOS DE REALIDADE VIRTUAL” Descrição Introdução
[0001] Em um ambiente de VR, ou de forma semelhante em ambientes de Realidade Aumentada (AR) ou Realidade Mista (MR) ou Vídeo em 360 graus, o usuário geralmente pode visualizar o conteúdo completo em 360 graus usando, por exemplo, um Head Mounted Display (HMD) (Visor Montado na Cabeça) e ouvi-lo por meio de fones de ouvido (ou de forma semelhante por meio de alto-falantes, incluindo a renderização correta, dependendo de sua posição).
[0002] Em um caso de uso simples, o conteúdo é criado de tal maneira que apenas uma cena de áudio/vídeo (ou seja, vídeo de 360 graus, por exemplo) é reproduzida em um determinado momento. A cena de áudio/vídeo tem um local fixo (por exemplo, uma esfera com o usuário posicionado no centro) e o usuário não pode se mover na cena, mas pode apenas girar a cabeça em várias direções (guinada, inclinação, rotação). Neste caso, vídeo e áudio diferentes são reproduzidos (viewports diferentes são exibidas) para o usuário com base na orientação da sua cabeça.
[0003] Enquanto para o vídeo, o conteúdo do vídeo é fornecido para toda a cena em 360 graus, junto com metadados para descrever o processo de renderização (por exemplo, informações de costura, mapeamento de projeção etc.) e selecionado com base na viewport atual do usuário atual, para o áudio o conteúdo é o mesmo para toda a cena.
Com base nos metadados, o conteúdo de áudio é adaptado à viewport atual do usuário (por exemplo, um objeto de áudio é renderizado de forma diferente com base na viewport/informações da orientação do usuário). Deve-se observar que o conteúdo em 360 graus refere-se a qualquer tipo de conteúdo que inclua mais de um ângulo de visão no mesmo momento, que o usuário possa escolher (por exemplo, pela orientação da cabeça ou usando um dispositivo de controle remoto)
[0004] Em um cenário mais complexo, quando o usuário pode se mover na cena de VR ou "pular" de uma cena para a próxima, o conteúdo de áudio também pode mudar (por exemplo, fontes de áudio que não são audíveis em uma cena podem se tornar audíveis na próxima cena - "uma porta é aberta"). Nos sistemas existentes, as cenas de áudio completas podem ser codificadas em um stream e, se necessário, em streams adicionais (dependentes do stream principal). Esses sistemas são conhecidos como sistemas de áudio da próxima geração (por exemplo, áudio MPEG-H 3D).
Exemplos desses casos de uso podem conter:
[0005] Exemplo 1: O usuário escolhe entrar em uma nova sala e toda cena de áudio/vídeo muda
[0006] Exemplo 2: O usuário se move na cena de VR, abre a porta e entra, pressupondo uma transição de uma cena para outra cena necessária
[0007] Com o objetivo de descrever esse cenário, é introduzida a noção de Viewpoint Discretos no espaço, como local discreto no espaço (ou no ambiente de VR), para o qual diferentes conteúdos de áudio/vídeo estão disponíveis.
[0008] A solução "direta" é ter um codificador em tempo real que altere a codificação (número de elementos de áudio, informações espaciais, etc.) com base no feedback do dispositivo de reprodução sobre a posição/orientação do usuário. Essa solução implicaria, por exemplo, em um ambiente de streaming, uma comunicação muito complexa entre um cliente e um servidor:
[0009] O cliente (que geralmente supõe- se usar apenas lógica simples) exigiria mecanismos avançados para transmitir não apenas solicitações de streams diferentes, mas também informações complexas sobre detalhes de codificação que permitiriam o processamento do conteúdo certo com base na posição do usuário.
[0010] O Servidor de Mídia geralmente é pré- preenchido com streams diferentes (formatados de uma maneira específica que permite a entrega por segmento) e a principal função do servidor é fornecer informações sobre os streams disponíveis e fazer sua entrega quando solicitado. Para ativar cenários que permitam a codificação com base no feedback do dispositivo de reprodução, o Servidor de Mídia exigiria links de comunicação avançados com vários codificadores de mídia ao vivo e a capacidade de criar todas as informações de sinalização em tempo real (por exemplo, Descrição da apresentação de mídia) que podem mudar em tempo real.
[0011] Embora esse sistema possa ser imaginado, sua complexidade e requisitos computacionais estão além das funcionalidades e recursos dos equipamentos e sistemas disponíveis atualmente ou mesmo naqueles que serão desenvolvidos nas próximas décadas.
[0012] Como alternativa, o conteúdo que representa o ambiente de VR completo ("o mundo completo") poderia ser fornecido o tempo todo. Isto resolveria o problema, mas exigiria uma taxa de bits enorme que está além da capacidade dos links de comunicação disponíveis.
[0013] Isso é complexo para um ambiente em tempo real e, para ativar esses casos de uso usando os sistemas disponíveis, são propostas soluções alternativas que ativam essa funcionalidade com baixa complexidade.
2. Terminologia e Definições
[0014] A seguinte terminologia é utilizada no campo técnico:
[0015] Audio Elements (Elementos de Áudio): sinais de áudio que podem ser representados, por exemplo, como Audio objects (Objetos de áudio), Audio channels (Canais de áudio), scene based Audio (Áudio baseado em cena) (Higher Order Ambisonics - HOA) (Ambisonics de Ordem Superior), ou uma combinação de todos.
[0016] Region-of-Interest (Região de Interesse) (ROI): Uma região do conteúdo de vídeo (ou do ambiente exibido ou simulado) que é de interesse para o usuário em um momento no tempo. Isso pode ser geralmente uma região em uma esfera, por exemplo, ou uma seleção poligonal de um mapa 2D. O ROI identifica uma região específica para uma finalidade específica, definindo as bordas de um objeto em consideração.
[0017] User position information (Informações de posição do usuário): informações de localização (por exemplo, coordenadas x, y, z), informações de orientação (guinada, inclinação, rotação), direção e velocidade de movimento, etc.
[0018] Viewport: (Janela de visualização): Parte esférica do vídeo que é atualmente exibida e visualizada pelo usuário.
[0019] Viewpoint (Ponto de visualização): o ponto central da Viewport (janela de visualização).
[0020] Vídeo de 360 graus (também conhecido como vídeo de imersão ou vídeo esférico): representa, no contexto deste documento, um conteúdo de vídeo que contém mais de uma visualização (ou seja, viewport) em uma direção no mesmo ponto no tempo. Este conteúdo pode ser criado, por exemplo, usando uma câmera omnidirecional ou uma coleção de câmeras. Durante a reprodução, o espectador controla a direção da visualização.
[0021] Media Presentation Description (MPD) (Descrição de apresentações de mídia) é uma sintaxe XML, por exemplo, que contém informações sobre segmentos de mídia, suas relações e informações necessárias para escolher entre elas.
[0022] Adaptation Sets (Conjuntos de adaptação) contêm um stream (fluxo) de mídia ou um conjunto de streams
(fluxos) de mídia. No caso mais simples, um Adaptation Set contém todos os áudios e vídeos para o conteúdo, mas para reduzir a largura da banda, cada stream pode ser dividido em um Adaptation Set diferente. Um caso comum é ter um Adaptation Set de vídeo, e vários Adaptation Sets de áudio (um para cada idioma suportado). Os Adaptation Sets também podem conter legendas ou metadados arbitrários.
[0023] Representations (Representações) permitem que um Adaptation Set contenha o mesmo conteúdo codificado de várias maneiras. Na maioria dos casos, as Representations serão fornecidas em várias taxas de bits.
Isso permite que os clientes solicitem o conteúdo da mais alta qualidade que eles podem reproduzir sem esperar para armazenar em buffer. As Representations também podem ser codificadas com diferentes codecs, permitindo suporte para clientes com diferentes codecs suportados.
[0024] No contexto deste aplicativo, as noções dos Adaptation Sets são usadas de forma mais genérica, às vezes se referindo realmente as Representations. Além disso, os media streams (streams de áudio/vídeo) geralmente são encapsulados primeiro nos Media segments (segmentos de mídia) que são os arquivos de mídia reais reproduzidos pelo cliente (por exemplo, cliente DASH). Vários formatos podem ser usados para os Media segments, como ISOBMFF (ISO Base Media File Format), que é semelhante ao formato de contêiner MPEG-4 ou MPEG-2 Transport Stream (TS). O encapsulamento em Media segments e em diferentes Representations/Adaptation Sets é independente dos métodos descritos aqui, os métodos se aplicam a todas as várias opções.
[0025] Além disso, a descrição dos métodos neste documento pode ser centrada em uma comunicação DASH Server- Client, mas os métodos são genéricos o suficiente para trabalhar com outros ambientes de fornecimento, como MMT, MPEG-2 TS, DASH-ROUTE, File Format (Formato de Arquivo) para reprodução de arquivos, etc.
[0026] Em termos gerais, um adaptation set está em uma camada superior em relação a um stream e pode incluir metadados (por exemplo, associados às posições). Um stream pode incluir uma pluralidade de elementos de áudio. Uma cena de áudio pode ser associada a uma pluralidade de streams fornecidos como parte de uma pluralidade adaptation sets.
3. Soluções atuais
[0027] As soluções atuais são:
[0028] [1]. ISO/IEC 23008-3:2015, Information technology -- Tecnologia da informação - codificação de alta eficiência e entrega de mídia em ambientes heterogêneos -- Parte 3: Áudio 3D
[0029] [2]. N16950, Estudo do Formato de Mídia Omnidirecional ISO/IEC DIS 23000-20
[0030] As soluções atuais são limitadas para fornecer experiência de VR independente em um local fixo, o que permite ao usuário alterar sua orientação, mas não se mover no ambiente de VR.
SUMÁRIO
[0031] De acordo com uma modalidade, um sistema para realidade virtual, VR, realidade aumentada, AR, realidade mista, MR ou ambiente de vídeo de 360 graus pode ser configurado para receber streams de vídeo e áudio a serem reproduzidos em um dispositivo de consumo de mídia, em que o sistema pode incluir: pelo menos um decodificador de vídeo de mídia configurado para decodificar sinais de vídeo de video streams para a representação de cenas de ambiente de vídeo de VR, AR, MR ou 360 graus para um usuário e pelo menos um decodificador de áudio configurado para decodificar sinais de áudio de pelo menos um audio stream, em que o sistema pode ser configurado para solicitar pelo menos um audio stream e/ou um elemento de áudio de um audio stream e/ou um adaptation set para um servidor com base em pelo menos a viewport atual do usuário e/ou orientação e/ou dados de movimento da cabeça e/ou metadados de interação e/ou dados posicionais virtuais.
[0032] De acordo com um aspecto, o sistema pode ser configurado para fornecer ao servidor a viewport atual do usuário e/ou orientação e/ou dados de movimento da cabeça e/ou metadados de interação e/ou dados posicionais virtuais para obter pelo menos um audio stream e/ou um elemento de áudio de um audio stream e/ou um adaptation set do servidor.
[0033] Uma modalidade pode ser configurada para que pelo menos uma cena seja associada a pelo menos um elemento de áudio, cada elemento de áudio estando associado a uma posição e/ou área no ambiente visual onde o elemento de áudio seja audível, para que diferentes audio streams sejam fornecidos para diferentes posições e/ou viewports do usuário e/ou orientações e/ou dados de movimento da cabeça e/ou metadados de interação e/ou dados posicionais virtuais na cena.
[0034] De acordo com outro aspecto, o sistema pode ser configurado para decidir se pelo menos um elemento de áudio de um audio stream e/ou um adaptation set seja reproduzido para a viewport atual do usuário e/ou orientação e/ou dados de movimento da cabeça e/ou metadados de interação e/ou posição virtual na cena e onde o sistema pode ser configurado para solicitar e/ou receber pelo menos um elemento de áudio na posição virtual atual do usuário.
[0035] De acordo com um aspecto, o sistema pode ser configurado para decidir de forma preditiva se pelo menos um elemento de áudio de um stream de áudio e/ou adaptation set se tornará relevante e/ou audível com base em pelo menos na viewport atual do usuário e/ou orientação e/ou dados de movimento da cabeça e/ou metadados de interação e/ou dados posicionais virtuais, em que o sistema pode ser configurado para solicitar e/ou receber pelo menos um elemento de áudio e/ou audio stream e/ou adaptation set em uma posição virtual específica do usuário antes do movimento previsto do usuário e/ou interação na cena, em que o sistema pode ser configurado para reproduzir pelo menos um elemento de áudio e/ou audio stream, quando recebido, na posição virtual específica do usuário após o movimento do usuário e/ou interação na cena.
[0036] Uma modalidade do sistema pode ser configurada para solicitar e/ou receber pelo menos um elemento de áudio em uma de taxa de bits e/ou nível de qualidade mais baixo, na posição virtual do usuário antes do movimento do usuário e/ou interação na cena, em que o sistema pode ser configurado para solicitar e/ou receber o pelo menos um elemento de áudio em uma taxa de bits e/ou nível de qualidade mais alto, na posição virtual do usuário após o movimento do usuário e/ou interação na cena.
[0037] De acordo com um aspecto, o sistema pode ser configurado para que pelo menos um elemento de áudio seja associado a pelo menos uma cena, cada elemento de áudio sendo associado a uma posição e/ou área no ambiente visual associada à cena, em que o sistema pode ser configurado para solicitar e/ou receber streams com taxa de bits e/ou qualidade mais alta para elementos de áudio mais próximos do usuário do que para elementos de áudio mais distantes do usuário.
[0038] De acordo com um aspecto no sistema, pelo menos um elemento de áudio pode ser associado a pelo menos uma cena, pelo menos um elemento de áudio ser associado a uma posição e/ou área no ambiente visual associado à cena, em que o sistema pode ser configurado para solicitar streams diferentes com diferentes taxas de bits e/ou níveis de qualidade para elementos de áudio com base em sua relevância e/ou nível de audibilidade em cada posição virtual do usuário na cena, em que o sistema pode ser configurado para solicitar um audio stream com uma taxa de bits/nível de qualidade mais alto para elementos de áudio que sejam mais relevantes e/ou mais audíveis na posição virtual atual do usuário, e/ou um audio stream com uma taxa de bits/nível de qualidade mais baixo para elementos de áudio que são menos relevantes e/ou audíveis na posição virtual atual do usuário.
[0039] Em uma modalidade no sistema, pelo menos um elemento de áudio pode ser associado a uma cena, cada elemento de áudio sendo associado a uma posição e/ou área no ambiente visual associado à cena, em que o sistema pode ser configurado para enviar periodicamente ao servidor a viewport atual do usuário e/ou orientação e/ou dados de movimento da cabeça e/ou metadados de interação e/ou dados posicionais virtuais, de modo que: para uma primeira posição, seja fornecido um stream com taxa de bits e/ou qualidade mais alta, a partir do servidor, e para uma segunda posição, seja fornecido um stream com taxa de bits e/ou qualidade mais baixa, a partir do servidor, em que a primeira posição está mais próxima de pelo menos um elemento de áudio que a segunda posição.
[0040] Em uma modalidade do sistema, uma pluralidade de cenas pode ser definida para vários ambientes visuais, como ambientes adjacentes e/ou vizinhos, de modo que os primeiros streams sejam fornecidos associados a um primeiro, cena atual e, no caso de transição do usuário para um segundo, cena adicional,
fornecer a ambos os streams associados à primeira cena e os segundos streams associados à segunda cena.
[0041] Em uma modalidade do sistema, uma pluralidade de cenas pode ser definida para um primeiro e segundo ambiente visual, sendo o primeiro e segundo ambiente visual adjacentes e/ou vizinhos, em que os primeiros streams associados à primeira cena são fornecidos, a partir do servidor, para a reprodução da primeira cena caso a posição do usuário ou a posição virtual esteja em um primeiro ambiente associado à primeira cena, os segundos streams associados à segunda cena são fornecidos do servidor, para a reprodução da segunda cena caso a posição do usuário ou posição virtual esteja no segundo ambiente, e os dois primeiros streams associados à primeira cena e os segundos streams associados à segunda cena são fornecidos caso a posição do usuário ou posição virtual estejam em uma posição de transição entre a primeira e a segunda cena.
[0042] Em uma modalidade do sistema, uma pluralidade de cenas pode ser definida para um primeiro e segundo ambiente visual, que sejam ambientes adjacentes e/ou vizinhos, em que o sistema é configurado para solicitar e/ou receber os primeiros streams associados a uma primeira cena associada ao primeiro ambiente, para a reprodução da primeira cena caso a posição virtual do usuário esteja no primeiro ambiente, em que o sistema pode ser configurado para solicitar e/ou receber os segundos streams associados à segunda cena associada ao segundo ambiente, para a reprodução da segunda cena caso a posição virtual do usuário esteja no segundo ambiente, e em que o sistema pode ser configurado para solicitar e/ou receber os dois primeiros streams associados à primeira cena e os segundos streams associados à segunda cena caso a posição virtual do usuário esteja em uma posição de transição entre o primeiro e o segundo ambiente.
[0043] De acordo com um aspecto, o sistema pode ser configurado para os primeiros streams associados à primeira cena sejam obtidos com uma taxa de bits e/ou qualidade mais alta quando o usuário estiver no primeiro ambiente associado à primeira cena, enquanto que os segundos streams associados à segunda cena associada ao segundo ambiente são obtidos com uma taxa de bits/qualidade mais baixa quando o usuário está no início de uma posição de transição da primeira para a segunda cena, e os primeiros streams associados à primeira cena são obtidos com uma taxa de bits e/ou qualidade mais baixa e os segundos streams associados à segunda cena são obtidos com uma taxa de bits e/ou qualidade mais alta quando o usuário está no final de uma posição de transição da primeira para a segunda cena, em que a taxa de bits e/ou qualidade é mais baixa do que a taxa de bits e/ou qualidade mais alta.
[0044] De acordo com um aspecto, o sistema pode ser configurado para que uma pluralidade de cenas possam ser definidas para vários ambiente como ambientes adjacentes e/ou vizinhos, para que o sistema possa obter os streams associados à primeira cena atual associada a um primeiro ambiente atual e, caso a distância da posição ou posição virtual do usuário de um limite da cena estiver abaixo do limite predeterminado, o sistema pode obter audio streams associados a um segundo ambiente adjacente e/ou vizinho associado à segunda cena.
[0045] De acordo com um aspecto, o sistema pode ser configurado para que uma pluralidade de cenas possa ser definida para vários ambientes visuais, para que o sistema solicite e/ou obtenha os fluxos associados à cena atual com uma taxa de bits e/ou qualidade mais alta e os streams associados à segunda cena com uma taxa de bits e/ou qualidade mais baixa, em que a taxa de bits e/ou qualidade mais baixa é mais baixa do que a taxa de bits e/ou qualidade mais alta.
[0046] De acordo com um aspecto, o sistema pode ser configurado para que uma pluralidade de elementos de áudio N possa ser definida e, caso a distância do usuário até a posição ou área desses elementos de áudio seja maior que o limite predeterminado, os elementos de áudio N são processados para obter um número menor de elementos de áudio M (M <N) associados a uma posição ou área próxima à posição ou área dos elementos de áudio N, para fornecer ao sistema pelo menos um stream de áudio associados aos elementos de áudio N, caso a distância do usuário até a posição ou área dos elementos de áudio N seja menor do que o limite predeterminado, fornecer ao sistema pelo menos um audio stream associado aos elementos de áudio M, caso a distância do usuário até a posição ou área dos elementos de áudio N seja maior do que o limite predeterminado.
[0047] De acordo com um aspecto, o sistema pode ser configurado para que pelo menos uma cena de ambiente visual seja associada a pelo menos uma pluralidade de elementos de áudio N (N>=2), cada elemento de áudio sendo associado a uma posição e/ou área no ambiente visual, em que pelo menos uma pluralidade de elementos de áudio N seja fornecida em pelos uma representação com uma taxa de bits e/ou nível de qualidade mais alto e, em que pelo menos uma pluralidade de elementos de áudio N seja fornecida em pelo menos uma representação com uma taxa de bits e/ou nível de qualidade baixo, onde pelo menos uma representação seja obtida processando os elementos de áudio N para obter um número menor de elementos de áudio M (M<N) associado a uma posição ou área próxima à posição ou área dos elementos de áudio N, em que o sistema pode ser configurado para solicitar a representação com uma taxa de bits e/ou nível de qualidade mais alto para os elementos de áudio, caso os elementos de áudio sejam mais relevantes e/ou mais audíveis na posição virtual atual do usuário na cena, em que o sistema pode ser configurado para solicitar a representação com uma taxa de bits e/ou nível de qualidade mais baixo para os elementos de áudio, caso os elementos de áudio sejam menos relevantes e/ou audíveis na posição virtual atual do usuário na cena.
[0048] De acordo com um aspecto, o sistema pode ser configurado para que, caso a distância do usuário e/ou relevância e/ou nível de audibilidade e/ou orientação angular seja menor que o limite predeterminado, streams diferentes sejam obtidos para diferentes elementos de áudio.
[0049] Em uma modalidade, o sistema pode ser configurado para solicitar e/ou obter os streams com base na orientação do usuário e/ou na direção do movimento do usuário e/ou nas interações do usuário na cena.
[0050] Em uma modalidade do sistema, a viewport pode ser associada à posição e/ou posição virtual e / ou dados de movimento e/ou orientação da cabeça.
[0051] De acordo com um aspecto, o sistema pode ser configurado para que diferentes elementos de áudio sejam fornecidos em diferentes viewports, em que o sistema pode ser configurado para solicitar e/ou receber, no caso de um primeiro elemento de áudio cair dentro de uma viewport, o primeiro elemento de áudio em uma taxa de bits mais alta que um segundo elemento de áudio que não se enquadra na viewport.
[0052] De acordo com um aspecto, o sistema pode ser configurado para solicitar e/ou os receber primeiros audio streams e segundos audio streams, em que os primeiros elementos de áudio nos primeiros audio streams são mais relevantes e/ou mais audíveis que os segundos elementos de áudio nos segundos audio streams, em que os primeiros audio streams são solicitados e/ou recebidos com uma taxa de bits e/ou qualidade mais alta que a taxa de bits e/ou qualidade dos segundos audio streams.
[0053] De acordo com um aspecto, o sistema pode ser configurado para que pelo menos duas cenas do ambiente visual sejam definidas, em que pelo menos um primeiro e segundo elementos de áudio sejam associados a uma primeira cena associada a um primeiro ambiente visual e pelo menos um terceiro elemento de áudio seja associado a uma segunda cena associada a um segundo ambiente visual, em que o sistema pode ser configurado para obter metadados descrevendo que pelo menos um segundo elemento de áudio está adicionalmente associado à segunda cena do ambiente visual e em que o sistema pode ser configurado para solicitar e/ou receber pelo menos o primeiro e o segundo elementos de áudio, caso a posição virtual do usuário esteja no primeiro ambiente visual e em que o sistema pode ser configurado para solicitar e/ou receber pelo menos o segundo e terceiro elementos de áudio, caso de a posição virtual do usuário esteja na segunda cena do ambiente visual e em que o sistema pode ser configurado para solicitar e/ou receber pelo menos o primeiro, segundo e terceiro elementos de áudio, caso a posição virtual do usuário esteja em transição entre a primeira cena do ambiente visual e a segunda cena do ambiente visual.
[0054] Uma modalidade do sistema pode ser configurada para que pelo menos um primeiro elemento de áudio seja fornecido em pelo menos um audio stream e/ou adaptation set, e que pelo menos um segundo elemento de áudio seja fornecido em pelo menos um segundo audio stream e/ou adaptation set, que pelo menos um terceiro elemento de áudio seja fornecido em pelo menos um terceiro audio stream e/ou adaptation set e, em que pelo menos a primeira cena do ambiente visual seja descrita pelos metadados como uma cena completa que requer que pelo menos o primeiro e segundo audio streams e/ou adaptation sets e, em que a segunda cena do ambiente visual seja descrita pelos metadados como uma cena incompleta que requer pelo menos o terceiro audio stream e/ou adaptation sets associados a pelo menos a primeira cena do ambiente visual, em que o sistema inclua um processador de metadados configurado para manipular os metadados, para permitir mesclar o segundo audio stream que pertence ao primeiro ambiente visual e o terceiro audio stream associado ao segundo ambiente visual em um novo stream simples, caso a posição virtual do usuário esteja no segundo ambiente visual.
[0055] De acordo com um aspecto, o sistema inclui um processador de metadados configurado para manipular os metadados em pelo menos um audio stream antes de pelo menos um decodificador de áudio, com base na viewport atual do usuário e/ou orientação e/ou dados de movimento da cabeça e/ou metadados de interação e/ou dados posicionais virtuais.
[0056] De acordo com um aspecto, o processador de metadados pode ser configurado para ativar e/ou desativar pelo menos um elemento de áudio em pelo menos um audio stream antes de pelo menos um decodificador de áudio, com base na viewport atual do usuário e/ou na orientação e/ou dados de movimento da cabeça e/ou metadados de interação e/ou dados posicionais virtuais, em que o processador de metadados possa ser configurado para desativar pelo menos um elemento de áudio em pelo menos um audio stream antes do pelo menos um decodificador de áudio, caso o sistema decida que o elemento de áudio não deve mais ser reproduzido como consequência de uma viewport atual e/ou orientação e/ou dados de movimento da cabeça e/ou metadados de interação e/ou dados posicionais virtuais e, em que o processador de metadados possa ser configurado para ativar pelo menos um elemento de áudio em pelo menos um audio stream antes de pelo menos um decodificador de áudio, caso o sistema decida que o elemento de áudio seja produzido como uma consequência da viewport atual do usuário e/ou orientação e/dou dados de movimento da cabeça e/ou metadados de interação e ou dados posicionais virtuais.
[0057] De acordo com um aspecto, o sistema pode ser configurado para desativar a decodificação de elementos de áudio selecionados com base na viewport atual do usuário e/ou orientação e/ou dados de movimento da cabeça e/ou metadados e/ou posição virtual.
[0058] De acordo com um aspecto, o sistema pode ser configurado para mesclar pelo menos um primeiro audio stream associado à cena de áudio atual para menos um stream associado a uma cena de áudio vizinha, adjacente e/ou futura.
[0059] De acordo com um aspecto, o sistema pode ser configurado para obter e/ou coletar dados estatísticos ou agregados na viewport atual do usuário e/ou orientação e/ou dados de movimento da cabeça e/ou metadados e/ou dados posicionais virtuais, para transmitir uma solicitação ao servidor associado aos dados estatísticos ou agregados.
[0060] De acordo com um aspecto, o sistema pode ser configurado para desativar a decodificação e/ou reprodução de pelo menos um stream com base nos metadados associados a pelo menos um stream e com base na viewport atual do usuário e/ou na orientação e/ou dados de movimento da cabeça e/ou metadados e/ou dados posicionais virtuais.
[0061] De acordo com um aspecto, o sistema pode ser configurado para: manipular metadados associados a um grupo de audio streams selecionados, com base em pelo menos a viewport estimada ou atual do usuário e/ou orientação e/ou dados de movimento da cabeça e/ou metadados e/ou dados posicionais virtuais, para: selecionar e/ou ativar e/ou ativar elementos de áudio que compõem a cena de áudio a ser reproduzida; e/ou ativar a mesclagem de todos os audio streams selecionados em um único audio stream.
[0062] De acordo com um aspecto, o sistema pode ser configurado para controlar a solicitação de pelo menos um stream ao servidor com base na distância da posição do usuário dos limites dos ambientes vizinhos e/ou adjacentes associados a diferentes cenas ou outras métricas associadas à posição do usuário no ambiente atual ou previsões sobre o ambiente futuro.
[0063] De acordo com um aspecto no sistema, as informações podem ser fornecidas a partir do sistema do servidor, para cada elemento de áudio ou objeto de áudio,
em que as informações incluem informações descritivas sobre os locais em que a cena sonora ou os elementos de áudio estão ativos.
[0064] De acordo com um aspecto, o sistema pode ser configurado para escolher entre reproduzir uma cena e compor ou misturar ou fazer o muxing ou sobrepor ou combinar pelo menos duas cenas com base na viewport atual ou futura e/ou orientação e/ou dados de movimento da cabeça e/ou metadados e/ou posição virtual e/ou seleção de um usuário, as duas cenas sendo associadas a diferentes ambientes vizinhos e/ou adjacentes.
[0065] De acordo com um aspecto, o sistema pode ser configurado para criar ou usar pelo menos os adaptation sets para que: vários adaptation sets sejam associados a uma cena de áudio; e/ou informações adicionais sejam fornecidas que relacionem cada Adaptation Set a um Viewpoint ou uma cena de áudio; e/ou que sejam fornecidas informações adicionais que podem incluir: Informações sobre os limites de uma cena de áudio e/ou informações sobre a relação entre um Adaptation Set e uma cena de áudio (por exemplo, a cena de áudio é codificada em três streams que são encapsulados em três Adaptation Sets) e/ou informações sobre a conexão entre o limites da cena de áudio e os Adaptation Sets.
[0066] De acordo com um aspecto, o sistema pode ser configurado para: receber um stream para uma cena associada a um ambiente vizinho ou adjacente; começar a decodificar e/ou reproduzir o stream para o ambiente vizinho ou adjacente na detecção da transição de um limite entre dois ambientes.
[0067] De acordo com um aspecto, o sistema pode ser configurado para operar como um cliente e um servidor configurado para fornecer audio/video streams para serem reproduzidos em um dispositivo de consumo de mídia.
[0068] De acordo com um aspecto, o sistema pode ser configurado para: solicitar/receber pelo menos um primeiro adaptation set incluindo pelo menos um audio stream associado a pelo menos uma primeira cena de áudio; solicitar e/ou receber pelo menos um segundo adaptation set que inclua pelo menos um segundo audio stream associado a pelo menos duas cenas de áudio, incluindo pelo menos um primeiro audio stream e pelo menos um segundo audio stream em um novo audio stream para ser codificado, com base nos metadados disponíveis referentes a viewport atual do usuário e/ou orientação e/ou dados de movimento da cabeça e/ou metadados e/ou dados posicionais virtuais que descrevam uma associação de pelo menos um primeiro adaptation set e/ou uma associação de pelo menos um segundo adaptation set a pelo menos uma primeira cena de áudio.
[0069] De acordo com um aspecto, o sistema pode ser configurado para receber informações sobre a viewport atual do usuário e/ou orientação e/ou dados de movimento da cabeça e/ou metadados e/ou dados posicionais virtuais e/ou qualquer informação que caracterize as alterações desencadeadas pelas ações do usuário; e receber informações sobre disponibilidade de adaptation sets e informações que descrevam a associação de pelo menos um adaptation set a pelo menos uma cena e/ou Viewpoint e/ou viewport e/ou dados de movimento e/ou orientação.
[0070] De acordo com um aspecto, o sistema pode ser configurado para decidir se pelo menos um elemento de áudio de pelo menos uma cena de áudio incorporada em pelo menos um stream e pelo menos um elemento de áudio adicional de pelo menos uma cena de áudio incorporada em pelo menos um stream adicional sejam reproduzidos; e fazer, no caso de uma decisão positiva, uma operação de mesclagem ou composição ou muxing ou sobreposição ou combinar pelo menos um stream adicional da cena de áudio adicional com pelo menos um stream de pelo menos uma cena de áudio.
[0071] De acordo com um aspecto, o sistema pode ser configurado para: manipular metadados de áudio associados a um grupo de audio streams selecionados, com base em pelo menos a viewport atual do usuário e/ou orientação e/ou dados de movimento da cabeça e/ou metadados e/ou dados posicionais virtuais, para: selecionar e/ou habilitar e/ou ativar elementos de áudio que compõem a cena de áudio com decisão de ser reproduzida; e ativar a mesclagem de todos os audio streams selecionados em um único audio stream.
[0072] De acordo com um aspecto, um servidor pode ser fornecido para fornecer audio e streams ao cliente para um ambiente de realidade virtual, VR, realidade aumentada, AR, realidade mista, MR ou vídeo em 360 graus, para serem reproduzidos em um dispositivo de consumo de mídia, em que o servidor pode incluir um codificador para codificar e/ou um armazenamento para armazenar video streams para descrever um ambiente visual associado a uma cena de vídeo, em que o servidor pode incluir ainda um codificador para codificar e/ou um armazenamento para armazenar uma pluralidade de streams e/ou elementos de áudio e/ou adaptation sets para serem fornecidos ao clientes, os streams e/ou elementos de áudio e/ou adaptation sets sendo associados a pelo menos uma cena de áudio, em que o servidor é configurado para: selecionar e fornecer um video stream com base na solicitação do cliente, o video stream sendo associado a um ambiente; selecionar um audio stream e/ou elemento de áudio e/ou adaptation set com base na solicitação do cliente, com a solicitação sendo associada a pelo menos a viewport atual do usuário e/ou orientação e/ou movimento da cabeça e/ou metadados de interação e/ou dados posicionais virtuais a uma cena de áudio associada ao ambiente; e fornecer o audio stream ao cliente.
[0073] De acordo com um aspecto, os streams podem ser encapsulados em adaptation sets, cada adaptation set incluindo uma pluralidade de streams associados a diferentes representações, com taxa de bits e/ou qualidade diferentes, de um mesmo conteúdo de áudio, em que o adaptation set selecionado é selecionado com base da solicitação do cliente.
[0074] De acordo com um aspecto, o sistema pode operar como um cliente e servidor.
[0075] De acordo com um aspecto, o sistema pode incluir um servidor.
[0076] De acordo com um aspecto, um método pode ser fornecido para um ambiente de realidade virtual, VR, realidade aumentada, AR, realidade mista, MR ou de vídeo de 360 graus configurado para receber video/audio streams para serem reproduzidos em um dispositivo de consumo de mídia (por exemplo, dispositivo de reprodução), incluindo: decodificar sinais de vídeo de video streams para a representação de cenas de ambiente de VR, AR, MR ou vídeo de 360 graus para o usuário, solicitar ao, e/ou obter de, um servidor, pelo menos um audio stream com base na viewport atual do usuário e/ou dados posicionais e/ou orientação e/ou dados de movimento da cabeça e/ou metadados e/ou dados posicionais virtuais e/ou metadados.
[0077] De acordo com um aspecto, um programa de computador pode ser fornecido incluindo instruções que, quando executada por um processador, faz o processador executar o método acima.
Figuras
[0078] Figs. 1.1-1.8 mostram exemplos inovadores.
[0079] Figs. 2-6 mostram cenários inovadores.
[0080] Figs. 7A-8B mostram métodos inovadores.
Aspectos inovadores
[0081] Aqui abaixo (por exemplo, Figs. 1.1ff.) Existem exemplos divulgados de sistemas de acordo com aspectos inovadores.
[0082] Exemplos de um sistema inovador (que podem ser incorporados por diferentes exemplos divulgados abaixo) são indicados coletivamente com o 102. Um sistema 102 pode ser um sistema do cliente, por exemplo, visto que pode obter de um sistema do servidor (por exemplo, 120) audio e/ou video streams para a representação de cenas de áudio e/ou ambientes visuais para um usuário. O sistema do cliente 102 também pode receber metadados do sistema do servidor 120 que fornece, por exemplo, informações laterais e/ou auxiliares em relação aos audio/video streams.
[0083] O sistema 102 pode ser associado a (ou incluir em alguns exemplos) um dispositivo de consumo de mídia (MCD) que realmente reproduza sinais de áudio/vídeo para o usuário. Em alguns exemplos, o usuário pode usar o MCD.
[0084] O sistema 102 pode executar solicitações ao sistema do servidor 120, as solicitações sendo associadas a pelo menos uma viewport atual do usuário e/ou orientação da cabeça (por exemplo, orientação angular) e/ou dados de movimento e/ou metadados de interação e/ou dados posicionais virtuais 110 (várias métricas podem ser fornecidas). A viewport e/ou orientação e/ou dados de movimento da cabeça e/ou metadados de interação e/ou dados posicionais virtuais 110 podem ser fornecidos no feedback do MCD para o sistema do cliente 102, que, por sua vez, pode fornecer a solicitação ao sistema do servidor 120 com base nesse feedback.
[0085] Em alguns casos, a solicitação (que é indicada com 112) pode conter a viewport atual do usuário e/ou orientação e/ou dados de movimento da cabeça e/ou metadados de interação e/ou dados posicionais virtuais 110 (ou uma indicação ou uma versão processada disso). Com base na viewport atual do usuário e/ou orientação e/ou dados de movimento da cabeça e/ou metadados de interação e/ou dados posicionais virtuais 110, o sistema do servidor 120 fornecerá os audio/video streams e/ou metadados. Neste caso, o sistema do servidor 120 pode ter conhecimento da posição do usuário (por exemplo, um ambiente virtual) e pode associar os streams corretos às posições do usuário.
[0086] Em outros casos, a solicitação 112 do sistema do cliente 102 pode conter solicitações explícitas de audio/video streams específicos. A solicitação 112, neste caso, pode ser baseada na viewport atual do usuário e/ou orientação e/ou dados de movimento da cabeça e/ou metadados de interação e/ou dados posicionais virtuais 110.
O sistema do cliente 102 tem conhecimento dos sinais de áudio e vídeo que devem ser renderizados para o usuário, mesmo se o sistema do cliente 102 não tiver armazenado nele os streams necessários. O sistema do cliente 102 pode, nos exemplos, abordar streams específicos no sistema de servidor 120
[0087] O sistema do cliente 102 pode ser um sistema para ambiente de vídeo de realidade virtual, VR, realidade aumentada, AR, realidade mista, MR ou vídeo de
360 graus configurado para receber video/audio streams para serem reproduzidos em um dispositivo de consumo de mídia,
[0088] em que o sistema 102 inclui:
[0089] pelo menos um decodificador de vídeo de mídia configurado para decodificar sinais de vídeo de video streams para representação de cenas de ambiente de vídeo VR, AR, MR ou Vídeo de 360 graus para um usuário; e
[0090] pelo menos um decodificador de áudio 104 configurado para decodificar sinais de áudio (108) de pelo menos de um audio stream 106,
[0091] em que o sistema 102 é configurado para solicitar 112 pelo menos um audio stream 106 e/ou um elemento de áudio de um audio stream e/ou um adaptation set para um servidor 120 com base em pelo menos na viewport atual do usuário e/ou orientação e/ou dados de movimento da cabeça e/ou metadados de interação e/ou dados posicionais virtuais 110.
[0092] Deve-se observar que em ambientes de VR, AR, MR, o usuário 140 pode estar em um ambiente específico (por exemplo, em uma sala específica). O ambiente é descrito com sinais de vídeo que são codificados, por exemplo, no lado do servidor (lado do sistema do servidor 120, que não inclui necessariamente o sistema do servidor 120, mas que pode incluir um codificador diferente que codificou anteriormente os video streams que foram posteriormente armazenados em um armazenamento do servidor 120). Em cada instante, em alguns exemplos, o usuário pode usufruir somente alguns sinais de vídeo (por exemplo, viewport).
[0093] Em termos gerais, cada ambiente pode estar associado a uma cena de áudio específica. A cena de áudio pode ser entendida como a coleção de todos os sons que devem ser reproduzidos para o usuário no ambiente específico e durante um período de tempo específico.
[0094] Tradicionalmente, os ambientes são entendidos como sendo em um número discreto.
Consequentemente, o número de ambientes é entendido como sendo finito. Pelas mesmas razões, o número de cenas de áudio é entendido como sendo finito. Portanto, na técnica anterior, os sistemas de VR, AR, MR foram projetados para que:
[0095] O usuário esteja em um único ambiente de cada vez; portanto, para cada ambiente: a. O sistema do cliente 102 solicita ao sistema do servidor 120 apenas os video streams associados a um único ambiente; b. O sistema do cliente 102 solicita ao sistema do servidor 120 apenas os audio streams associados a um único ambiente.
[0096] Essa abordagem levou a inconvenientes.
[0097] Por exemplo, todos os audio streams devem ser fornecidos todos juntos ao sistema do cliente 102 para cada cena/ambiente, e fluxos de áudio audio streams completamente novos devem ser fornecidos quando o usuário se move para um ambiente diferente (por exemplo, quando o usuário passa por uma porta implicando uma transmissão de ambientes/cenas).
[0098] Além disso, a experiência não natural foi causada em alguns casos: por exemplo, quando um usuário está perto de uma parede (por exemplo, uma parede virtual de uma sala virtual), ele deve ouvir sons vindos do outro lado da parede. No entanto, essa experiência é impossível nos ambientes tradicionais: a coleção de audio streams associados à cena atual obviamente não contém nenhum stream associado aos ambientes/cenas adjacentes.
[0099] Por outro lado, a experiência do usuário geralmente é aprimorada quando a taxa de bits dos audio streams é aumentada. Isso pode causar outros problemas: quanto maior a taxa de bits, maior a carga útil que o sistema do servidor precisa fornecer ao sistema do cliente
102. Por exemplo, quando uma cena de áudio contém várias fontes de áudio (transmitidas como elementos de áudio), algumas delas localizadas próximas à posição do usuário e outras distantes, as fontes de som localizadas distantes seriam menos audíveis. Portanto, fornecer todos os elementos de áudio na mesma taxa de bits ou nível de qualidade pode levar a taxas de bits muito altas. Isso implica a entrega não eficiente de audio stream. Se o sistema do servidor 120 fornecer audio streams com a maior taxa de bits possível, ocorrerá um fornecimento ineficiente, pois os sons com baixo nível de audibilidade ou baixa relevância para a cena de áudio em geral exigiriam uma alta taxa de bits, da mesma forma que os sons relevantes gerados mais próximos do usuário. Portanto, se todos os fluxos de áudio de uma cena forem fornecidos na taxa de bits mais alta, a comunicação entre o sistema do servidor 120 e o sistema do cliente 102 aumentaria desnecessariamente a carga útil. Se todos os audio streams de uma cena forem fornecidos com taxa de bits mais baixa, a experiência do usuário não será satisfatória.
[00100] Os problemas de comunicação exacerbam o inconveniente discutido acima: quando um usuário passa por uma porta, ele deveria mudar instantaneamente o ambiente/cena, o que exigiria que, instantaneamente, o sistema do servidor 120 fornecesse todos os streams ao sistema do cliente 102.
[00101] Portanto, tradicionalmente não foi possível resolver os problemas discutidos acima.
[00102] No entanto, com a invenção, é possível resolver esses problemas: o sistema do cliente 102 fornece uma solicitação ao sistema do servidor 120 que também pode ser baseado na viewport atual do usuário e/ou na orientação e/ou nos dados de movimento da cabeça e/ou metadados de interação e/ou dados posicionais virtuais (e não apenas com base no ambiente/cena). Consequentemente, o sistema do servidor 120 pode fornecer, para cada instante, os audio streams a serem renderizados, por exemplo, para cada posição do usuário.
[00103] Por exemplo, se o usuário nunca se aproximar da parede, não há necessidade do sistema do cliente 102 solicitar os streams do ambiente vizinho (por exemplo, eles podem ser solicitados pelo sistema do cliente 102 apenas quando o usuário se aproxima da parede). Além disso, os streams vindos de fora da parede podem ter uma taxa de bits reduzida, pois podem ser ouvidos em volume baixo. Notavelmente, streams mais relevantes (por exemplo, streams provenientes de objetos de áudio no ambiente atual) podem ser entregues pelo sistema do servidor 120 ao sistema do cliente 102 na taxa de bits mais alta e/ou no nível de qualidade mais alto (como consequência do fato que o streams menos relevantes estão com taxa de bits e/ou nível de qualidade mais baixo, deixando, portanto, a banda livre para os streams mais relevantes).
[00104] Um nível de qualidade mais baixo pode ser obtido, por exemplo, reduzindo a taxa de bits ou processando os elementos de áudio de modo que os dados necessários a serem transmitidos sejam reduzidos, enquanto a taxa de bits usada por sinal de áudio é mantida constante. Por exemplo, se um número de 10 objetos de áudio estiver localizado em posições diferentes, todos distantes do usuário, esses objetos poderão ser misturados em um número menor de sinais com base na posição do usuário:
[00105] Em posições muito distantes da posição do usuário (por exemplo, superior a um primeiro limite), os objetos são misturados em 2 sinais (outros números são possíveis, com base em sua posição espacial e semântica) e fornecidos como 2 "objetos virtuais"
[00106] Em posições mais próximas da posição do usuário (por exemplo, menor que o primeiro limite, mas maior que um segundo limite menor que o primeiro), os objetos são misturados em 5 sinais (com base em sua posição espacial e semântica) e fornecidos como 5 (outros números são possíveis) "objetos virtuais"
[00107] Em posições muito próximas das posições do usuário (inferiores ao primeiro e segundo limites), os 10 objetos são fornecidos como 10 sinais de áudio, na mais alta qualidade.
[00108] Embora para a mais alta qualidade, todos os sinais de áudio sejam considerados muito importantes e audíveis, o usuário poderá localizar individualmente cada objeto. Para os níveis mais baixos de qualidade em posições distantes, alguns dos objetos de áudio podem se tornar menos relevantes ou menos audíveis; portanto, o usuário não seria capaz de localizar de maneira individual os sinais de áudio no espaço e, portanto, reduziria o nível de qualidade do fornecimento desses sinais de áudio e não levaria a nenhuma redução da qualidade da experiência para o usuário.
[00109] Outro exemplo é quando o usuário ultrapassa uma porta: na posição de transição (por exemplo, no limite entre dois ambientes/cenas diferentes), o sistema do servidor 120 fornecerá os streams de ambas as cenas/ambiente, mas com taxas de bits mais baixas. Isso ocorre porque o usuário experimenta sons provenientes de dois ambientes diferentes (os sons podem ser mesclados a partir de diferentes audio streams originalmente associados a diferentes cenas/ambientes) e não há necessidade do nível de qualidade mais alto de cada fonte de som (ou elemento de áudio).
[00110] Em vista do exposto acima, a invenção permite ir além da abordagem tradicional do número discreto de ambientes visuais e cenas de áudio, mas pode permitir uma representação gradual de diferentes ambientes/cenas, proporcionando uma experiência mais realista ao usuário.
[00111] Aqui abaixo, considera-se que cada ambiente visual (por exemplo, ambiente virtual) está associado a uma cena de áudio (atributos dos ambientes também podem ser atributos da cena). Cada ambiente/cena pode ser associado, por exemplo, ao sistema de coordenadas geométricas (que pode ser um sistema de coordenadas geométricas virtuais). O ambiente/cena pode ter limites, de modo que, quando a posição do usuário (por exemplo, posição virtual) ultrapassa os limites, um ambiente/cena diferente é alcançado. Os limites podem ser baseados no sistema de coordenadas usado. O ambiente pode incluir objetos de áudio (elementos de áudio, fontes de som) que podem ser posicionados em algumas coordenadas específicas do ambiente/cena. Com relação, por exemplo, à posição e/ou orientação relativa do usuário em relação aos objetos de áudio (elementos de áudio, fontes de som), o sistema do cliente 102 pode solicitar streams diferentes e/ou o sistema do servidor 120 pode fornecer streams diferentes (por exemplo, em taxas de bits mais altas / mais baixas e/ou níveis de qualidade de acordo com a distância e/ou orientação).
[00112] Mas geralmente, o sistema do cliente 102 pode solicitar e/ou obter streams diferentes do sistema do servidor 120 (por exemplo, representações diferentes dos mesmos sons em taxas de bits e/ou níveis de qualidade diferentes) com base em sua audibilidade e/ou relevância. A audibilidade e/ou relevância pode ser determinada, por exemplo, pelo menos com base na viewport atual do usuário e/ou orientação e/ou dados de movimento da cabeça e/ou metadados de interação e/ou dados posicionais virtuais.
[00113] Em vários exemplos, existe a possibilidade de mesclar streams diferentes. Em vários casos, existe a possibilidade de composição ou mistura ou muxing ou sobreposição ou combinação de pelo menos duas cenas.
Existe, por exemplo, a possibilidade de usar um misturador e/ou renderizador (que pode, por exemplo, ser usado após vários decodificadores, cada um decodificando pelo menos um audio stream) ou executar uma operação de muxing de fluxo, por exemplo, a antes da decodificação dos streams. Em outros casos, pode haver a possibilidade de decodificar streams diferentes e renderizá-los com diferentes configurações de alto-falante.
[00114] Deve-se observar que a presente invenção não recusa necessariamente o conceito de ambiente visual e cena de áudio. Em particular, com a invenção, audio/video streams associados a uma cena/ambiente específico podem ser fornecidos do sistema do servidor 120 para o sistema do cliente 102 quando o usuário entra em um ambiente/cena. Não obstante, dentro do mesmo ambiente/cena, diferentes audio streams e/ou objetos de áudio e/ou adaptation sets podem ser solicitados, tratados e/ou fornecidos. Em especial, pode haver a possiblidade de:
[00115] Pelo menos alguns dos dados de vídeo associados ao ambiente visual são fornecidos do servidor 120 para o cliente 102 na entrada do usuário em uma cena; e/ou
[00116] pelo menos alguns dos dados de áudio (streams, objetos, adaptation sets...) são fornecidos ao sistema do cliente 102 somente com base na viewport atual (ou futura) e/ou orientação e/ou dados de movimento da cabeça e/ou metadados e/ou posição virtual e/ou seleção/interação do usuário; e/ou
[00117] (em alguns casos): alguns dados de áudio são fornecidos ao sistema do cliente 102 com base na cena atual (independentemente da posição atual ou futura ou viewport e/ou orientação da cabeça e/ou orientação e/ou dados de movimento da cabeça e/ou metadados e/ou posição virtual e/ou seleção de um usuário), enquanto os dados de áudio restantes são fornecidos com base na orientação atual ou futura ou na viewport e/ou orientação e/ou dados de movimento da cabeça e/ou metadados e/ou posição virtual e/ou seleção do usuário.
[00118] Deve-se observar que os vários elementos (sistema do servidor, sistema do cliente, MCD, etc.) podem representar elementos em diferentes dispositivos de hardware ou até nos mesmos (por exemplo, o cliente e o MCD podem ser implementados como parte do mesmo telefone celular, ou da mesma forma, o cliente pode estar no PC conectado a uma tela secundária que incluiria o MCD) Exemplos
[00119] Uma modalidade do sistema 102 (cliente) como mostrado na Fig. 1.1 está configurada para receber streams (áudio) 106 com base na posição definida em um ambiente (por exemplo, ambiente virtual), que pode ser entendida como sendo associada a uma cena de áudio e vídeo (doravante referida como cena 150). Posições diferentes na mesma cena 150 em geral implicam streams 106 diferentes ou metadados diferentes associados aos streams 106 a serem fornecidos a um decodificador de áudio 104 do sistema 102 (de um servidor de mídia 120, por exemplo). O sistema 102 é conectado a um Dispostivo Consumidor de Mídia (MCD) do qual ele recebe feedback associado à posição e/ou posição virtual do usuário no mesmo ambiente. A seguir, a posição do usuário no ambiente pode ser associada à viewport específica que o usuário desfruta (a viewport sendo destinada, por exemplo, à superfície, hipotetizada como uma superfície retangular projetada em uma esfera, representada para o usuário).
[00120] Em um cenário exemplar, quando o usuário se move na cena 150 de VR, AR e/ou MR, o conteúdo de áudio pode ser imaginado como sendo virtualmente gerado por uma ou mais fontes de áudio 152, que podem mudar. As fontes de áudio 152 podem ser entendidas como fontes de áudio virtuais, no sentido de que podem se referir a posições no ambiente virtual: a renderização de cada fonte de áudio é adaptada à posição do usuário (por exemplo, em uma exemplificação simplificada, o nível da a fonte de áudio é maior quando o usuário está mais próximo da posição da fonte de áudio e menor quando o usuário está mais distante da fonte de áudio). Cada elemento de áudio (fonte de áudio), portanto codificado nos audio streams que são fornecidos para o decodificador. Os audio streams podem ser associados à várias posições e/ou áreas na cena. Por exemplo, as fontes de áudio 152 que não são audíveis em uma cena podem ser tornar audíveis na próxima cena, por exemplo, quando uma porta é aberta na cena 150 de VR, AR e/ou MR. O usuário pode então selecionar inserir uma nova cena/ambiente 150 (por exemplo, uma sala) e toda a cena de vídeo muda. Com o objetivo de descrever esse cenário, o termo de viewpoints discretos no espaço pode ser utilizado, como local discreto no espaço (ou no ambiente de VR), para o qual um conteúdo de áudio diferente está disponível.
[00121] Em termos gerais, o servidor de mídia 120 pode fornecer streams 106 associados à cena específica 150 com base na posição do usuário na cena 150. Os streams 106 podem ser codificados por pelo menos um codificador 154 e fornecidos ao servidor de mídia 120. O servidor de mídia 120 pode transmitir os streams 113 com comunicações 113 (por exemplo, através de uma rede de comunicação). A provisão dos streams 113 pode ser baseada nas solicitações 112 estabelecidas pelo sistema 102 com base na posição 110 do usuário (por exemplo, no ambiente virtual). A posição 110 do usuário também pode ser entendida como associada à viewport de que o usuário desfruta (já que para cada posição, há um único retângulo que é representado) e para o viewpoint (já que o viewpoint é o centro da viewport).
Portanto, a provisão da viewport pode ser, em alguns exemplos, a mesma que a provisão da posição.
[00122] O sistema 102 como mostrado na Fig. 1.2 é configurado para receber (audio) streams 113 com base em outra configuração no lado do cliente. Neste exemplo de implementação no lado da codificação, é fornecida uma pluralidade de codificadores de mídia 154 que podem ser usados para criar um ou mais streams 106 para cada cena 150 disponível associada a uma cena de som que faz parte de um viewpoint.
[00123] O servidor de mídia 120 pode armazenar vários adaptation sets de áudio e de vídeo (não mostrados) incluindo diferentes codificações dos mesmos audio e video streams em diferentes taxas de bits. Além disso, o servidor de mídia pode conter informações descritivas de todos os adaptation sets, que podem incluir a disponibilidade de todos os adaptation sets criados. Os adaptation sets também podem incluir informações que descrevem uma associação de um adaptation set a uma cena de áudio específica e/ou viewpoint. Dessa forma, cada adaptation set pode ser associado a uma das cenas de áudio disponíveis.
[00124] Os conjuntos de adaptação podem incluir, além disso, informações que descrevem os limites de cada cena de áudio e/ou viewpoint que podem conter, por exemplo,
uma cena de áudio completa ou apenas objetos de áudio individuais. Os limites de uma cena de áudio podem ser definidos, por exemplo, como coordenadas geométricas de uma esfera (por exemplo, centro e raio).
[00125] O sistema 102 no lado do cliente pode receber informações sobre a viewport atual e/ou orientação e/ou dados de movimento da cabeça e/ou metadados de interação e/ou posição virtual do usuário ou qualquer informação que caracterize as alterações desencadeadas pelas ações do usuário. Além disso, o sistema 102 pode receber também informações sobre a disponibilidade de todos os adaptation sets e informações que descrevem uma associação de um adaptation set a uma cena de áudio e/ou viewpoint; e/ou informações que descrevem os "limites" de cada cena de áudio e/ou viewpoint (que podem conter, por exemplo, cenas de áudio completas ou apenas objetos individuais). Por exemplo, essas informações podem ser fornecidas como parte da sintaxe XML do Media Presentation Description (MPD) no caso de um ambiente de fornecimento DASH.
[00126] O sistema 102 pode fornecer um sinal de áudio ao dispositivo de consumo de mídia (MCD) usado para consumo de conteúdo. O dispositivo de consumo de mídia também é responsável pela coleta de informações sobre a localização e/ou orientação e/ou direção do movimento (ou qualquer informação que caracterize as alterações desencadeadas pelas ações do usuário) como dados de posição e transição110.
[00127] Um processador de viewport 1232 pode ser configurado para receber os referidos dados de posição e transição 110 do lado do dispositivo de consumo de mídia. O processador de viewport 1232 também pode receber informações sobre e a ROI sinalizada nos metadados e todas as informações disponíveis na extremidade receptora (sistema 102). O processador de viewport 1232 pode então decidir, com base em todas as informações recebidas e/ou derivadas dos metadados recebidos e/ou disponíveis, qual audio viewpoint deve ser reproduzido em um determinado momento no tempo. Por exemplo, o processador de viewport 1232 pode decidir se uma cena de áudio completa deve ser reproduzida, uma nova cena de áudio 108 deve ser criada a partir de todas as cenas de áudio disponíveis, por exemplo, apenas alguns elementos de áudio de várias cenas de áudio devem ser reproduzidos, enquanto outros elementos de áudio restantes dessas cenas de áudio não devem ser reproduzidos.
O processador de viewport 1232 também pode decidir se uma transição entre duas ou mais cenas de áudio deve ser reproduzida.
[00128] Uma parte de seleção 1230 pode ser fornecida para selecionar, com base nas informações recebidas do processador de viewport 1232, um ou mais adaptations sets dos adaptation sets disponíveis, conforme sinalizado nas informações recebidas pela extremidade receptora; os adaptations sets selecionados descrevem completamente a cena de áudio que deve ser reproduzida no local atual do usuário. Essa cena de áudio pode ser uma cena de áudio completa, conforme definido no lado da codificação, ou uma nova cena de áudio pode ter que ser criada a partir de todas as cenas de áudio disponíveis.
[00129] Além disso, caso uma transição entre duas ou mais cenas de áudio esteja prestes a acontecer com base na indicação do processador de viewport 1232, a parte de seleção pode ser configurada para selecionar um ou mais adaptation sets entre os adaptation sets disponíveis, conforme sinalizado nas informações recebidas pela extremidade receptora; os adaptation sets selecionados que descrevem completamente a cena de áudio que pode ser necessária para ser reproduzida em um futuro próximo (por exemplo, se o usuário caminhar na direção da próxima cena de áudio com uma certa velocidade, pode-se prever que a próxima cena de áudio será necessária e é selecionada antes da reprodução).
[00130] Além disso, alguns adaptation sets correspondentes aos locais vizinhos podem ser selecionados primeiro com taxa de bits mais baixa e/ou nível de qualidade mais baixo, por exemplo uma representação codificada com uma taxa de bits mais baixa é escolhida entre as representações disponíveis em um adaptation set, e com base nas mudanças de posição, a qualidade é aumentada selecionando uma taxa de bits mais alta para esses adaptation sets específicos, por exemplo, uma representação codificada com taxa de bits mais alta é selecionada dentre as representações disponíveis em um adaptation set.
[00131] Uma parte de download e comutação 1234 pode ser fornecida para solicitar, com base na indicação recebida da parte de seleção, um ou mais adaptation sets entre os disponíveis no servidor de mídia, sendo configurados para receber um ou mais adaptation sets entre os disponíveis do servidor de mídia e extrair informações dos metadados de todos os audio streams recebidos.
[00132] Um processador de metadados 1236 pode ser fornecido para receber informações de download e comutação sobre os audio streams recebidos, informações que podem incluir os metadados de áudio correspondentes a cada audio stream recebido. O processador de metadados 1236 também pode ser configurado para processar e manipular os metadados de áudio associados a cada audio stream 113, com base nas informações recebidas do processador de viewport 1232 que podem incluir informações sobre a localização do usuário e/ou orientação e/ou direção do movimento 110, para selecionar/ativar os elementos de áudio 152 necessários que compõem a nova cena de áudio, conforme indicado pelo processador de viewport 1232, permitir a mesclagem de todos os audio streams 113 em um único audio stream 106.
[00133] Um muxer/mesclador de stream 1238 que pode ser configurado para mesclar todos os audio streams selecionados em um audio stream 106 com base nas informações recebidas do processador de metadados 1236 que podem incluir os metadados de áudio modificados e processados correspondentes a todos os audio streams 113 recebidos.
[00134] O decodificador de mídia 104 configurado para receber e decodificar pelo menos um audio stream para a reprodução da nova cena de áudio, conforme indicado pelo processador de viewport 1232, com base nas informações sobre a localização e/ou orientação e/ou direção do movimento do usuário
[00135] Em outra modalidade, o sistema 102 como mostrado na Fig. 1.7 pode ser configurado para receber audio streams 106 a diferentes taxas de bits de áudio e/ou níveis de qualidade. A configuração do hardware desta modalidade é semelhante a da Fig. 1.2. Pelo menos uma cena de ambiente visual 150 pode ser associada a pelo menos uma pluralidade de elementos de áudio N (N>=2), cada elemento de áudio sendo associado a uma posição e/ou área no ambiente visual. Pelo menos uma pluralidade de elementos de áudio N 152 é fornecida em pelo menos uma representação com uma taxa de bits e/ou nível de qualidade alto, e em que pelo menos uma pluralidade de elementos de áudio N 152 é fornecida em pelo menos uma representação com uma taxa de bits e/ou nível de qualidade baixo, onde pelo menos uma representação é obtida processando os elementos de áudio N 152 para obter um número menor de elementos M 152 (M<N) associado a uma posição ou área dos elementos de áudio N
152.
[00136] O processamento dos elementos de áudio N 152 pode ser, por exemplo, uma simples adição dos sinais de áudio ou pode ser um downmix ativo com base em sua posição espacial 110 ou renderização de sinais de áudio usando sua posição espacial para uma nova posição virtual localizada entre o áudio sinais. O sistema pode ser configurado para solicitar a representação com uma taxa de bits e/ou nível de qualidade mais alto para os elementos de áudio, caso os elementos de áudio sejam mais relevantes e/ou mais audíveis na posição virtual do usuário atual na cena, em que o sistema é configurado para solicitar a representação com um taxa de bits e/ou nível de qualidade mais baixo para os elementos de áudio, caso os elementos de áudio sejam menos relevantes e/ou menos audíveis na posição virtual atual do usuário na cena.
[00137] A Fig. 1.8 mostra um exemplo de um sistema (que pode ser o sistema 102) mostrando um sistema 102 para ambiente de vídeo de realidade virtual, VR, realidade aumentada, AR, realidade mista, MR de 360 graus configurado para receber video streams 1800 e audio streams 106 para serem reproduzidos em um dispositivo de consumo de mídia,
[00138] em que o sistema 102 pode incluir:
[00139] pelo menos um decodificador de vídeo de mídia 1804 configurado para decodificar sinais de vídeo 1808 de video streams para representação de uma cena de ambiente de VR, AR, MR ou Vídeo de 360 graus para um usuário; e
[00140] pelos menos um decodificador de áudio 104 configurado para decodificar sinais de áudio 108 de pelo menos um audio stream 106.
[00141] O sistema 102 pode ser configurado para solicitar (112) pelo menos um audio stream 106 e/ou um elemento de áudio de um audio stream e/ou um adaptation set configurado para um servidor (por exemplo, 120) com base em pelo menos na viewport atual do usuário e/ou orientação e/ou dados de movimento da cabeça e/ou metadados de interação e/ou dados posicionais virtuais 110 (por exemplo, fornecidos como feedback do dispositivo de consumo de mídia
180.
[00142] O sistema 102 pode ser o mesmo que os sistemas 102 das Figs. 1.1-1.7 e/ou obter os cenários das Figs. 2a ff.
[00143] Os exemplos atuais também se referem a um método para um ambiente de vídeo de realidade virtual, VR, realidade aumentada, AR, realidade mista, MR ou vídeo de 360 graus configurado para receber video/audio streams para serem reproduzidos em um dispositivo de consumo de mídia [por exemplo, dispositivo de reprodução], incluindo:
[00144] decodificar sinais de vídeo de video streams para a representação de cenas de ambiente de VR, AR, MR ou vídeo de 360 graus para um usuário e
[00145] decodificar sinais de áudio de audio streams,
[00146] solicitando a, e/ou obtendo de, um servidor, pelo menos um audio stream com base na viewport atual do usuário e/ou dados posicionais e/ou orientação e/ou dados de movimento da cabeça e/ou metadados e/ou dados posicionais virtuais e ou metadados.
Caso 1
[00147] Diferentes cenas / ambientes 150 em geral implicam a recepção de diferentes streams 106 de um servidor 120. No entanto, os streams 106 recebidos pelo decodificador de áudio 104 também podem ser condicionados pela posição do usuário na mesma cena 150.
[00148] Num primeiro momento (inicial) (t = t1) mostrado na Fig. 2a, um usuário é posicionado, por exemplo, em uma cena 150, tendo uma primeira posição definida em um ambiente de VR (ou ambiente de AR, ou ambiente de MR). No sistema cartesiano XYZ (por exemplo, horizontal), uma primeira viewport (posição) 110' do usuário é associada às coordenadas x’u e y’u (o eixo Z é aqui orientado para sair do papel). Nesta primeira cena 150, dois elementos de áudio 152-1 e 152-1 estão localizados, tendo as respectivas coordenadas x’1 e y’1 para o elemento de áudio 1 (152-1) e x’2 e y’2 para o elemento de áudio 2 (152-2). A distância d’1 do usuário até o elemento de áudio 1 (152-1) é menor do que a distância d’2 (152-1) do usuário até o elemento de áudio 2. Todos os dados de posição do usuário (viewport) são transmitidos do MCD para o sistema 102.
[00149] Em um segundo momento exemplar (t=t2) mostrado na Fig. 2b, o usuário está posicionado, por exemplo, na mesma cena 150, mas em uma segunda posição diferente. No sistema cartesiano XY, uma segunda viewport (posição) 110" do usuário é associada às coordenadas x”u e y”u (o eixo Z é aqui orientado para sair do papel). Agora, distância d”1 do usuário do elemento de áudio 1 (152-1) é maior do que a distância d"2 (152-1) do usuário até do elemento de áudio 2 (152-2). Todos os dados de posição do usuário (viewport) são transmitidos novamente do MCD para o sistema 102.
[00150] O usuário, equipado com o referido MCD para visualizar uma determina viewport em um ambiente de 360 graus, pode estar ouvindo, por exemplo, usando fones de ouvido. O usuário pode apreciar a reprodução de sons diferentes para diferentes posições representadas nas Fig 2a e 2b da mesma cena 150.
[00151] Qualquer posição e/ou qualquer transição e/ou viewport e/ou posição virtual e/ou orientação e/ou dados de movimento da cabeça dentro da cena, por exemplo da Fig. 2a a 2b podem ser transmitidos periodicamente (por exemplo, no feedback) do MCD para o sistema 102 (cliente) como sinal 110. O cliente pode retransmitir os dados de posição e transição 110' ou 110" (por exemplo, dados da viewport) para o servidor 120. O cliente 102 ou o servidor 120 pode decidir com base nos dados de posição e transição 110'ou 110” (por exemplo, dados da viewport) quais audio streams 106 são necessários para reproduzir a cena de áudio correta na posição atual do usuário. O cliente pode decidir e transmitir uma solicitação 112 para um audio stream 106 correspondente, enquanto que o servidor 120 pode ser configurado para fornecer os streams 106, dependendo da informação de posição fornecida pelo cliente (sistema 102).
Alternativamente, o servidor 120 pode consequente decidir e fornecer os streams 106, dependendo das informações de posição fornecidas pelo cliente (sistema 102).
[00152] O cliente (sistema 102) pode solicitar a transmissão dos streams a serem codificados para representar a cena 150. Em alguns exemplos, o sistema 102 pode transmitir informações relacionadas ao nível de qualidade mais alto para ser reproduzido na MCS (em outros exemplos, é o servidor 120 que decide o nível de qualidade a ser reproduzido no MCD, com base na posição do usuário na cena). Em resposta, o servidor 120 pode selecionar uma dentre uma infinidade de representações associadas à cena de áudio a ser representada, para fornecer pelo menos um stream 106 de acordo com a posição 110'ou 110" do usuário.
O cliente (sistema 102) pode, portanto, ser configurado para fornecer, por exemplo, através do decodificador de áudio 104, um sinal de áudio 108 ao usuário para reproduzir o som associado à sua posição real (efetiva) 110' ou 110".
(adaptation sets 113 podem ser usados: variantes diferentes dos mesmos streams, por exemplo, em diferentes taxas de bits, podem ser usados para diferentes posições do usuário.)
[00153] Os streams 106 (que podem ser pré- processados ou gerados em tempo real) podem ser transmitidos ao cliente (sistema 102) e podem ser configurados para vários viewpoints associados a determinadas cenas de som.
[00154] Observou-se que diferentes qualidades (por exemplo, taxas de bits diferentes) podem ser fornecidas para diferentes streams 106 de acordo com a posição específica (por exemplo, 110' ou 110") do usuário no ambiente (por exemplo, virtual). Por exemplo: No caso de uma pluralidade de fontes de áudio 152-1 e 152-2, cada fonte de áudio 152-1 e 152-2 pode ser associada a uma posição específica dentro da cena 150. Quanto mais próxima a posição do usuário 110' ou 110' até a primeira fonte de áudio 152-1, maior a resolução e/ou a qualidade necessária do stream associado à primeira fonte de áudio 152-2. Este caso exemplar pode ser aplicado ao elemento de áudio 1 (152-1) na Fig. 2a, bem como ao elemento de áudio 2 (152-2) na Fig. 2b. Quanto mais distante a posição do usuário 110 da segunda fonte de áudio 152-2, menor é a resolução necessária do stream 106 associado à segunda fonte de áudio 152-2. Este caso exemplar pode ser aplicado ao elemento de áudio 2 (152-2) na Fig. 2a, bem como ao elemento de áudio 1 (152-1) na Fig. 2b.
[00155] De fato, a primeira, uma fonte de áudio próxima deve ser ouvida em um nível mais alto (e, portanto, fornecida com uma taxa de bits mais alta), enquanto que a segunda, uma fonte de áudio distante deve ser ouvida em um nível mais baixo (que pode permitir exigir um nível de resolução mais baixo);
[00156] Portanto, com base na posição 110' ou 110" no ambiente, conforme fornecido pelo cliente 102, o servidor 120 pode fornecer diferentes streams 106 com taxas de bits diferentes (ou outra qualidade). Com base no fato de que os elementos de áudio distantes não exigem altos níveis de qualidade, a qualidade geral da experiência do usuário é preservada, mesmo que sejam fornecidos em um nível de taxa de bits ou de qualidade mais baixo.
[00157] Consequentemente, diferentes níveis de qualidade podem ser usados para alguns elementos de áudio em diferentes posições do usuário, preservando ao mesmo tempo a qualidade da experiência.
[00158] Sem esta solução, todos os streams 106 devem ser fornecidos pelo servidor 120 ao cliente na taxa de bits mais alta, o que aumentaria a carga útil no canal de comunicação do servidor 120 para o cliente.
Caso 2
[00159] Fig. 3 (caso 2) mostra uma modalidade com outro cenário exemplar (representado em um plano vertical XZ de um espaço XYZ, onde o eixo Y é representado como entrada no papel), em que o usuário se move em uma primeira cena A de VR, AR e/ou MR (150A), abre uma porta e passa (transição 150AB), implicando em uma transição de áudio da primeira cena 150A no tempo t1 sobre uma posição transitória (150AB) no tempo t2 para a próxima cena B (segunda) (150B) no tempo t3.
[00160] No momento t1, o usuário pode estar na posição x1 na direção x de uma primeira cena de VR, AR e/ou MR. No momento t3, o usuário pode estar em uma segunda cena B de VR, AR e/ou MR diferente (B) (150B) na posição x3. No momento t2 , o usuário pode estar em uma posição de transição 150AB, enquanto ele está abrindo uma porta (por exemplo, uma porta virtual) e passando por ela. A transição implica, portanto, uma transição de informações de áudio da primeira cena 150A para a segunda cena 150B.
[00161] Nesse contexto, o usuário está mudando de posição 110, por exemplo, do primeiro ambiente de VR (caracterizado por um primeiro viewpoint (A) como mostrado na Fig. 1.1) até o segundo ambiente de VR (caracterizado por um segundo viewpoint (B) como mostrado na Fig. 1.1). Em um caso específico, por exemplo, durante a transição através da porta localizada na posição x2 na direção x, alguns elementos de áudio 152A e 152B podem estar presentes em ambos os viewpoints (posições A e B).
[00162] O usuário (estando equipado com o MCD) está mudando sua posição 110 (x1-x3) em direção à porta, o que pode implicar que, na posição de transição x2, os elementos de áudio pertencem à primeira cena 150A e à segunda cena 150B. O MCD transmite a nova posição e dados de transição 110 para o cliente, que os retransmite para o servidor de mídia 120. O usuário pode ser habilitado para ouvir as fontes de áudio apropriadas definidas pela posição intermediária x2 entre a primeira e a segunda posições x1 and x3.
[00163] Qualquer posição e qualquer transição da primeira posição (x1) para a segunda posição (x3) agora são transmitidas periodicamente (por exemplo, continuamente) do MCD para o cliente. O cliente 102 pode retransmitir os dados de posição e de transição 110 (x1-x3) para o servidor de mídia 120, que é configurado para fornecer um item dedicado de, por exemplo, um novo conjunto de streams 106 pré-processados na forma de um adaptation set 113 ', dependendo da posição recebida e dos dados de transição 110 (x1-x3).
[00164] O servidor de mídia 120 pode selecionar uma dentre uma infinidade de representações associadas às informações acima mencionadas, não apenas em relação à capacidade do MCD de exibir a taxa de bits mais alta, mas também em relação aos dados de posição e transição 110 (x1- x3) do usuário durante seu movimento de uma posição para outra. (Nesse contexto, é possível usar adaptation sets: o servidor de mídia 120 pode decidir qual adaptation set 113' representa de maneira ideal a transição virtual do usuário, sem interferir na capacidade de renderização do MCD.)
[00165] O servidor de mídia 120 pode fornecer, portanto, um stream dedicado 106 (por exemplo, como um adaptation set 113') de acordo com a transição das posições. O cliente 102 pode ser configurado para, consequentemente, fornecer um sinal de áudio 108 ao usuário 140, por exemplo, através do decodificador de áudio de mídia 104.
[00166] Os streams 106 (gerados em tempo real e/ou pré-processados) podem ser transmitidos em um adaptation set 113' atualizado periodicamente (por exemplo, continuamente) para o cliente 102.
[00167] Quando o usuário entra pela porta, o servidor 120 pode transmitir os streams 106 da primeira cena 150A e os streams 106 da segunda cena 150B. Isto é para misturar ou mesclar, compor ou reproduzir simultaneamente esses streams 106, para dar uma impressão real ao usuário. Portanto, com base na posição 110 do usuário (por exemplo, "posição correspondente à porta"), o servidor 120 transmite diferentes streams 106 para o cliente.
[00168] Mesmo neste caso, como os diferentes streams 106 devem ser ouvidos simultaneamente, eles podem ter diferentes resoluções e podem ser transmitidos do servidor 120 para o cliente em diferentes resoluções.
Quando o usuário concluir a transição e estiver na segunda cena (posição) 150A (e fechar a porta atrás dele), haverá a possibilidade de o servidor 120 reduzir ou abster-se de transmitir os streams 106 da primeira cena 150 (caso o servidor 120 já tenha fornecido os streams ao cliente 102, o cliente 102 pode decidir não os usar).
Caso 3
[00169] Fig. 4 (caso 3) mostra uma modalidade com outro cenário exemplar (representado em um plano vertical XZ de um espaço XYZ, onde o eixo Y é representado como entrada no papel), em que o usuário se move em uma cena 150A de VR, AR e/ou MR implicando uma transição de áudio de uma primeira posição no momento t1 para uma segunda posição também na primeira cena 150A no momento t2. O usuário na primeira posição pode estar longe de uma parede no momento t1 a uma distância d1 da parede; e pode estar próximo à parede no momento t2, a uma distância d2 da parede. Aqui, d1> d2. Enquanto na distância d1 o usuário ouve apenas a fonte 152A da cena 150A, ele também pode ouvir a fonte 152B da cena 150B além da parede.
[00170] Quando o usuário está na segunda posição (d2), o cliente 102 envia ao servidor 120 os dados referentes à posição do usuário 110 (d2) e recebe, do servidor 120, não apenas os audio streams 106 da primeira cena 150A, mas também os audio streams 106 da segunda cena 150B. Com base nos metadados fornecidos pelo servidor 120, por exemplo, o cliente 102 fará a reprodução, por exemplo, através do decodificador 104, dos streams 106 da segunda cena 150B (além da parede) em um volume baixo.
[00171] Mesmo neste caso, a taxa de bits (qualidade) dos streams 106 da segunda cena 150B pode ser baixa, exigindo, portanto, uma carga útil de transmissão reduzida do servidor 120 para o cliente. Notavelmente, a posição 110 (d1, d2) do cliente (e/ou viewport) define os audio streams 106 que são fornecidos pelo servidor 120.
[00172] Por exemplo, o sistema 102 pode ser configurado para obter os streams associados a uma primeira cena atual (150A) associada ao primeiro ambiente atual, e caso a distância da posição do usuário ou posição virtual de um limite (por exemplo, correspondente à parede) da cena estiver abaixo de um limite predeterminado (por exemplo, quando d2<dlimite), o sistema 102 obtém ainda audio streams associados ao segundo ambiente adjacente e/ou vizinho associado à segunda cena (150B).
Caso 4
[00173] Figs. 5a e 5b mostram uma modalidade com outro cenário exemplar (representado em um plano horizontal XY de um espaço XYZ, em que o eixo Z é representado como saindo do papel), em que o usuário está posicionado em uma e a mesma cena 150 de VR, AR e/ou MR 150, mas em momentos diferentes, a distâncias diferentes, por exemplo dois elementos de áudio.
[00174] Num primeiro momento t=t1 mostrado na Fig.
5a, um usuário é posicionado, por exemplo, em uma primeira posição. Nesta primeira posição, um primeiro elemento de áudio 1 (152-1) e um segundo elemento de áudio 2 (152-2) estão localizados (por exemplo, virtualmente) nas distâncias d1 e respectiva d2 do usuário equipado com o MCD. As distâncias d1 e d2 podem ser maiores nesse caso do que uma distância limite definida dlimite e, portanto, o sistema 102 é configurado para agrupar os dois elementos de áudio em uma única fonte virtual 152-3. A posição e as propriedades (por exemplo, extensão espacial) da fonte virtual única podem ser calculadas com base, por exemplo, nas posições das duas fontes originais, de forma que imite o melhor possível o campo sonoro original gerado pelas duas fontes (por exemplo, duas fontes pontuais bem localizadas podem ser reproduzidas no meio da distância entre elas como uma fonte única). Os dados de posição do usuário 110 (d1, d2) podem ser transmitidos do MCD para o sistema 102 (cliente) e subsequentemente para o servidor 120, que pode decidir enviar um audio stream 106 apropriado para ser processado pelo sistema de servidor 120 (em outras modalidades, é o cliente 102 que decide quais streams devem ser transmitidos do servidor 120). Ao agrupar ambos os elementos de áudio em uma única fonte virtual 152-3, o servidor 120 pode selecionar uma de uma infinidade de representações associadas às informações acima mencionadas.
(Por exemplo, é possível fornecer um stream 106 dedicado em adaptation set 113' associado, por exemplo, a um único canal.) Consequentemente, o usuário pode receber através do MCD um sinal de áudio como sendo transmitido a partir do único elemento de áudio virtual 152-3 posicionado entre os elementos de áudio reais 1 (152-1) e 2 (152-2).
[00175] Em um segundo momento t=t2 mostrado na Fig.
5b, um usuário é posicionado, por exemplo, na mesma cena 150, tendo uma segunda posição definida no mesmo ambiente de VR como na Fig. 5a. Nesta segunda posição, os dois elementos de áudio 152-1 e 152-2 estão localizados (por exemplo, virtualmente) nas distâncias d3 e respectiva d4 do usuário. As distâncias d3 e d4 podem ser menores do que a distância limite dlimite, e portanto, o agrupamento dos elementos de áudio 152-1 e 152-2 em uma única fonte virtual source 152-3 não é mais utilizado. Os dados de posição do usuário são transmitidos do MCD para o sistema 102 e subsequentemente para o servidor 120, que pode decidir enviar um audio stream 106 apropriado para ser renderizado pelo sistema de servidor 120 (em outras modalidades, o cliente 102 toma esta decisão). Ao evitar o agrupamento de elementos de áudio, o servidor 120 pode selecionar uma representação diferente associada às informações acima mencionadas para fornecer adequadamente um stream 106 dedicado com um adaptation set 113' associado a canais diferentes para cada elemento de áudio. Consequentemente, o usuário pode receber através do MCD um sinal de áudio 108 como sendo transmitido de dois elementos de áudio 1 (152-1) e 2 (152-2). Portanto, quanto mais próxima a posição do usuário 110 das fontes de áudio 1 (152-1) e 2 (152-2), o nível de qualidade mais alto do stream associado às fontes de áudio deve ser selecionado.
[00176] De fato, quanto mais próximas as fontes de áudio 1 (152-1) e 2 (152-2) estiverem posicionadas em relação ao usuário, como mostrado na Fig. 5B, o nível mais alto terá que ser ajustado e, portanto, os sinais de áudio 108 poderão ser processados com um nível de qualidade mais alto. Em contraste, as fontes de áudio 1 e 2 posicionadas remotamente representadas na Fig. 5a devem ser ouvidas em um nível mais baixo, conforme reproduzidas pela fonte virtual única, sendo, portanto, renderizada, por exemplo, em um nível de qualidade inferior.
[00177] Em uma configuração semelhante, vários elementos de áudio podem estar localizados na frente de um usuário, todos eles posicionados a distâncias maiores do que a distância limite do usuário. Em uma modalidade, dois grupos de cinco elementos de áudio cada podem ser combinados em duas fontes virtuais. Os dados de posição do usuário são transmitidos do MCD para o sistema 102 e subsequentemente para o servidor 120, que pode decidir enviar um audio stream 106 apropriado para ser renderizado pelo sistema do servidor 120. Ao agrupar todos os 10 elementos de áudio em apenas duas fontes virtuais únicas, o servidor 120 pode selecionar uma dentre uma infinidade de representações associadas às informações acima mencionadas para fornecer adequadamente um stream 106 dedicado com um adaptation set 113' associado, por exemplo, a dois elementos de áudio únicos. Consequentemente, o usuário pode receber um sinal de áudio através do MCD como sendo transmitido a partir de dois elementos de áudio virtuais distintos na mesma área de posicionamento com os elementos de áudio reais.
[00178] Em um momento subsequente, o usuário se aproxima de uma infinidade de (dez) elementos de áudio.
Nesta cena subsequente, todos os elementos de áudio estão localizados a distâncias menores do que a distância limite dlimite e, portanto, o sistema 102 está configurado para cancelar o agrupamento de elementos de áudio. Os novos dados de posição do usuário são transmitidos do MCD para o sistema 102 e subsequentemente para o servidor 120, que pode decidir enviar um outro audio stream 106 apropriado para ser renderizado pelo sistema do servidor 120. Ao não agrupar os elementos de áudio, o servidor 120 pode selecionar uma representação diferente associada às informações acima mencionadas para fornecer adequadamente um stream 106 dedicado com um adaptation set 113' associado a canais diferentes para cada elemento de áudio.
Consequentemente, o usuário pode receber através do MCD um sinal de áudio como sendo transmitido de dez elementos de áudio. Portanto, quanto mais próxima a posição do usuário 110 das fontes de áudio, o nível de qualidade mais alto do stream associado às fontes de áudio deve ser selecionado.
Caso 5
[00179] Fig. 6 (caso 5) mostra um usuário 140 localizado em uma posição em uma única cena 150 usando um dispositivo de consumidor de mídia (MCD) que pode ser direcionado para três direções diferentes exemplares (cada uma associada a uma viewport diferente 160-1, 160-2, 160- 3). Essas direções, como mostrado na Fig. 6, podem ter uma orientação (por exemplo, orientação angular) em um sistema de coordenadas polares e/ou sistema XY cartesiano apontando para um primeiro viewpoint 801 localizado, por exemplo, a 180° na parte inferior da Fig. 6, em um segundo viewpoint 802 localizado, por exemplo, 90° no lado direito da Fig. 6 e em um terceiro viewpoint 803 localizado, por exemplo, a 0° na parte superior da Fig. 6. Cada um desses viewpoints está associado à orientação do usuário 140 usando o dispositivo de consumidor de mídia (MCD), estando o usuário posicionado no centro sendo oferecida uma viewport específica exibida pelo MCD renderizando o sinal de áudio 108 correspondente de acordo com a orientação do MCD.
[00180] Neste ambiente de VR específico, um primeiro elemento de áudio s1 (152) está localizado na primeira viewport 160-1, na vizinhança do viewpoint localizado, por exemplo, a 180° e um segundo elemento de áudio s2 (152) está localizado na terceira viewport 160-3, na vizinhança do viewpoint localizado, por exemplo, a 180°.
Antes de mudar sua orientação, o usuário 140 experimenta na primeira orientação em direção ao viewpoint 801 (viewport 160-1) um som associado à sua posição real (efetiva) sendo mais alto o elemento de áudio s1 do que do elemento de áudio s2.
[00181] Ao mudar sua orientação, o usuário 140 pode experimentar na segunda orientação em direção ao viewpoint 802, um som associado à sua posição atual 110 sendo quase do mesmo volume vindo lateralmente dos elementos de áudio s1 e s2.
[00182] Finalmente, mudando sua orientação, o usuário 140 pode experimentar na terceira orientação em direção ao viewpoint 801 (viewport 160-3) um som associado ao elemento de áudio 2 para ser mais alto que o som associado ao elemento de áudio s1 (de fato, o som vindo do elemento de áudio 2 chega pela frente, enquanto o som do elemento de áudio 1 chega pela parte traseira).
[00183] Diferentes viewports e/ou orientações e/ou dados da posição virtual podem, portanto, ser associados a diferentes taxas de bits e/ou qualidades.
Outros casos e exemplos
[00184] Fig. 7A mostra uma modalidade do método para receber audio streams por um sistema na forma de uma sequência de etapas de operação em um diagrama. A qualquer momento, um usuário do sistema 102 é associado à sua viewport atual e/ou orientação e/ou dados de movimento da cabeça e/ou metadados de interação e/ou posição virtual. Em um determinado momento, o sistema pode determinar na etapa
701 da Fig. 7A os elementos de áudio a serem reproduzidos com base na viewport atual e/ou orientação e/ou dados de movimento da cabeça e/ou dados de movimento e/ou metadados de interação e/ou posição virtual. Portanto, na próxima etapa 703, pode ser determinado o nível de relevância e audibilidade para cada elemento de áudio. Como descrito acima na Fig. 6, um ambiente de VR pode ter diferentes elementos de áudio localizados em uma cena 150 específica na vizinhança do usuário ou mais distante, mas também com uma orientação específica nos 360 graus circundantes. Todos esses fatores determinam a relevância e o nível de audibilidade para cada um dos referidos elementos de áudio.
[00185] Em uma próxima etapa 705, o sistema 102 pode solicitar os audio streams de acordo com a relevância e o nível de audibilidade determinados para cada um dos elementos de áudio do servidor de mídia 120.
[00186] Em uma próxima etapa 707, o sistema 102 pode receber os audio streams 113 preparados pelo servidor de mídia 120, em que os streams com diferentes taxas de bits podem refletir a relevância e o nível de audibilidade conforme determinado nas etapas referidas acima.
[00187] Em uma próxima etapa 709, o sistema 102 (por exemplo, o decodificador de áudio) pode decodificar os audio streams 113 recebidos, para que na etapa 711 a cena específica 150 seja reproduzida (por exemplo, pelo MCD), de acordo com a viewport atual e/ou orientação e/ou dados de movimento da cabeça e/ou metadados de interação e/ou posição virtual.
[00188] A Fig. 7B descreve uma interação entre um servidor de mídia 120 e um sistema 102 de acordo com a sequência do diagrama de operação descrita acima. Em um determinado momento, o servidor de mídia pode transmitir um audio stream 750 com uma taxa de bits mais baixa, de acordo com a relevância e nível de audibilidade mais baixo determinados mencionados acima dos elementos de áudio relevantes de uma cena 150 anterior. O sistema pode determinar em um momento 752 subsequente que ocorra uma interação ou uma alteração nos dados posicionais. Essa interação pode resultar, por exemplo, de uma alteração nos dados posicionais da mesma cena 150 ou por exemplo, uma ativação da maçaneta enquanto o usuário tenta entrar em uma segunda cena separada da primeira cena por uma porta fornecida pela maçaneta da porta.
[00189] Uma mudança da viewport atual e/ou orientação da cabeça e/ou dados de movimento e/ou metadados de interação e/ou posição virtual pode resultar em uma solicitação 754 enviada pelo sistema 102 para o servidor de mídia 120. Essa solicitação pode refletir um nível mais alto de relevância e audibilidade dos elementos de áudio relevantes determinados para a cena 150 subsequente. Como resposta à solicitação 754, o servidor de mídia pode transmitir um stream 756 com uma taxa de bits mais alta, permitindo uma reprodução plausível e realista da cena 150 pelo sistema 102 na posição virtual atual do usuário.
[00190] Fig. 8A mostra uma outra modalidade do método para receber audio streams por um sistema também na forma de uma sequência de etapas de operação em um diagrama. Em um determinado momento 801, uma determinação de uma primeira viewport atual e/ou orientação e/ou dados de movimento da cabeça e/ou metadados de interação e/ou posição virtual pode ser realizada. Ao deduzir um caso afirmativo, uma solicitação de streams associados à primeira posição definida por uma baixa taxa de bits pode ser preparada e transmitida pelo sistema 102 na etapa 803.
[00191] Uma etapa de determinação 805 com três resultados diferentes pode ser realizada em um momento subsequente. Um ou dois limites definidos podem ser relevantes nesta etapa para determinar, por exemplo, uma decisão preditiva em relação a uma viewport subsequente e/ou orientação e/ou dados de movimento da cabeça e/ou metadados de interação e/ou posição virtual. Portanto, uma comparação com um primeiro e/ou um segundo limite pode ser realizada, em relação à probabilidade de uma mudança para uma segunda posição, resultando em, por exemplo, três etapas subsequentes diferentes a serem executadas.
[00192] Em um resultado refletindo, por exemplo, uma probabilidade muito baixa (por exemplo, associada à comparação acima com um primeiro limite predeterminado), uma nova etapa de comparação 801 seria realizada.
[00193] Em um resultado que reflete uma baixa probabilidade (por exemplo, maior que o primeiro limite predeterminado, mas, nos exemplos, menor que um segundo limite predeterminado maior que o primeiro limite) pode resultar em uma solicitação na etapa 809 para audio streams 113 com uma taxa de bits baixa.
[00194] Em um resultado que reflete uma alta probabilidade (por exemplo, maior que o segundo limite predeterminado), uma solicitação, na etapa 807, para audio streams 113 com uma taxa de bits alta pode ser executada.
Uma etapa subsequente a ser executada após a execução das etapas 807 ou 809 poderia, portanto, ser novamente a etapa determinante 801.
[00195] A Fig. 8B descreve uma interação entre um servidor de mídia 120 e um sistema 102 de acordo com apenas uma das sequências descritas acima do diagrama de operação.
Em um determinado momento, o servidor de mídia pode transmitir um audio stream 850 com uma taxa de bits baixa, de acordo com um nível de audibilidade e relevância baixo determinado acima mencionado, de elementos de áudio de uma cena 150 anterior. O sistema pode determinar em um momento 852 subsequente que uma interação ocorrerá de maneira previsível. Uma mudança previsível da viewport atual e/ou orientação da cabeça e/ou dados de movimento e/ou metadados de interação e/ou posição virtual pode resultar em uma solicitação 854 apropriada enviada pelo sistema 102 para o servidor de mídia 120. Esta solicitação pode refletir um dos casos descritos acima, com relação à alta probabilidade de atingir uma segunda posição associada a uma alta taxa de bits, de acordo com o nível de audibilidade dos elementos de áudio, conforme necessário para a respectiva cena subsequente 150. Como resposta, o servidor de mídia pode transmitir um stream 856 com uma taxa de bits mais alta, permitindo uma reprodução plausível e realista da cena 150 pelo sistema 102 na posição virtual atual do usuário.
[00196] O sistema 102 como mostrado na Fig. 1.3 é configurado para receber audio streams 113 com base em outra configuração no lado do cliente, em que a arquitetura do sistema pode usar viewpoints discretos com base em uma solução usando vários decodificadores de áudio 1320, 1322.
No lado do cliente, o sistema 102 pode incorporar, por exemplo, partes do sistema descritas na Fig 1.2 que adicionalmente ou alternativamente incluem vários decodificadores de áudio 1320, 1322 que podem ser configurados para decodificar os audio streams individuais, conforme indicado pelo processador de metadados 1236 por exemplo, com vários elementos de áudio desativados.
[00197] Um misturador/renderizador 1238 pode ser fornecido no sistema 102 sendo configurado para reproduzir a cena de áudio final com base nas informações sobre a localização e/ou orientação e/ou direção do movimento do usuário, por exemplo, alguns dos elementos de áudio que não são audíveis nesse local específico devem ser desativados ou não renderizados.
[00198] As seguintes modalidades mostradas nas Figs. 1.4, 1.5 e 1.6 são baseados em adaptation sets independentes para viewpoints discretos com adaptation sets flexíveis. No caso em que o usuário se move em um ambiente de VR, a cena de áudio pode mudar de maneira contínua. Para garantir uma boa experiência de áudio, todos os elementos de áudio que compõem uma cena de áudio em um determinado momento no tempo podem ter que ser disponibilizados para um decodificador de mídia que pode fazer uso das informações de posição para criar a cena de áudio final.
[00199] Se o conteúdo for pré-codificado, para vários locais predefinidos, o sistema pode fornecer uma reprodução precisa das cenas de áudio nesses locais específicos, supondo que essas cenas de áudio não se sobreponham e o usuário possa "pular/mudar" de um local para o próximo.
[00200] Porém, nos casos quando o usuário "anda" de um local para o próximo, os elementos de áudio de duas (ou mais) cenas de áudio podem ser audíveis ao mesmo tempo. Uma solução para esses casos de uso foi fornecida nos exemplos de sistemas anteriores, onde, independentemente dos mecanismos fornecidos para decodificar vários audio streams (usando um Muxer com um único decodificador de mídia ou vários decodificadores de mídia com um Misturador/ Renderizador adicional), os audio streams que descrevem cenas de áudio completas devem ser fornecidas ao cliente.
[00201] Uma otimização é fornecida a seguir introduzindo a noção de elementos de áudio comuns entre vários audio streams.
Discussão sobre aspectos e exemplos
[00202] Solução 1: Adaptation Sets independentes para locais discretos (Viewpoints).
[00203] Uma maneira de resolver o problema descrito é usar adaptation sets independentes completos para cada local. Para uma melhor compreensão da solução, a Fig. 1.1 é usada como um exemplo de cenário. Neste exemplo, três Viewpoints discretos diferentes (incluindo três cenas de áudio diferentes) são usados para criar um ambiente completo de VR, no qual o usuário deve poder se mover.
Portanto:
[00204] As várias cenas de áudio independentes ou sobrepostas são codificadas em vários Audio Streams. Para cada cena de áudio, um stream principal pode ser usado dependendo do caso de uso, um stream principal e streams auxiliares adicionais (por exemplo, alguns objetos de áudio que contêm idiomas diferentes podem ser codificados em streams independentes para um fornecimento eficiente). No exemplo fornecido, a Cena de áudio A é codificada em dois streams (A1 e A2), a Cena de áudio B é codificada em três streams (B1, B2 e B3) enquanto a Cena de áudio C é codificada em três streams (C1, C2 e C3). Deve-se observar que a cena de áudio A e a cena de áudio B compartilham vários elementos comuns (neste exemplo, dois objetos de áudio). Como todas as cenas precisam ser completas e independentes (para reprodução independente, por exemplo, em dispositivos de reprodução que não sejam VR), os elementos comuns precisam ser codificados duas vezes para cada cena.
[00205] Todos os Audio Streams são codificados em taxas de bits diferentes (ou seja, Representations diferentes) que permitem uma adaptação eficiente da taxa de bits, dependendo da conexão de rede (ou seja, para usuários que usam conexão de alta velocidade, é fornecida a versão codificada de alta taxa de bits, enquanto que para usuários com conexão de rede de baixa velocidade é fornecida uma versão de taxa de bits mais baixa).
[00206] Os Audio Streams são armazenados em um servidor de mídia, onde, para cada Audio Stream, as diferentes codificações com taxas de bits diferentes (ou seja, diferentes Representations) são agrupadas em um Adaptation Set com os dados apropriados que sinalizam a disponibilidade de todos os Adaptation Sets criados.
[00207] Além disso, para os Adaptation Sets, o Servidor de Mídia recebe informações sobre os "limites" de localização de cada Cena de áudio e sua relação com cada Adaptation Set (que pode conter, por exemplo, cena de áudio completa ou apenas objetos individuais). Dessa forma, cada Adaptation Set pode ser associado a uma das cenas de áudio disponíveis. Os limites de uma cena de áudio podem ser definidos, por exemplo, como coordenadas geométricas de uma esfera (por exemplo, centro e raio).
a. Cada Adaptation Set também contém informações descritivas sobre os locais nos quais a cena de som ou os elementos de áudio estão ativos. Por exemplo, se um stream auxiliar contiver um ou vários objetos, o Adaptation Set poderá conter informações como os locais onde os objetos são audíveis (por exemplo, coordenadas do centro de uma esfera e raio).
[00208] o Servidor de Mídia fornece informações sobre os "limites" do local associados a cada Adaptation
Set ao Cliente, por exemplo, um Cliente DASH. Por exemplo, isso pode ser incorporado à sintaxe XML do Media Presentation Description (MPD) no caso de um ambiente de fornecimento DASH.
[00209] o Cliente recebe informações sobre a localização e/ou orientação e/ou direção de movimento do usuário (ou qualquer informação que caracterize as alterações desencadeadas pelas ações do usuário)
[00210] o Cliente recebe as informações sobre cada adaptation set, e com base nisso e/ou na localização e/ou orientação e/ou direção de movimento do usuário (ou qualquer informação que caracterize as alterações desencadeadas pelas ações do usuário, por exemplo, incluindo as coordenadas x,y,z e ou valores de guinada, inclinação, rotação), o Cliente seleciona um ou mais adaptation sets que descrevem totalmente uma cena de áudio que deve ser reproduzida no local atual do usuário.
[00211] O Cliente pode solicitar um ou mais adaptation sets: a. Além disso, o Cliente pode selecionar mais Adaptation sets que descrevem totalmente mais de uma Cena de Áudio e usar os Audio Streams correspondentes para mais de uma Cena de Áudio para criar uma nova Cena de Áudio que deve ser reproduzida na localização atual do usuário. Por exemplo, se o usuário entra no ambiente de RV e, no momento, está localizado no meio (ou em um local situado em um local onde duas cenas de áudio têm efeitos audíveis).
b. Uma vez disponíveis os audio streams, vários decodificadores de mídia podem ser usados para decodificar os audio streams individuais e um misturador/renderizador 1238 adicional para reproduzir a cena de áudio final com base nas informações sobre a localização e/ou orientação e/ou direção do movimento do usuário (por exemplo, alguns dos elementos de áudio que não são audíveis nesse local específico devem ser desativados ou não renderizados) c. Alternativamente, um processador de metadados 1236 pode ser usado para manipular os metadados de áudio associados a todos os audio streams, com base nas informações sobre a localização e/ou orientação e/ou direção do movimento do usuário, para: i. Selecionar/ativar os Elementos de áudio 152 necessários que compõem a nova cena de áudio; ii. permitir a mesclagem de todos os audio streams em um único audio stream.
[00212] O Servidor de Mídia pode fornece os Adaptation sets necessários
[00213] Como alternativa, o Cliente fornece as informações sobre o posicionamento do usuário ao Servidor de Mídia e o Servidor de Mídia fornece indicação sobre os Adaptation sets necessários.
[00214] A Fig. 1.2 mostra outro exemplo de implementação desse sistema que inclui:
[00215] no lado de codificação a. uma pluralidade de codificadores de mídia que podem ser usados para criar um ou mais audio streams para cada cena de áudio disponível associada a uma cena de som que faz parte de um viewpoint b. uma pluralidade de codificadores de mídia que podem ser usados para criar um ou mais video streams para cada cena de vídeo disponível associada a uma cena de vídeo que faz parte de um viewpoint.
Os codificadores de vídeo não são representados na figura por simplicidade c. um servidor de mídia que armazena vários adaptation sets de áudio e de vídeo incluindo diferentes codificações dos mesmos audio e video streams em diferentes taxas de bits (ou seja, representações diferentes). Além disso, o servidor de mídia contém informações descritivas de todos os adaptation sets, que podem incluir i. disponibilidade de todos os adaptation sets criados;
ii.
Informações que descrevem uma associação de um adaptation set a uma cena de áudio e/ou viewpoint; dessa forma, cada adaptation set pode ser associado a uma das cenas de áudio disponíveis;
iii. informações que descrevem os "limites"
de cada cena de áudio e/ou viewpoint que podem conter, por exemplo, uma cena de áudio completa ou apenas objetos de áudio individuais.) Os limites de uma cena de áudio podem ser definidos, por exemplo, como coordenadas geométricas de uma esfera (por exemplo, centro e raio).
[00216] No lado do cliente, um sistema (sistema do cliente) que pode incluir: a. uma extremidade receptora, que pode receber: i. informações sobre a localização e/ou orientação e/ou direção de movimento do usuário (ou qualquer informação que caracterize as alterações desencadeadas pelas ações do usuário) ii. informações sobre a disponibilidade de todos os adaptation sets e informações que descrevem uma associação de um adaptation set a uma cena de áudio e/ou viewpoint; e/ou informações que descrevem os "limites" de cada cena de áudio e/ou viewpoint (que podem conter, por exemplo, cena de áudio completa ou apenas objetos individuais). Por exemplo, essas informações podem ser fornecidas como parte da sintaxe XML do Media Presentation Description (MPD) no caso de um ambiente de fornecimento DASH.
b. um lado do dispositivo de consumo de mídia usado para o consumo de conteúdo (por exemplo, com base em um HMD). O dispositivo de consumo de mídia também é responsável pela coleta de informações sobre a localização e/ou orientação e/ou direção do movimento do usuário (ou qualquer informação que caracterize as alterações desencadeadas pelas ações do usuário) c. um processador de viewport 1232, que possa ser configurado para i. receber informações sobre a viewport atual que pode conter a localização e/ou orientação e/ou direção do movimento do usuário (ou qualquer informação que caracterize as alterações desencadeadas pelas ações do usuário) do lado do dispositivo de consumo de mídia.
ii. receber informações sobre e a ROI sinalizada nos metadados (Video Viewports sinalizadas como na especificação OMAF).
iii. receber todas as informações disponíveis na extremidade receptora; iv. decidir, com base em todas as informações recebidas e/ou derivadas dos metadados recebidos e/ou disponíveis, qual audio/video viewpoint deve ser reproduzido em um determinado momento no tempo. Por exemplo, o processador de viewport 1232 pode decidir se:
1. uma cena de áudio completa deve ser reproduzida
2. uma nova cena de áudio deve ser criada a partir de todas as cenas de áudio disponíveis, (por exemplo, apenas alguns elementos de áudio de várias cenas de áudio devem ser reproduzidos, enquanto outros elementos de áudio restantes dessas cenas de áudio não devem ser reproduzidos)
3. uma transição entre duas ou mais cenas de áudio deve ser reproduzida d. uma parte de seleção 1230 configurada para selecionar, com base nas informações recebidas do processador de viewport 1232, um ou mais adaptations sets dos adaptation sets disponíveis, conforme sinalizado nas informações recebidas pela extremidade receptora; os adaptations sets selecionados descrevem completamente a cena de áudio que deve ser reproduzida no local atual do usuário. Essa cena de áudio pode ser uma cena de áudio completa, conforme definido no lado da codificação, ou uma nova cena de áudio tem que ser criada a partir de todas as cenas de áudio disponíveis.
i. Além disso, caso uma transição entre duas ou mais cenas de áudio esteja prestes a acontecer com base na indicação do processador de viewport 1232, a parte de seleção 1230 pode ser configurada para selecionar um ou mais adaptation sets entre os adaptation sets disponíveis, conforme sinalizado nas informações recebidas pela extremidade receptora; os adaptation sets selecionados que descrevem completamente a cena de áudio que pode ser necessária para ser reproduzida em um futuro próximo (por exemplo, se o usuário caminhar na direção da próxima cena de áudio com uma certa velocidade, pode-se prever que a próxima cena de áudio será necessária e é selecionada antes da reprodução).
ii. Além disso, alguns adaptation sets correspondentes aos locais vizinhos podem ser selecionados primeiro com taxa de bits mais baixa e/ou nível de qualidade mais baixo, (ou seja, uma representação codificada com uma taxa de bits mais baixa é escolhida entre as representações disponíveis em um adaptation set), e com base nas mudanças de posição, a qualidade é aumentada selecionando uma taxa de bits mais alta para esses adaptation sets específicos (ou seja, uma representação codificada com taxa de bits mais alta é selecionada entre as representações disponíveis em um adaptation set.).
e. uma parte de download e comutação pode ser configurada para: i. solicitar, com base na indicação recebida da parte de seleção 1230, um ou mais adaptation sets entre os disponíveis no servidor de mídia 120; ii. receber, um ou mais adaptation sets (ou seja, uma representação entre as representações disponíveis em cada adaptation set) entre os adaptation sets disponíveis do no servidor de mídia 120; iii. informações exatas dos metadados de todos os audio streams recebidos f. um processador de metadados 1236, que possa ser configurado para: i. receber informações de download e comutação sobre os audio streams recebidos, informações que podem incluir os metadados de áudio correspondentes a cada audio stream recebido.
ii. para processar e manipular os metadados de áudio associados a cada audio stream, com base nas informações recebidas do processador de viewport 1232 que podem incluir informações sobre a localização do usuário e/ou orientação e/ou direção do movimento, para:
1. selecionar/ativar os Elementos de áudio 152 necessários que compõem a nova Cena de áudio, conforme indicado pelo processador de viewport 1232;
2. permitir a mesclagem de todos os audio streams em um único audio stream.
g. Um muxer/mesclador de stream 1238 que pode ser configurado para mesclar todos os audio streams selecionados em um audio stream com base nas informações recebidas do processador de metadados 1236 que podem incluir os metadados de áudio modificados e processados correspondentes a todos os audio streams recebidos.
h. um decodificador de mídia configurado para receber e decodificar pelo menos um audio stream para a reprodução da nova cena de áudio, conforme indicado pelo processador de viewport 1232, com base nas informações sobre a localização e/ou orientação e/ou direção do movimento do usuário
[00217] A Fig. 1,3 mostra um sistema incluindo, no lado do cliente, um sistema (sistema do cliente) que pode incorporar, por exemplo, partes do sistema descrito na Fig
1.2 que adicionalmente ou alternativamente inclui:
[00218] vários decodificadores de mídia que podem ser configurados para decodificar os audio streams individuais, conforme indicado pelo processador de metadados 1236 (por exemplo, com vários elementos de áudio desativados).
[00219] um misturador/renderizador 1238 que pode ser configurado para reproduzir a cena de áudio final com base nas informações sobre a localização e/ou orientação e/ou direção do movimento do usuário (por exemplo, alguns dos elementos de áudio que não são audíveis nesse local específico devem ser desativados ou não renderizados) Solução 2:
[00220] Figs. 1.4, 1.5 e 1.6 referem-se a exemplos de acordo com a Solução 2 da invenção (que podem ser modalidades dos exemplos das Figs. 1.1 e/ou 1.2 e/ou 1.3): Adaptation Sets independentes para locais discretos (Viewpoints) com adaptation sets flexíveis.
[00221] No caso em que o usuário se move em um ambiente de VR, a cena de áudio 150 pode mudar de maneira contínua. Para garantir uma boa experiência de áudio, todos os Elementos de áudio 152 que compõem uma Cena de áudio 150 em um determinado momento no tempo podem ter que ser disponibilizados para um decodificador de mídia que pode fazer uso das informações de posição para criar a Cena de áudio final.
[00222] Se o conteúdo for pré-codificado, para vários locais predefinidos, o sistema pode fornecer uma reprodução precisa das cenas de áudio nesses locais específicos, supondo que essas cenas de áudio não se sobreponham e o usuário possa "pular/mudar" de um local para o próximo.
[00223] Porém, nos casos em que o usuário "anda" de um local para o próximo, os elementos de áudio 152 de duas (ou mais) cenas de áudio 150 podem ser audíveis ao mesmo tempo. Uma solução para esses casos de uso foi fornecida nos exemplos de sistemas anteriores, onde, independentemente dos mecanismos fornecidos para decodificar vários audio streams (usando um Muxer com um único decodificador de mídia ou vários decodificadores de mídia com um Misturador/ Renderizador 1238 adicional), os audio streams que descrevem cenas de áudio completas devem ser fornecidas ao cliente.
[00224] Uma otimização é fornecida a seguir introduzindo a noção de elementos de áudio 152 comuns entre vários audio streams.
[00225] A Fig. 1.4 mostra um exemplo em que cenas diferentes compartilham pelo menos um elemento de áudio (objeto de áudio, fonte de som ...). Portanto, o cliente 102 pode receber, por exemplo, um stream principal 106A associado apenas a uma cena A (por exemplo, associado ao ambiente em que o usuário está atualmente) e associado aos objetos 152A e um stream auxiliar 106B compartilhado por uma cena B diferente (por exemplo, um fluxo stream no limite entre a cena A na qual o usuário está atualmente e um stream B vizinho ou adjacente compartilhando os objetos 152B) e associado aos objetos 152B.
[00226] Portanto, como mostrado na Fig. 1.4:
[00227] As várias cenas de áudio independentes ou sobrepostas são codificadas em vários Audio Streams. Os audio streams 106 são criados de tal maneira que: a. para cada cena de áudio 150, um stream principal pode ser criado contendo apenas os elementos de áudio 152 que fazem parte da respectiva cena de áudio, mas não fazem parte de nenhuma outra cena de áudio; e / ou b. para todas as cenas de áudio 150 que compartilham elementos de áudio 152, os elementos de áudio 152 comuns podem ser codificados apenas nos audio streams auxiliares associados apenas a uma das cenas de áudio e informações de metadados apropriadas indicando que a associação com outras cenas de áudio é criada. Ou, de forma diferente, os metadados adicionais indicam a possibilidade de que alguns audio streams podem ser usados junto com várias cenas de áudio; e/ou c. dependendo do caso de uso, streams auxiliares adicionais podem ser criados (por exemplo, alguns objetos de áudio contendo idiomas diferentes podem ser codificados em streams independentes para uma entrega eficiente).
d. Na modalidade fornecida: i. cena de áudio A é codificada em:
1. um audio stream principal (A1, 106A),
2. um audio stream auxiliar (A2, 106B),
3. informações de metadados que podem indicar que alguns elementos de áudio 152B da cena de áudio A não estão codificados nesse audio stream A, mas em um stream auxiliar A2 (106B) pertencente a uma cena de áudio diferente (cena de áudio B) ii. A cena de áudio B é codificada em:
1. um audio stream principal (B1, 106C),
2. um audio stream auxiliar (B2),
3. um audio stream auxiliar (B3),
4. informações de metadados que podem indicar que os elementos de áudio 152B do audio stream B2 são elementos de áudio 152B comuns que também pertencem cena de áudio A.
iii. Cena de áudio C é codificado em três streams (C1, C2 e C3).
[00228] Os Audio Streams 106 (106A, 106B, 106C...) podem ser codificados em taxas de bits diferentes (ou seja, representações diferentes), que permitem uma adaptação eficiente da taxa de bits, por exemplo, dependendo da conexão de rede (ou seja, para usuários que usam conexão de alta velocidade, é fornecida a versão codificada de alta taxa de bits, enquanto que para usuários com conexão de rede de baixa velocidade é fornecida uma versão de taxa de bits mais baixa).
[00229] Os Audio Streams 106 são armazenados em um servidor de mídia 120, onde, para cada Audio Stream, as diferentes codificações com taxas de bits diferentes (ou seja, diferentes Representações) são agrupadas em um Adaptation Set com os dados apropriados que sinalizam a disponibilidade de todos os Adaptation Sets criados.
(Várias representações de streams associados aos mesmos sinais de áudio, mas com taxas de bits e/ou qualidades e/ou resoluções diferentes podem estar presentes no mesmo adaptation set.)
[00230] Além disso, para os Adaptation Sets, o Servidor de Mídia 120 recebe informações sobre os "limites"
de localização de cada Cena de áudio e sua relação com cada Adaptation Set (que pode conter, por exemplo, cena de áudio completa ou apenas objetos individuais). Dessa forma, cada Adaptation Set pode ser associado a uma das cenas de áudio 150 disponíveis. Os limites de uma cena de áudio podem ser definidos, por exemplo, como coordenadas geométricas de uma esfera (por exemplo, centro e raio).
a. Cada Adaptation Set também contém informações descritivas sobre os locais nos quais a cena de som ou os elementos de áudio 152 estão ativos. Por exemplo, se um stream auxiliar (por exemplo, A2, 106B) contiver um ou vários objetos, o Adaptation Set poderá conter informações como os locais onde os objetos são audíveis (por exemplo, coordenadas do centro de uma esfera e raio).
b. Além disso ou como alternativa, cada adaptation set (por exemplo, o adaptation set associado à cena B) pode conter informações descritivas (por exemplo, metadados) que podem indicar que os elementos de áudio (por exemplo, 152B) de uma cena de áudio (por exemplo, B) são (também ou adicionalmente) codificados em audio streams (por exemplo, 106B) pertencentes a uma cena de áudio diferente (por exemplo, A).
[00231] o Servidor de Mídia 120 pode fornecer informações sobre os "limites" do local associados a cada Adaptation Set para o sistema 102 (Cliente), por exemplo, um Cliente DASH. Por exemplo, isso pode ser incorporado à sintaxe XML do Media Presentation Description (MPD) no caso de um ambiente de fornecimento DASH.
[00232] o sistema 102 (Cliente) pode receber informações sobre a localização e/ou orientação e/ou direção de movimento do usuário (ou qualquer informação que caracterize as alterações desencadeadas pelas ações do usuário)
[00233] o sistema 102 (Cliente) pode receber informações sobre cada adaptation set, e com base nisso e/ou na localização e/ou orientação e/ou direção de movimento do usuário (ou qualquer informação que caracterize as alterações desencadeadas pelas ações do usuário, por exemplo, incluindo as coordenadas x,y,x e ou valores de guinada, inclinação, rotação), o sistema 102 (Cliente) pode selecionar um ou mais adaptation sets que descrevem total ou parcialmente uma cena de áudio 150 que deve ser reproduzida no local atual do usuário 140.
[00234] o sistema 102 (Cliente) pode solicitar um ou mais adaptation sets: a. Além disso, o sistema 102 (Cliente) pode selecionar um ou mais Adaptation sets que descrevem completa ou parcialmente mais de uma Cena de Áudio 150 e usar os Audio Streams 106 correspondentes a mais de uma Cena de Áudio 150 para criar uma nova Cena de Áudio 150 para ser reproduzida na localização atual do usuário 140.
b. Com base nos metadados que indicam que os Elementos de áudio 152 fazem parte de várias cenas de áudio 150, os Elementos de áudio comuns 152 podem ser solicitados apenas uma vez para criar a nova Cena de áudio,
em vez de solicitá-los duas vezes, uma vez para cada Cena de áudio completa.
c. Uma vez disponíveis os audio streams para o sistema do cliente 102, nos exemplos, um ou vários decodificadores de mídia (104) podem ser usados para decodificar os audio streams individuais e/ou um misturador/renderizador adicional para reproduzir a cena de áudio final baseada nas informações sobre a localização e/ou orientação e/ou direção do movimento do usuário (por exemplo, alguns dos elementos de áudio que não são audíveis nesse local específico devem ser desativados ou não renderizados) d. Alternativamente ou além disso, um processador de metadados pode ser usado para manipular os metadados de áudio associados a todos os audio streams, com base nas informações sobre a localização e/ou orientação e/ou direção do movimento do usuário, para: i. Selecionar/ativar os Elementos de áudio 152 necessários (152A-152c) compondo a nova cena de áudio; e/ou ii. permitir a mesclagem de todos os audio streams em um único audio stream.
[00235] O Servidor de Mídia 120 pode fornecer os Adaptation sets necessários:
[00236] Alternativamente, o sistema 102 (Cliente) fornece as informações sobre o posicionamento do usuário ao Servidor de Mídia 120 e o Servidor de Mídia fornece indicação sobre os Adaptation sets necessários.
[00237] A Fig. 1.5 mostra outro exemplo de implementação desse sistema que inclui:
[00238] no lado de codificação a. uma pluralidade de codificadores de mídia 154 que podem ser usados para criar um ou mais audio streams 106 incorporando elementos de áudio 152 de uma ou mais cenas de áudio 150 disponíveis associadas a uma cena de som que faz parte de um viewpoint.
i. para cada cena de áudio 150, um stream principal pode ser criado contendo apenas os elementos de áudio 152 que fazem parte da respectiva cena de áudio 150, mas não fazem parte de nenhuma outra cena de áudio ii. streams auxiliares adicionais podem ser criados para a mesma cena de áudio (por exemplo, alguns objetos de áudio contendo idiomas diferentes podem ser codificados em streams independentes para uma entrega eficiente).
iii. streams auxiliares adicionais podem ser criados que contenham:
1. Elementos de áudio 152 comuns a mais de uma cena de áudio 150
2. informações de metadados indicando a associação desse stream auxiliar com todas as outras cenas de áudio 150 que compartilham os elementos de áudio comuns
152. Ou, de forma diferente, os metadados indicam a possibilidade de que alguns audio streams podem ser usados junto com várias cenas de áudio.
b. uma pluralidade de codificadores de mídia que podem ser usados para criar um ou mais video streams para cada cena de vídeo disponível associada a uma cena de vídeo que faz parte de um viewpoint. Os codificadores de vídeo não são representados na figura por simplicidade c. um servidor de mídia que armazena vários adaptation sets de áudio e de vídeo incluindo diferentes codificações dos mesmos audio e video streams em diferentes taxas de bits (ou seja, representações diferentes). Além disso, o servidor de mídia 120 contém informações descritivas de todos os adaptation sets, que podem incluir i. disponibilidade de todos os adaptation sets criados; ii. Informações que descrevem uma associação de um adaptation set a uma cena de áudio e/ou viewpoint; dessa forma, cada adaptation set pode ser associado a uma das cenas de áudio disponíveis; iii. informações que descrevem os "limites" de cada cena de áudio e/ou viewpoint que podem conter, por exemplo, uma cena de áudio completa ou apenas objetos de áudio individuais.) Os limites de uma cena de áudio podem ser definidos, por exemplo, como coordenadas geométricas de uma esfera (por exemplo, centro e raio).
iv. informações indicando a associação de um adaptation set a mais de uma cena de áudio que compartilham pelo menos um elemento de áudio comum.
[00239] No lado do cliente, um sistema (sistema do cliente) que pode incluir: a. uma extremidade receptora, que pode receber: i. informações sobre a localização e/ou orientação e/ou direção de movimento do usuário (ou qualquer informação que caracterize as alterações desencadeadas pelas ações do usuário) ii. informações sobre a disponibilidade de todos os adaptation sets e informações que descrevem uma associação de um adaptation set a uma cena de áudio e/ou viewpoint; e/ou informações que descrevem os "limites" de cada cena de áudio e/ou viewpoint (que podem conter, por exemplo, cena de áudio completa ou apenas objetos individuais). Por exemplo, essas informações podem ser fornecidas como parte da sintaxe XML do Media Presentation Description (MPD) no caso de um ambiente de fornecimento DASH.
iii. informações indicando a associação de um adaptation set a mais de uma cena de áudio que compartilham pelo menos um elemento de áudio comum.
b. um lado do dispositivo de consumo de mídia usado para o consumo de conteúdo (por exemplo, com base em um HMD). O dispositivo de consumo de mídia também é responsável pela coleta de informações sobre a localização e/ou orientação e/ou direção do movimento do usuário (ou qualquer informação que caracterize as alterações desencadeadas pelas ações do usuário)
c. um processador de viewport 1232, que possa ser configurado para i. receber informações sobre a viewport atual que pode conter a localização e/ou orientação e/ou direção do movimento do usuário (ou qualquer informação que caracterize as alterações desencadeadas pelas ações do usuário) do lado do dispositivo de consumo de mídia.
ii. receber informações sobre e a ROI sinalizada nos metadados (Video Viewports sinalizadas como na especificação OMAF).
iii. receber todas as informações disponíveis na extremidade receptora; iv. decidir, com base em todas as informações recebidas e/ou derivadas dos metadados recebidos e/ou disponíveis, qual audio/video viewpoint deve ser reproduzido em um determinado momento no tempo. Por exemplo, o processador de viewport 1232 pode decidir se:
1. uma cena de áudio completa deve ser reproduzida
2. uma nova cena de áudio deve ser criada a partir de todas as cenas de áudio disponíveis, (por exemplo, apenas alguns elementos de áudio de várias cenas de áudio devem ser reproduzidos, enquanto outros elementos de áudio restantes dessas cenas de áudio não devem ser reproduzidos)
3. uma transição entre duas ou mais cenas de áudio deve ser reproduzida d. uma parte de seleção 1230 configurada para selecionar, com base nas informações recebidas do processador de viewport 1232, um ou mais adaptations sets dos adaptation sets disponíveis, conforme sinalizado nas informações recebidas pela extremidade receptora; os adaptations sets selecionados descrevem completamente a cena de áudio que deve ser reproduzida no local atual do usuário. Essa cena de áudio pode ser uma cena de áudio completa ou parcialmente completa, conforme definido no lado da codificação, ou uma nova cena de áudio tem que ser criada a partir de todas as cenas de áudio disponíveis.
i. Além disso, no caso em que os Elementos de áudio 152 pertencem a mais de uma cena de áudio, pelo menos um adaptation set é selecionado com base nas informações que indicam a associação de pelo menos um adaptation set com mais de uma cena de áudio, que contêm os mesmos elementos de áudio 152 ii. Além disso, caso uma transição entre duas ou mais cenas de áudio esteja prestes a acontecer com base na indicação do processador de viewport 1232, a parte de seleção 1230 pode ser configurada para selecionar um ou mais adaptation sets entre os adaptation sets disponíveis, conforme sinalizado nas informações recebidas pela extremidade receptora; os adaptation sets selecionados que descrevem completamente a cena de áudio que pode ser necessária para ser reproduzida em um futuro próximo (por exemplo, se o usuário caminhar na direção da próxima cena de áudio com uma certa velocidade, pode-se prever que a próxima cena de áudio será necessária e é selecionada antes da reprodução).
iii. Além disso, alguns adaptation sets correspondentes aos locais vizinhos podem ser selecionados primeiro com taxa de bits mais baixa e/ou nível de qualidade mais baixo, (ou seja, uma representação codificada com uma taxa de bits mais baixa é escolhida entre as representações disponíveis em um adaptation set), e com base nas mudanças de posição, a qualidade é aumentada selecionando uma taxa de bits mais alta para esses adaptation sets específicos(ou seja, uma representação codificada com taxa de bits mais alta é selecionada entre as representações disponíveis em um adaptation set.).
e. uma parte de download e comutação pode ser configurada para: i. solicitar, com base na indicação recebida da parte de seleção 1230, um ou mais adaptation sets entre os disponíveis no servidor de mídia 120; ii. receber, um ou mais adaptation sets (ou seja, uma representação entre as representações disponíveis em cada adaptation set) entre os adaptation sets disponíveis do no servidor de mídia 120; iii. informações exatas dos metadados de todos os audio streams recebidos f. um processador de metadados 1236, que possa ser configurado para: i. receber informações de download e comutação sobre os audio streams recebidos, informações que podem incluir os metadados de áudio correspondentes a cada audio stream recebido.
ii. para processar e manipular os metadados de áudio associados a cada audio stream, com base nas informações recebidas do processador de viewport 1232 que podem incluir informações sobre a localização do usuário e/ou orientação e/ou direção do movimento, para:
1. selecionar/ativar os Elementos de áudio 152 necessários que compõem a nova Cena de áudio, conforme indicado pelo processador de viewport 1232;
2. permitir a mesclagem de todos os audio streams em um único audio stream.
g. Um muxer/mesclador de stream 1238 que pode ser configurado para mesclar todos os audio streams selecionados em um audio stream com base nas informações recebidas do processador de metadados 1236 que podem incluir os metadados de áudio modificados e processados correspondentes a todos os audio streams recebidos.
h. um decodificador de mídia configurado para receber e decodificar pelo menos um audio stream para a reprodução da nova cena de áudio, conforme indicado pelo processador de viewport 1232, com base nas informações sobre a localização e/ou orientação e/ou direção do movimento do usuário
[00240] A Fig. 1.6 mostra um sistema incluindo, no lado do cliente, um sistema (sistema do cliente) que pode incorporar, por exemplo, partes do sistema descrito na Fig 5 que adicionalmente ou alternativamente inclui:
[00241] vários decodificadores de mídia que podem ser configurados para decodificar os audio streams individuais, conforme indicado pelo processador de metadados 1236 (por exemplo, com vários elementos de áudio desativados).
[00242] um misturador/renderizador 1238 que pode ser configurado para reproduzir a cena de áudio final com base nas informações sobre a localização e/ou orientação e/ou direção do movimento do usuário (por exemplo, alguns dos elementos de áudio que não são audíveis nesse local específico devem ser desativados ou não renderizados)
[00243] Atualizações do formato de arquivo para reprodução de arquivo
[00244] Para o caso de uso do formato de arquivo, vários streams principais e auxiliares podem ser encapsulados como faixas separadas em um único arquivo ISOBMFF. Uma única faixa desse arquivo representaria um único elemento de áudio, como mencionado anteriormente.
Como não há MPD disponível, que contém as informações necessárias para a reprodução correta, as informações precisam ser fornecidas no nível do formato do arquivo, por exemplo, fornecendo/introduzindo uma caixa de formato de arquivo específica ou caixas de formato de arquivo específicas no nível da faixa e do filme. Dependendo do caso de uso, existem informações diferentes necessárias para permitir a renderização correta das cenas de áudio encapsuladas, no entanto, o seguinte conjunto de informações é fundamental e, portanto, deve estar sempre presente:
[00245] Informações sobre as cenas de áudio incluídas, por exemplo, "limites do local"
[00246] Informações sobre todos os elementos de áudio disponíveis, especialmente qual elemento de áudio está encapsulado em qual faixa
[00247] Informações sobre a localização dos elementos de áudio encapsulados
[00248] Uma lista de elementos de áudio que pertencem a uma cena de áudio, um elemento de áudio pode pertencer a várias cenas de áudio.
[00249] Com estas informações, todos os casos de uso mencionados, incluindo aquele com o processador de metadados adicional e a codificação compartilhada também funcionam em arquivo baseado no ambiente.
Considerações adicionais sobre os exemplos acima
[00250] Nos exemplos, (por exemplos, pelo menos um entre as Figs. 1.1-6), pelo menos uma cena pode ser associada a pelo menos um elemento de áudio (fonte de áudio 152), cada elemento de áudio sendo associado a uma posição e/ou área no ambiente visual onde o elemento de áudio seja audível, para que diferentes audio streams sejam fornecidos do sistema do servidor 120 para sistema do cliente 102 para diferentes posições e/ou viewports do usuário e/ou orientações e/ou dados de movimento da cabeça e/ou metadados de interação e/ou dados posicionais virtuais na cena.
[00251] Nos exemplos, o sistema do cliente 102 pode ser configurado para decidir se pelo menos um elemento de áudio 152 de um audio stream (por exemplo, A1, A2) e/ou um adaptation set seja reproduzido na presença da viewport atual do usuário e/ou orientação e/ou dados de movimento da cabeça e/ou metadados de interação e/ou posição virtual na cena, em que o sistema 102 é configurado para solicitar e/ou receber pelo menos um elemento de áudio na posição virtual atual do usuário.
[00252] Nos exemplos, o sistema do cliente (por exemplo, 102) pode ser configurado para decidir de forma preditiva se pelo menos um elemento de áudio (152) de um audio stream e/ou adaptation set se tornará relevante e/ou audível com base em pelo menos na viewport atual do usuário e/ou orientação e/ou dados de movimento da cabeça e/ou metadados de interação e/ou dados posicionais virtuais (110), em que o sistema pode ser configurado para solicitar e/ou receber pelo menos um elemento de áudio e/ou audio stream e/ou adaptation set em uma posição virtual específica do usuário antes do movimento previsto do usuário e/ou interação na cena, em que o sistema pode ser configurado para reproduzir pelo menos um elemento de áudio e/ou audio stream, quando recebido, na posição virtual específica do usuário após o movimento do usuário e/ou interação na cena. Consulte, por exemplo, as Figs. 8A e 8B acima. Em alguns exemplos, pelo menos uma das operações do sistema 102 ou 120 pode ser executada com base nos dados preditivos e/ou estatísticos e/ou agregados.
[00253] Nos exemplos, o sistema do cliente (por exemplo, 102) pode ser configurado para solicitar e/ou receber pelo menos um elemento de áudio (por exemplo, 152) em uma de taxa de bits e/ou nível de qualidade mais baixo, na posição virtual do usuário antes do movimento do usuário e/ou interação na cena, em que o sistema é configurado para solicitar e/ou receber pelo menos um elemento de áudio em uma taxa de bits e/ou nível de qualidade mais alto, na posição virtual do usuário após o movimento do usuário e/ou interação na cena. Consulte, por exemplo, a Fig. 7B.
[00254] Nos exemplos, pelo menos um elemento de áudio pode ser associado a pelo menos uma cena, pelo menos um elemento de áudio ser associado a uma posição e/ou área no ambiente visual associado à cena, em que o sistema pode ser configurado para solicitar streams diferentes com diferentes taxas de bits e/ou níveis de qualidade para elementos de áudio com base em sua relevância e/ou nível de audibilidade em cada posição virtual do usuário na cena, em que o sistema pode ser configurado para solicitar um audio stream com uma taxa de bits/nível de qualidade mais alto para elementos de áudio que sejam mais relevantes e/ou mais audíveis na posição virtual atual do usuário, e/ou um audio stream com uma taxa de bits/nível de qualidade mais baixo para elementos de áudio que são menos relevantes e/ou audíveis na posição virtual atual do usuário. Consulte, em termos gerais, a Fig. 7A. Consulte também as Figs. 2a e 2b
(em as fontes mais relevantes e/ou mais audíveis podem estar mais próximas ao usuário), Fig. 3 (onde a fonte mais relevante e/ou audível da cena 150a quando o usuário está na posição x1, e a fonte mais relevante e/ou audível é a fonte da cena 150b, quando o usuário está na posição x3), Fig. 4 (onde, (em que, no instante no tempo t2, as fontes mais relevantes e/ou audíveis podem ser aquelas da primeira cena), Fig. 6 (em que as fontes mais audíveis podem ser aquelas que são vistas frontalmente pelo usuário).
[00255] Nos exemplos, pelo menos uma elemento de áudio (152) está associado a uma cena, cada elemento de áudio estando associado a uma posição e/ou área no ambiente visual associada à cena, em que o sistema do cliente 102 é configurado para periodicamente enviar sistema do servidor 120 a viewport atual do usuário e/ou a orientação e/ou dados de movimento da cabeça e/ou metadados de interação e/ou dados posicionais virtuais (110), para que: para uma posição mais próxima de pelo menos um elemento de áudio (152), um stream com uma taxa de bits e/ou qualidade mais alta seja fornecido do servidor e para uma posição mais distante de pelo menos um elemento de áudio (152), um stream com uma taxa de bits e/ou qualidade mais baixa seja fornecido do servidor. Consulte, por exemplo, as Figs. 2a e 2b.
[00256] Nos exemplos, uma pluralidade de cenas (por exemplo, 150A, 150B) pode ser definida para vários ambientes visuais, como ambientes adjacentes e/ou vizinhos, de modo que os primeiros streams sejam fornecidos associados a uma primeira, cena atual (por exemplo, 150A) e, no caso de transição do usuário (150AB) para uma segunda, cena adicional, fornecer a ambas os streams associados à primeira cena e os segundos streams associados à segunda cena. Consulte, por exemplo, a Fig. 3.
[00257] Nos exemplos, uma pluralidade de cenas pode ser definida para um primeiro e segundo ambiente visual, sendo o primeiro e segundo ambiente visual adjacentes e/ou vizinhos, em que os primeiros streams associados à primeira cena são fornecidos, a partir do servidor, para a reprodução da primeira cena caso a posição do usuário ou a posição virtual esteja em um primeiro ambiente associado à primeira cena, os segundos streams associados à segunda cena são fornecidos do servidor, para a reprodução da segunda cena caso a posição do usuário ou posição virtual esteja no segundo ambiente, e os dois primeiros streams associados à primeira cena e os segundos streams associados à segunda cena são fornecidos caso a posição do usuário ou posição virtual estejam em uma posição de transição entre a primeira e a segunda cena. Consulte, por exemplo, a Fig. 3.
[00258] Nos exemplos, os primeiros streams associados à primeira cena são obtidos com uma taxa de bits e/ou qualidade mais alta quando o usuário estiver no primeiro ambiente associado à primeira cena, enquanto que os segundos streams associados à segunda cena associada ao segundo ambiente são obtidos com uma taxa de bits/qualidade mais baixa quando o usuário está no inicio de uma posição de transição da primeira para a segunda cena, e os primeiros streams associados à primeira cena são obtidos com uma taxa de bits e/ou qualidade mais baixa e os segundos streams associados à segunda cena são obtidos com uma taxa de bits e/ou qualidade mais alta quando o usuário está no final de uma posição de transição da primeira para a segunda cena. Esse pode ser o caso, por exemplo, da Fig.
3.
[00259] Nos exemplos, uma pluralidade de cenas (por exemplo, 150A, 150B) é definida para vários ambientes visuais (por exemplo, ambientes adjacentes), para que o sistema 102 possa solicitar e/ou obter os streams associados a cena atual com uma taxa de bits e/ou qualidade mais baixa e os streams associados à segunda cena com taxa de bits e/ou qualidade mais baixa. Consulte, por exemplo, a Fig. 4.
[00260] Nos exemplos, uma pluralidade de elementos de áudio N é definida e, caso a distância do usuário até a posição ou área desses elementos de áudio seja maior que o limite predeterminado, os elementos de áudio N são processados para obter um número menor de elementos de áudio M (M <N) associados a uma posição ou área próxima à posição ou área dos elementos de áudio N, para fornecer ao sistema pelo menos um audio stream associado aos elementos de áudio N, caso a distância do usuário até a posição ou área dos elementos de áudio N seja menor do que o limite predeterminado, ou fornecer ao sistema pelo menos um audio stream associado aos elementos de áudio M, caso a distância do usuário até a posição ou área dos elementos de áudio N seja maior do que o limite predeterminado. Consulte, por exemplo, a Fig. 1.7.
[00261] Nos exemplos, pelo menos uma cena de ambiente visual é associada a pelo menos uma pluralidade de elementos de áudio N (N>=2), cada elemento de áudio sendo associado a uma posição e/ou área no ambiente visual, em que pelo menos uma pluralidade de elementos de áudio N possa ser fornecida em pelos uma representação com uma taxa de bits e/ou nível de qualidade alto e, em que pelo menos uma pluralidade de elementos de áudio N seja fornecida em pelo menos uma representação com uma taxa de bits e/ou nível de qualidade baixo, em que pelo menos uma representação seja obtida processando os elementos de áudio N para obter um número menor de elementos de áudio M (M<N) associado a uma posição ou área próxima à posição ou área dos elementos de áudio N, em que o sistema seja configurado para solicitar a representação com uma taxa de bits e/ou nível de qualidade mais alto para os elementos de áudio, caso os elementos de áudio sejam mais relevantes e/ou mais audíveis na posição virtual atual do usuário na cena, em que o sistema pode ser configurado para solicitar a representação com uma taxa de bits e/ou nível de qualidade mais baixo para os elementos de áudio, caso os elementos de áudio sejam menos relevantes e/ou audíveis na posição virtual atual do usuário na cena. Consulte, por exemplo, a Fig. 1.7.
[00262] Nos exemplos, caso a distância do usuário e/ou relevância e/ou nível de audibilidade e/ou orientação angular seja menor que o limite predeterminado, streams diferentes são obtidos para diferentes elementos de áudio.
Consulte, por exemplo, a Fig. 1.7.
[00263] Nos exemplos, diferentes elementos de áudio são fornecidos em diferentes viewports, para que, caso um primeiro elemento de áudio caia na viewport atual, o primeiro elemento de áudio seja obtido a uma taxa de bits mais alta do que um segundo elemento de áudio que não caia na viewport. Consulte, por exemplo, a Fig. 6.
[00264] Nos exemplos, pelo menos duas cenas do ambiente visual são definidas, em que pelo menos um primeiro e segundo elementos de áudio sejam associados a uma primeira cena associada a um primeiro ambiente visual e pelo menos um terceiro elemento de áudio seja associado a uma segunda cena associada a um segundo ambiente visual, em que o sistema 102 possa ser configurado para obter metadados descrevendo que pelo menos um segundo elemento de áudio seja adicionalmente associado à segunda cena do ambiente visual e em que o sistema possa ser configurado para solicitar e/ou receber pelo menos o primeiro e o segundo elementos de áudio, caso a posição virtual do usuário esteja no primeiro ambiente visual e em que o sistema pode ser configurado para solicitar e/ou receber pelo menos o segundo e terceiro elementos de áudio, caso de a posição virtual do usuário esteja na segunda cena do ambiente visual e em que o sistema pode ser configurado para solicitar e/ou receber pelo menos o primeiro, segundo e terceiro elementos de áudio, caso a posição virtual do usuário esteja em transição entre a primeira cena do ambiente visual e a segunda cena do ambiente visual.
Consulte, por exemplo, a Fig. 1.4. Isso também pode se aplicar à Fig. 3.
[00265] Nos exemplos, pelo menos um primeiro elemento de áudio pode ser fornecido em pelo menos um audio stream e/ou adaptation set, e pelo menos um segundo elemento de áudio é fornecido em pelo menos um segundo audio stream e/ou adaptation set, e pelo menos um terceiro elemento de áudio é fornecido em pelo menos um terceiro audio stream e/ou adaptation set e, em que pelo menos a primeira cena do ambiente visual é descrita pelos metadados como uma cena completa que requer pelo menos o primeiro e segundo audio streams e/ou adaptation sets e, em que a segunda cena do ambiente visual é descrita pelos metadados como uma cena incompleta que requer pelo menos o terceiro audio stream e/ou adaptation sets associados a pelo menos a primeira cena do ambiente visual, em que o sistema inclui um processador de metadados configurado para manipular os metadados, para permitir mesclar o segundo audio stream que pertence ao primeiro ambiente visual e o terceiro audio stream associado ao segundo ambiente visual em um novo steam simples, caso a posição virtual do usuário esteja no segundo ambiente visual. Consulte. Por exemplo, as Figs.
1.2-1.3, 1.5 e 1.6.
[00266] Nos exemplos, o sistema 102 pode incluir um processador de metadados (por exemplo, 1236) configurado para manipular os metadados em pelo menos um audio stream antes de pelo menos um decodificador de áudio, com base na viewport atual do usuário e/ou orientação e/ou dados de movimento da cabeça e/ou metadados de interação e/ou dados posicionais virtuais.
[00267] Nos exemplos, o processador de metadados (por exemplo, 1236) pode ser configurado para ativar e/ou desativar pelo menos um elemento de áudio em pelo menos um audio stream antes de pelo menos um decodificador de áudio, com base na viewport atual do usuário e/ou na orientação e/ou dados de movimento da cabeça e/ou metadados de interação e/ou dados posicionais virtuais, em que o processador de metadados pode ser configurado para desativar pelo menos um elemento de áudio em pelo menos um audio stream antes de pelo menos um decodificador de áudio, caso o sistema decida que o elemento de áudio não deve mais ser reproduzido como consequência de uma viewport atual e/ou orientação e/ou dados de movimento da cabeça e/ou metadados de interação e/ou dados posicionais virtuais e, em que o processador de metadados possa ser configurado para ativar pelo menos um elemento de áudio em pelo menos um audio stream antes de pelo menos um decodificador de áudio, caso o sistema decida que o elemento de áudio seja produzido como uma consequência da viewport atual do usuário e/ou orientação e/dou dados de movimento da cabeça e/ou metadados de interação e ou dados posicionais virtuais.
Lado do servidor
[00268] Aqui acima, também é referido um servidor (120) para fornecer audio and video streams a um cliente para um ambiente de realidade virtual, VR, realidade aumentada, AR, realidade mista, MR ou de vídeo de 360 graus, os audio and video streams a serem reproduzido em um dispositivo de consumo de mídia, em que o servidor (120) inclui um codificador para codificar e/ou um armazenamento para armazenar video streams para descrever um ambiente visual, com o ambiente visual estando associado a uma cena de áudio; em que o servidor ainda inclui um codificador para codificar e/ou um armazenamento para armazenar uma pluralidade de streams e/ou elementos de áudio e/ou adaptation sets a serem fornecidos ao cliente, os streams e/ou elementos de áudio e/ou adaptation sets estando associados a pelo menos uma cena de áudio, em que o servidor é configurado para:
[00269] selecionar e fornecer um audio stream com base na solicitação do cliente, video stream estando associado a um ambiente;
[00270] selecionar uma audio stream e/ou elemento de áudio e/ou adaptation set com base na solicitação do cliente, a solicitação estando associada a pelo menos a viewport atual do usuário e/ou orientação e/ou dados de movimento da cabeça e/ou dados de interação e/ou dados posicionais virtuais e a uma cena de áudio associada ao ambiente; e fornecer o audio stream ao cliente.
Modalidades e variantes adicionais
[00271] Dependendo de certos requisitos de implementação, exemplos podem ser implementados no hardware. A implementação pode ser realizada usando um meio de armazenamento digital, por exemplo, um disquete, um disco versátil digital (DVD), um disco Blu-Ray, um disco compacto (CD), uma memória somente de leitura (ROM), uma memória somente de leitura programável (PROM), uma memória somente de leitura apagável e programável (EPROM), uma memória somente de leitura programável apagável eletricamente (EEPROM) ou uma memória flash, com sinais de controle legíveis eletronicamente nela armazenados, que cooperam (ou são capazes de cooperar) com um sistema de computador programável, de modo que o método respectivo seja executado. Portanto, o meio de armazenamento digital pode ser legível por computador.
[00272] Geralmente, os exemplos podem ser implementados como um produto de programa de computador com instruções de programa, sendo as instruções de programa operacionais para executar um dos métodos quando o produto de programa de computador é executado em um computador. As instruções do programa podem, por exemplo, ser armazenadas em um meio legível por máquina.
[00273] Outros exemplos incluem o programa de computador para executar um dos métodos aqui descritos, armazenados em um suporte legível por máquina. Em outras palavras, um exemplo de método é, portanto, um programa de computador com instruções de programa para executar um dos métodos descritos neste documento, quando o programa de computador é executado em um computador.
[00274] Um exemplo adicional dos métodos é, portanto, um meio portador de dados (ou um meio de armazenamento digital ou um meio legível por computador) incluindo, gravado nele, o programa de computador para executar um dos métodos aqui descritos. O meio portador de dados, o meio de armazenamento digital ou o meio gravado são tangíveis e/ou não-transitórios, em vez de sinais intangíveis e transitórios.
[00275] Um outro exemplo inclui uma unidade de processamento, por exemplo, um computador ou um dispositivo lógico programável que executa um dos métodos descritos neste documento.
[00276] Um outro exemplo inclui um computador com o programa de computador gravado para executar um dos métodos aqui descritos.
[00277] Um outro exemplo inclui um aparelho ou um sistema que transfere (por exemplo, eletronicamente ou opticamente) um programa de computador para executar um dos métodos aqui descritos para um receptor. O receptor pode, por exemplo, ser um computador, um dispositivo móvel, um dispositivo de memória ou semelhante. O aparelho ou sistema pode, por exemplo, incluir um servidor de arquivos para transferir o programa do computador para o receptor.
[00278] Em alguns exemplos, um dispositivo lógico programável (por exemplo, uma matriz de portas programável em campo) pode ser usada para executar algumas ou todas as funcionalidades dos métodos aqui descritos. Em alguns exemplos, uma matriz de portas programável de campo pode cooperar com um microprocessador para executar um dos métodos descritos neste documento. Geralmente, os métodos podem ser executados por um aparelho de hardware apropriado.
[00279] Os exemplos descritos acima são ilustrativos para os princípios discutidos acima. Entende- se que modificações e variações dos arranjos e os detalhes aqui descritos serão aparentes. Portanto, a intenção é limitar-se ao escopo das reivindicações iminentes de patentes e não aos detalhes específicos apresentados por meio de descrição e explicação dos exemplos aqui apresentados.

Claims (49)

REIVINDICAÇÕES
1. Um sistema (102) para um ambiente de realidade virtual, VR, realidade aumentada, AR, realidade mista, MR ou vídeo em 360 graus configurado para receber fluxos de vídeo e áudio a serem reproduzidos em um dispositivo de consumo de mídia, caracterizado pelo fato de que o sistema (102) compreende: pelo menos um decodificador de vídeo de mídia configurado para decodificar sinais de vídeo de fluxos de vídeo (1800) para a representação de ambientes de vídeo VR, AR, MR ou 360 graus para um usuário, e pelo menos um decodificador de áudio (104) configurado para decodificar sinais de áudio (108) de fluxos de áudio (106) para a representação de cenas de áudio, em que o sistema (102) está configurado para solicitar (112) primeiros fluxos de áudio (106) e segundos fluxos de áudio (106) e / ou um elemento de áudio de um fluxo de áudio e / ou uma adaptação configurada para um servidor (120) no com base em pelo menos a viewport atual do usuário e / ou a orientação da cabeça e / ou dados de movimento e / ou metadados de interação e / ou dados posicionais virtuais (110), e em que os primeiros elementos de áudio nos primeiros fluxos de áudio são mais relevantes e / ou mais audíveis que os segundos elementos de áudio nos segundos fluxos de áudio, em que os primeiros fluxos de áudio são solicitados e / ou recebidos com uma taxa de bits mais alta que a taxa de bits dos segundos fluxos de áudio .
2. Um sistema (102) para um ambiente de realidade virtual, VR, realidade aumentada, AR, realidade mista, MR ou vídeo em 360 graus configurado para receber fluxos de vídeo e áudio a serem reproduzidos em um dispositivo de consumo de mídia, caracterizado pelo fato de que o sistema (102) compreende: pelo menos um decodificador de vídeo de mídia configurado para decodificar sinais de vídeo de fluxos de vídeo (1800) para a representação de ambientes de vídeo VR, AR, MR ou 360 graus para um usuário, e pelo menos um decodificador de áudio (104) configurado para decodificar sinais de áudio (108) de pelo menos um fluxo de áudio (106) para a representação de uma cena de áudio, em que o sistema (102) está configurado para solicitar (112) pelo menos um fluxo de áudio (106) para um servidor (120) com base em pelo menos a viewport atual do usuário e / ou a orientação da cabeça e / ou os dados de movimento e / ou metadados de interação e / ou dados posicionais virtuais (110), e em que o sistema (102) está configurado para controlar a solicitação de pelo menos um fluxo de áudio para o servidor (120) com base em uma distância da posição do usuário dos limites dos ambientes de vídeo vizinhos e / ou adjacentes associados a diferentes áudio cenas.
3. Sistema, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que configurado para fornecer ao servidor (120) a viewport atual do usuário e / ou a orientação da cabeça e / ou os dados de movimento e / ou os metadados de interação e / ou os dados posicionais virtuais (110), de modo a obtenha pelo menos um fluxo de áudio (106) e / ou um elemento de áudio de um fluxo de áudio e / ou um conjunto de adaptação do servidor (120).
4. Sistema, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que pelo menos uma cena de áudio está associada a pelo menos um elemento de áudio (152), cada elemento de áudio sendo associado a uma posição e / ou área no ambiente de vídeo em que o elemento de áudio é audível. , para que diferentes fluxos de áudio sejam fornecidos para diferentes posições do usuário e / ou viewports e / ou orientações da cabeça e / ou dados de movimento e / ou metadados de interação e / ou dados posicionais virtuais em uma cena de áudio.
5. Sistema, de acordo com a reivindicação 1 ou 2, configurado para decidir se pelo menos um elemento de áudio de um fluxo de áudio e / ou um conjunto de adaptação deve ser reproduzido para a viewport do usuário atual e / ou orientação da cabeça e / ou dados de movimento e / ou metadados de interação e / ou posição virtual em uma cena de áudio, e caracterizado pelo fato de que o sistema está configurado para solicitar e / ou receber o pelo menos um elemento de áudio na posição virtual do usuário atual.
6. Sistema, de acordo com a reivindicação 1 ou 2, configurado para decidir de forma previsível se pelo menos um elemento de áudio (152) de um fluxo de áudio e / ou um conjunto de adaptação se tornará relevante e / ou audível com base em pelo menos a porta de visualização atual do usuário e / ou orientação da cabeça e / ou dados de movimento e / ou metadados de interação e / ou dados posicionais virtuais (110), caracterizado pelo fato de que o sistema está configurado para solicitar e / ou receber o pelo menos um elemento de áudio e / ou fluxo de áudio e / ou conjunto de adaptação na posição virtual de um usuário específico antes do movimento e / ou interação previstos do usuário previsto em uma cena de áudio, e em que o sistema está configurado para reproduzir pelo menos um elemento de áudio e / ou fluxo de áudio, quando recebido, na posição virtual do usuário específico após o movimento e / ou interação do usuário em uma cena de áudio.
7. Sistema, de acordo com a reivindicação 1 ou 2, configurado para solicitar e / ou receber o pelo menos um elemento de áudio (152) com uma taxa de bits mais baixa, na posição virtual do usuário antes da interação do usuário, a interação resultante de uma mudança de posição dados na mesma cena de áudio (150) ou inserir uma próxima cena separada da cena atual, caracterizado pelo fato de que o sistema está configurado para solicitar e / ou receber o pelo menos um elemento de áudio com uma taxa de bits mais alta, na posição virtual do usuário após a interação do usuário em uma cena de áudio.
8. Sistema, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que pelo menos um elemento de áudio (152) associado a pelo menos uma cena de áudio está associado a uma posição e / ou área no ambiente de vídeo associado a uma cena de áudio, em que o sistema está configurado para solicitar e / ou receber fluxos com taxa de bits mais alta para elementos de áudio mais próximos do usuário do que para elementos de áudio mais distantes do usuário.
9. Sistema, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que pelo menos um elemento de áudio (152) está associado a pelo menos uma cena de áudio, o último elemento de áudio sendo associado a uma posição e / ou área no ambiente de vídeo associado a um cena audio, em que o sistema está configurado para solicitar fluxos diferentes em taxas de bits diferentes para elementos de áudio com base em sua relevância e / ou nível de auditabilidade na posição virtual de cada usuário em uma cena de áudio, em que o sistema está configurado para solicitar um fluxo de áudio com taxa de bits mais alta para elementos de áudio que são mais relevantes e / ou mais audíveis na posição virtual do usuário atual e / ou um fluxo de áudio com taxa de bits mais baixa para elementos de áudio menos relevantes e / ou menos audíveis na posição virtual do usuário atual.
10. Sistema, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que pelo menos um elemento de áudio (152) está associado a uma cena de áudio, cada elemento de áudio sendo associado a uma posição e / ou área no ambiente de vídeo associado a uma cena de áudio, em que o sistema está configurado para enviar periodicamente ao servidor a viewport atual do usuário e / ou a orientação da cabeça e / ou dados de movimento e / ou metadados de interação e / ou dados posicionais virtuais (110), de modo que: para uma primeira posição, é fornecido um fluxo com taxa de bits mais alta, a partir do servidor, e para uma segunda posição, é fornecido um fluxo com taxa de bits mais baixa, a partir do servidor, em que a primeira posição está mais próxima do pelo menos um elemento de áudio (152) que a segunda posição.
11. Sistema, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que uma pluralidade de cenas de áudio (150A, 150B) é definida para vários ambientes de vídeo, como ambientes de vídeo adjacentes e / ou vizinhos, para que os primeiros fluxos sejam fornecidos associados a uma primeira cena de áudio atual e, no caso de transição do usuário para uma segunda, outra cena de áudio, para fornecer os fluxos de áudio associados à primeira cena de áudio e os segundos fluxos associados ao segundo áudio cena.
12. Sistema, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que uma pluralidade de cenas de áudio (150A, 150B) é definida para um primeiro e um segundo ambientes de vídeo, sendo o primeiro e o segundo ambientes de vídeo ambientes de vídeo adjacentes e / ou vizinhos, em que os primeiros fluxos associados à primeira cena de áudio são fornecidos, a partir do servidor, para a reprodução da primeira cena de áudio no caso de a posição ou posição virtual do usuário estar em um primeiro ambiente de vídeo associado à primeira cena de áudio, segundos fluxos associados à segunda cena de áudio são fornecidos, a partir do servidor, para a reprodução da segunda cena de áudio no caso de a posição ou posição virtual do usuário estar em um segundo ambiente de vídeo associado à segunda cena de áudio, e os primeiros fluxos associados à primeira cena de áudio e os segundos fluxos associados à segunda cena de áudio são fornecidos no caso de a posição ou posição virtual do usuário estar em uma posição de transição entre a primeira cena de áudio e a segunda cena de áudio.
13. Sistema, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que uma pluralidade de cenas de áudio (150A, 150B) é definida para um primeiro e um segundo ambientes de vídeo, que são ambientes adjacentes e / ou vizinhos, em que o sistema está configurado para solicitar e / ou receber os primeiros fluxos associados a uma primeira cena de áudio associada (150A) ao primeiro ambiente, para a reprodução da primeira cena de áudio no caso de a posição virtual do usuário estar no primeiro ambiente, em que o sistema está configurado para solicitar e / ou receber segundos fluxos associados à segunda cena de áudio (150B) associados ao segundo ambiente, para a reprodução da segunda cena de áudio no caso de a posição virtual do usuário estar no segundo ambiente, e em que o sistema está configurado para solicitar e / ou receber os dois primeiros fluxos associados à primeira cena de áudio e os segundos fluxos associados à segunda cena de áudio no caso de a posição virtual do usuário estar em uma posição de transição (150AB) entre o primeiro ambiente e o segundo ambiente.
14. Sistema, de acordo com qualquer uma das reivindicações 11 a 13, caracterizado pelo fato de que os primeiros fluxos associados à primeira cena de áudio são obtidos com uma taxa de bits mais alta quando o usuário está no primeiro ambiente associado à primeira cena de áudio, enquanto os segundos fluxos associados à segunda cena de áudio associados ao segundo ambiente são obtidos com uma taxa de bits mais baixa quando o usuário está no início de uma posição de transição da primeira cena de áudio para a segunda cena de áudio, e os primeiros fluxos associados à primeira cena de áudio são obtidos com uma taxa de bits mais baixa e os segundos fluxos associados à segunda cena de áudio são obtidos com uma taxa de bits mais alta quando o usuário está no final de uma posição de transição da primeira cena de áudio para a segunda cena audio, em que a taxa de bits mais baixa é menor que a taxa de bits mais alta.
15. Sistema, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que uma pluralidade de cenas de áudio (150A, 150B) é definida para vários ambientes, como ambientes adjacentes e / ou vizinhos,
para que o sistema esteja configurado para obter os fluxos de áudio associados a uma primeira cena de áudio atual associada a um primeiro ambiente atual e, no caso de a distância da posição do usuário ou da posição virtual de um limite de uma cena de áudio estar abaixo de um limite predeterminado, o sistema obtém ainda fluxos de áudio associados a um segundo ambiente adjacente e / ou vizinho associado à segunda cena de áudio.
16. Sistema, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que uma pluralidade de cenas de áudio (150A, 150B) é definida para vários ambientes de vídeo, para que o sistema solicite e / ou obtenha os fluxos de áudio associados a uma cena de áudio atual com uma taxa de bits mais alta e os fluxos de áudio associados à segunda cena de áudio com uma taxa de bits mais baixa, em que a taxa de bits mais baixa é menor que a taxa de bits mais alta.
17. Sistema, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que uma pluralidade de N elementos de áudio é definida e, no caso de a distância do usuário à posição ou área desses elementos de áudio ser maior que um limite predeterminado, os N elementos de áudio são processados para obter um número M menor de elementos de áudio associado a uma posição ou área próxima à posição ou área dos N elementos de áudio, de modo que fornecer ao sistema pelo menos um fluxo de áudio associado aos N elementos de áudio, caso a distância do usuário à posição ou área dos N elementos de áudio seja menor que um limite predeterminado, ou para fornecer ao sistema pelo menos um fluxo de áudio associado aos elementos de áudio M, caso a distância do usuário à posição ou área dos N elementos de áudio seja maior que um limite predeterminado.
18. Sistema, de acordo com a reivindicação 1 ou 2 ou 17, caracterizado pelo fato de que pelo menos um ambiente de vídeo está associado a pelo menos uma pluralidade de N elementos de áudio, cada elemento de áudio sendo associado a uma posição e / ou área no ambiente de vídeo, em que pelo menos pelo menos uma pluralidade de N elementos de áudio é fornecida em pelo menos uma representação com alta taxa de bits, e em que pelo menos pelo menos uma pluralidade de N elementos de áudio é fornecida em pelo menos uma representação com baixa taxa de bits, em que a pelo menos uma representação é obtida processando os N elementos de áudio para obter um número menor M de elementos de áudio associados a uma posição ou área próxima à posição ou área dos N elementos de áudio, em que o sistema está configurado para solicitar a representação com taxa de bits mais alta para os elementos de áudio, caso os elementos de áudio sejam mais relevantes e / ou mais audíveis na posição virtual do usuário atual em uma cena de áudio, em que o sistema está configurado para solicitar a representação com taxa de bits mais baixa para os elementos de áudio, caso os elementos de áudio sejam menos relevantes e / ou menos audíveis na posição virtual do usuário atual em uma cena de áudio.
19. Sistema, de acordo com as reivindicações 17 e 18, caracterizado pelo fato de que, caso a distância do usuário seja menor que um limite de distância predeterminado ou a relevância seja menor que um limite de relevância predeterminado ou o nível de audibilidade seja menor que um limite de distância predeterminado, que um limiar predeterminado, diferentes fluxos de áudio são obtidos para os diferentes elementos de áudio.
20. Sistema, de acordo com a reivindicação 1 ou 2, configurado para solicitar e / ou obter os fluxos de áudio com base na orientação do usuário e / ou na direção do movimento do usuário e / ou nas interações do usuário em uma cena de áudio.
21. Sistema, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que a janela de visualização está associada à posição e / ou posição virtual e / ou dados de movimento e / ou cabeça.
22. Sistema, de acordo com a reivindicação 1 ou 2 ou 21, caracterizado pelo fato de que diferentes elementos de áudio são fornecidos em diferentes janelas de exibição, em que o sistema está configurado para solicitar e / ou receber, caso um primeiro elemento de áudio (S1) caia dentro de uma janela de exibição (160- 1), o primeiro elemento de áudio com uma taxa de bits mais alta que um segundo elemento de áudio (S2) que não se enquadra na janela de exibição.
23. Sistema, de acordo com a reivindicação 1, configurado para solicitar e / ou receber os primeiros fluxos de áudio e segundos fluxos de áudio, caracterizado pelo fato de que os primeiros elementos de áudio nos primeiros fluxos de áudio são mais relevantes e / ou mais audíveis que os segundos elementos de áudio no segundos fluxos de áudio, em que os primeiros fluxos de áudio são solicitados e / ou recebidos com uma taxa de bits mais alta que a taxa de bits dos segundos fluxos de áudio.
24. Um sistema (102) para um ambiente de realidade virtual, VR, realidade aumentada, AR, realidade mista, MR ou vídeo de 360 graus configurado para receber fluxos de vídeo e áudio a serem reproduzidos em um dispositivo de consumo de mídia, caracterizado pelo fato de que o sistema
(102) compreende:
pelo menos um decodificador de vídeo de mídia configurado para decodificar sinais de vídeo de fluxos de vídeo (1800) para a representação de pelo menos dois ambientes de vídeo VR, AR, MR ou 360 graus para um usuário, e pelo menos um decodificador de áudio (104)
configurado para decodificar sinais de áudio (108) de pelo menos um fluxo de áudio (106),
em que o sistema (102) está configurado para solicitar (112) pelo menos um fluxo de áudio (106) e /
ou um elemento de áudio de um fluxo de áudio e / ou uma adaptação configurada para um servidor (120) com base em pelo menos o viewport atual do usuário e / ou orientação da cabeça e / ou dados de movimento e / ou metadados de interação e / ou dados posicionais virtuais (110),
em que pelo menos um primeiro e segundo elementos de áudio (152A, 152B) estão associados a uma primeira cena de áudio associada a um primeiro ambiente de vídeo e pelo menos um terceiro elemento de áudio (152C)
está associado a uma segunda cena de áudio associada a um segundo vídeo meio Ambiente,
em que o sistema está configurado para obter metadados de interação que descrevem que o pelo menos um segundo elemento de áudio (152B) está associado adicionalmente ao segundo ambiente de vídeo,
em que o sistema está configurado para solicitar e / ou receber os pelo menos um primeiro e segundo elementos de áudio (152A, 152B), caso a posição virtual do usuário esteja no primeiro ambiente de vídeo,
em que o sistema está configurado para solicitar e / ou receber os pelo menos um segundo e terceiro elementos de áudio (152B, 152C), caso a posição virtual do usuário esteja no segundo ambiente de vídeo, e em que o sistema está configurado para solicitar e / ou receber pelo menos um primeiro e segundo e terceiro elementos de áudio (152A, 152B, 152C), caso a posição virtual do usuário esteja em transição entre o primeiro ambiente de vídeo e o segundo ambiente de vídeo,
em que o pelo menos um primeiro elemento de áudio (152) é fornecido em pelo menos um fluxo de áudio
(A1, 106A) e / ou conjunto de adaptação, e o pelo menos um segundo elemento de áudio (152B) é fornecido em pelo menos um segundo fluxo de áudio (A2, 106B) e / ou conjunto de adaptação, e o pelo menos um terceiro elemento de áudio
(152C) é fornecido em pelo menos um terceiro fluxo de áudio
(B1, 10C) e / ou conjunto de adaptação, e em que o pelo menos um primeiro vídeo ambiente é descrito por metadados de interação como uma cena de áudio que requer pelo menos um primeiro e segundo fluxos de áudio (A1, A2, 106A, 106B)
e / ou conjuntos de adaptação, e em que o segundo ambiente de vídeo é descrito por metadados de interação como um áudio cena que requer pelo menos um terceiro fluxo de áudio
(B1, 106C) e / ou conjunto de adaptação e pelo menos um segundo fluxo de áudio (A2, 152B) e / ou conjuntos de adaptação associados ao pelo menos um primeiro ambiente de vídeo, em que o sistema compreende um processador de metadados (1236) configurado para manipular os metadados de interação, para mesclar o segundo fluxo de áudio (A2, 152B) pertencente ao primeiro ambiente de vídeo e o terceiro fluxo de áudio (B1, 152C) associado ao segundo ambiente de vídeo em um novo fluxo único, caso a posição virtual do usuário esteja no segundo ambiente de vídeo.
25. Sistema, de acordo com a reivindicação 1 ou 2 ou 24, caracterizado pelo fato de que o sistema compreende um processador de metadados (1236) configurado para manipular metadados em pelo menos um fluxo de áudio antes do pelo menos um decodificador de áudio (104), com base na viewport atual do usuário e / ou orientação da cabeça e / ou dados de movimento e / ou metadados de interação e / ou dados posicionais virtuais.
26. Sistema, de acordo com a reivindicação 25, caracterizado pelo fato de que o processador de metadados (1236) está configurado para ativar e / ou desativar pelo menos um elemento de áudio (152A-152C) em pelo menos um fluxo de áudio (106A-106C) antes do pelo menos um decodificador de áudio (104), com base na viewport atual do usuário e / ou orientação da cabeça e / ou dados de movimento e / ou metadados de interação e / ou dados posicionais virtuais, em que o processador de metadados (1236) está configurado para desativar pelo menos um elemento de áudio
(152A-152C) em pelo menos um fluxo de áudio (106A-106C) antes do pelo menos um decodificador de áudio (104), caso o sistema decida que o o elemento de áudio (152A-152C) não deve mais ser reproduzido como consequência de uma viewport atual e / ou orientação de cabeça e / ou dados de movimento e / ou metadados de interação e / ou dados posicionais virtuais, e em que o processador de metadados (1236) está configurado para ativar pelo menos um elemento de áudio (152A-152C) em pelo menos um fluxo de áudio antes de pelo menos um decodificador de áudio, caso o sistema decida que o elemento de áudio (152A-152C) deve ser reproduzido como uma conseqüência da viewport atual de um usuário e / ou orientação da cabeça e / ou dados de movimento e / ou metadados de interação e / ou dados posicionais virtuais.
27. O sistema da reivindicação 1 ou 2 ou 24, caracterizado pelo fato de que configurado para desativar a decodificação do elemento de elementos de áudio (152A-152C) selecionou a base da viewport atual do usuário e / ou orientação da cabeça e / ou dados de movimento e / ou metadados e / ou posição virtual.
28. Sistema, de acordo com a reivindicação 1 ou 2 ou 24, caracterizado pelo fato de que configurado para mesclar pelo menos um primeiro fluxo de áudio (106A) associado a uma cena de áudio atual a pelo menos um fluxo (106C) associado a uma cena de áudio vizinha, adjacente e /
ou futura .
29. Sistema, de acordo com a reivindicação 1 ou 2 ou 24, caracterizado pelo fato de que configurado para obter e / ou coletar dados estatísticos ou agregados na viewport atual do usuário e / ou orientação da cabeça e / ou dados de movimento e / ou metadados e / ou dados posicionais virtuais, de modo que para transmitir a solicitação ao servidor (120) associado aos dados estatísticos ou agregados.
30. Sistema, de acordo com a reivindicação 1 ou 2 ou 24, caracterizado pelo fato de que configurado para desativar a decodificação e / ou reprodução de pelo menos um fluxo com base em metadados associados a pelo menos um fluxo e com base na viewport atual do usuário e / ou orientação da cabeça e / ou dados de movimento e / ou metadados e / ou dados posicionais virtuais.
31. Sistema, de acordo com a reivindicação 1, 2 ou 24, caracterizado pelo fato de que configurado ainda para: manipular metadados associados a um grupo de fluxos de áudio selecionados (106A-106C), com base, pelo menos, na viewport atual ou estimada do usuário e / ou orientação da cabeça e / ou dados de movimento e / ou dados de movimento e / ou metadados e / ou dados posicionais virtuais, de modo a :
selecionar e / ou ativar elementos de áudio (152A-152C) compondo uma cena de áudio a ser reproduzida; e / ou mesclar todos os fluxos de áudio selecionados em um único fluxo de áudio.
32. Sistema, de acordo com a reivindicação 1 ou 2 ou 24, caracterizado pelo fato de que a informação é fornecida pelo servidor (120), para cada elemento de áudio (152A-152C) ou objeto de áudio, em que a informação inclui informações descritivas sobre os locais em que uma cena de áudio ou os elementos de áudio estão ativos.
33. Sistema, de acordo com as reivindicações 1 ou 2 ou 24, caracterizado pelo fato de que configurado para escolher entre reproduzir uma cena de áudio e compor ou misturar ou mixar ou sobrepor ou combinar pelo menos duas cenas de áudio com base na orientação atual ou futura ou na viewport e / ou na cabeça e / ou dados de movimento e / ou metadados e / ou posição virtual e / ou seleção de um usuário, as duas cenas de áudio sendo associadas a diferentes ambientes vizinhos e / ou adjacentes.
34. Sistema, de acordo com a reivindicação 1, 2 ou 24, caracterizado pelo fato de que configurado para criar ou usar pelo menos os conjuntos de adaptação para que:
Vários conjuntos de adaptação estão associados a uma cena de áudio; e / ou São fornecidas informações adicionais que relacionam cada conjunto de adaptação a um ponto de vista ou uma cena de áudio; e / ou São fornecidas informações adicionais que incluem - Informações sobre os limites de uma cena de áudio e / ou - Informações sobre a relação entre um conjunto de adaptação e uma cena de áudio (por exemplo, a cena de áudio é codificada em três fluxos que são encapsulados em três conjuntos de adaptação) e / ou - Informações sobre a conexão entre os limites de uma cena de áudio e os vários Conjuntos de adaptação.
35. O sistema, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que configurado para: receber um fluxo para uma cena de áudio associada a um ambiente vizinho ou adjacente; comece a decodificar e / ou reproduzir o fluxo de áudio para o ambiente vizinho ou adjacente na detecção da transição de um limite entre dois ambientes.
36. Um sistema compreendendo o sistema (102) de qualquer uma das reivindicações anteriores,
caracterizado pelo fato de que configurado para operar como um cliente e um servidor (120), configurado para fornecer fluxos de vídeo e / áudio a serem reproduzidos em um dispositivo de consumo de mídia.
37. Um sistema (102) para um ambiente de realidade virtual, VR, realidade aumentada, AR, realidade mista, MR ou vídeo de 360 graus configurado para receber fluxos de vídeo e áudio a serem reproduzidos em um dispositivo de consumo de mídia, caracterizado pelo fato de que o sistema (102) compreende: pelo menos um decodificador de vídeo de mídia configurado para decodificar sinais de vídeo de fluxos de vídeo (1800) para a representação de ambientes de vídeo VR, AR, MR ou 360 graus para um usuário, e pelo menos um decodificador de áudio (104) configurado para decodificar sinais de áudio (108) de pelo menos um fluxo de áudio (106) para a representação de uma cena de áudio, em que o sistema (102) está configurado para solicitar (112) pelo menos um fluxo de áudio (106) e / ou um elemento de áudio de um fluxo de áudio e / ou uma adaptação configurada para um servidor (120) com base em pelo menos o viewport atual do usuário e / ou orientação da cabeça e / ou dados de movimento e / ou metadados de interação e / ou dados posicionais virtuais (110), em que o sistema é ainda configurado para:
solicitar e / ou receber pelo menos um primeiro conjunto de adaptação compreendendo pelo menos um fluxo de áudio (106A) associado a pelo menos uma primeira cena de áudio; solicitar e / ou receber pelo menos um segundo conjunto de adaptação compreendendo pelo menos um segundo fluxo de áudio (106B) associado a pelo menos duas cenas de áudio, incluindo a pelo menos uma primeira cena de áudio; e mesclar o pelo menos um primeiro fluxo de áudio (106A) e o pelo menos um segundo fluxo de áudio (106B) em um novo fluxo de áudio a ser decodificado, com base nos metadados disponíveis em relação à viewport atual do usuário e / ou orientação da cabeça e / ou dados de movimento e / ou metadados e / ou dados posicionais virtuais e / ou informações que descrevem uma associação de pelo menos um primeiro conjunto de adaptação com pelo menos uma primeira cena de áudio e / ou uma associação de pelo menos um segundo conjunto de adaptação com pelo menos um primeira cena de áudio.
38. Sistema, de acordo com a reivindicação 1 ou 2 ou 24 ou 37, caracterizado pelo fato de que configurado para receber informações sobre a viewport atual do usuário e / ou a orientação da cabeça e / ou dados de movimento e / ou metadados e / ou dados posicionais virtuais e / ou qualquer informação que caracterize as alterações desencadeadas pelas ações do usuário; e receber informações sobre a disponibilidade de conjuntos de adaptação e informações que descrevem uma associação de pelo menos um conjunto de adaptação a pelo menos uma cena de áudio e / ou ponto de vista e / ou janela de visualização e / ou posição e / ou posição e / ou posição virtual e / ou dados de movimento e / ou orientação.
39. Sistema, de acordo com a reivindicação 1 ou 2 ou 24 ou 37, caracterizado pelo fato de que configurado para decidir se pelo menos um elemento de áudio (152) de pelo menos uma cena de áudio incorporada em pelo menos um fluxo de áudio (152A) e pelo menos um elemento de áudio adicional (152B) de pelo menos uma cena de áudio adicional incorporada em pelo menos um áudio adicional a corrente (106B) deve ser reproduzida; e causar, em caso de decisão positiva, uma operação de mesclagem ou composição ou mixagem ou superposição ou combinação de pelo menos um fluxo adicional (106B) da cena de áudio adicional ao pelo menos um fluxo (106A) do pelo menos um áudio cena.
40. Sistema, de acordo com a reivindicação 1 ou 2 ou 24 ou 37, caracterizado pelo fato de que configurado para manipular metadados de áudio associados a fluxos de áudio selecionados, com base no mínimo na viewport atual do usuário e / ou orientação da cabeça e / ou dados de movimento e / ou metadados e / ou dados posicionais virtuais, a fim de: selecionar e / ou ativar e / ou ativar os elementos de áudio que compõem uma cena de áudio decidida a ser reproduzida; e habilite a mesclagem de todos os fluxos de áudio selecionados em um único fluxo de áudio.
41. Um servidor (120) para fornecer fluxos de áudio e vídeo a um cliente para uma realidade virtual, VR, realidade aumentada, AR, realidade mista, MR ou ambiente de vídeo de 360 graus, os fluxos de vídeo e áudio a serem reproduzidos em um dispositivo de consumo de mídia, caracterizado pelo fato de que o servidor (120) compreende um codificador para codificar e / ou um armazenamento para armazenar fluxos de vídeo para descrever um ambiente de vídeo, sendo o ambiente de vídeo associado a uma cena de áudio; em que o servidor compreende ainda um codificador (154) para codificar e / ou um armazenamento para armazenar uma pluralidade de fluxos e / ou elementos de áudio e / ou conjuntos de adaptação a serem entregues ao cliente, os fluxos de áudio e / ou elementos de áudio e / ou conjuntos de adaptação associados a pelo menos uma cena de áudio, em que o servidor (120) está configurado para: selecionar e entregar um fluxo de vídeo (106) com base em uma solicitação do cliente, sendo o fluxo de vídeo associado a um ambiente; selecionar um fluxo de áudio (106) e / ou elemento de áudio e / ou conjunto de adaptação com base em uma solicitação do cliente (102), a solicitação sendo associada a pelo menos a viewport atual do usuário e / ou a orientação e / ou o movimento da cabeça metadados de dados e / ou interação e / ou dados posicionais virtuais e a uma cena de áudio associada ao ambiente; e entregar o fluxo de áudio (106) ao cliente, em que a solicitação é baseada na distância da posição do usuário dos limites de ambientes vizinhos e / ou adjacentes associados a diferentes cenas de áudio.
42. Um servidor (120) para fornecer fluxos de áudio e vídeo a um cliente para um ambiente de realidade virtual, VR, realidade aumentada, AR, realidade mista, MR ou vídeo de 360 graus, os fluxos de vídeo e áudio a serem reproduzidos em um dispositivo de consumo de mídia, caracterizado pelo fato de que o servidor (120) compreende um codificador para codificar e / ou um armazenamento para armazenar fluxos de vídeo para descrever um ambiente de vídeo, sendo o ambiente de vídeo associado a uma cena de áudio; em que o servidor compreende ainda um codificador para codificar e / ou um armazenamento para armazenar uma pluralidade de fluxos de áudio e / ou elementos de áudio e / ou conjuntos de adaptação a serem entregues ao cliente, os fluxos de áudio e / ou elementos de áudio e / ou adaptação conjuntos sendo associados a pelo menos uma cena de áudio, em que o servidor está configurado para: selecione e entregue um fluxo de vídeo com base em uma solicitação do cliente, sendo o fluxo de vídeo associado a um ambiente; selecione um fluxo de áudio e / ou elemento de áudio e / ou conjunto de adaptação com base em uma solicitação do cliente, a solicitação sendo associada a pelo menos a viewport atual do usuário e / ou a orientação da cabeça e / ou os dados de movimento e / ou os metadados da interação e / ou dados posicionais virtuais e a uma cena de áudio associada ao ambiente; e entregar o fluxo de áudio ao cliente, em que os primeiros elementos de áudio nos primeiros fluxos de áudio são mais relevantes e / ou mais audíveis que os segundos elementos de áudio nos segundos fluxos de áudio, em que os primeiros fluxos de áudio são solicitados e / ou recebidos com uma taxa de bits mais alta que a taxa de bits dos segundos fluxos de áudio .
43. Servidor, de acordo com a reivindicação 41 ou 42, caracterizado pelo fato de que os fluxos de áudio são encapsulados em conjuntos de adaptação, cada conjunto de adaptação incluindo uma pluralidade de fluxos associados a diferentes representações, com taxa de bits diferente, de um mesmo conteúdo de áudio, em que o conjunto de adaptação selecionado é selecionado com base na solicitação do cliente.
44. Sistema, incluindo o sistema (102) de qualquer uma das reivindicações 1-35 e 37-40, caracterizado pelo fato de que opera como cliente e servidor (120) de acordo com a reivindicação 1 ou 2.
45. Método para um ambiente de realidade virtual, RV, realidade aumentada, RA, realidade mista, MR ou vídeo em 360 graus configurado para receber fluxos de vídeo e / áudio a serem reproduzidos em um dispositivo de consumo de mídia, caracterizado pelo fato de que compreende: decodificar sinais de vídeo de fluxos de vídeo para a representação de ambientes de vídeo VR, AR, MR ou 360 graus para um usuário, decodificar sinais de áudio de fluxos de áudio para a representação de cenas de áudio, solicitar e / ou obter de um servidor (120) pelo menos um fluxo de áudio com base na viewport atual do usuário e / ou dados posicionais e / ou orientação da cabeça e / ou dados de movimento e / ou dados de movimento e / ou metadados e / ou dados virtuais dados posicionais e / ou metadados, e controlar a solicitação de pelo menos um fluxo ao servidor (120) com base em uma distância da posição do usuário dos limites dos vizinhos.
46. Método para um ambiente de realidade virtual, RV, realidade aumentada, RA, realidade mista, MR ou vídeo em 360 graus configurado para receber fluxos de vídeo e / áudio a serem reproduzidos em um dispositivo de consumo de mídia, caracterizado pelo fato de que compreende: decodificar sinais de vídeo de fluxos de vídeo para a representação de ambientes de vídeo VR, AR, MR ou 360 graus para um usuário, decodificar sinais de áudio de fluxos de áudio para a representação de cenas de áudio, solicitar e / ou obter de um servidor (120) pelo menos um fluxo de áudio com base na viewport atual do usuário e / ou dados posicionais e / ou orientação da cabeça e / ou dados de movimento e / ou dados de movimento e / ou metadados e / ou dados virtuais dados posicionais e / ou metadados, e em que os primeiros elementos de áudio nos primeiros fluxos de áudio são mais relevantes e / ou mais audíveis que os segundos elementos de áudio nos segundos fluxos de áudio, em que os primeiros fluxos de áudio são solicitados e / ou recebidos com uma taxa de bits mais alta que a taxa de bits dos segundos fluxos de áudio .
47. Um método para um ambiente de realidade virtual, RV, realidade aumentada, RA, realidade mista, MR ou vídeo em 360 graus configurado para receber fluxos de vídeo e / áudio a serem reproduzidos em um dispositivo de consumo de mídia, caracterizado pelo fato de que compreende:
decodificar sinais de vídeo de fluxos de vídeo para a representação de ambientes de vídeo VR, AR, MR ou 360 graus para um usuário,
decodificar sinais de áudio de fluxos de áudio para a representação de cenas de áudio,
solicitar e / ou obter de um servidor (120)
pelo menos um fluxo de áudio com base na viewport atual do usuário e / ou dados posicionais e / ou orientação da cabeça e / ou dados de movimento e / ou dados de movimento e / ou metadados e / ou dados virtuais dados posicionais e
/ ou metadados,
em que pelo menos um primeiro e segundo elementos de áudio (152A, 152B) estão associados a uma primeira cena de áudio associada a um primeiro ambiente de vídeo e pelo menos um terceiro elemento de áudio (152C)
está associado a uma segunda cena de áudio associada a um segundo vídeo meio Ambiente,
em que o método inclui:
obter metadados que descrevem que o pelo menos um segundo elemento de áudio (152B) está associado adicionalmente ao segundo ambiente de vídeo,
solicitar e / ou receber pelo menos o primeiro e o segundo elementos de áudio (152A, 152B), caso a posição virtual do usuário esteja no primeiro ambiente de vídeo,
solicitar e / ou receber pelo menos um segundo e terceiro elementos de áudio (152B, 152C), caso a posição virtual do usuário esteja no segundo ambiente de vídeo, e solicitar e / ou receber pelo menos o primeiro, segundo e terceiro elementos de áudio (152A,
152B, 152C), caso a posição virtual do usuário esteja em transição entre o primeiro ambiente de vídeo e o segundo ambiente de vídeo,
em que o pelo menos um primeiro elemento de áudio (152) é fornecido em pelo menos um fluxo de áudio
(A1, 106A) e / ou conjunto de adaptação, e o pelo menos um segundo elemento de áudio (152B) é fornecido em pelo menos um segundo fluxo de áudio (A2, 106B) e / ou conjunto de adaptação, e o pelo menos um terceiro elemento de áudio
(152C) é fornecido em pelo menos um terceiro fluxo de áudio
(B1, 10C) e / ou conjunto de adaptação e em que pelo menos o primeiro ambiente de vídeo é descrito por metadados como uma cena de áudio que requer pelo menos o primeiro e o segundo fluxos de áudio (A1, A2, 106A, 106B) e / ou conjuntos de adaptação, e em que o segundo ambiente de vídeo é descrito pelos metadados como uma cena que requer o at pelo menos um terceiro fluxo de áudio (B1, 106C) e / ou conjunto de adaptação e pelo menos um segundo fluxo de áudio (A2, 152B) e / ou conjuntos de adaptação associados ao pelo menos o primeiro ambiente de vídeo,
em que o método inclui manipular os metadados para mesclar o segundo fluxo de áudio (A2, 152B) pertencente ao primeiro ambiente de vídeo e o terceiro fluxo de áudio (B1, 152C) associado ao segundo ambiente de vídeo em um novo fluxo único, no caso de A posição virtual do usuário está no segundo ambiente de vídeo.
48. Método para um ambiente de realidade virtual, VR, realidade aumentada, AR, realidade mista, MR ou vídeo em 360 graus configurado para receber fluxos de vídeo e / áudio a serem reproduzidos em um dispositivo de consumo de mídia, caracterizado pelo fato de que compreende: decodificar sinais de vídeo de fluxos de vídeo para a representação de ambientes de vídeo VR, AR, MR ou 360 graus para um usuário, decodificar sinais de áudio de fluxos de áudio para a representação de cenas de áudio, solicitar e / ou obter de um servidor (120) pelo menos um fluxo de áudio com base na viewport atual do usuário e / ou dados posicionais e / ou orientação da cabeça e / ou dados de movimento e / ou dados de movimento e / ou metadados e / ou dados virtuais dados posicionais e / ou metadados, e controlar a solicitação de pelo menos um fluxo ao servidor (120) com base em uma distância da posição do usuário dos limites dos vizinhos, em que o método inclui ainda: solicitar e / ou receber pelo menos um primeiro conjunto de adaptação compreendendo pelo menos um fluxo de áudio (106A) associado a pelo menos uma primeira cena de áudio; solicitar e / ou receber pelo menos um segundo conjunto de adaptação compreendendo pelo menos um segundo fluxo de áudio (106B) associado a pelo menos duas cenas de áudio, incluindo a pelo menos uma primeira cena de áudio; e mesclar o pelo menos um primeiro fluxo de áudio (106A) e pelo menos um segundo fluxo de áudio (106B) em um novo fluxo de áudio a ser decodificado, com base nos metadados disponíveis em relação à viewport atual do usuário e / ou orientação da cabeça e / ou dados de movimento e / ou metadados e / ou dados posicionais virtuais e / ou informações que descrevem uma associação de pelo menos um primeiro conjunto de adaptação com pelo menos uma primeira cena de áudio e / ou uma associação de pelo menos um segundo conjunto de adaptação com pelo menos um primeira cena de áudio.
49. Uma unidade de armazenamento não transitável caracterizado pelo fato de compreender ainda instruções que, quando executadas por um processador, fazem com que o processador execute um método de acordo com a reivindicação 45 ou 46 ou 47 ou 48.
BR112020008073-0A 2017-10-12 2018-10-11 otimização de fornecimento de áudio para aplicativos de realidade virtual BR112020008073A2 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17196259.0 2017-10-12
EP17196259 2017-10-12
PCT/EP2018/077770 WO2019072984A1 (en) 2017-10-12 2018-10-11 AUDIO DIFFUSION OPTIMIZATION FOR VIRTUAL REALITY APPLICATIONS

Publications (1)

Publication Number Publication Date
BR112020008073A2 true BR112020008073A2 (pt) 2020-11-03

Family

ID=60191107

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112020008073-0A BR112020008073A2 (pt) 2017-10-12 2018-10-11 otimização de fornecimento de áudio para aplicativos de realidade virtual

Country Status (17)

Country Link
US (2) US11354084B2 (pt)
EP (2) EP4329319A3 (pt)
JP (2) JP7295851B2 (pt)
KR (3) KR20240137132A (pt)
CN (5) CN116193212A (pt)
AR (6) AR113357A1 (pt)
AU (2) AU2018348762B2 (pt)
BR (1) BR112020008073A2 (pt)
CA (6) CA3078858A1 (pt)
ES (1) ES2970490T3 (pt)
MX (6) MX2020003450A (pt)
PL (1) PL3695613T3 (pt)
RU (2) RU2765569C1 (pt)
SG (2) SG11202003269SA (pt)
TW (1) TWI713911B (pt)
WO (1) WO2019072984A1 (pt)
ZA (4) ZA202002064B (pt)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10242486B2 (en) * 2017-04-17 2019-03-26 Intel Corporation Augmented reality and virtual reality feedback enhancement system, apparatus and method
CN115691519A (zh) * 2018-02-22 2023-02-03 杜比国际公司 用于处理嵌入在mpeg-h 3d音频流中的辅媒体流的方法及设备
CN109151565B (zh) * 2018-09-04 2019-12-20 北京达佳互联信息技术有限公司 播放语音的方法、装置、电子设备及存储介质
JP2020137044A (ja) * 2019-02-25 2020-08-31 ソニーセミコンダクタソリューションズ株式会社 音声信号処理装置
US11211073B2 (en) * 2019-04-22 2021-12-28 Sony Corporation Display control of different verbatim text of vocal deliverance of performer-of-interest in a live event
US20210006976A1 (en) * 2019-07-03 2021-01-07 Qualcomm Incorporated Privacy restrictions for audio rendering
US11432097B2 (en) * 2019-07-03 2022-08-30 Qualcomm Incorporated User interface for controlling audio rendering for extended reality experiences
US11429340B2 (en) 2019-07-03 2022-08-30 Qualcomm Incorporated Audio capture and rendering for extended reality experiences
CN111246225B (zh) * 2019-12-25 2022-02-08 北京达佳互联信息技术有限公司 信息交互方法、装置、电子设备及计算机可读存储介质
JP7371595B2 (ja) * 2020-09-15 2023-10-31 横河電機株式会社 装置、システム、方法およびプログラム
GB2599359A (en) * 2020-09-23 2022-04-06 Nokia Technologies Oy Spatial audio rendering
US12010496B2 (en) * 2020-09-25 2024-06-11 Apple Inc. Method and system for performing audio ducking for headsets
US11914157B2 (en) 2021-03-29 2024-02-27 International Business Machines Corporation Adjustable air columns for head mounted displays
US11710491B2 (en) * 2021-04-20 2023-07-25 Tencent America LLC Method and apparatus for space of interest of audio scene
US20220391167A1 (en) * 2021-06-02 2022-12-08 Tencent America LLC Adaptive audio delivery and rendering
KR102687875B1 (ko) * 2021-07-19 2024-07-25 가우디오랩 주식회사 멀티-뷰 환경에 있어서 오디오 장면(audio scene)을 전환하는 방법 및 이를 위한 장치
CN113660347B (zh) * 2021-08-31 2024-05-07 Oppo广东移动通信有限公司 数据处理方法、装置、电子设备和可读存储介质
US20230086248A1 (en) * 2021-09-21 2023-03-23 Meta Platforms Technologies, Llc Visual navigation elements for artificial reality environments
US20230260537A1 (en) * 2022-02-16 2023-08-17 Google Llc Single Vector Digital Voice Accelerometer
US20240080638A1 (en) * 2022-08-19 2024-03-07 Stephen M. Zoepf Method for navigating multidimensional space using sound
CN116709162B (zh) * 2023-08-09 2023-11-21 腾讯科技(深圳)有限公司 音频处理方法及相关设备

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020103554A1 (en) * 2001-01-29 2002-08-01 Hewlett-Packard Company Interactive audio system
AUPR989802A0 (en) * 2002-01-09 2002-01-31 Lake Technology Limited Interactive spatialized audiovisual system
JP2004072694A (ja) 2002-08-09 2004-03-04 Sony Corp 情報提供システムおよび方法、情報提供装置および方法、記録媒体、並びにプログラム
DE102005008366A1 (de) * 2005-02-23 2006-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ansteuern einer Wellenfeldsynthese-Renderer-Einrichtung mit Audioobjekten
JP2007029506A (ja) * 2005-07-28 2007-02-08 Konami Digital Entertainment:Kk ゲーム装置、音声データの生成方法及びプログラム
US20080022348A1 (en) 2006-07-03 2008-01-24 Samoa Opulence Investment Inc. Interactive video display system and a method thereof
US20090094375A1 (en) * 2007-10-05 2009-04-09 Lection David B Method And System For Presenting An Event Using An Electronic Device
US8520872B2 (en) * 2008-08-14 2013-08-27 Samsung Electronics Co., Ltd. Apparatus and method for sound processing in a virtual reality system
US8798776B2 (en) * 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
CN102301397A (zh) * 2008-12-01 2011-12-28 北方电讯网络有限公司 用于提供计算机生成的三维虚拟环境的视频表示的方法和设备
US10326978B2 (en) * 2010-06-30 2019-06-18 Warner Bros. Entertainment Inc. Method and apparatus for generating virtual or augmented reality presentations with 3D audio positioning
RU2017115669A (ru) 2011-10-28 2019-01-28 Мэджик Лип, Инк. Система и способ для дополненной и виртуальной реальности
US20150296247A1 (en) 2012-02-29 2015-10-15 ExXothermic, Inc. Interaction of user devices and video devices
EP2962468A1 (en) * 2013-03-14 2016-01-06 Arris Technology, Inc. Devices, systems, and methods for converting or translating dynamic adaptive streaming over http (dash) to http live streaming (hls)
EP2830051A3 (en) * 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
US20150302651A1 (en) * 2014-04-18 2015-10-22 Sam Shpigelman System and method for augmented or virtual reality entertainment experience
US10375439B2 (en) * 2014-05-30 2019-08-06 Sony Corporation Information processing apparatus and information processing method
US9787846B2 (en) * 2015-01-21 2017-10-10 Microsoft Technology Licensing, Llc Spatial audio signal processing for objects with associated audio content
WO2016138502A1 (en) * 2015-02-27 2016-09-01 Arris Enterprises, Inc. Adaptive joint bitrate allocation
GB2536025B (en) 2015-03-05 2021-03-03 Nokia Technologies Oy Video streaming method
WO2017048713A1 (en) 2015-09-16 2017-03-23 Magic Leap, Inc. Head pose mixing of audio files
US20170109131A1 (en) * 2015-10-20 2017-04-20 Bragi GmbH Earpiece 3D Sound Localization Using Mixed Sensor Array for Virtual Reality System and Method
US10229540B2 (en) 2015-12-22 2019-03-12 Google Llc Adjusting video rendering rate of virtual reality content and processing of a stereoscopic image
WO2017120681A1 (en) * 2016-01-15 2017-07-20 Michael Godfrey Method and system for automatically determining a positional three dimensional output of audio information based on a user's orientation within an artificial immersive environment
US10229541B2 (en) 2016-01-28 2019-03-12 Sony Interactive Entertainment America Llc Methods and systems for navigation within virtual reality space using head mounted display
US10291910B2 (en) * 2016-02-12 2019-05-14 Gopro, Inc. Systems and methods for spatially adaptive video encoding
US11017712B2 (en) * 2016-08-12 2021-05-25 Intel Corporation Optimized display image rendering
WO2018049221A1 (en) * 2016-09-09 2018-03-15 Vid Scale, Inc. Methods and apparatus to reduce latency for 360-degree viewport adaptive streaming
CN106774891A (zh) * 2016-12-15 2017-05-31 北京小鸟看看科技有限公司 虚拟现实场景的音效产生方法、设备及虚拟现实设备
US10659906B2 (en) * 2017-01-13 2020-05-19 Qualcomm Incorporated Audio parallax for virtual reality, augmented reality, and mixed reality
GB2560923A (en) * 2017-03-28 2018-10-03 Nokia Technologies Oy Video streaming
JP7212622B2 (ja) * 2017-06-15 2023-01-25 ドルビー・インターナショナル・アーベー コンピュータ媒介式の現実アプリケーションにおける送信器と受信器との間の通信を最適化する方法、装置およびシステム
US11164606B2 (en) * 2017-06-30 2021-11-02 Qualcomm Incorporated Audio-driven viewport selection
EP3649791A1 (en) * 2017-07-03 2020-05-13 Telefonaktiebolaget LM Ericsson (PUBL) Methods for personalized 360 video delivery

Also Published As

Publication number Publication date
ZA202304926B (en) 2024-07-31
KR20240137132A (ko) 2024-09-19
US20200278828A1 (en) 2020-09-03
RU2765569C1 (ru) 2022-02-01
MX2023012965A (es) 2023-11-15
TWI713911B (zh) 2020-12-21
AU2023263436A1 (en) 2023-11-23
WO2019072984A1 (en) 2019-04-18
CA3230304A1 (en) 2019-04-18
AR125880A2 (es) 2023-08-23
CN116193213A (zh) 2023-05-30
ZA202002064B (en) 2023-02-22
CA3230221A1 (en) 2019-04-18
ZA202208388B (en) 2023-03-29
CA3078858A1 (en) 2019-04-18
ZA202208364B (en) 2023-03-29
EP3695613B1 (en) 2024-01-03
AU2018348762B2 (en) 2023-08-10
SG11202003269SA (en) 2020-05-28
MX2023012964A (es) 2023-11-15
CA3230231A1 (en) 2019-04-18
JP2023116635A (ja) 2023-08-22
CN116193212A (zh) 2023-05-30
CA3230310A1 (en) 2019-04-18
TW201924362A (zh) 2019-06-16
CA3230205A1 (en) 2019-04-18
US11354084B2 (en) 2022-06-07
CN116193214A (zh) 2023-05-30
JP7295851B2 (ja) 2023-06-21
CN111466122B (zh) 2023-02-28
MX2023012967A (es) 2023-11-15
ES2970490T3 (es) 2024-05-29
AR125884A2 (es) 2023-08-23
MX2023012963A (es) 2023-11-15
SG10202106080XA (en) 2021-07-29
EP3695613C0 (en) 2024-01-03
AR113357A1 (es) 2020-04-22
EP3695613A1 (en) 2020-08-19
CN116193215A (zh) 2023-05-30
KR102568373B1 (ko) 2023-08-18
MX2020003450A (es) 2020-10-01
EP4329319A3 (en) 2024-04-24
AR125883A2 (es) 2023-08-23
AU2018348762A1 (en) 2020-05-07
AR125882A2 (es) 2023-08-23
RU2750505C1 (ru) 2021-06-29
US20220261215A1 (en) 2022-08-18
AR125881A2 (es) 2023-08-23
PL3695613T3 (pl) 2024-06-17
CN111466122A (zh) 2020-07-28
KR20200078537A (ko) 2020-07-01
KR20230130729A (ko) 2023-09-12
EP4329319A2 (en) 2024-02-28
KR102707356B1 (ko) 2024-09-13
MX2023012966A (es) 2023-11-15
JP2020537418A (ja) 2020-12-17

Similar Documents

Publication Publication Date Title
BR112020008073A2 (pt) otimização de fornecimento de áudio para aplicativos de realidade virtual
CN111542806B (zh) 用于高体验质量的音频消息的有效传递和使用的方法和装置
KR20200008631A (ko) 360도 비디오를 전송하는 방법, 360도 비디오를 수신하는 방법, 360도 비디오 전송 장치, 360도 비디오 수신 장치
RU2801698C2 (ru) Оптимизация доставки звука для приложений виртуальной реальности
BR122024013703A2 (pt) Método e equipamento para uso e entrega eficaz de mensagens de áudio para experiência de alta qualidade
BR122024013708A2 (pt) Método e equipamento para uso e entrega eficaz de mensagens de áudio para experiência de alta qualidade
BR122024013700A2 (pt) Método e equipamento para uso e entrega eficaz de mensagens de áudio para experiência de alta qualidade
BR122024013710A2 (pt) Método e equipamento para uso e entrega eficaz de mensagens de áudio para experiência de alta qualidade
BR122024013706A2 (pt) Método e equipamento para uso e entrega eficaz de mensagens de áudio para experiência de alta qualidade

Legal Events

Date Code Title Description
B350 Update of information on the portal [chapter 15.35 patent gazette]
B06W Patent application suspended after preliminary examination (for patents with searches from other patent authorities) chapter 6.23 patent gazette]
B15K Others concerning applications: alteration of classification

Free format text: AS CLASSIFICACOES ANTERIORES ERAM: H04N 21/81 , H04N 21/218 , H04N 21/6587 , H04N 21/2343 , H04N 21/439

Ipc: H04N 21/218 (2011.01), H04N 21/2343 (2011.01), H04