BR112021007089A2 - processamento de áudio em serviços de áudio imersivos - Google Patents

processamento de áudio em serviços de áudio imersivos Download PDF

Info

Publication number
BR112021007089A2
BR112021007089A2 BR112021007089-3A BR112021007089A BR112021007089A2 BR 112021007089 A2 BR112021007089 A2 BR 112021007089A2 BR 112021007089 A BR112021007089 A BR 112021007089A BR 112021007089 A2 BR112021007089 A2 BR 112021007089A2
Authority
BR
Brazil
Prior art keywords
audio
data
spatial
directional
fact
Prior art date
Application number
BR112021007089-3A
Other languages
English (en)
Inventor
Stefan Bruhn
Juan Felix TORRES
David S. McGrath
Brian Lee
Original Assignee
Dolby Laboratories Licensing Corporation
Dolby International Ab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corporation, Dolby International Ab filed Critical Dolby Laboratories Licensing Corporation
Publication of BR112021007089A2 publication Critical patent/BR112021007089A2/pt

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/152Multipoint control units therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/323Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/326Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

PROCESSAMENTO DE ÁUDIO EM SERVIÇOS DE ÁUDIO IMERSIVOS. A presente revelação refere-se, em geral, à captura, pré-processamento acústico, codificação, decodificação e renderização de áudio direcional de uma cena de áudio. Em particular, se refere a um dispositivo adaptado para modificar uma propriedade direcional de um áudio direcional capturado em resposta a dados espaciais de um sistema de microfone que captura o áudio direcional. A revelação se refere, ainda, a um dispositivo de renderização configurado para modificar uma propriedade direcional de um áudio direcional recebido em resposta aos dados espaciais recebidos.

Description

“PROCESSAMENTO DE ÁUDIO EM SERVIÇOS DE ÁUDIO IMERSIVOS” REFERÊNCIA REMISSIVA AOS PEDIDOS DE DEPÓSITO CORRELATOS
[001] O presente pedido reivindica o benefício de prioridade dos Pedidos de Patente Provisórios nos U.S. 62/760.262 depositado em 13 de novembro de 2018; U.S.
62/793.666 depositado em 17 de janeiro de 2019, U.S. 62/795.236 depositado em 22 de janeiro de 2019; e U.S. 62/797.563 depositado em 28 de janeiro de 2019, estando incorporados ao presente documento em suas totalidades a título de referência.
CAMPO DA TÉCNICA
[002] A presente revelação refere-se, em geral, à captura, pré-processamento acústico, codificação, decodificação e renderização de áudio direcional de uma cena de áudio. Em particular, se refere a um dispositivo adaptado para modificar uma propriedade direcional de um áudio direcional capturado em resposta a dados espaciais de um sistema de microfone que captura o áudio direcional. A revelação se refere, ainda, a um dispositivo de renderização configurado para modificar uma propriedade direcional de um áudio direcional recebido em reposta a dados espaciais recebidos.
FUNDAMENTOS
[003] A introdução de acesso sem fio de alta velocidade 4G/5G a redes de telecomunicações, combinada com a disponibilidade de plataformas de hardware crescentemente poderosas, proporcionaram um alicerce para comunicações avançadas e serviços multimídia a serem implantadas mais rápida e facilmente do que nunca.
[004] O codec de Serviços de Voz Avançados (EVS) do Projeto de Parceria de Terceira Geração (3GPP) entregou um aperfeiçoamento altamente significativo em experiência de usuário coma introdução de codificação de fala e áudio de banda superlarga (SWB) e banda completa (FB), junto à resiliência de perda de pacote aperfeiçoada. No entanto, a largura de banda de áudio estendida é apenas uma das dimensões necessárias para uma experiência verdadeiramente imersiva. O suporte além de mono e multi-mono atualmente oferecido por EVS é idealmente necessário para imergir o usuário em um mundo virtual convincente em uma maneira eficiente a recursos.
[005] Além disso, os codecs de áudio atualmente especificados em 3GPP proporcionam qualidade e compactação adequadas para conteúdo estéreo, mas são desprovidos de recursos conversacionais (por exemplo, latência suficientemente baixa) necessários para voz conversacional e teleconferência. Esses codificadores também são desprovidos de uma funcionalidade multicanal que é necessária para serviços imersivos, tais como transmissão de dados de conteúdo ao vivo e gerados por usuário, realidade virtual (VR) e teleconferência imersiva.
[006] Propôs-se um desenvolvimento de uma extensão ao codec de EVS para Serviços Imersivos de Voz e Áudio (IVAS) para preencher esse vão tecnológico e abordar a demanda crescente por serviços multimídia ricos. Além disso, aplicativos de teleconferência por 4G/5G se beneficiarão de um codec de IVAS usado como um codificador conversacional aperfeiçoado que suporta codificação multifluxo (por exemplo, áudio baseado em canal, objeto e cena). Casos de uso para esse codec de próxima geração incluem, mas não se limitam a, voz conversacional, teleconferência multifluxo, transmissão de dados de conteúdos conversacionais de VR e gerados por usuário ao vivo e não ao vivo.
[007] Logo, espera-se que IVAS ofereça experiências de usuário imersivas e VR, AR e/ou XR. Em muitas dessas aplicações, um dispositivo (por exemplo, um telefone móvel) que captura áudio direcional (imersivo) pode, em muitos casos, estar se movendo durante a sessão em relação à cena acústica, induzindo um movimento espacial de rotação e/ou translação da cena de áudio capturado. Dependendo do tipo de experiência fornecida, por exemplo, imersiva, VR, AR ou XR e dependendo do caso de uso específico, esse comportamento pode ser desejado ou indesejado. Por exemplo, pode ser perturbador para um ouvinte se a cena renderizada sempre girar toda vez que o dispositivo de captura gira. No pior caso, enjoos de movimento podem ser causados.
[008] Logo, há necessidade por aperfeiçoamentos neste contexto.
BREVE DESCRIÇÃO DOS DESENHOS
[009] Agora, descrevem-se modalidades exemplificadoras com referência aos desenhos anexos, em que:
[010] A Figura 1 mostra um método para codificar áudio direcional de acordo com as modalidades,
[011] A Figura 2 mostra um método para renderizar áudio direcional de acordo com as modalidades,
[012] A Figura 3 mostra um dispositivo codificador configurado para realizar o método da Figura 1 de acordo com as modalidades,
[013] A Figura 4 mostra um dispositivo de renderização configurado para realizar o método da Figura 2 de acordo com as modalidades,
[014] A Figura 5 mostra um sistema que compreende os dispositivos das Figuras 3 e 4 de acordo com as modalidades,
[015] A Figura 6 mostra um cenário de conferência por VR físico de acordo com as modalidades,
[016] A Figura 7 mostra um espaço de conferência virtual de acordo com as modalidades.
[017] Todas as figuras são esquemáticas e geralmente mostram apenas partes que são necessárias com o intuito de elucidar a revelação, enquanto outras partes podem ser omitidas ou meramente sugeridas. Exceto onde indicado em contrário, referências numéricas similares se referem a partes similares em diferentes figuras.
DESCRIÇÃO DETALHADA
[018] Logo, tendo em vista o supracitado, um objetivo consiste em proporcionar dispositivos e métodos associados para captura, pré-processamento acústico e/ou codificação para compensar movimentos indesejados da cena sonora espacial que pode resultar a partir de movimentos inadvertidos de um sistema de microfone que captura áudio direcional. Um objetivo adicional consiste em proporcionar um decodificador e/ou dispositivo de renderização correspondentes e métodos associados para decodificar e renderizar áudio direcional. Os sistemas que compreendem, por exemplo, o dispositivo codificador e o dispositivo de renderização também são proporcionados.
I. Visão Geral – Lado de envio
[019] De acordo com um primeiro aspecto, proporciona-se um dispositivo que compreende, ou se conecta a, um sistema de microfone que compreende um ou mais microfones para capturar áudio. O dispositivo (também referido no presente documento como um lado de envio, ou dispositivo de captura) compreende uma unidade de recepção configurada para: - receber áudio direcional capturado pelo sistema de microfone; - receber metadados associados ao sistema de microfone, sendo que os metadados compreendem dados espaciais do sistema de microfone, sendo que os dados espaciais são indicativos de um orientação espacial e/ou posição espacial do sistema de microfone e compreende pelo menos um proveniente da lista de: ângulo(s) de azimute, inclinação, rolamento, e coordenadas espaciais do sistema de microfone.
[020] Nesta revelação, o termo “áudio direcional” (som direcional) geralmente se refere a áudio imersivo, isto é, áudio capturado por sistemas de microfones direcionais que podem coletar sons incluindo as direções a partir das quais eles chegam. A reprodução de áudio direcional permite uma experiência sonora tridimensional natural (renderização binaural). Logo, o áudio, que pode compreende objetos e/ou canais de áudio (por exemplo, representando áudio baseado em cena em formato B Ambissônico ou áudio baseado em canal), é associado a direções a partir das quais o mesmo é recebido. Em outras palavras, o áudio direcional resultante das fontes direcionais, e é incidente a partir de uma direção de chegada (DOA) representada por ângulos de azimute e elevação, por exemplo. Em contrapartida, supõe-se que som ambiente difuso seja omnidirecional, isto é, espacialmente invariante, ou espacialmente uniforme. Outras expressões que podem ser usadas para o recurso de “áudio direcional” incluem “áudio espacial”, “som espacial”, “áudio imersivo”, “som imersivo”, “estéreo” e “áudio surround”.
[021] Nesta revelação, o termo “coordenadas espaciais” se refere, em geral, à posição espacial do sistema de microfone ou ao dispositivo de captura no espaço.
As coordenadas cartesianas consistem em uma realização de coordenadas espaciais.
Outros exemplos incluem coordenadas cilíndricas ou esféricas. Deve-se notar que a posição no espaço pode ser relativa (por exemplo, coordenadas em um ambiente, ou em relação a outro dispositivo/unidade, etc.,) ou absoluta (por exemplo, coordenadas GPS ou similares).
[022] Nesta revelação, os “dados espaciais” indicam, em geral, uma orientação rotacional atual e/ou uma posição espacial do sistema de microfone ou uma alteração na orientação rotacional e/ou posição espacial em comparação a uma orientação/posição anterior do sistema de microfone.
[023] Logo, o dispositivo recebe metadados que compreendem dados espaciais indicativos de uma orientação espacial e/ou posição espacial do sistema de microfone que captura o áudio direcional.
[024] O dispositivo compreende, ainda, uma unidade computacional configurada para: modificar pelo menos parte do áudio direcional para produzir áudio direcional modificado, desse modo, uma propriedade direcional do áudio é modificada em resposta à orientação espacial e/ou posição espacial do sistema de microfone.
[025] A modificação pode ser feita usando qualquer meio adequado, por exemplo, definindo-se uma matriz de rotação/translação baseada nos dados espaciais, e multiplicar o áudio direcional por essa matriz para alcançar o áudio direcional modificado. A multiplicação matricial é adequada para áudio espacial não paramétrico. O áudio espacial não paramétrico pode ser modificado ajustando-se os metadados espaciais, como, por exemplo, os parâmetros direcionais do(s) objeto(s sonoro(s).
[026] O áudio direcional modificado é, então, codificado em dados de áudio digital, cujos dados são transmitidos por uma unidade de transmissão do dispositivo.
[027] Os inventores perceberam que movimentos rotacionais/translacionais do dispositivo de captura de som (sistema de microfone) são mais bem compensados na extremidade de envio, isto é, na extremidade que captura do áudio. Isso provavelmente pode permitir a melhor estabilização possível da cena de áudio capturada em relação, por exemplo, a movimentos não intencionais. Essa compensação pode ser parte do processo de captura, isto é, durante o pré- processamento acústico, ou como parte do estágio de codificação de IVAS. Ademais, realizando-se a compensação na extremidade de envio, flexibiliza-se a necessidade de transmitir os dados espaciais a partir da extremidade de envio à extremidade de recepção. No caso de a compensação para movimentos rotacionais/translacionais do dispositivo de captura de som ter sido realizada no receptor do áudio, os dados espaciais completos precisaram ser transmitidos à extremidade de recepção.
Supondo que as coordenadas rotacionais em todos os três eixos geométricos são representadas por 8 bits cada e estimadas e transportadas em uma taxa de 50 Hz, a taxa de bits resultante seria de 1,2 kbps. Pode-se realizar uma hipótese análoga para as coordenadas espaciais do sistema de microfone.
[028] De acordo com algumas modalidades, a orientação espacial do sistema de microfone é representada por parâmetros que descrevem movimento/orientação rotacional com um grau de liberdade, DoF, nos dados espaciais. Por exemplo, pode ser suficiente apenas considerar o ângulo de azimute para conferência telefônica.
[029] De acordo com algumas modalidades, a orientação espacial do sistema de microfone é representada por parâmetros que descrevem movimento/orientação rotacional com três graus de liberdade, DoF, nos dados espaciais.
[030] De acordo com algumas modalidades, os dados espaciais do sistema de microfone são representados em seis DoF. Nessa modalidade, os dados espaciais do sistema de microfone capturam uma posição alterada (no presente documento referida como coordenadas espaciais) do sistema de microfone como translação para frente/para trás (avanço), para cima/para baixo (afundamento), para esquerda/direita (desvio) em três eixos geométricos perpendiculares, combinados com alterações na orientação (ou presente orientação rotacional) do sistema de microfone através da rotação em torno dos três eixos geométricos perpendiculares, geralmente denominados como guinada ou azimute (eixo geométrico normal/vertical), inclinação (eixo geométrico transversal) e rolamento (eixo geométrico longitudinal).
[031] De acordo com algumas modalidades, o áudio direcional recebido compreende metadados direcionais. Por exemplo, esse áudio pode compreender objetos de áudio, isto é, áudio baseado em objeto (OBA). OBA é uma forma paramétrica de áudio espacial/direcional com metadados espaciais. Uma forma particular de áudio espacial paramétrico é áudio espacial assistido por metadados (MASA).
[032] De acordo com algumas modalidades, a unidade computacional é configurada, ainda, para codificar pelo menos partes dos metadados que compreendem dados espaciais do sistema de microfone nos ditos dados de áudio digital. De modo vantajoso, isso permite a compensação do ajuste direcional feito ao áudio capturado na extremidade de recepção. Submeter à definição de um quadro de referência de rotação adequado, por exemplo, com o eixo geométrico z correspondente à direção vertical, em muitos casos meramente o ângulo de azimute pode precisar ser transmitido (por exemplo, em 400 bps). Ângulos de inclinação e rolamento do dispositivo de captura no quadro de referência de rotação podem apenas ser exigidos em determinadas aplicações de VR. Em compensação aos dados espaciais do sistema de microfone no lado de envio, e incluindo condicionalmente pelo menos partes dos dados espaciais nos dados de áudio digital codificados, o caso onde a cena acústica renderizada deve ser invariante da posição do dispositivo de captura e os casos restantes onde a cena acústica renderizada deve girar com movimentos correspondentes do dispositivo de captura são vantajosamente suportados.
[033] De acordo com algumas modalidades, a unidade de recepção é configurada, ainda, para receber primeiras instruções que indicam à unidade computacional se inclui as ditas pelo menos partes dos metadados que compreendem dados espaciais do sistema de microfone nos ditos dados de áudio digital, desse modo, a unidade computacional atua de modo correspondente. Consequentemente, o lado de envio inclui condicionalmente partes dos dados espaciais nos dados de áudio digital, para poupar a taxa de bits quando possível. A instrução pode ser recebida mais de uma vez durante uma sessão de modo que se as (partes dos) dados espaciais devem ou não ser incluídas nos dados de áudio digital se alterem com o passar do tempo. Em outras palavras, podem existir adaptações em sessão onde as primeiras instruções podem ser recebidas pelo dispositivo de forma contínua e descontínua. A forma contínua seria, por exemplo, uma vez a cada quadro. A forma descontínua poderia ser apenas uma vez quando uma nova instrução deva ser fornecida. Da mesma forma, há a possibilidade de receber a primeira instrução apenas uma vez em um ajuste de sessão.
[034] De acordo com algumas modalidades, a unidade de recepção é configurada, ainda, para receber segundas instruções que indicam à unidade computacional qual parâmetro ou parâmetros dos dados espaciais do sistema de microfone incluir nos dados de áudio digital, desse modo, a unidade computacional atua de modo correspondente. Conforme exemplificado acima, o lado de envio pode ser instruído a incluir apenas o azimute, ou incluir todos os dados que definem a orientação espacial do sistema de microfone. A instrução pode ser recebidas mais de uma vez durante uma sessão de modo que o número de parâmetros incluídos nos dados de áudio digital altere com o passar do tempo. Em outras palavras, podem existir adaptações em sessão onde as segundas instruções podem ser recebidas pelo dispositivo de forma contínua e descontínua. A forma contínua seria, por exemplo, uma vez a cada quadro. A forma descontínua poderia ser apenas uma vez quando uma new instrução deva ser fornecida. Da mesma forma, há a possibilidade de receber a segunda instrução apenas uma vez em um ajuste de sessão.
[035] De acordo com algumas modalidades, a unidade de transmissão é configurada para transmitir os dados de áudio digital a um dispositivo adicional, em que indicações sobre as primeiras e/ou segundas instruções são recebidas a partir do dito dispositivo adicional. Em outras palavras, a unidade de recepção (que compreende um renderizador para renderizar o áudio decodificado recebido) pode, dependendo do contexto, instruir o lado de envio se inclui parte dos dados espaciais ou não nos dados de áudio digital, e/ou quais parâmetros incluir. Em outras modalidades, indicações sobre as primeiras e/ou segundas instruções podem ser recebidas, por exemplo, a partir de uma unidade de coordenação (servidor de chamada) para uma conferência de áudio/vídeo imersiva multiusuários, ou qualquer outra unidade não diretamente envolvida na renderização do áudio direcional.
[036] De acordo com algumas modalidades, a unidade de recepção é configurada, ainda, para receber metadados que compreendem um carimbo de hora que indica um tempo de captura do áudio direcional, em que a unidade computacional é configurada para codificar o dito carimbo de hora em ditos dados de áudio digital.
De modo vantajoso, esse carimbo de hora pode ser usado para sincronizar em uma unidade de recepção, por exemplo, sincronizar o renderizador de áudio com o renderizador de vídeo, ou sincronizar uma pluralidade de dados de áudio digital recebidos a partir de diferentes dispositivos de captura.
[037] De acordo com algumas modalidades, a codificação dos sinais de áudio modificados compreende mixar descendentemente o áudio direcional modificado, em que a mixagem descendente é realizada levando-se em consideração a orientação espacial do sistema de microfone, e codificar a mixagem descendente e uma matriz de mixagem descendente usada na mixagem descendente nos ditos dados de áudio digital. Por exemplo, formação de feixes acústica em direção a uma fonte direcional específica do áudio direcional é vantajosamente adaptada com base na modificação direcional feita ao áudio direcional.
[038] De acordo com algumas modalidades, o dispositivo é implementado em um equipamento de realidade virtual, VR, ou um equipamento de realidade aumentada, AR, que compreende o sistema de microfone e um dispositivo de monitoramento de cabeça configurado para determinar dados espaciais do dispositivo em 3-6 DoF. Em outras modalidades, o dispositivo é implementado em um telefone móvel que compreende um sistema de microfone.
II. Visão Geral – Lado de recepção
[039] De acordo com um segundo aspecto, proporciona-se um dispositivo para renderizar sinais de áudio. O dispositivo (também referido no presente documento como uma unidade de recepção, ou dispositivo de renderização) compreende uma unidade de recepção configurada para receber dados de áudio digital. O dispositivo compreende, ainda, uma unidade de decodificação configurada para decodificar os dados de áudio digital recebidos em áudio direcional e em metadados, sendo que os metadados compreendem dados espaciais que compreendem pelo menos um dentre a lista de: ângulo(s) de azimute, inclinação, rolamento e coordenadas espaciais. Os dados espaciais podem, por exemplo, ser recebidos sob a forma de parâmetros, por exemplo, os 3 ângulos de DoF. Em outras modalidades, os dados espaciais podem ser recebidos como uma matriz de rotação/translação.
[040] O dispositivo compreende, ainda, uma unidade de renderização configurada para: modificar uma propriedade direcional do áudio direcional usando dados espaciais rotacionais; e renderizar o áudio direcional modificado.
[041] De modo vantajoso, o dispositivo de acordo com esse aspecto pode modificar o áudio direcional conforme indicado nos metadados. Por exemplo, os movimentos de um dispositivo que captura o áudio podem ser considerados enquanto renderizam.
[042] De acordo com algumas modalidades, os dados espaciais indicam a orientação espacial e/ou posição espacial de um sistema de microfone que compreende um ou mais microfones que capturam o áudio direcional, em que a unidade de renderização modifica a propriedade direcional do áudio direcional para reproduzir pelo menos parcialmente o ambiente de áudio do sistema de microfone.
Nessa modalidade, o dispositivo aplica uma rotação de cena acústica reaplicando-se pelo menos partes da rotação de cena acústica (relativa, isto é, a rotação de cena sendo relativa ao sistema de microfone em movimento) que foi compensado no dispositivo de captura.
[043] De acordo com algumas modalidades, os dados espaciais compreendem parâmetros que descrevem movimento/orientação rotacional com um grau de liberdade, DoF.
[044] De acordo com algumas modalidades, os dados espaciais compreendem parâmetros que descrevem movimento/orientação rotacional com três graus de liberdade, DoF.
[045] De acordo com algumas modalidades, o áudio direcional decodificado compreende um áudio que compreende metadados direcionais. Por exemplo, o áudio direcional decodificado pode compreender objetos de áudio, isto é, áudio baseado em objeto (OBA). O áudio direcional decodificado pode, em outras modalidades, ser baseado em canal, por exemplo, representando áudio baseado em cena em formato B Ambissônico ou áudio baseado em canal.
[046] De acordo com algumas modalidades, o dispositivo compreende uma unidade de transmissão configurada para transmitir instruções a um dispositivo adicional a partir do qual o áudio digital é recebido, sendo que as instruções indicam ao dispositivo adicional qual (caso exista) parâmetro ou parâmetros os dados rotacionais devem compreender. Consequentemente, o dispositivo de renderização pode instruir o dispositivo de captura a transmitir, por exemplo, apenas parâmetros rotacionais, apenas o parâmetro de azimute, ou todos os 6 parâmetros de DoF, dependendo do caso de uso e/ou da largura de banda disponível. Ademais, o dispositivo de renderização pode tomar essa decisão com base nos recursos computacionais disponíveis no renderizador para aplicar uma rotação de cena acústica, ou o nível de complexidade da unidade de renderização. As instruções podem ser transmitidas mais de uma vez durante uma sessão e, logo, mudar com o passar do tempo, isto é, com base no supracitado. Em outras palavras, podem existir adaptações em sessão onde o dispositivo pode transmitir as instruções de forma contínua e descontínua. A forma contínua seria, por exemplo, uma vez a cada quadro.
A forma descontínua poderia ser apenas uma vez quando uma nova instrução deva ser fornecida. Da mesma forma, há a possibilidade de transmitir a instrução apenas uma vez em um ajuste de sessão.
[047] De acordo com algumas modalidades, a unidade de decodificação é configurada, ainda, para extrair um carimbo de hora que indica um tempo de captura do áudio direcional a partir dos dados de áudio digital. Esse carimbo de hora pode ser usado para sincronizar as razões conforme discutido acima.
[048] De acordo com algumas modalidades, a decodificação dos dados de áudio digital recebidos em áudio direcional pela unidade de decodificação compreende: decodificar os dados de áudio digital recebidos em áudio mixado descendentemente, mixar ascendentemente, pela unidade de decodificação, o áudio mixado descendentemente no áudio direcional usando uma matriz de mixagem descendente incluída nos dados de áudio digital recebidos.
[049] De acordo com algumas modalidades, os dados espaciais incluem coordenadas espaciais e em que a unidade de renderização é configurada, ainda, para ajustar um volume do áudio renderizado com base nas coordenadas espaciais.
Nessa modalidade, o volume do áudio recebido a partir de um local “afastado” pode ser atenuado comparado ao áudio recebido a partir de um local mais próximo. Deve- se notar que a proximidade relativa do áudio recebido pode ser determinada com base em um espaço virtual, onde a posição do dispositivo de captura nesse espaço em relação ao dispositivo de recepção é determinada com base nas coordenadas espaciais dos dispositivos, aplicando uma métrica de distância adequada, por exemplo, métrica Euclidiana. Uma etapa adicional pode envolver usar um esquema de mapeamento arbitrário para determinar a partir da métrica de distância parâmetros de renderização de áudio como nível de som. De modo vantajoso, nessa modalidade, a experiência imersiva do áudio renderizado pode ser aperfeiçoada.
[050] De acordo com algumas modalidades, o dispositivo é implementado em um equipamento de realidade virtual, VR, ou um equipamento de realidade aumentada, AR, que compreende um dispositivo de monitoramento de cabeça configurado para medir a orientação espacial e a posição espacial do dispositivo em seis DoF. Nessa modalidade, os dados espaciais do dispositivo de renderização também podem ser usados ao modificar uma propriedade direcional do áudio direcional. Por exemplo, a matriz de rotação/translação recebida pode ser multiplicada por uma matriz similar que define, por exemplo, o status rotacional do dispositivo de renderização, e a matriz resultante pode, então, ser usada para modificar a propriedade direcional do áudio direcional. De modo vantajoso, nessa modalidade, a experiência imersiva do áudio renderizado pode ser aperfeiçoada. Em outras modalidades, o dispositivo é implementado em um dispositivo para conferência telefônica ou similares, que se supõe ser estacionário, e em que qualquer status rotacional do dispositivo é desconsiderado.
[051] De acordo com algumas modalidades, a unidade de renderização é configurada para renderização de áudio binaural.
III. Visão Geral – Sistema
[052] De acordo com um terceiro aspecto, proporciona-se um sistema que compreende: um primeiro dispositivo de acordo com o primeiro aspecto configurado para transmitir dados de áudio digital a um segundo dispositivo de acordo com o segundo aspecto, em que o sistema é configurado para conferência de áudio e/ou vídeo.
[053] De acordo com algumas modalidades, o primeiro dispositivo compreende, ainda, uma unidade de gravação de vídeo e é configurado para codificar vídeo gravado em dados de vídeo digital e transmitir os dados de vídeo digital ao segundo dispositivo, em que o segundo dispositivo compreende, ainda, uma tela para exibir dados de vídeo digital decodificados.
[054] De acordo com um quarto aspecto, proporciona-se um sistema que compreende: um primeiro dispositivo de acordo com o primeiro aspecto configurado para transmitir dados de áudio digital a um segundo dispositivo, sendo que o segundo dispositivo compreende: uma unidade de recepção configurada para receber dados de áudio digital,
uma unidade de decodificação configurada para: decodificar os dados de áudio digital recebidos em áudio direcional e em metadados, sendo que os metadados compreendem dados espaciais que compreendem pelo menos um dentre a lista de: ângulo(s) de azimute, inclinação, rolamento e coordenadas espaciais; uma unidade de renderização para renderizar áudio; em que a unidade de renderização é configurada para, mediante a recepção por parte do segundo dispositivo dos dados de vídeo codificados a partir do primeiro dispositivo: modificar uma propriedade direcional do áudio direcional usando os dados espaciais, e renderizar o áudio direcional modificado; em que a unidade de renderização é configurada para, mediante a não recepção por parte do segundo dispositivo dos dados de vídeo codificados a partir do primeiro dispositivo: renderizar o áudio direcional.
[055] De modo vantajoso, a decisão se reproduz um ambiente de áudio do sistema de microfone compensando-se a orientação espacial e/ou posição espacial do sistema de microfone é feita com base em se o vídeo é transmitido ou não. Nessa modalidade, o dispositivo de envio pode nem sempre estar ciente quando uma compensação de seu movimento é necessária ou desejável. Considera-se, por exemplo, a situação quando áudio for renderizado junto a um vídeo. Nesse caso, pelo menos quando a captura de vídeo for feita com o mesmo dispositivo que captura o áudio, de modo vantajoso, pode ser possível girar a cena de áudio junto à cena visual em movimento ou manter a cena de áudio estável. Manter a cena de áudio estável compensando-se os movimentos do dispositivo de captura pode ser preferível se o vídeo não for consumido.
[056] De acordo com um quinto aspecto, proporciona-se uma mídia legível por computador não transitória que armazena instruções que, quando executadas por um ou mais processadores, induzem um ou mais processadores a realizar operações de qualquer um dos aspectos um a quatro.
IV. Visão Geral - Abrangência
[057] O segundo ao quinto aspectos podem, em geral, ter recursos e vantagens iguais ou correspondentes ao primeiro aspecto.
[058] Outros objetivos, recursos e vantagens da presente invenção surgirão a partir da descrição detalhada a seguir, a partir das reivindicações dependentes anexas bem como dos desenhos.
[059] As etapas de qualquer método, ou um dispositivo que implementa uma série de etapas, reveladas no presente documento não precisam ser realizadas na ordem exata revelada, exceto onde explicitamente declarado.
V – Modalidades exemplificadoras
[060] Espera-se que Serviços de Voz e Áudio Imersivos ofereçam experiências de usuário imersivas e de Realidade Virtual (VR). Experiências de Realidade Aumentada (AR) e Realidade Estendida (XR) também podem ser oferecidas. Esta revelação lida com o fato de que dispositivos móveis como UEs de mão que capturam uma cena imersiva ou uma cena de AR/VR/XR podem, em muitos casos, estar se movendo durante a sessão em relação à cena acústica. Isso destaca os casos onde deve-se evitar que movimentos rotacionais do dispositivo de captura sejam reproduzidos como uma rotação de cena renderizada correspondente pelo dispositivo de recepção. Esta revelação se refere a como o citado acima pode ser eficientemente manuseado para satisfazer exigências que o usuário tem em áudio imersivo dependendo do contexto.
[061] Deve-se notar que, embora alguns exemplos sejam descritos no contexto de um codificador, decodificador e/ou renderizador de IVAS, deve-se notar que esse é meramente um tipo de codificador/decodificador/renderizado em que os princípios gerais da invenção podem ser aplicados, e que podem existir vários outros tipos de codificadores, decodificadores e renderizadores que podem ser usados em conjunto com as várias modalidades descritas no presente documento.
[062] Deve-se notar que embora os termos “mixagem ascendente” e “mixagem descendente” sejam usados ao longo deste documento, eles não podem necessariamente implicar em aumento e redução, respectivamente, do número de canais. Embora esse possa geralmente ser o caso, deve-se realizar que qualquer termo pode se referir à redução ou aumento do número de canais. Logo, ambos os termos se enquadram em um conceito mais geral de “mixagem.”
[063] Voltando-se agora à Figura 1, descreve-se um método 1 para codificar e transmitir uma representação de áudio direcional, de acordo com uma modalidade.
Um dispositivo 300 configurado para realizar o método 1 é mostrado na Figura 3.
[064] Em geral, o dispositivo 300 pode ser um telefone móvel (smartphone), no entanto, o dispositivo também pode ser parte de um equipamento de VR/AR/XR ou qualquer outro topo de dispositivo que compreende, ou conectado a, um sistema de microfone 302 que compreende um ou mais microfones para capturar áudio de direção. Logo, o dispositivo 300 pode compreender o sistema de microfone 302 ou ser conectado (com ou sem fio) a um sistema de microfone remotamente localizado 302.
Em algumas modalidades, o dispositivo 300 é implementado em um equipamento de VR ou um equipamento de AR que compreende o sistema de microfone 302 e um dispositivo de monitoramento de cabeça configurado para determinar dados espaciais do dispositivo em 1-6 DoF.
[065] Em alguns cenários de captura de áudio, uma posição e/ou a orientação espacial do sistema de microfone 302 podem ser alteradas durante a captura do áudio direcional.
[066] Descrevem-se, agora, dois cenários exemplificadores.
[067] Uma mudança de uma posição e/ou orientação espacial do sistema de microfone 302 durante a captura de áudio pode induzir rotação/translação espacial da cena renderizada em um dispositivo de renderização. Dependendo do tipo de experiência proporcionada, por exemplo, imersiva, VR, AR ou XR e dependendo do caso de uso específico, esse comportamento pode ser desejado ou indesejado. Um exemplo onde pode ser desejado ocorre quando o serviço proporciona adicionalmente um componente visual e onde a câmera de captura (por exemplo, captura de vídeo em 360 graus, não mostrada na Figura 1) e o microfones 302 são integrados no mesmo dispositivo. Nesse caso, deve-se esperar que uma rotação do dispositivo de captura resulte em uma rotação correspondente da cena audiovisual renderizada.
[068] Por outro lado, se a captura audiovisual não for realizada pelo mesmo dispositivo físico ou no caso onde não existe um componente de vídeo, pode ser perturbador para um ouvinte se a cena renderizada girar sempre que o dispositivo de captura girar. No pior caso, enjoos de movimento podem ser causados. Logo, é desejável compensar as alterações posicionais (translação e/ou rotações) do dispositivo de captura. Exemplos incluem aplicações de telefonia imersiva e conferência imersiva usando um smartphone como um dispositivo de captura (isto é, compreendendo o conjunto de microfones 302. Nesses casos de uso, frequentemente pode acontecer que o conjunto de microfones é movido inadvertidamente porque é portátil ou porque o usuário encosta no mesmo durante a operação. O usuário do dispositivo de captura pode não estar ciente que mover o mesmo pode causar instabilidades do áudio espacial renderizado nos dispositivos de recepção. Em geral, não se pode esperar que o usuário segure o telefone imóvel enquanto estiver em uma situação de conversação.
[069] Os métodos e dispositivo descritos mais adiante são definidos a alguns ou a todos os cenários descritos anteriormente.
[070] Logo, o dispositivo 300 compreende, ou é conectado a, um sistema de microfone 302 que compreende um ou mais microfones para capturar áudio. Logo, o sistema de microfone pode compreender 1, 2, 3, 5, 10, etc., microfones. Em algumas modalidades, o sistema de microfone compreende uma pluralidade de microfones. O dispositivo 300 compreende uma pluralidade de unidades funcionais. As unidades podem ser implementadas em hardware e/ou software e podem compreender um ou mais processadores para manusear a funcionalidade das unidades.
[071] O dispositivo 300 compreende uma unidade de recepção 304 que é configurada para receber S13 áudio direcional 320 capturado pelo sistema de microfone 302. O áudio direcional 320 é, de preferência, uma representação de áudio que permite prontamente a rotação e/ou translação de cena de áudio. O áudio direcional 320 pode compreender, por exemplo, objetos e/ou canais de áudio que permitem a rotação e/ou translação de cena de áudio. O áudio direcional pode compreender - áudio baseado em canal (CBA) tal como estéreo, multicanal/surround, 5.1,
7.1, etc.,.
- áudio baseado em cena, (SBA) tal como Ambissônico de primeira ordem e de ordem superior.
- áudio baseado em objeto (OBA).
[072] CBA e SBA são formas não paramétricas de áudio espacial/direcional, enquanto OBA é uma forma paramétrica com metadados espaciais. Uma forma particular de áudio espacial paramétrico é o áudio espacial assistido por metadados (MASA).
[073] A unidade de recepção 304 é configurada, ainda, para receber S14 metadados 322 associados ao sistema de microfone 302. Os metadados 322 compreendem dados espaciais do sistema de microfone 302. Os dados espaciais são indicativos de uma orientação espacial e/ou posição espacial do sistema de microfone
302. Os dados espaciais do sistema de microfone compreendem pelo menos um da lista de: ângulo(s) de azimute, inclinação, rolamento, e coordenadas espaciais do sistema de microfone. Os dados espaciais podem ser representados em 1 grau de liberdade, DoF (por exemplo, apenas o ângulo de azimute do sistema de microfone), três DoF (por exemplo, a orientação espacial do sistema de microfone em 3 DoF), ou em seis DoF (tanto orientação espacial em 3 DoF como posição espacial em 3 DoF).
Naturalmente, os dados espaciais podem ser representados em qualquer DoF de um a seis.
[074] O dispositivo 300 compreende, ainda, uma unidade computacional 306 que recebe o áudio direcional 320 e os metadados 322 a partir da unidade de recepção 304 e modifica S15 pelo menos parte do áudio direcional 320 (por exemplo, pelo menos parte dos objetos de áudio do áudio direcional) para produzir áudio direcional modificado. Essa modificação resulta no fato de que uma propriedade direcional do áudio é modificada em resposta à orientação espacial e/ou posição espacial do sistema de microfone.
[075] A unidade computacional 306 está, então, codificando S16 dados digitais codificando-se S17 o áudio direcional modificado em dados de áudio digital
328. O dispositivo 300 compreende, ainda, uma unidade de transmissão 310 configurada para transmitir (com ou sem fio) os dados de áudio digital 328, por exemplo, como um fluxo de bits.
[076] Compensando-se movimentos rotacionais e/ou translacionais do sistema de microfone 302 já no dispositivo de codificação 300 (também pode ser referido como um dispositivo de envio, dispositivo de captura, dispositivo de transmissão, lado de envio), as exigências para transmitir os dados espaciais do sistema de microfone 302 são flexibilizadas. Se essa compensação fosse realizada por um dispositivo que recene o áudio direcional codificado (por exemplo, um renderizador de áudio imersivo), todos os metadados requeridos sempre precisariam ser incluídos nos dados de áudio digital 328. Supondo-se que as coordenadas rotacionais do sistema de microfone 302 em todos os três eixos sejam representadas por 8 bits cada e estimadas e transportadas em uma taxa de 50 Hz, o aumento resultante em taxa de bits do sinal 332 seria 1,2 kbps. Adicionalmente, é provável que as variações da cena auditória no caso de não existir uma compensação de movimento no lado de captura pode tornar a codificação de áudio espacial mais rigorosa e potencialmente menos eficiente.
[077] Ademais, visto que as informações essenciais para modificar uma decisão estão prontamente disponíveis no dispositivo 300, é apropriado compensar movimentos rotacionais/translacionais do sistema de microfone 302 que já se encontram aqui, que, logo, pode ser realizado de modo eficiente. Logo, o retardo algoritmo máximo para essa operação pode ser reduzido.
[078] Ainda outra vantagem é que sempre compensando-se (ao invés de condicionalmente, mediante solicitação) movimentos rotacionais/translacionais no dispositivo de captura 300 e condicionalmente proporcionando as extremidades de recepção com dados de orientação espacial do sistema de captura, conflitos potenciais se múltiplos pontos finais com diferentes necessidades de renderização forem servidos, como em casos de uso de conferência com múltiplos participantes, são evitados.
[079] O supracitado abrange todos os casos onde a cena acústica renderizada deve ser invariante da posição e rotação do sistema de microfone 302 que captura o áudio direcional. Para abordar os casos restantes onde a cena acústica renderizada deve girar com movimentos correspondentes do sistema de microfone 302, a unidade computacional 306 pode ser opcionalmente configurada para codificar S18 pelo menos partes dos metadados 322 que compreendem dados espaciais do sistema de microfone em ditos dados de áudio digital 328. Por exemplo, sujeito à definição de um quadro de referência de rotação adequado, por exemplo, com o eixo geométrico z correspondente à direção vertical, em muitos casos meramente o ângulo de azimute pode precisar ser transmitido (por exemplo, em 400 bps). Os ângulos de inclinação e rolamento do sistema de microfone 302 no quadro de referência de rotação podem somente ser exigidos em determinadas aplicações de VR.
[080] Os parâmetros rotacionais/translacionais condicionalmente proporcionados podem ser tipicamente transmitidos como um elemento condicional do formato de carga útil de IVAS RTP. Logo, esses parâmetros exigirão uma porção pequena da largura de banda alocada.
[081] Para satisfazer os diferentes cenários, a unidade de recepção 304 pode ser opcionalmente configurada para receber S10 instruções de como manusear os metadados 322 quando a unidade computacional 306 estiver codificando os dados de áudio digital 328. As instruções podem ser recebidas S10 a partir de um dispositivo de renderização (por exemplo, outra parte na conferência de áudio) ou a partir de um dispositivo de coordenadas como um servidor de chamada ou similares.
[082] Em algumas modalidades, a unidade de recepção 304 é configurada, ainda, para receber S11 primeiras instruções que indicam à unidade computacional 306 se inclui as ditas pelo menos partes dos metadados 322 que compreendem dados espaciais do sistema de microfone nos ditos dados de áudio digital. Em outras palavras, as primeiras instruções informam ao dispositivo 300 se algum ou nenhum dos metadados deve estar incluído nos dados de áudio digital 328. Por exemplo, se o dispositivo 300 estiver transmitindo os dados de áudio digital 328 como uma parte de uma conferência de áudio, as primeiras instruções podem definir que nenhuma parte dos metadados 322 deve estar incluída.
[083] Alternativa ou adicionalmente, em algumas modalidades, a unidade de recepção 304 é configurada, ainda, para receber segundas instruções que indicam à unidade computacional qual parâmetro ou parâmetros dos dados espaciais do sistema de microfone incluir nos dados de áudio digital, desse modo, a unidade computacional atua de modo correspondente. Por exemplo, por razões de largura de banda ou outras razões, as segundas instruções podem definir à unidade computacional 306 para incluir apenas o ângulo de azimute nos dados de áudio digital 328.
[084] As primeiras e/ou segundas instruções podem ser tipicamente submetidas à negociação de ajuste de sessão. Logo, nenhuma dessas instruções exigem transmissões durante a sessão e não exigem que nenhuma largura de banda alocada para, por exemplo, a conferência de áudio/vídeo imersiva.
[085] Conforme supramencionado, o dispositivo 300 pode ser parte de uma videoconferência. Por essa razão, a unidade de recepção 304 pode, ainda, ser configurada para receber metadados (não mostrados na Figura 1) que compreendem um carimbo de hora que indica um tempo de captura do áudio direcional, em que a unidade computacional 306 é configurada para codificar o dito carimbo de hora nos ditos dados de áudio digital. De modo vantajoso, o áudio direcional modificado pode, então, ser sincronizado com vídeo capturado no lado de renderização.
[086] Em algumas modalidades, a codificação S17 do áudio direcional modificado compreende mixar descendentemente o áudio direcional modificado, em que a mixagem descendente é realizada levando-se em consideração a orientação espacial do sistema de microfone 302 e codificar a mixagem descendente e uma matriz de mixagem descendente usada na mixagem descendente nos ditos dados de áudio digital 328. A mixagem descendente pode, por exemplo, compreende ajustar uma operação de formação de feixe do áudio direcional 320 com base nos dados espaciais do sistema de microfone 302.
[087] Logo, os dados de áudio digital são transmitidos S19 a partir do dispositivo 300 como parte de transmissão, por exemplo, de um cenário de conferência de áudio/vídeo imersivo. Os dados de áudio digital são, então, recebidos por um dispositivo para renderizar sinais de áudio, por exemplo, uma parte de recepção do cenário de conferência de áudio/vídeo imersivo. Agora, descreve-se o dispositivo de renderização 400 em conjunto com as Figuras 2 e 4.
[088] O dispositivo 400 que renderiza sinais de áudio compreende uma unidade de recepção 402 configurada para receber S21 dados de áudio digital 328 (com ou sem fio).
[089] O dispositivo 400 compreende, ainda, uma unidade de decodificação 404 configurada para decodificar S22 os dados de áudio digital recebidos 328 em áudio direcional 420 e em metadados 422, sendo que os metadados 422 compreendem dados espaciais que compreendem pelo menos um a partir da lista de: ângulo(s) de azimute, inclinação, rolamento e coordenadas espaciais.
[090] Em algumas modalidades, realiza-se uma mixagem ascendente pela unidade de decodificação 404. Nessas modalidades, a decodificação dos dados de áudio digital recebidos 328 em áudio direcional 420 pela unidade de decodificação 404 compreende: decodificar os dados de áudio digital recebidos 328 em áudio mixado descendentemente, e mixar ascendentemente, pela unidade de decodificação 404, o áudio mixado descendentemente no áudio direcional 420 usando uma matriz de mixagem descendente incluída nos dados de áudio digital recebidos 328.
[091] O dispositivo compreende, ainda, uma unidade de renderização 406 configurada para modificar S23 uma propriedade direcional do áudio direcional usando os dados espaciais; e renderizar S24 o áudio direcional modificado 424 usando alto-falantes ou fones de ouvido.
[092] Logo, o dispositivo 400 (a unidade de renderização 406 do mesmo) é configurado para aplicar rotação/translação de cena acústica com base nos dados espaciais recebidos.
[093] Em algumas modalidades, os dados espaciais indicam a orientação espacial e/ou posição espacial de um sistema de microfone que compreendem um ou mais microfones que capturam o áudio direcional, em que a unidade de renderização modifica S23 a propriedade direcional do áudio direcional para reproduzir pelo menos parcialmente um ambiente de áudio do sistema de microfone. Nessa modalidade, o dispositivo 400 aplica novamente pelo menos partes da rotação de cena acústica que foi compensada na extremidade de captura pelo dispositivo 300 da Figura 3.
[094] Os dados espaciais podem compreendem dados espaciais que compreendem dados rotacionais que representam movimento nos três graus de liberdade, DoF. Alternativa ou adicionalmente, os dados espaciais podem incluir coordenadas espaciais.
[095] O áudio direcional decodificado pode, em algumas modalidades, compreender objetos de áudio, ou, de modo mais genérico, áudio associado aos metadados espaciais conforme descrito anteriormente.
[096] A decodificação S22 dos dados de áudio digital recebidos em áudio direcional pela unidade de decodificação 404 pode, em algumas modalidades, compreender decodificar os dados de áudio digital recebidos em áudio mixado descendentemente, e mixar ascendentemente, pela unidade de decodificação 404, o áudio mixado descendentemente no áudio direcional usando uma matriz de mixagem descendente incluída nos dados de áudio digital recebidos 328.
[097] Para proporcionar uma flexibilidade aumentada e/ou satisfazer exigências de largura de banda, o dispositivo 400 pode compreender uma unidade de transmissão 306 configurada para transmitir S20 instruções a um dispositivo adicional a partir das quais os dados de áudio digital 328 são recebidos, sendo que as instruções indica ao dispositivo adicional qual parâmetro ou parâmetros (se existirem) os dados rotacionais ou translacionais devem compreender. Logo, esse recurso pode facilitar satisfazer preferências de usuário potenciais ou preferências relacionadas à renderização e/ou ao tipo de serviço usado.
[098] Em algumas modalidades, o dispositivo 400 também pode ser configurado para transmitir instruções que indicam ao dispositivo adicional se inclui os metadados que compreendem dados espaciais nos dados de áudio digital 328 ou não.
Nessas modalidades, se os dados de áudio digital 328 recebidos S21 não compreenderem esses metadados, a unidade de renderização renderizará o áudio direcional decodificado conforme recebido (possivelmente mixado ascendentemente conforme descrito anteriormente), sem qualquer modificação de uma propriedade direcional do áudio direcional devido a compensações feitas no dispositivo de captura
300. No entanto, em algumas modalidades, o áudio direcional recebido é modificado em resposta às informações de monitoramento de cabeça do renderizador (conforme adicionalmente descrito abaixo).
[099] O dispositivo 400 pode, em algumas modalidades, ser implementado em um equipamento de VR ou um equipamento de AR que compreende um dispositivo de monitoramento de cabeça configurado para medir a orientação espacial do dispositivo em seis DoF. A unidade de renderização 406 pode ser configurada para renderização de áudio binaural.
[0100] Em algumas modalidades, a unidade de renderização 406 é configurada para ajustar S25 um volume do áudio renderizado com base nas coordenadas espaciais recebidas nos metadados. Agora, esse recurso será descrito adicionalmente em conjunto com as Figuras 6 a 7
[0101] A Figura 5 mostra um sistema que compreende um dispositivo de captura 300 (conforme descrito em conjunto com a Figura 3) e um dispositivo de renderização 400 (conforme descrito em conjunto com a Figura 4). O dispositivo de captura 300 pode, em algumas modalidades, receber S10 instruções 334 transmitidas S20 a partir do dispositivo de renderização 400 que indica se e qual extensão o dispositivo de captura 300 deve incluir dados espaciais do sistema de microfone do dispositivo de captura nos dados de áudio digital 328.
[0102] Em algumas modalidades, o dispositivo de captura 300 compreende, ainda, uma unidade de gravação de vídeo e é configurado para codificar vídeo gravado em dados de vídeo digital 502 e transmitir os dados de vídeo digital ao dispositivo de renderização 400, em que o dispositivo de renderização 400 compreende, ainda, uma tela para exibir os dados de vídeo digital decodificados.
[0103] Conforme descrito anteriormente, uma mudança de uma posição e/ou orientação espacial do sistema de microfone do dispositivo de captura 300 durante a captura de áudio pode induzir a rotação/translação espacial da cena renderizada no dispositivo de renderização 400. Dependendo do tipo de experiência proporcionada, por exemplo, imersiva, VR, AR ou XR e dependendo do caso de uso específico, esse comportamento pode ser desejado ou indesejado. Um exemplo onde isso pode ser desejado é quando o serviço proporciona adicionalmente um componente visual 502 e onde a câmera de captura e um ou mais microfones 302 são integrados no mesmo dispositivo. Nesse caso, deve-se esperar que uma rotação do dispositivo de captura 300 deve resultar em uma rotação correspondente da cena audiovisual renderizada no dispositivo de renderização 400.
[0104] Por outro lado, se a captura audiovisual não for realizada pelo mesmo dispositivo físico ou no caso de não existir um componente de vídeo, pode ser perturbador para um ouvinte se a cena renderizada girar sempre que o dispositivo de captura 300 girar. No pior caso, enjoos de movimento podem ser causados.
[0105] Por essa razão, de acordo com algumas modalidades, a unidade de renderização do dispositivo de renderização 400 pode ser configurada para, mediante o dispositivo de renderização 400 recebendo, ainda, dados de vídeo codificados 502 a partir do dispositivo de captura 300, modificar uma propriedade direcional do áudio direcional (recebido nos dados de áudio digital 328) usando os dados espaciais e renderizar o áudio direcional modificado.
[0106] No entanto, mediante o dispositivo de renderização 400 não recebendo dados de vídeo codificados a partir do dispositivo de captura 300, a unidade de renderização do dispositivo de renderização 400 pode ser configurada para renderizar o áudio direcional sem qualquer modificação direcional.
[0107] Em outras modalidades, o dispositivo de renderização 400 é informado antes da conferência que nenhum componente de vídeo será incluído nos dados recebidos a partir do dispositivo de captura 300. Nesse caso, o dispositivo de renderização 400 pode indicar nas instruções 334 que nenhum dado espacial do sistema de microfone do dispositivo de captura 300 precisa ser incluído nos dados de áudio digital 328, desse modo, a unidade de renderização do dispositivo de renderização 400 é configurada para renderizar o áudio direcional recebido nos dados de áudio digital 328 sem qualquer modificação direcional.
[0108] Anteriormente, a mixagem descendente e/ou codificação do áudio direcional no dispositivo de captura foram brevemente explanadas. Agora, as mesmas serão adicionalmente elaboradas.
[0109] Em muitos casos, o dispositivo de captura 300 não tem informações quanto a se a apresentação decodificada (no dispositivo de renderização) ocorrerá a um alto-falante mono único, alto-falantes estéreo, ou fones de ouvido. O cenário de renderização real também pode variar durante uma sessão de serviço, por exemplo, com um equipamento de reprodução conectado que pode mudar, tal como a conexão ou desconexão de fones de ouvido a um telefone móvel. Ainda outro cenário onde as capacidades do dispositivo de renderização são desconhecidas ocorre quando um dispositivo de captura único 300 precisa suportar múltiplos pontos finais (dispositivos de renderização 400). Por exemplo, em um caso de uso de conferência de IVAS ou distribuição de conteúdo de VR, um ponto final pode ser usando um auscultador e outro pode renderizar a alto-falantes estéreo, ainda seria vantajoso ser capaz de fornecer uma codificação única a ambos os pontos finais, conforme reduziria a complexidade no lado de codificação e também poderia reduzir a largura de banda de rede de agregado exigida.
[0110] Uma forma direta embora menos desejável de suportar esses casos seria sempre assumir a menor capacidade do dispositivo de recepção, isto é, mono, e selecionar um modo de operação de áudio correspondente. No entanto, é mais sensível requerer que o codec usado (por exemplo, codec de IVAS), mesmo se operado em um modo de apresentação que suporta áudio espacial, binaural ou estéreo pode sempre produzir um sinal de áudio decodificado que pode ser apresentado em dispositivos 400 com uma capacidade de áudio respectivamente inferior. Em algumas modalidades, um sinal codificado como um sinal de áudio espacial também pode ser decodificável para renderização binaural, estéreo e/ou mono. De modo similar, um sinal codificado como binaural pode ser decodificável como estéreo ou mono, e um sinal codificado como estéreo pode ser decodificável para apresentação mono. Como uma ilustração, um dispositivo de captura 300 deve apenas precisar implementar uma codificação única (dados de áudio digital 328) e enviar a mesma codificação a múltiplos pontos finais 400, alguns desses podem suportar apresentação binaural e alguns podem ser apenas estéreo.
[0111] Deve-se notar que o codec discutido anteriormente pode ser implementado no dispositivo de captura ou no servidor de chamada. No caso do servidor de chamada, o servidor de chamada receberá os dados de áudio digital 328 a partir do dispositivo de captura e fará uma transcodificação dos dados de áudio digital para satisfazer as exigências anteriores, antes de enviar os dados de áudio digital transcodificados a um ou mais dispositivos de renderização 400. Agora, esse cenário será exemplificado em conjunto com a Figura 6.
[0112] O cenário de conferência de VR físico 600 é ilustrado na Figura 6.
Cinco usuários de conferência de VR/AR 602a-e de diferentes locais estão se reunindo virtualmente. Os usuários de conferência de VR/AR 602a-e podem ser habilitados para IVAS. Cada um deles está usando um equipamento de VR/AR, incluindo, por exemplo, uma reprodução binaural e uma reprodução de vídeo usando um HMD. O equipamento de todos os usuários suporta movimentos em 6DOF com monitoramento de cabeça correspondente. O equipamento de usuário, UE, 602 dos usuários troca áudio codificado a montante e a jusante com um servidor de chamada por conferência 604. Visualmente, os usuários podem ser representados através de respectivos avatares que podem ser renderizados com base nas informações relacionadas a parâmetros de posição relativa e sua orientação rotacional.
[0113] Para aperfeiçoar adicionalmente a experiência de usuário imersiva, também movimento rotacional e/ou movimento translacional da cabeça de um ouvinte é considerada ao renderizar o áudio recebido a partir de outros participantes no cenário de conferência. Consequentemente, o monitoramento de cabeça informa à unidade de renderização de um dispositivo de renderização de usuário (referência 400 nas Figuras 4 a 5) sobre os dados espaciais atuais (6DOF) do equipamento de VR/AR do usuário. Esses dados espaciais são combinados (por exemplo, através de multiplicação matricial ou modificação de metadados associados ao áudio direcional) com dados espaciais recebidos nos dados de áudio digital recebidos a partir de outro usuário 602, dessem modo, a unidade de renderização está modificando uma propriedade direcional do áudio direcional recebido a partir de outro usuário 602 com base na combinação de dados espaciais. Então, o áudio direcional modificado é renderizado ao usuário.
[0114] Adicionalmente, o volume do áudio renderizado recebido a partir de um usuário especifico pode ser ajustado com base nas coordenadas espaciais recebidas nos dados de áudio digital. Com base em uma distância virtual (ou real) entre os dois usuários (calculados pelo dispositivo de renderização ou pelo servidor de chamada 604), o volume pode ser aumentado ou reduzido para aperfeiçoar adicionalmente a experiência de usuário imersiva.
[0115] A Figura 7 ilustra, a título de exemplo, um espaço de conferência virtual 700 gerado pelo servidor de chamada de conferência. Inicialmente, o servidor coloca os usuários de conferência Ui, i=1…5 (também referidos como 702a-e), em coordenadas de posição virtual Ki = (xi, yi, zi). O espaço de conferência virtual é compartilhado entre os usuários. De modo correspondente, o renderizador audiovisual para cada usuário ocorre nesse espaço. Por exemplo, a partir da perspectiva do U5 (correspondente ao usuário 602d na Figura 6), a renderização colocará virtualmente os outros participantes de conferência nas posições relativas Ki – K5, i≠5. Por exemplo, o usuário U5 perceberá o usuário U2 em distância |Ki – K5| e sob a direção do vetor (Ki – K5)/|Ki – K5|, desse modo, o renderizador direcional é realizado em relação à posição rotacional de U5. Da mesma forma, ilustrado na Figura 2 está o movimento de U5 em direção a U4. Esse movimento afetará a posição de U5 em relação aos outros usuários, que levará em consideração enquanto renderiza. Ao mesmo tempo, o UE de U5 envia sua posição alterada ao servidor de conferência 604, que atualiza o espaço de conferência virtual com as novas coordenadas de U5. À medida que o espaço de conferência virtual é compartilhado, os usuários U1–U4 se tornam cientes do movimento do usuário U5 e podem, de modo correspondente, adaptar suas respectivas renderizações. O movimento simultâneo do usuário U2 está funcionando de acordo com os princípios correspondentes. O servidor de chamada 604 é configurado para manter os dados de posição dos participantes 702a-e em um espaço de encontro compartilhado.
[0116] No cenário das Figuras 6 a 7, uma ou mais das exigências de 6DOF a seguir podem se aplicar ao framework de codificação a se tratar de áudio: – Oferecer um framework de metadados para a representação e transmissão a montante de informações posicionais de um ponto final de recepção, incluindo coordenadas espaciais e/ou coordenadas rotacionais (conforme descrito anteriormente em conjunto com as Figuras 1 a 4).
– A capacidade de associar elementos de áudio de entrada (por exemplo, objetos) com atributos de 6DOF, incluindo coordenadas espaciais, coordenadas rotacionais, diretividade.
– A capacidade de renderização espacial simultânea de múltiplos elementos de áudio recebidos respectivos de seus atributos de 6DOF associados.
– Ajustes adequados da cena renderizada mediante movimentos rotacionais e translacionais da cabeça do ouvinte.
[0117] Deve-se notar que o supracitado também se aplica a reuniões de XR, sendo uma mistura de uma reunião física e uma reunião virtual. Os participantes físicos veem e escutam avatares que representam os participantes remotos através de seus Óculos de AR e fones de ouvido. Eles interagem com os avatares nas discussões como se fossem participantes fisicamente presentes. A partir deles as interações com outros participantes físicos e virtuais acontece em uma realidade mista. As posições de participantes reais e virtuais são unidas em um espaço de reunião virtual compartilhada (por exemplo, por um servidor de chamada 604) que seja consistente às posições das posições de participantes reais no espaço de reunião física e mapeadas no espaço de reunião virtual usando os dados de posição física/real absolutos e relativos.
[0118] Em um cenário de VR/AR/XR, subgrupos da conferência virtual podem ser formados. Esses subgrupos podem ser usados para informar o servidor de chamada 604 dentre quais usuários, por exemplo, a qualidade de serviço, QoS, deve ser alta, e dentre quais usuários QoS pode ser inferior. Em algumas modalidades, apenas participantes em um mesmo subgrupo são incluídos em um ambiente virtual fornecido a esses subgrupos através do equipamento de VR/AR/XR. Por exemplo, um cenário onde subgrupos podem ser formados em uma sessão de pôster que oferece participação virtual a partir de um local remoto. Os participantes remotos são equipados com HMD e fones de ouvido. Eles estão virtualmente presentes e podem andar de pôster para pôster. Podem escutar às apresentações de pôster em curso e se moverem para mais próximos de uma apresentação se acharem que o tópico da discussão em curso está interessante. Para aperfeiçoar a possibilidade de interações imersivas entre participantes virtuais e físicos, subgrupos podem ser formados, por exemplo, com base em qual pôster da pluralidade de pôsteres os participantes estão atualmente interessados.
[0119] As modalidades desse cenário compreendem: - receber, por um sistema de teleconferência, tópicos a partir dos participantes de uma conferência virtual; - agrupar, pelo sistema de teleconferência com base nos tópicos, os participantes em subgrupos da conferência virtual; - receber, pelo sistema de teleconferência, uma solicitação a partir de um dispositivo de um novo participante para participar da conferência virtual, sendo que a solicitação é associada a um indicador que indica um tópico preferencial; - selecionar, pelo sistema de teleconferência, um subgrupo a partir dos subgrupos baseados no tópico preferencial e nos tópicos dos subgrupos; - proporcionar, pelo sistema de teleconferência ao dispositivo do novo participante, um ambiente virtual da conferência virtual, sendo que o ambiente virtual indica pelo menos uma dentre uma proximidade virtual visual ou uma proximidade virtual de áudio entre o novo participante e um ou mais participantes do subgrupo selecionado.
[0120] Em algumas modalidades, o ambiente virtual indica a proximidade virtual visual ou a proximidade virtual de áudio pelo menos proporcionando-se uma tela de realidade virtual ou um campo sonoro de realidade virtual onde um avatar do novo participante e um ou mais avatares dos participantes do subgrupo selecionado estão em proximidade entre si.
[0121] Em algumas modalidades, cada participante é conectado por um fone de ouvido aberto e óculos de AR.
VI - Equivalentes, extensões, alternativas e disposições diversas
[0122] As modalidades adicionais da presente revelação se tornarão aparentes a um indivíduo versado na técnica após estudar a descrição anterior. Muito embora a presente descrição e os desenhos revelem modalidades e exemplos, a revelação não é restrita a esses exemplos específicos. Diversas modificações e variações podem ser feitas sem divergir do escopo da presente revelação, que é definida pelas reivindicações anexas. Quaisquer sinais de referência que apareçam nas reivindicações não devem ser entendidos como limitantes a seu escopo.
[0123] Adicionalmente, variações às modalidades reveladas podem ser entendidas e efetuadas pelo indivíduo versado na prática da revelação, a partir de um estudo dos desenhos, na revelação e nas reivindicações anexas. Nas reivindicações, o termo “que compreende” não exclui outros elementos ou etapas, e os artigos indefinidos “um” ou “uma” não exclui uma pluralidade. O mero fato que determinadas medidas são citadas em reivindicações dependentes mutuamente diferentes não indica que uma combinação das mesmas não possa ser usada em benefício.
[0124] Os sistemas e métodos revelados anteriormente podem ser implementados como software, firmware, hardware ou uma combinação dos mesmos.
Em uma implementação de hardware, a divisão de tarefas entre unidades funcionais referidas na descrição anterior não corresponde necessariamente à divisão em unidades físicas; ao contrário, um componente físico pode ter múltiplas funcionalidades, e uma tarefa pode ser realizada por vários componentes físicos em cooperação. Determinados componentes ou todos os componentes podem ser implementados como software executados por um processador ou microprocessador de sinal digital, ou ser implementado como hardware ou como um circuito integrado para aplicação específica. Esse software pode ser distribuído em mídia legível por computador, que pode compreender mídia de armazenamento em computador (ou mídia não transitória) e mídia de comunicação (ou mídia transitória). Conforme bem conhecido a um indivíduo versado na técnica, o termo mídia de armazenamento em computador inclui mídias voláteis e não voláteis, removíveis e não removíveis implementadas em qualquer método ou tecnologia para armazenamento de informações como instruções legíveis por computador, estruturas de dados, módulos de programa ou outros dados. A mídia de armazenamento em computador inclui, mas não se limita a, RAM, ROM, EEPROM, memória flash ou outra tecnologia de memória, CD-ROM, discos versáveis digitais (DVD) ou outro armazenamento em disco óptico, cassetes magnéticos, fita magnética, armazenamento em disco magnético ou outros dispositivos de armazenamento magnético, ou qualquer outro meio que possa ser usado para armazenar as informações desejadas e quais podem ser acessadas por um computador. Ademais, é bem conhecido pelos indivíduos versados que mídias de comunicação tipicamente incorporam instruções legíveis por computador, estruturas de dados, módulos de programa ou outros dados em um sinal de dados modulado como uma onda portadora ou outro mecanismo de transporte e inclui quaisquer mídias de entrega de informações.
[0125] Todas as figuras são esquemáticas e geralmente mostram apenas partes que sejam necessárias com o intuito de elucidar a revelação, enquanto outras partes podem ser omitidas ou meramente sugeridas. Exceto onde indicado em contrário, referências numéricas similares se referem a partes similares em diferentes figuras.

Claims (28)

REIVINDICAÇÕES
1. Dispositivo que compreende, ou conectado a, um sistema de microfone (302) que compreende um ou mais microfones para capturar, sendo que o dispositivo é CARACTERIZADO pelo fato de que compreende: uma unidade de recepção (304) configurada para: receber (S13) áudio direcional (320) capturado pelo sistema de microfone; receber (S14) metadados (322) associados ao sistema de microfone, sendo que os metadados compreendem dados espaciais do sistema de microfone, sendo que os dados espaciais são indicativos de uma orientação espacial e/ou posição espacial do sistema de microfone e compreende pelo menos um a partir da lista de: ângulo(s) de azimute, inclinação, rolamento, e coordenadas espaciais do sistema de microfone; uma unidade computacional (306) configurada para: modificar pelo menos parte do áudio direcional para produzir um áudio direcional modificado, desse modo, uma propriedade direcional do áudio é modificada em resposta à orientação espacial e/ou posição espacial do sistema de microfone; codificar o áudio direcional modificado em dados de áudio digital (328); uma unidade de transmissão (308) configurada para transmitir os dados de áudio digital.
2. Dispositivo, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que a orientação espacial do sistema de microfone é representada por parâmetros que descrevem movimento/orientação rotacional com um grau de liberdade, DoF, nos dados espaciais.
3. Dispositivo, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que a orientação espacial do sistema de microfone é representada por parâmetros que descrevem movimento/orientação rotacional com três DoF nos dados espaciais.
4. Dispositivo, de acordo com qualquer uma das reivindicações 1 ou 3,
CARACTERIZADO pelo fato de que os dados espaciais do sistema de microfone são representados em seis DoF.
5. Dispositivo, de acordo com qualquer uma das reivindicações 1 a 4, CARACTERIZADO pelo fato de que o áudio direcional recebido compreende áudio que compreende metadados direcionais.
6. Dispositivo, de acordo com qualquer uma das reivindicações 1 a 5, CARACTERIZADO pelo fato de que a unidade computacional é configurada, ainda, para codificar pelo menos partes dos metadados que compreendem dados espaciais do sistema de microfone nos ditos dados de áudio digital.
7. Dispositivo, de acordo com a reivindicação 6, CARACTERIZADO pelo fato de que a unidade de recepção é configurada, ainda, para receber (S11) primeiras instruções (334) que indicam à unidade computacional se inclui as ditas pelo menos partes dos metadados que compreendem dados espaciais do sistema de microfone nos ditos dados de áudio digital, desse modo, a unidade computacional atua de modo correspondente.
8. Dispositivo, de acordo com qualquer uma das reivindicações 6 a 7, CARACTERIZADO pelo fato de que a unidade de recepção é configurada, ainda, para receber (S12) segundas instruções (334) que indicam à unidade computacional qual parâmetro ou parâmetros dos dados espaciais do sistema de microfone incluir nos dados de áudio digital, desse modo, a unidade computacional atua de modo correspondente.
9. Dispositivo, de acordo com qualquer uma das reivindicações 7 a 8, CARACTERIZADO pelo fato de que a unidade de transmissão é configurada para transmitir os dados de áudio digital a um dispositivo adicional (400), em que as indicações sobre as primeiras e/ou segundas instruções são recebidas a partir do dito dispositivo adicional.
10. Dispositivo, de acordo com qualquer uma das reivindicações 1 a 9,
CARACTERIZADO pelo fato de que a unidade de recepção é configurada, ainda, para receber metadados que compreendem um carimbo de hora que indica um horário de captura do áudio direcional, em que a unidade computacional é configurada para codificar o dito carimbo de hora nos ditos dados de áudio digital.
11. Dispositivo, de acordo com qualquer uma das reivindicações 1 a 10, CARACTERIZADO pelo fato de que a codificação do áudio direcional modificado compreende mixar descendentemente o áudio direcional modificado, em que a mixagem descendente é realizada levando-se em consideração a orientação espacial do sistema de microfone, e codificar a mixagem descendente e uma matriz de mixagem descendente usada na mixagem descendente nos ditos dados de áudio digital.
12. Dispositivo, de acordo com a reivindicação 11, CARACTERIZADO pelo fato de que a mixagem descendente compreende formação de feixes.
13. Dispositivo, de acordo com qualquer uma das reivindicações 1 a 12, CARACTERIZADO pelo fato de que é implementado em um equipamento de realidade virtual, VR, (602a-e) ou equipamento de realidade aumentada, AR, (602a-e) que compreende o sistema de microfone e um dispositivo de monitoramento de cabeça configurado para determinar dados espaciais do dispositivo em 3-6 DoF.
14. Dispositivo (400) para renderizar sinais de áudio, sendo que o dispositivo é CARACTERIZADO pelo fato de que compreende: uma unidade de recepção (402) configurada para receber (S21) dados de áudio digital (328), uma unidade de decodificação (404) configurada para: decodificar (S22) os dados de áudio digital recebidos em áudio direcional (420) e em metadados (422), sendo que os metadados compreendem dados espaciais que compreendem pelo menos um a partir da lista de: ângulo(s) de azimute, inclinação, rolamento e coordenadas espaciais;
uma unidade de renderização (406) configurada para o: modificar (S23) uma propriedade direcional do áudio direcional usando os dados espaciais; e renderizar (S24) o áudio direcional modificado (424).
15. Dispositivo, de acordo com a reivindicação 14, CARACTERIZADO pelo fato de que os dados espaciais indicam a orientação espacial e/ou posição espacial de um sistema de microfone (302) que compreende um ou mais microfones que capturam o áudio direcional, em que a unidade de renderização modifica a propriedade direcional do áudio direcional para reproduzir pelo menos parcialmente um ambiente de áudio do sistema de microfone.
16. Dispositivo, de acordo com qualquer uma das reivindicações 14 a 15, CARACTERIZADO pelo fato de que os dados espaciais compreendem descrever um movimento/orientação rotacional com um grau de liberdade, DoF.
17. Dispositivo, de acordo com qualquer uma das reivindicações 14 a 15, CARACTERIZADO pelo fato de que os dados espaciais compreendem parâmetros que descrevem um movimento/orientação rotacional com três DoF.
18. Dispositivo, de acordo com as reivindicações 14 a 17, CARACTERIZADO pelo fato de que o áudio direcional decodificado compreende áudio que compreende metadados direcionais.
19. Dispositivo, de acordo com qualquer uma das reivindicações 14 a 18, CARACTERIZADO pelo fato de que compreende, ainda, uma unidade de transmissão (306) configurada para transmitir instruções (334) a um dispositivo (300) adicional a partir do qual o áudio digital é recebido, sendo que as instruções indicam ao dispositivo adicional qual parâmetro ou parâmetros os dados rotacionais devem compreender.
20. Dispositivo, de acordo com qualquer uma das reivindicações 14 a 19, CARACTERIZADO pelo fato de que a unidade de decodificação é configurada, ainda, para extrair um carimbo de hora que indica um horário de captura do áudio de direção a partir dos dados de áudio digital.
21. Dispositivo, de acordo com qualquer uma das reivindicações 14 a 20, CARACTERIZADO pelo fato de que a decodificação dos dados de áudio digital recebidos em áudio direcional pela unidade de decodificação compreende: decodificar os dados de áudio digital recebidos em áudio mixado descendentemente, mixar ascendentemente, pela unidade de decodificação, o áudio mixado descendentemente no áudio direcional usando uma matriz de mixagem descendente incluída nos dados de áudio digital recebidos.
22. Dispositivo, de acordo com qualquer uma das reivindicações 14 a 21, CARACTERIZADO pelo fato de que os dados espaciais incluem coordenadas espaciais e em que a unidade de renderização é configurada, ainda, para ajustar um volume do áudio renderizado com base nas coordenadas espaciais.
23. Dispositivo, de acordo com qualquer uma das reivindicações 14 a 22, CARACTERIZADO pelo fato de que é implementado em um equipamento de realidade virtual, VR, (602a-e) ou equipamento de realidade aumentada, AR, (602a-e) que compreende um dispositivo de monitoramento de cabeça configurado para medir a orientação espacial e a posição espacial do dispositivo em seis DoF.
24. Dispositivo, de acordo com qualquer uma das reivindicações 14 a 23, CARACTERIZADO pelo fato de que a unidade de renderização é configurada para renderização de áudio binaural.
25. Sistema CARACTERIZADO pelo fato de que compreende: um primeiro dispositivo (300), conforme definido em qualquer uma das reivindicações 1 a 13, configurado para transmitir dados de áudio digital a um segundo dispositivo (400), conforme definido em qualquer uma das reivindicações 14 a 24, em que o sistema é configurado para conferência por áudio e/ou vídeo.
26. Sistema, de acordo com a reivindicação 25, CARACTERIZADO pelo fato de que o primeiro dispositivo compreende, ainda, uma unidade de gravação de vídeo e é configurado para codificar vídeo gravado em dados de vídeo digital e transmitir os dados de vídeo digital ao segundo dispositivo, em que o segundo dispositivo compreende, ainda, uma tela para exibir dados de vídeo digital decodificados.
27. Sistema CARACTERIZADO pelo fato de que compreende um primeiro dispositivo (300), conforme definido em qualquer uma das reivindicações 1 a 13, configurado para transmitir dados de áudio digital a um segundo dispositivo, sendo que o segundo dispositivo compreende: uma unidade de recepção configurada para receber dados de áudio digital, uma unidade de decodificação configurada para: decodificar os dados de áudio digital recebidos em áudio direcional e em metadados, sendo que os metadados compreendem dados espaciais que compreendem pelo menos um a partir da lista de: ângulo(s) de azimute, inclinação, rolamento e coordenadas espaciais; uma unidade de renderização para renderizar áudio; em que a unidade de renderização é configurada para, mediante o segundo dispositivo, receber, ainda, dados de vídeo codificados a partir do primeiro dispositivo: modificar uma propriedade direcional do áudio direcional usando os dados espaciais, e renderizar o áudio direcional modificado; em que a unidade de renderização é configurada para, mediante o segundo dispositivo não receber dados de vídeo codificados a partir do primeiro dispositivo: renderizar o áudio direcional.
28. Mídia legível por computador não transitória CARACTERIZADA pelo fato de que armazena instruções que, quando executadas por um ou mais processadores, induzem um ou mais processadores a realizar operações de qualquer uma das reivindicações anteriores.
BR112021007089-3A 2018-11-13 2019-11-12 processamento de áudio em serviços de áudio imersivos BR112021007089A2 (pt)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US201862760262P 2018-11-13 2018-11-13
US62/760,262 2018-11-13
US201962793666P 2019-01-17 2019-01-17
US62/793,666 2019-01-17
US201962795236P 2019-01-22 2019-01-22
US62/795,236 2019-01-22
US201962797563P 2019-01-28 2019-01-28
US62/797,563 2019-01-28
PCT/US2019/060855 WO2020102153A1 (en) 2018-11-13 2019-11-12 Audio processing in immersive audio services

Publications (1)

Publication Number Publication Date
BR112021007089A2 true BR112021007089A2 (pt) 2021-07-20

Family

ID=69160197

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112021007089-3A BR112021007089A2 (pt) 2018-11-13 2019-11-12 processamento de áudio em serviços de áudio imersivos

Country Status (13)

Country Link
US (1) US20220022000A1 (pt)
EP (2) EP4344194A3 (pt)
JP (2) JP7488258B2 (pt)
KR (1) KR20210090171A (pt)
CN (2) CN117241173A (pt)
AU (1) AU2019380367A1 (pt)
BR (1) BR112021007089A2 (pt)
CA (1) CA3116181A1 (pt)
ES (1) ES2974219T3 (pt)
IL (1) IL281936A (pt)
MX (1) MX2021005017A (pt)
SG (1) SG11202103700QA (pt)
WO (1) WO2020102153A1 (pt)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11765536B2 (en) * 2018-11-13 2023-09-19 Dolby Laboratories Licensing Corporation Representing spatial audio by means of an audio signal and associated metadata
US20220311814A1 (en) * 2021-03-29 2022-09-29 Tencent America LLC Techniques for signaling multiple audio mixing gains for teleconferencing and telepresence for remote terminals

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5521981A (en) * 1994-01-06 1996-05-28 Gehring; Louis S. Sound positioner
US6814332B2 (en) * 2003-01-15 2004-11-09 Ultimate Support Systems, Inc. Microphone support boom movement control apparatus and method with differential motion isolation capability
JP2005181391A (ja) * 2003-12-16 2005-07-07 Sony Corp 音声処理装置および音声処理方法
US20050147261A1 (en) * 2003-12-30 2005-07-07 Chiang Yeh Head relational transfer function virtualizer
MX2009003570A (es) * 2006-10-16 2009-05-28 Dolby Sweden Ab Codificacion mejorada y representacion de parametros para codificacion de objetos de mezcla descendente de multicanal.
CN101558448B (zh) * 2006-12-13 2011-09-21 汤姆森许可贸易公司 用于获取并编辑音频数据和视频数据的系统和方法
EP2164259A4 (en) * 2007-07-05 2014-04-02 Mitsubishi Electric Corp DIGITAL VIDEO TRANSMISSION SYSTEM
US8023660B2 (en) * 2008-09-11 2011-09-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for providing a set of spatial cues on the basis of a microphone signal and apparatus for providing a two-channel audio signal and a set of spatial cues
US20100303265A1 (en) * 2009-05-29 2010-12-02 Nvidia Corporation Enhancing user experience in audio-visual systems employing stereoscopic display and directional audio
US9994228B2 (en) * 2010-05-14 2018-06-12 Iarmourholdings, Inc. Systems and methods for controlling a vehicle or device in response to a measured human response to a provocative environment
US9179236B2 (en) * 2011-07-01 2015-11-03 Dolby Laboratories Licensing Corporation System and method for adaptive audio signal generation, coding and rendering
JP2015509212A (ja) * 2012-01-19 2015-03-26 コーニンクレッカ フィリップス エヌ ヴェ 空間オーディオ・レンダリング及び符号化
US8712076B2 (en) * 2012-02-08 2014-04-29 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
EP2825898A4 (en) * 2012-03-12 2015-12-09 Nokia Technologies Oy TREATMENT OF A SOUND SOURCE
US9445174B2 (en) * 2012-06-14 2016-09-13 Nokia Technologies Oy Audio capture apparatus
US9621991B2 (en) * 2012-12-18 2017-04-11 Nokia Technologies Oy Spatial audio apparatus
US9460732B2 (en) * 2013-02-13 2016-10-04 Analog Devices, Inc. Signal source separation
US9712936B2 (en) * 2015-02-03 2017-07-18 Qualcomm Incorporated Coding higher-order ambisonic audio data with motion stabilization
WO2016160876A1 (en) * 2015-04-02 2016-10-06 Dolby Laboratories Licensing Corporation Distributed amplification for adaptive audio rendering systems
US10085029B2 (en) * 2015-07-21 2018-09-25 Qualcomm Incorporated Switching display devices in video telephony
US9824500B2 (en) * 2016-03-16 2017-11-21 Microsoft Technology Licensing, Llc Virtual object pathing
GB2549532A (en) * 2016-04-22 2017-10-25 Nokia Technologies Oy Merging audio signals with spatial metadata
US10026403B2 (en) * 2016-08-12 2018-07-17 Paypal, Inc. Location based voice association system
GB2557218A (en) * 2016-11-30 2018-06-20 Nokia Technologies Oy Distributed audio capture and mixing
US10165386B2 (en) * 2017-05-16 2018-12-25 Nokia Technologies Oy VR audio superzoom
US10819414B2 (en) * 2018-03-26 2020-10-27 Intel Corporation Methods and devices for beam tracking

Also Published As

Publication number Publication date
CN112970270A (zh) 2021-06-15
CN117241173A (zh) 2023-12-15
SG11202103700QA (en) 2021-05-28
EP4344194A3 (en) 2024-06-12
JP2024102276A (ja) 2024-07-30
EP4344194A2 (en) 2024-03-27
IL281936A (en) 2021-05-31
CN112970270B (zh) 2023-10-13
WO2020102153A1 (en) 2020-05-22
US20220022000A1 (en) 2022-01-20
EP3881559A1 (en) 2021-09-22
JP2022509761A (ja) 2022-01-24
ES2974219T3 (es) 2024-06-26
CA3116181A1 (en) 2020-05-22
JP7488258B2 (ja) 2024-05-21
MX2021005017A (es) 2021-06-15
KR20210090171A (ko) 2021-07-19
AU2019380367A1 (en) 2021-05-20
EP3881559B1 (en) 2024-02-14

Similar Documents

Publication Publication Date Title
US11082662B2 (en) Enhanced audiovisual multiuser communication
EP3531695B1 (en) Method for transmitting audio signal and outputting received audio signal in multimedia communication between terminal devices, and terminal device for performing same
US9843455B2 (en) Conferencing system with spatial rendering of audio data
US20090080632A1 (en) Spatial audio conferencing
EP2352290B1 (en) Method and apparatus for matching audio and video signals during a videoconference
JP2024102276A (ja) 没入的オーディオ・サービスにおけるオーディオ処理
US20210112287A1 (en) Method and apparatus for transmitting or receiving metadata of audio in wireless communication system
US11212633B2 (en) Immersive media with media device
US20230085918A1 (en) Audio Representation and Associated Rendering
US10585641B2 (en) Tagging a sound in a virtual environment
US11128892B2 (en) Method for selecting at least one image portion to be downloaded anticipatorily in order to render an audiovisual stream
US11930350B2 (en) Rendering audio
Brettle et al. Open-source spatial audio compression for vr content
RU2810920C2 (ru) Обработка звука в звуковых услугах с эффектом присутствия
EP3917162A1 (en) System and devices for audio-video spatial communication and event sharing
US20240259758A1 (en) Apparatus, Methods and Computer Programs for Processing Audio Signals