BR112021000154A2 - Aparelho de áudio e método de processamento de dados de áudio - Google Patents

Aparelho de áudio e método de processamento de dados de áudio Download PDF

Info

Publication number
BR112021000154A2
BR112021000154A2 BR112021000154-9A BR112021000154A BR112021000154A2 BR 112021000154 A2 BR112021000154 A2 BR 112021000154A2 BR 112021000154 A BR112021000154 A BR 112021000154A BR 112021000154 A2 BR112021000154 A2 BR 112021000154A2
Authority
BR
Brazil
Prior art keywords
audio
property
real
component
user
Prior art date
Application number
BR112021000154-9A
Other languages
English (en)
Inventor
Nathan Souviraa-Labastie
Jeroen Gerardus Henricus Koppens
Original Assignee
Koninklijke Philips N.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips N.V. filed Critical Koninklijke Philips N.V.
Publication of BR112021000154A2 publication Critical patent/BR112021000154A2/pt

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1008Earpieces of the supra-aural or circum-aural type
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/01Hearing devices using active noise cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/15Determination of the acoustic seal of ear moulds or ear tips of hearing devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)
  • Processing Or Creating Images (AREA)

Abstract

aparelho de áudio e método de processamento de dados de áudio. a presente invenção refere-se a um aparelho de áudio, por exemplo, para renderizar áudio para uma aplicação de realidade virtual/aumentada, que compreende um receptor (201) para receber dados de áudio de uma cena de áudio, incluindo um primeiro componente de áudio que representa uma fonte de áudio real presente em um ambiente de áudio de um usuário. um determinador (203) determina uma primeira propriedade de um componente de áudio do mundo real a partir da fonte de áudio do mundo real e um processador alvo (205) determina uma propriedade alvo de um componente de áudio combinado que é uma combinação do componente de áudio do mundo real recebido pelo usuário e áudio renderizado do primeiro componente de áudio recebido pelo usuário. um ajustador (207) determina uma propriedade de renderização mediante a modificação de uma propriedade do primeiro componente de áudio indicado pelos dados de áudio do primeiro componente de áudio em resposta à propriedade alvo e à primeira propriedade. um renderizador (209) renderiza o primeiro componente de áudio em resposta à propriedade de renderização.

Description

APARELHO DE ÁUDIO E MÉTODO DE PROCESSAMENTO DE DADOS
DE ÁUDIO Campo da invenção
[001] A invenção se refere a um aparelho e método para renderização de áudio para uma cena e em particular, mas não exclusivamente, à renderização de áudio para uma cena de áudio de um aplicativo de Realidade Virtual/Aumentada. Antecedentes da invenção
[002] A variedade e o alcance de aplicativos de imagem e vídeo aumentaram substancialmente nos últimos anos com novos serviços e maneiras de usar e consumir vídeo sendo continuamente desenvolvidos e introduzidos. Em particular, muitos serviços, aplicativos e experiências espaciais e interativas estão sendo desenvolvidos para dar aos usuários uma experiência mais envolvente e imersiva.
[003] Exemplos de tais aplicativos são aplicativos de Realidade Virtual (VR, Virtual Reality) e Realidade Aumentada (RA), que estão se tornando populares rapidamente, com várias soluções voltadas para o mercado consumidor. Vários padrões também estão sendo desenvolvidos por vários organismos de padronização. Tais atividades de padronização estão desenvolvendo ativamente padrões para os vários aspectos de sistemas de VR/RA, incluindo, por exemplo, streaming, radiodifusão, renderização etc.
[004] Os aplicativos de VR tendem a fornecer experiências de usuário que correspondem ao fato de o usuário estar em um mundo/ambiente/cena diferente, enquanto os aplicativos de RA tendem a fornecer experiências de usuário que correspondem ao usuário estar no ambiente atual, mas com informações adicionais ou objetos virtuais ou informações sendo adicionadas. Dessa forma, as aplicações de VR tendem a fornecer um mundo/cena gerado sinteticamente totalmente inclusivo, enquanto as aplicações RA tendem a fornecer um mundo/cena parcialmente sintético que é sobreposto à cena real na qual o usuário está fisicamente presente. Entretanto, os termos são frequentemente usados de forma intercambiável e têm um alto grau de sobreposição. A seguir, o termo Realidade Virtual/VR será usado para denotar tanto a Realidade Virtual quanto a Realidade Aumentada.
[005] Como um exemplo, um serviço cada vez mais popular é o fornecimento de imagens e áudio de tal forma que um usuário seja capaz de interagir ativa e dinamicamente com o sistema para alterar parâmetros da renderização, de modo que isso se adapte ao movimento e às alterações na posição e orientação do usuário. Um recurso muito interessante em muitas aplicações é a capacidade de alterar a posição de visualização e a direção de visualização efetivas do observador, por exemplo, possibilitando que o mesmo se mova e “olhe ao redor” na cena que está sendo apresentada.
[006] Esse recurso pode, especificamente, possibilitar que uma experiência de realidade virtual seja fornecida a um usuário. Isso pode possibilitar que o usuário se mova de forma (relativamente) livre em um ambiente virtual e altere dinamicamente sua posição e a direção na qual ele está olhando. Geralmente, tais aplicações de realidade virtual são baseadas em um modelo tridimensional da cena, com o modelo sendo calculado dinamicamente para fornecer a visualização específica solicitada. Essa abordagem é também bem conhecida, por exemplo, em aplicações de jogos, como na categoria de atiradores em primeira pessoa, para computadores e consoles.
[007] É também desejável, em particular, para aplicações de realidade virtual, que a imagem que é apresentada seja uma imagem tridimensional. De fato, para otimizar a imersão do espectador, é geralmente preferencial que o usuário experimente a cena apresentada como uma cena tridimensional. De fato, uma experiência de realidade virtual deve, de preferência, possibilitar que um usuário selecione sua própria posição, ponto de visualização da câmera e momento no tempo em relação a um mundo virtual.
[008] Tipicamente, as aplicações de realidade virtual são inerentemente limitadas por se basearem em um modelo predeterminado da cena, e geralmente em um modelo artificial de um mundo virtual. Em algumas aplicações, uma experiência de realidade virtual pode ser fornecida com base na captura do mundo real. Em muitos casos, tal abordagem tende a se basear em um modelo virtual do mundo real ser construído a partir de capturas do mundo real. A experiência de realidade virtual é então gerada por meio da avaliação desse modelo.
[009] Muitas abordagens atuais tendem a ser subótimas e frequentemente tendem a ter elevada demanda de recursos computacionais ou de comunicação e/ou proporcionar ao usuário uma experiência subótima, por exemplo com qualidade reduzida ou liberdade limitada.
[010] Como um exemplo de uma aplicação, os óculos de realidade virtual entraram no mercado, o que possibilita que os espectadores experimentem vídeo de 360 graus (panorâmico) ou 180 graus. Esses vídeos em 360 graus são frequentemente pré-capturados com o uso de equipamentos de câmera onde imagens individuais são unidas em um único mapeamento esférico. Os formatos estéreo comuns para vídeos de
180 ou 360 graus são superior/inferior e esquerda/direita. De forma similar ao vídeo estéreo não panorâmico, as imagens do olho esquerdo e do olho direito são compactadas como parte de um único fluxo de vídeo H.264. Depois de decodificar um único quadro, o observador gira a cabeça para ver o mundo em torno dele.
[011] Além da renderização visual, a maioria das aplicações de VR/RA proporciona adicionalmente uma experiência de áudio correspondente. Em muitas aplicações, o áudio proporciona, de preferência, uma experiência de áudio espacial onde percebe-se que as fontes de áudio chegam a partir de posições que correspondem às posições dos objetos correspondentes na cena visual. Dessa forma, as cenas de áudio e vídeo são, de preferência, percebidas como sendo consistentes, sendo que ambas fornecem uma experiência espacial completa.
[012] Para o áudio, o foco tem sido, até agora, principalmente na reprodução por fones de ouvido que usam a tecnologia de reprodução de áudio binaural. Em muitos cenários, a reprodução por fones de ouvido possibilita uma experiência personalizada e altamente imersiva para o usuário. Com o uso de rastreamento da cabeça, a renderização pode ser feita em resposta a movimentos da cabeça do usuário, o que aumenta muito a sensação de imersão.
[013] Recentemente, tanto no mercado quanto nas discussões sobre padrões, começam a ser propostos casos de uso que envolvem um aspecto “social” ou “compartilhado” da VR (e da RA), ou seja, a possibilidade de compartilhar uma experiência com outras pessoas. Essas podem ser pessoas em locais diferentes, mas também pessoas no mesmo local (ou uma combinação de ambos).
Por exemplo, várias pessoas na mesma sala podem compartilhar a mesma experiência de VR com uma projeção (áudio e vídeo) de cada participante que está presente no conteúdo/cena de VR.
[014] Para proporcionar a melhor experiência, é desejável que a percepção de áudio e vídeo seja rigorosamente alinhada e, em particular, para as aplicações de RA, é desejável que isso seja ainda alinhado com a cena do mundo real. Entretanto, isso é muitas vezes difícil de ser alcançado, uma vez que pode haver vários problemas que podem afetar a percepção do usuário. Por exemplo, na prática, o usuário normalmente usará o aparelho em um local que não se pode garantir que esteja completamente silencioso ou escuro. Embora os fones de ouvido possam tentar bloquear luz e som, normalmente, isso somente será obtido de forma imperfeita. Além disso, em aplicativos de RA, muitas vezes faz parte da experiência que o usuário possa experimentar o ambiente local e, portanto, não é conveniente que esse ambiente seja completamente bloqueado.
[015] Portanto, seria vantajosa uma abordagem aprimorada para gerar áudio, em particular para uma experiência/aplicação de realidade virtual/aumentada. Em particular, uma abordagem que possibilite um funcionamento melhorado, maior flexibilidade, menor complexidade, implementação facilitada, uma experiência de áudio melhorada, uma percepção mais consistente de uma cena audiovisual, sensibilidade reduzida a erros de fontes num ambiente local; uma experiência de realidade virtual aprimorada e/ou desempenho e/ou operação aprimorados seriam vantajosos. Sumário da invenção
[016] Consequentemente, a invenção busca, de preferência, mitigar, aliviar ou eliminar uma ou mais das desvantagens mencionadas acima, individualmente ou em qualquer combinação.
[017] De acordo com um aspecto da invenção, é fornecido um aparelho de áudio que compreende: um receptor para receber dados de áudio para uma cena de áudio, sendo que os dados de áudio compreendem dados de áudio para um primeiro componente de áudio que representa uma fonte de áudio do mundo real em um ambiente de áudio de um usuário; um determinador para determinar uma primeira propriedade de um componente de áudio do mundo real que chega ao usuário a partir da fonte de áudio do mundo real através da propagação de som; um processador alvo para determinar uma propriedade alvo para um componente de áudio combinado recebido pelo usuário em resposta aos dados de áudio para o primeiro componente de áudio, sendo que o componente de áudio combinado é uma combinação do componente de áudio do mundo real recebido pelo usuário por meio de propagação de som e áudio e do áudio renderizado do primeiro componente de áudio recebido pelo usuário; um ajustador para determinar uma propriedade de renderização do primeiro componente de áudio mediante a modificação de uma propriedade do primeiro componente de áudio indicado pelos dados de áudio do primeiro componente de áudio em resposta à propriedade alvo e à primeira propriedade; e um renderizador para renderizar o primeiro componente de áudio em resposta à propriedade de renderização.
[018] A invenção pode proporcionar uma experiência de usuário aprimorada em muitas modalidades e pode fornecer especificamente percepção de áudio aprimorada em cenários em que os dados de áudio são renderizados para uma fonte de áudio que também está localmente presente. A fonte de áudio pode ser a pessoa ou objeto no mundo real a partir do qual o áudio se origina. Uma percepção aprimorada e mais natural da cena de áudio pode, geralmente, ser obtida e, em muitos cenários, a interferência e a inconsistência resultantes de fontes locais do mundo real podem ser mitigadas ou reduzidas. A abordagem pode ser particularmente vantajosa para aplicações de Realidade Virtual, VR (incluindo Realidade Aumentada, RA). Isso pode, por exemplo, fornecer uma experiência de usuário aprimorada para, por exemplo, aplicações de VR/RA sociais em que uma pluralidade de participantes está presente no mesmo local.
[019] A abordagem pode, em muitas modalidades, proporcionar desempenho aprimorado ao mesmo tempo em que mantém baixa complexidade e baixo uso de recursos.
[020] O primeiro componente de áudio e o componente de áudio do mundo real podem se originar da mesma fonte de áudio local, sendo que o primeiro componente de áudio é uma representação codificada de áudio da fonte de áudio local. O primeiro componente de áudio pode ser tipicamente ligado a uma posição na cena de áudio. A cena de áudio pode ser especificamente uma cena de áudio de VR/RA, e pode representar áudio virtual para uma cena virtual.
[021] A propriedade alvo para o componente de áudio combinado recebido pelo usuário pode ser uma propriedade alvo para o som combinado que pode ser a combinação do som que chega ao usuário e o som proveniente da fonte de áudio do mundo real (pode ser indicativo de uma propriedade desejada para o som da fonte de áudio do mundo real, quer se chegue diretamente ao usuário através da propagação do som no ambiente de áudio ou através do áudio processado (e, por conseguinte, através dos dados de áudio recebidos).
[022] De acordo com um recurso opcional da invenção, a propriedade alvo é uma posição alvo percebida do componente de áudio combinado.
[023] A abordagem pode proporcionar uma representação espacial melhorada da cena áudio, sendo que a distorção espacial reduzida é causada pela interferência de fontes de áudio locais também presentes na cena áudio dos dados de áudio recebidos. A primeira propriedade pode ser uma indicação de posição da fonte de áudio do mundo real. A propriedade alvo pode ser uma posição percebida alvo na cena de áudio e/ou no ambiente de áudio local. A propriedade de renderização pode ser uma propriedade de posição de renderização para a renderização do primeiro componente de áudio. As posições podem ser posições absolutas, por exemplo, em relação a um sistema de coordenadas comum, ou podem ser posições relativas.
[024] De acordo com um recurso opcional da invenção, a propriedade alvo é um nível do componente de áudio combinado.
[025] A abordagem pode proporcionar uma representação melhorada da cena áudio, sendo que a distorção reduzida de nível é causada pela interferência de fontes de áudio locais também presentes na cena áudio dos dados de áudio recebidos. A primeira propriedade pode ser um nível do componente de áudio do mundo real, e a propriedade de renderização pode ser uma propriedade de nível. Um nível também pode ser chamado de um nível de áudio, nível de sinal, nível de amplitude ou nível de intensidade sonora.
[026] De acordo com um recurso opcional da invenção, o ajustador é disposto de modo a determinar a propriedade de renderização como um nível de renderização que corresponde a um nível do primeiro componente de áudio indicado pelos dados de áudio reduzido em uma quantidade determinada como uma função de um nível do componente de áudio do mundo real recebido por um usuário.
[027] Pode-se, com isso, proporcionar uma percepção de áudio aprimorada em muitas modalidades.
[028] De acordo com um recurso opcional da invenção, a propriedade alvo é uma distribuição de frequência do componente de áudio combinado.
[029] A abordagem pode proporcionar uma representação melhorada da cena áudio, sendo que a distorção reduzida de frequência é causada pela interferência de fontes de áudio locais também presentes na cena áudio dos dados de áudio recebidos. Por exemplo, se o usuário estiver usando fones de ouvido que atenuam apenas parcialmente o som externo, o usuário pode ouvir tanto uma versão renderizada de um alto- falante no mesmo ambiente como uma versão que está chegando ao usuário diretamente no ambiente. O fone de ouvido pode ter uma atenuação dependente de frequência do som externo e o áudio renderizado pode ser adaptado de modo que o som percebido combinado tenha o conteúdo de frequência desejado e compense a atenuação dependente de frequência do som externo.
[030] A primeira propriedade pode ser uma distribuição de frequência do componente de áudio do mundo real, e a propriedade de renderização pode ser uma propriedade de distribuição de frequência. Uma distribuição de frequência também pode ser chamada de espectro de frequência e pode ser uma medida relativa. Por exemplo, uma distribuição de frequência pode ser representada por uma função de resposta de frequência/transferência em relação a uma distribuição de frequência de um componente de áudio.
[031] De acordo com um recurso opcional da invenção, o renderizador é disposto de modo a aplicar um filtro ao primeiro componente de áudio, sendo que o filtro tem uma resposta de frequência complementar a uma resposta de frequência de uma trajetória acústica da fonte de áudio do mundo real para o usuário.
[032] Pode-se, com isso, proporcionar desempenho e/ou operação aprimorados em muitas modalidades.
[033] De acordo com um recurso opcional da invenção, o determinador está disposto de modo a determinar a primeira propriedade em resposta a uma característica de transferência acústica para som externo para um fone de ouvido usado para renderizar o primeiro componente de áudio.
[034] Pode-se, com isso, proporcionar desempenho e/ou operação aprimorados em muitas modalidades. A característica de transferência acústica pode ser uma propriedade de uma função de transferência acústica (ou, de fato, pode ser a função de transferência acústica). A função/característica de transferência acústica pode compreender ou consistir em uma função/ característica de transferência acústica para um vazamento de um fone de ouvido.
[035] De acordo com um recurso opcional da invenção, a característica de transferência acústica compreende ao menos uma dentre uma resposta de frequência e uma propriedade de vazamento de fone de ouvido.
[036] Pode-se, com isso, proporcionar desempenho e/ou operação aprimorados em muitas modalidades.
[037] De acordo com um recurso opcional da invenção, o determinador está disposto de modo a determinar a propriedade em resposta a um sinal de microfone que captura o ambiente de áudio do usuário.
[038] Pode-se, com isso, proporcionar desempenho e/ou operação aprimorados em muitas modalidades. Pode-se, em particular, possibilitar uma baixa complexidade e/ou uma determinação precisa de uma propriedade do componente de áudio do mundo real em muitas modalidades. O sinal do microfone pode, em muitas modalidades, ser para um microfone posicionado no interior de fones de ouvido usados para a renderização do primeiro componente de áudio.
[039] De acordo com um recurso opcional da invenção, o ajustador está disposto de modo a determinar a propriedade de renderização em resposta a um limite psicoacústico para detectar diferenças nos áudios.
[040] Isso pode, em muitas modalidades, reduzir a complexidade sem sacrificar inaceitavelmente o desempenho.
[041] De acordo com um recurso opcional da invenção, o determinador está disposto de modo a determinar a primeira propriedade em resposta à detecção de um objeto que corresponde à fonte de áudio em uma imagem do ambiente de áudio.
[042] Isso pode ser particularmente vantajoso em muitas aplicações práticas, como em muitas aplicações de VR/RA.
[043] De acordo com uma característica opcional da invenção, o receptor está disposto de modo a identificar o primeiro componente de áudio como correspondente à fonte de áudio do mundo real em resposta a uma correlação entre o primeiro componente de áudio e um sinal de microfone que captura o ambiente de áudio do usuário.
[044] Isso pode ser particularmente vantajoso em muitas aplicações práticas.
[045] De acordo com um recurso opcional da invenção, o receptor está disposto de modo a identificar o primeiro componente de áudio como correspondente à fonte de áudio do mundo real em resposta aos metadados dos dados da cena de áudio.
[046] Isso pode ser particularmente vantajoso em muitas aplicações práticas.
[047] De acordo com uma característica opcional da invenção, os dados de áudio representam uma cena de áudio de realidade aumentada que corresponde ao ambiente de áudio.
[048] De acordo com um aspecto da invenção, é fornecido um método de processamento de dados de áudio, sendo que o método compreende: receber dados de áudio para uma cena de áudio, sendo que os dados de áudio compreendem dados de áudio para um primeiro componente de áudio que representa uma fonte de áudio do mundo real em um ambiente de áudio de um usuário; determinar uma primeira propriedade de um componente de áudio do mundo real que chega ao usuário a partir da fonte de áudio do mundo real através da propagação de som; determinar uma propriedade alvo de um componente de áudio combinado recebido pelo usuário em resposta aos dados de áudio do primeiro componente de áudio, sendo que o componente de áudio combinado é uma combinação do componente de áudio do mundo real recebido pelo usuário por meio de propagação de som e áudio renderizado do primeiro componente de áudio recebido pelo usuário; determinar uma propriedade de renderização do primeiro componente de áudio mediante a modificação de uma propriedade do primeiro componente de áudio indicado pelos dados de áudio do primeiro componente de áudio em resposta à propriedade alvo e à primeira propriedade; e renderizar o primeiro componente de áudio em resposta à propriedade de renderização.
[049] Esses e outros aspectos, recursos e vantagens da invenção ficarão evidentes e serão elucidados com referência às uma ou mais modalidades descritas a seguir. Breve descrição dos desenhos
[050] As modalidades da invenção serão descritas, apenas a título de exemplo, com referência aos desenhos, nos quais:
[051] A Figura 1 ilustra um exemplo de disposição cliente-servidor para fornecer uma experiência de realidade virtual; e
[052] a Figura 2 ilustra um exemplo de elementos de um aparelho de áudio de acordo com algumas modalidades da invenção. Descrição detalhada de algumas modalidades da invenção
[053] As experiências virtuais (incluindo aumentadas) que possibilitam que um usuário se mova em um mundo virtual estão se tornando cada vez mais populares e os serviços estão sendo desenvolvidos para satisfazer tal demanda. Em muitas dessas abordagens, dados visuais e de áudio podem ser gerados dinamicamente para refletir a pose atual de um usuário (ou observador).
[054] No campo, os termos “posicionamento” e “pose” são usados como um termo comum para posição e/ou direção/orientação. A combinação da posição e da direção/orientação, por exemplo de um objeto, uma câmera, uma cabeça ou uma vista, pode ser chamada de uma pose ou posicionamento. Dessa forma, uma indicação de posicionamento ou pose pode compreender seis valores/componentes/graus de liberdade com cada valor/componente descrevendo tipicamente uma propriedade individual da posição/localização ou da orientação/direção do objeto correspondente. Naturalmente, em muitas situações, um posicionamento ou uma pose podem ser considerados ou representados com menos componentes, por exemplo se um ou mais componentes forem considerados fixos ou irrelevantes (por exemplo se todos os objetos forem considerados como estando na mesma altura e tiverem uma orientação horizontal, quatro componentes podem fornecer uma representação completa da pose de um objeto). No texto a seguir, o termo “pose” é usado para se referir a uma posição e/ou orientação que pode ser representada por um a seis valores (correspondentes ao número máximo de graus de liberdade possíveis).
[055] Muitas aplicações de VR se baseiam em uma pose que tem o número máximo de graus de liberdade, isto é, três graus de liberdade de cada uma dentre a posição e a orientação resultando em um total de seis graus de liberdade. Uma pose pode, dessa forma, ser representada por um conjunto ou vetor de seis valores que representam os seis graus de liberdade e, dessa forma, um vetor de pose pode fornecer uma posição tridimensional e/ou uma indicação de direção tridimensional. Entretanto, deve-se considerar que, em outras modalidades, a pose pode ser representada por menos valores.
[056] Um sistema ou entidade baseado no fornecimento do grau máximo de liberdade para o observador é tipicamente chamado como tendo 6 graus de liberdade (6 DoF -
“Degrees of Freedom”). Muitos sistemas e entidades fornecem apenas uma orientação ou posição e estas são tipicamente conhecidas por ter 3 Graus de Liberdade (3 DoF).
[057] Tipicamente, a aplicação de realidade virtual gera uma saída tridimensional na forma de imagens de visualização separadas para os olhos esquerdo e direito. Essas podem então ser apresentadas ao usuário por meios adequados, como, por exemplo, indicações individuais de olho esquerdo e direito de um headset de VR. Em outras modalidades, uma ou mais imagens de visualização podem, por exemplo, ser apresentadas em uma tela autoestereoscópica ou, de fato, em algumas modalidades, apenas uma única imagem bidimensional pode ser gerada (por exemplo, com o uso de uma tela bidimensional convencional).
[058] De modo similar, para uma pose de determinado usuário/observador/ouvinte, uma representação de áudio da cena pode ser fornecida. A cena de áudio é tipicamente renderizada para fornecer uma experiência espacial onde as fontes de áudio são entendidas como originadas de posições desejadas. Como as fontes de áudio podem ser estáticas na cena, as alterações na pose do usuário resultarão em uma alteração na posição relativa da fonte de áudio em relação à pose do usuário. Consequentemente, a percepção espacial da fonte de áudio deve mudar para refletir a nova posição em relação ao usuário. A renderização de áudio pode, consequentemente, ser adaptada de acordo com a pose do usuário.
[059] Em muitas modalidades, a renderização de áudio é uma renderização binaural que usa funções de transferência relacionadas à cabeça (HRTFs - Head Related Transfer Functions) ou Respostas de Impulso de Ambiente
Binaural (BRIRs - Binaural Room Impulse Responses) (ou similares) para fornecer o efeito espacial desejado para um usuário que usa um fone de ouvido. No entanto, deve-se considerar que, em alguns sistemas, o áudio pode ser emitido com o uso de um sistema de alto-falantes e que os sinais para cada alto-falante podem ser transmitidos de forma que o efeito global no usuário corresponda à experiência espacial pretendida.
[060] A entrada da pose do observador ou usuário pode ser determinada de diferentes maneiras em diferentes aplicações. Em muitas modalidades, o movimento físico de um usuário pode ser diretamente rastreado. Por exemplo, uma câmera que inspeciona uma área de usuário pode detectar e rastrear a cabeça do usuário (ou mesmo os olhos). Em muitas modalidades, o usuário pode usar um headset de VR que pode ser rastreado por meios externos e/ou internos. Por exemplo, o headset pode compreender acelerômetros e giroscópios que fornecem informações sobre o movimento e a rotação do headset e, dessa forma, sobre a cabeça. Em alguns exemplos, o headset de VR pode transmitir sinais ou incluir identificadores (por exemplo, visuais) que possibilitam que um sensor externo determine a posição do headset de VR.
[061] Em alguns sistemas, a pose de observador pode ser fornecida por meios manuais, por exemplo, quando o usuário controla manualmente um joystick ou entrada manual similar. Por exemplo, o usuário pode mover manualmente o observador virtual pela cena virtual mediante o controle de um primeiro joystick analógico com uma mão e o controle manual da direção na qual o observador virtual está olhando ao mover manualmente uma segunda alavanca analógica com a outra mão.
[062] Em algumas aplicações, uma combinação de abordagens manuais e automatizadas pode ser usada para gerar a pose de entrada do observador. Por exemplo, um headset pode rastrear a orientação da cabeça e o movimento/posição do observador na cena pode ser controlado pelo usuário mediante o uso de um joystick.
[063] Em alguns sistemas, a aplicação de VR pode ser fornecida localmente a um observador, por exemplo, através de um dispositivo autônomo que não usa, ou nem mesmo tem acesso a, quaisquer dados ou processamento remoto de VR. Por exemplo, um dispositivo como um console de jogos pode incluir um armazenamento para armazenar os dados da cena, ação para receber/gerar a pose do observador e um processador para gerar as imagens correspondentes a partir dos dados da cena.
[064] Em outros sistemas, a aplicação de VR pode ser implementada e executada remotamente a partir do observador. Por exemplo, um dispositivo local para o usuário pode detectar/receber dados de movimento/poses que são transmitidos para um dispositivo remoto que processa os dados para gerar a pose do observador. O dispositivo remoto pode, então, gerar imagens de visualização adequadas para a pose de observador com base nos dados de cena que descrevem os dados da cena. As imagens de visualização são então transmitidas para o dispositivo local para o observador onde são apresentadas. Por exemplo, o dispositivo remoto pode gerar diretamente um fluxo de vídeo (tipicamente um fluxo estéreo/vídeo 3D) que é apresentado diretamente pelo dispositivo local. De modo similar, o dispositivo remoto pode gerar uma cena de áudio refletindo o ambiente de áudio virtual. Isso pode, em muitas modalidades, ser feito mediante a geração de sinais de áudio que correspondem à posição relativa de diferentes fontes de áudio no ambiente de áudio virtual, por exemplo, aplicando-se processamento binaural aos componentes de áudio individuais que correspondem à posição atual destes em relação à pose da cabeça. Assim, nesse exemplo, o dispositivo local não pode executar nenhum processamento de VR, exceto para transmitir dados de movimento e apresentar dados de vídeo e áudio recebidos.
[065] Em muitos sistemas, a funcionalidade pode ser distribuída por um dispositivo local e um dispositivo remoto. Por exemplo, o dispositivo local pode processar dados de entrada e de sensor recebidos para gerar poses de observador que são transmitidas continuamente para o dispositivo de VR remoto. O dispositivo de VR remoto pode, então, gerar as imagens de visualização correspondentes e transmiti-las ao dispositivo local para apresentação. Em outros sistemas, o dispositivo de VR remoto pode não gerar diretamente as imagens de visualização, mas pode selecionar os dados de cena relevantes e transmiti- los ao dispositivo local, o que poderá então gerar as imagens da visualização apresentadas. Por exemplo, o dispositivo de VR remoto pode identificar o ponto de captura mais próximo e extrair os dados de cena correspondentes (por exemplo, imagem esférica e dados de profundidade do ponto de captura) e transmiti-los ao dispositivo local. O dispositivo local pode então processar os dados de cena recebidos para gerar as imagens para a pose de visualização atual específica.
[066] De modo similar, o dispositivo de VR remoto pode gerar dados de áudio que representam uma cena de áudio, transmitindo componentes/objetos de áudio correspondentes a diferentes fontes de áudio na cena de áudio, juntamente com informações de posição que indicam a posição destas (que podem,
por exemplo, mudar dinamicamente para objetos em movimento). O dispositivo de VR local pode então processar esses sinais de forma adequada, por exemplo, mediante a aplicação de um processamento binaural adequado que reflita a posição relativa das fontes de áudio para os componentes de áudio.
[067] A Figura 1 ilustra tal um exemplo de um sistema de VR no qual um servidor de VR remoto 101 estabelece ligação a um dispositivo cliente de VR 103, por exemplo, através de uma rede 105, como a Internet. O servidor de VR remoto 101 pode estar disposto de modo a suportar simultaneamente um número potencialmente grande de dispositivos de VR clientes 103.
[068] Tal abordagem pode, em muitos cenários, proporcionar um melhor acordo, por exemplo, entre a complexidade e as exigências de recursos para diferentes dispositivos, requisitos de comunicação etc. por exemplo, a pose do observador e os dados de cena correspondentes podem ser transmitidos com intervalos maiores com o dispositivo local que processa os dados da pose do observador e da cena recebidos localmente para proporcionar uma experiência em tempo real com pouco atraso. Isso pode, por exemplo, reduzir substancialmente a largura de banda de comunicação necessária, ao mesmo tempo em que proporciona uma experiência de atraso baixo e ao mesmo tempo possibilita que os dados de cena sejam armazenados, gerados e mantidos centralmente. Pode, por exemplo, ser adequado para aplicações em que é fornecida uma experiência de VR a uma pluralidade de dispositivos remotos.
[069] A Figura 2 ilustra um aparelho de áudio para renderizar áudio com base em dados de áudio recebidos de uma cena de áudio. O aparelho pode ser disposto de modo a gerar áudio que fornece uma representação de áudio da cena e pode ser usado especificamente em uma aplicação de VR para fornecer uma representação de áudio do ambiente de VR/RA. O aparelho pode ser complementado por um aparelho que gera uma representação visual da cena, conforme será conhecido pelo versado na técnica. O aparelho pode, consequentemente, fazer parte de um sistema que proporciona uma experiência de VR/RA imersiva com um fornecimento coordenado de áudio e vídeo espaciais. O aparelho da Figura 2 pode fazer parte do dispositivo cliente de VR 103 da Figura 1.
[070] O aparelho da Figura 2 é disposto de modo a receber e processar os dados de áudio de uma cena de áudio que, no exemplo específico, corresponde a uma cena de uma experiência de VR (RA). Por exemplo, os movimentos/poses da cabeça do usuário podem ser rastreados e alimentados para um servidor de VR local ou remoto que prossegue para gerar imagens de vídeo 3D e áudio espacial correspondente à pose do usuário. Os dados de áudio espacial correspondentes podem ser processados pelo aparelho da Figura 2.
[071] Os dados de áudio podem incluir dados para uma pluralidade de componentes ou objetos de áudio. O áudio pode, por exemplo, ser representado como áudio codificado para um dado componente de áudio que deve ser renderizado. Os dados de áudio podem compreender adicionalmente dados posicionais que indicam uma posição da fonte do componente de áudio. Os dados posicionais podem, por exemplo, incluir dados de posição absoluta que definem uma posição da fonte de áudio na cena. O aparelho local pode, em tal modalidade, determinar uma posição relativa da fonte de áudio em relação à pose atual do usuário. Dessa forma, os dados de posição recebidos podem ser independentes dos movimentos do usuário e uma posição relativa para fontes de áudio pode ser determinada localmente para refletir a posição da fonte de áudio em relação ao usuário. Dessa forma, tal posição relativa pode indicar a posição relativa de onde o usuário deve perceber que a fonte de áudio se origina. A mesma irá, consequentemente, variar dependendo dos movimentos da cabeça do usuário. Em outras modalidades, os dados de áudio podem compreender dados da posição que descrevem diretamente a posição relativa.
[072] Um problema para muitos desses sistemas e aplicações práticas é que o áudio no ambiente geral pode afetar a experiência do usuário. Na prática, tende a ser difícil suprimir completamente o áudio no ambiente local e certamente, mesmo no caso de se usar fones de ouvido, há tipicamente uma contribuição percebível do ambiente local ao áudio percebido. Em alguns casos, tais sons podem ser suprimidos com o uso, por exemplo, de cancelamento de ruído ativo. Entretanto, isso não é conveniente para fontes de áudio que têm um equivalente direto na cena de VR.
[073] De fato, o problema de interferência entre sons do ambiente real e sons da cena de áudio é particularmente problemático para aplicações que fornecem uma experiência de VR que também reflete o ambiente local, como, por exemplo, muitas experiências de RA.
[074] Por exemplo, buscam-se aplicações que incluam um aspecto “social” ou “compartilhado” da VR, onde, por exemplo, uma pluralidade de pessoas no mesmo ambiente local (por exemplo, sala) compartilha uma experiência comum. Tais casos de uso “social” ou “compartilhado” estão sendo propostos, por exemplo, em MPEG, e agora são uma das principais classes de experiência para a atividade de padronização atual de MPEG-I. Um exemplo de tal aplicação é onde várias pessoas estão na mesma sala e compartilham a mesma experiência de VR com uma projeção (áudio e vídeo) de cada participante que está presente no conteúdo de VR.
[075] Nesse tipo de aplicação, o ambiente de VR pode incluir uma fonte de áudio correspondente a cada participante, mas, além disso, o usuário pode, por exemplo, devido ao vazamento típico dos fones de ouvido, ouvir também os outros participantes diretamente. Essa interferência pode ser prejudicial à experiência do usuário e pode reduzir a imersão para o participante. Entretanto, a execução da supressão de ruído no componente de som real é muito difícil e é computacionalmente bastante dispendioso. Por exemplo, a maioria das técnicas típicas de cancelamento de ruído baseia-se em um microfone dentro dos fones de ouvido e usa um loop de retroinformação para minimizar (de preferência, atenuar completamente) qualquer componente de sinal do mundo real no sinal do microfone (assim, o sinal do microfone pode ser considerado o sinal de erro que gera o loop). Entretanto, tal abordagem não é viável quando se deseja que a fonte de áudio esteja presente no áudio percebido.
[076] O aparelho da Figura 2 pode, em muitas modalidades e cenários, fornecer uma experiência de usuário aprimorada na presença de áudio local que também está presente na cena de VR.
[077] O receptor 201 do aparelho da Figura 2 recebe dados de áudio de uma cena de áudio, conforme mencionado anteriormente. No exemplo, os dados de áudio incluem especificamente um primeiro componente de áudio ou objeto representando uma fonte de áudio do mundo real presente no ambiente de áudio de um usuário. O primeiro componente de áudio pode, consequentemente, fornecer dados de sinal de áudio e dados de posição de uma fonte de áudio do mundo real local como, por exemplo, um alto-falante/ participante local que também está presente localmente (por exemplo, no mesmo ambiente).
[078] O aparelho pode ser especificamente disposto de modo a renderizar os dados de cena de áudio para fornecer ao usuário uma experiência da cena de áudio. Entretanto, em vez de meramente renderizar a cena de áudio diretamente, o aparelho é disposto de modo a (pré)processar os dados/componentes de áudio antes da renderização, de modo que o resultado seja compensado para o som direto que pode ser recebido para fontes de áudio que estão presentes tanto na cena de áudio representada pelos dados de áudio como no ambiente local do mundo real. Conforme anteriormente descrito, em cenários de VR (incluindo RA), os sons reais externos podem interferir nos sons virtuais renderizados e na coerência do conteúdo virtual, e a abordagem do aparelho da Figura 2 no pré- processamento/compensação dos sons do mundo real pode mitigar isso e fornecer uma experiência de áudio substancialmente aprimorada.
[079] O termo “virtual” será usado a seguir para se referir a componentes e fontes de áudio da cena de áudio representados pelos dados de áudio recebidos, enquanto as fontes de áudio e componentes do ambiente externo serão chamados pelo termo “mundo real”. O som do mundo real é recebido e ouvido pelo usuário, uma vez que ele se propagará da fonte de áudio do mundo real correspondente para o (ouvido do) usuário por propagação de som do mundo real (físico) e, dessa forma, serão vibrações no ar e/ou meio (material).
[080] O aparelho da Figura 2 não se baseia em controlar ou modificar dinamicamente o som do mundo real, por exemplo, pela supressão de ruídos. Em vez disso, a abordagem se baseia na tentativa de modificar o som virtual renderizado com base no som do mundo real de modo que o som virtual renderizado seja compensado pelo efeito que o som do mundo real pode ter na percepção geral pelo usuário. A abordagem empregada é tipicamente baseada na compensação da renderização das fontes de áudio virtual de modo que o efeito combinado da renderização da fonte de áudio virtual e do som do mundo real resulte no efeito percebido no usuário correspondente à fonte de áudio virtual descrita pelos dados de áudio recebidos.
[081] A abordagem determina especificamente uma propriedade alvo que reflete a percepção desejada do usuário. A propriedade alvo é determinada a partir dos dados de áudio recebidos e pode, geralmente, ser uma propriedade do componente de áudio, conforme definido pelos dados de áudio, como, por exemplo, o nível desejado ou posição da fonte de áudio. A propriedade alvo pode corresponder especificamente a uma propriedade do componente de sinal, conforme definido pelos dados de áudio recebidos. Em abordagens convencionais, o componente de áudio será renderizado com essa propriedade, por exemplo, será renderizado como originário da posição ou nível definido pelos dados de áudio do componente de áudio. Entretanto, no aparelho da Figura 2, esse valor pode, em vez disso, ser usado como uma propriedade alvo de um componente de áudio combinado que corresponde à combinação do componente de áudio virtual e do componente de áudio do mundo real para a mesma fonte, isto é, a propriedade alvo não é uma propriedade alvo da renderização do componente de áudio virtual e do componente de áudio do mundo real. Dessa forma, ela é uma propriedade alvo da combinação do som que é produzido no ouvido do usuário pela renderização dos dados de áudio recebidos adequados e do som do mundo real que chega ao usuário através da propagação de som do mundo real. A combinação reflete, assim, a combinação do áudio virtual renderizado ao usuário e do som do mundo real que o usuário ouve diretamente.
[082] Consequentemente, tendo determinado a propriedade alvo, o aparelho determina/estima adicionalmente uma propriedade do componente de áudio do mundo real, como uma propriedade ou nível do componente de áudio do mundo real. O aparelho pode, então, prosseguir para determinar uma propriedade modificada ou ajustada para a renderização do componente de áudio virtual com base na propriedade estimada do componente de áudio do mundo real e do componente de áudio alvo. A propriedade modificada pode ser determinada especificamente de modo que o componente de áudio combinado tenha uma propriedade mais próxima à propriedade alvo e, idealmente, de modo que corresponda à propriedade alvo. A propriedade modificada do componente de áudio virtual é, assim, gerada para compensar a presença do componente de áudio do mundo real para resultar em um efeito combinado mais próximo do definido pelos dados de áudio. Como um exemplo de baixa complexidade, o nível do componente de áudio virtual pode ser reduzido para compensar o nível do componente de áudio do mundo real, de modo que o nível de áudio combinado corresponda (ou ao menos esteja mais próximo) ao nível definido pelos dados de áudio.
[083] A abordagem pode, consequentemente, basear-se em não controlar diretamente o som do mundo real, mas em compensar o efeito/contribuição destes (por exemplo, devido a vazamentos de som externos), possivelmente ao nível psicoacústico, para que a interferência perceptível do som do mundo real seja reduzida. Isso pode proporcionar uma percepção de estágio de som mais consistente e coerente em muitas modalidades. Por exemplo, se um objeto de áudio deve ser renderizado no ângulo Y° no ambiente virtual e uma fonte de áudio equivalente no mundo real está emitindo da direção X°, então, a propriedade da posição para o componente de áudio virtual será modificada de forma que seja renderizada na posição Z°, de modo que Z° > Y° > X°, contrariando assim o efeito de posição incorreta causado pelo áudio do mundo real. No caso da compensação de intensidade, se um componente de áudio virtual de acordo com os dados de áudio recebidos deve ser renderizado com uma intensidade de | Y | no ambiente virtual, e a fonte de áudio equivalente no mundo real está emitindo um componente de áudio do mundo real a uma intensidade de | X |, então, o componente de áudio virtual será modificado para ser renderizado a uma intensidade reduzida | Z | com | Z | < | Y | e, idealmente, de forma a que |Y||X|Z|.
[084] Uma vantagem específica da abordagem da Figura 2 é que, em muitos cenários e modalidades práticas, possibilita-se um desempenho substancialmente aprimorado com baixa complexidade e requisitos de recursos computacionais reduzidos. De fato, em muitas modalidades, o pré-processamento antes da renderização pode simplesmente corresponder à modificação de um parâmetro, como alteração de um ganho/nível. Em muitas modalidades, pode não ser necessário executar o processamento de sinal detalhado, pois o processo simplesmente ajusta uma propriedade geral, como um nível ou posição.
[085] O aparelho compreende especificamente um estimador 203 que é disposto de modo a estimar uma primeira propriedade de um componente de áudio do mundo real para a fonte de áudio do mundo real.
[086] O estimador pode estimar a primeira propriedade como uma propriedade de um componente de áudio do mundo real que chega ao usuário (e especificamente ao ouvido do usuário) a partir da fonte de áudio do mundo real através da propagação de som.
[087] O componente de áudio do mundo real que chega ao usuário (e especificamente ao ouvido do usuário) a partir da fonte de áudio do mundo real através da propagação do som pode assim refletir especificamente o áudio da fonte de áudio do mundo real recebido através de um canal de propagação do som acústico, que por exemplo pode ser representado por uma função de transferência acústica.
[088] A propagação do som (especificamente, a propagação de som do mundo real) é propagação de som por vibrações no ar e/ou outros meios. Isso pode incluir múltiplas trajetórias e reflexões. O som pode ser considerado vibrações que viajam através do ar e/ou outro meio (ou meios) e que podem ser ouvidos quando chegam ao ouvido de uma pessoa ou animal. A propagação do som pode ser considerada a propagação de áudio por vibrações que se deslocam através do ar e/ou outro meio.
[089] O componente de áudio do mundo real pode ser considerado como representando a forma de áudio da fonte de áudio do mundo real que seria ouvida pelo usuário se nenhum áudio fosse renderizado. O componente de áudio do mundo real pode ser um componente de áudio que chega ao usuário apenas por propagação de som. Especificamente, o componente de áudio do mundo real pode ser um componente de áudio que chega ao usuário a partir da fonte de áudio do mundo real, sendo comunicado/propagado através de um canal de propagação de som, incluindo apenas vibrações físicas e sem transformação elétrica ou de outro domínio de sinal, captura, gravação ou qualquer outra alteração. Ele pode representar um componente de áudio completamente acústico.
[090] O componente de áudio do mundo real pode ser um componente de áudio em tempo real e pode ser especificamente recebido em tempo real, de modo que a diferença de tempo entre a fonte de áudio do mundo real e o usuário (ou especificamente o ouvido do usuário) seja dada por (seja substancialmente igual a) o atraso acústico o atraso resultante da velocidade das vibrações que viajam através do ar/meios) da fonte de áudio do mundo real para o usuário. O componente de áudio do mundo real pode ser o componente de áudio correspondente ao que é ouvido da fonte de áudio do mundo real se o primeiro componente de áudio não é renderizado.
[091] A primeira propriedade pode, por exemplo, ser um nível, posição ou conteúdo/distribuição de frequência do componente de áudio do mundo real. A propriedade do componente de áudio do mundo real pode ser especificamente uma propriedade do componente de áudio ao chegar ao usuário, e especificamente ao ouvido do usuário, ou pode ser, por exemplo, uma propriedade do componente de áudio na fonte de áudio.
[092] Em muitas modalidades, a propriedade pode ser determinada a partir de um sinal de microfone capturado por um microfone posicionado no ambiente, como por exemplo um nível do componente de áudio capturado por um microfone posicionado dentro do fone de ouvido. Em outras modalidades, a propriedade pode ser determinada de outras maneiras, como, por exemplo, uma propriedade de posição correspondente à posição da fonte de áudio do mundo real.
[093] O receptor 201 e o estimador 203 são acoplados a um processador alvo 205 que é disposto de modo a determinar uma propriedade alvo do componente de áudio combinado para a fonte de áudio que é recebida pelo usuário. O componente de áudio combinado é, dessa forma, a combinação do componente de áudio do mundo real e do áudio renderizado do componente de áudio virtual para a mesma fonte de áudio quando recebido pelo usuário. A propriedade alvo pode, consequentemente, refletir a propriedade desejada do sinal combinado que é percebido pelo usuário.
[094] A propriedade alvo é determinada a partir dos dados de áudio recebidos e pode ser determinada especificamente como a propriedade do componente de áudio virtual, conforme definido pelos dados de áudio. Por exemplo, pode ser um nível ou uma posição do componente de áudio virtual, conforme definido pelos dados de áudio. Essa propriedade para a renderização do componente de áudio virtual define/descreve o componente de áudio virtual na cena de áudio e, assim, reflete a propriedade percebida pretendida do componente de áudio virtual na cena de áudio quando este é renderizado.
[095] O processador alvo 205 é acoplado a um ajustador 207, o qual também é acoplado ao receptor 201. O ajustador 207 é disposto de modo a determinar uma propriedade de renderização do componente de áudio virtual mediante a modificação de uma propriedade do componente de áudio virtual a partir do valor indicado pelos dados de áudio a um valor modificado que é, então, usado para a renderização. O valor modificado é determinado com base na propriedade alvo e na propriedade estimada do componente de áudio do mundo real. Por exemplo, a posição do componente de áudio virtual pode ser definida com base na posição pretendida, conforme indicado pelos dados de áudio e na posição da fonte de áudio do mundo real em relação à pose do usuário (e, por exemplo, também com base no nível estimado do componente de áudio do mundo real).
[096] O ajustador 207 é acoplado a um renderizador 209 ao qual é alimentado os dados de áudio e a propriedade modificada e que é disposto de modo a renderizar o áudio dos dados de áudio baseados na propriedade modificada. Especificamente, ele renderiza o componente de áudio virtual com a propriedade modificada em vez de com a propriedade original definida pelos dados de áudio recebidos.
[097] O renderizador 209 é tipicamente disposto de modo a fornecer uma renderização espacial e pode, por exemplo, em algumas modalidades, renderizar os componentes de áudio da cena de áudio com o uso de uma configuração de alto- falante espacial como uma configuração de alto-falante de som surround ou, por exemplo, com o uso de um sistema de som de áudio híbrido (combinação de alto-falante e fone de ouvido).
[098] Entretanto, em muitas modalidades, o renderizador 209 será disposto de modo a gerar uma renderização espacial sobre fones de ouvido. O renderizador 209 pode ser especificamente disposto de modo a aplicar filtragem binaural com base em HRTFs ou BRIRs para fornecer uma renderização de áudio espacial sobre fones de ouvido, conforme será conhecido pelo versado na técnica.
[099] O uso de fones de ouvido pode proporcionar uma experiência de VR particularmente vantajosa em muitas modalidades com uma experiência mais imersiva e personalizada, em particular em situações em que uma pluralidade de participantes está presente na mesma sala/ambiente local. Os fones de ouvido podem também, tipicamente, fornecer atenuação do som externo facilitando, assim, o fornecimento de um estágio de som consistente com a cena de áudio definida pelos dados de áudio recebidos e com interferência reduzida do ambiente local. Entretanto, tipicamente, tal atenuação não é completa e pode haver um vazamento de som significativo através dos fones de ouvido. De fato, em algumas modalidades, pode até mesmo ser desejável que o usuário tenha alguma percepção de áudio do ambiente local. No entanto, para fontes de áudio locais do mundo real que também estão presentes na cena de áudio virtual, isso pode causar interferência de áudio entre a fonte virtual e real, resultando em uma experiência de áudio menos consistente, por exemplo, com a renderização visual da cena virtual. O aparelho da Figura 2 pode executar um pré- processamento que pode reduzir o impacto perceptual da presença das fontes de áudio do mundo real.
[100] A abordagem pode ser particularmente interessante no caso de um som real em torno de um usuário com fones de ouvido enquanto esses sons (ou o objeto que representam) também fazem parte do ambiente de VR/RA, ou seja, quando a energia dos sons circundantes pode ser reutilizada para renderizar o conteúdo binaural reproduzido através dos fones de ouvido e/ou quando os sons circundantes não têm de ser totalmente suprimidos. Por um lado, o fone de ouvido está reduzindo a intensidade e a diretividade do som (vazamento do fone de ouvido), por outro lado, não é possível suprimir e substituir totalmente esses sons circundantes (é quase impossível alinhar perfeitamente os sons não estacionários em tempo real). O aparelho pode compensar o som do mundo real, melhorando assim a experiência para o usuário. Por exemplo, o sistema pode ser usado para compensar vazamento e/ou atenuação, acústicos de fone de ouvido, frequência e direção de incidência.
[101] Em muitas modalidades, a propriedade pode ser um nível dos componentes de áudio. Dessa forma, a propriedade alvo pode ser um nível absoluto ou relativo do componente de áudio combinado, a propriedade estimada do componente de áudio do mundo real pode ser um nível absoluto ou relativo, e a propriedade de renderização pode ser um nível absoluto ou relativo.
[102] Por exemplo, os dados de áudio recebidos podem representar o componente de áudio virtual com um nível em relação a outros componentes de áudio na cena de áudio. Dessa forma, os dados de áudio recebidos podem descrever o nível do componente de áudio virtual em relação à cena de áudio como um todo e o ajustador 207 pode definir diretamente a propriedade alvo para corresponder a esse nível. Adicionalmente, uma posição de microfone dentro do fone de ouvido pode medir o nível de áudio do componente de áudio do mundo real a partir da mesma fonte de áudio. Em algumas modalidades, o nível do componente de áudio do mundo real da mesma fonte de áudio pode, por exemplo, ser determinado mediante a correlação do sinal de microfone com o sinal de áudio do componente de áudio virtual e a magnitude da correlação pode ser definida com base nisso (por exemplo, com o uso de uma função monotônica adequada).
[103] O ajustador 207 pode então continuar a determinar a propriedade de renderização como um nível de renderização que corresponde ao nível definido pelos dados de áudio recebidos, mas reduzido por um nível correspondente ao nível do componente de áudio do mundo real. Como um exemplo de baixa complexidade, o ajustador 207 pode ser disposto de modo a fazer isso pela adaptação de um ganho para o componente de áudio virtual (absoluto ou relativo a outros componentes de áudio na cena de áudio), por exemplo, ajustando o ganho como uma função monotonicamente decrescente da correlação entre o sinal de microfone e o sinal do componente de áudio virtual. Esse último exemplo é, por exemplo, adequado no caso de um cenário de VR clássico em que a abordagem pode procurar ajustar o conteúdo de VR tanto quanto possível.
[104] No caso de um cenário de RA onde alguns elementos do mundo real precisam ser aumentados, uma função monotônica crescente poderia ser considerada. Essa função também pode ser definida como zero antes de um determinado limiar de correlação antes de aumentar (dependendo da intenção artística). O estimador 203 pode usar diferentes abordagens para determinar o nível do componente de áudio do mundo real em diferentes modalidades. Em muitas modalidades, o nível pode ser determinado com base em um sinal de microfone para um ou mais sinais de microfone situados no interior do fone de ouvido. Como mencionado anteriormente, a correlação deste com o componente de áudio virtual pode ser usada como uma propriedade de nível estimado do componente de áudio do mundo real.
[105] Além disso, o estimador 203 pode usar a propriedade de atenuação de nível geral do fone de ouvido para estimar com mais precisão o nível percebido na região do ouvido próximo. Tal estimativa pode ser transmitida diretamente ao ajustador 207 como o nível de um componente de áudio do mundo real.
[106] No caso de um microfone situado no fone de ouvido e de gravação fora do fone de ouvido, o estimador 203 pode usar a propriedade de atenuação de nível geral do fone de ouvido para estimar com maior precisão o nível percebido na região do ouvido próximo. Tal estimativa pode ser transmitida diretamente ao ajustador 207 como o nível de um componente de áudio do mundo real. Em algumas modalidades, a propriedade alvo pode ser uma propriedade de posição, e pode especificamente ser a posição percebida do componente de áudio combinado. Em muitas modalidades, a propriedade alvo pode ser determinada como a posição percebida pretendida do áudio combinado correspondente à fonte de áudio. Os dados de áudio podem incluir uma posição do componente de áudio virtual na cena de áudio e a posição alvo pode ser determinada como essa posição indicada.
[107] A propriedade estimada do componente de áudio do mundo real pode ser, de modo correspondente, uma propriedade de posição, como especificamente a posição da fonte de áudio do componente de áudio do mundo real. A posição pode ser uma posição relativa ou absoluta. Por exemplo, a posição do componente/fonte de áudio do mundo real pode ser determinada como uma coordenada x, y, z (ou coordenadas angulares 3D) em um sistema de coordenadas predeterminado da sala ou pode, por exemplo, ser determinada em relação ao headset do usuário.
[108] O estimador 203 pode, em algumas modalidades, ser disposto de modo a determinar a posição em resposta aos sinais de medição dedicados. Por exemplo, em modalidades em que cada fonte de áudio corresponde a um participante com múltiplos participantes presentes na mesma sala, os fones de ouvido dos participantes podem compreender, por exemplo, a funcionalidade de ajuste de infravermelho que pode detectar a distância até outros fones de ouvido, bem como potencialmente para fixar pontos na sala. As posições relativas dos fones de ouvido e participantes e, portanto, a posição relativa a outras fontes de áudio do mundo real (os outros participantes) podem ser determinadas a partir dos intervalos de distância individuais.
[109] Em algumas modalidades, o estimador 203 está disposto de modo a determinar a primeira propriedade em resposta a uma detecção de um objeto que corresponde à fonte de áudio em uma imagem do ambiente de áudio. Por exemplo, uma ou mais câmeras de vídeo podem monitorar o ambiente, e a detecção de face ou cabeça pode ser usada para determinar as posições de participantes individuais nas imagens. A partir disso, pode-se determinar as posições relativas dos diferentes participantes e, portanto, as diferentes fontes de áudio do mundo real.
[110] Em algumas modalidades, o estimador 203 pode ser disposto de modo a determinar uma posição de uma fonte de áudio a partir da captura de som da fonte de áudio. Por exemplo, um headset pode compreender microfones externos na parte lateral do headset. A direção para uma fonte de som pode então ser estimada a partir de uma detecção do atraso relativo entre os dois microfones para o sinal da fonte de áudio (ou seja, a diferença no tempo de chegada indica um ângulo de chegada). Dois microfones podem determinar o ângulo de chegada em um plano (azimute). Pode ser necessário um terceiro microfone para determinar o ângulo de elevação e a posição 3D exata.
[111] Em algumas modalidades, o estimador 203 pode estar disposto de modo a determinar uma posição de uma fonte de áudio a partir de diferentes técnicas de captura, como sensores que produzem mapas de profundidade, mapas de calor, coordenadas de GPS ou campo de luz (câmeras).
[112] Em algumas modalidades, o estimador 203 pode estar disposto de modo a determinar uma posição de uma fonte de áudio mediante a combinação de diferentes modalidades, ou seja, diferentes métodos de captura. Tipicamente, uma combinação de técnicas de captura de vídeo e áudio pode ser usada para identificar a posição de uma fonte de áudio tanto na imagem quanto na cena de áudio, melhorando, assim, a exatidão da estimativa de posição.
[113] O ajustador 207 pode ser disposto de modo a determinar a propriedade de renderização como uma propriedade de posição modificada. As modificações em termos de coordenadas angulares 3D são mais práticas porque são uma representação centrada no usuário, mas a transcrição em coordenadas x, y, z é uma opção. O ajustador 207 pode, por exemplo, alterar a posição para a direção oposta em relação à direção da fonte virtual para a fonte real, de modo a compensar a falta de correspondência de posição entre o mundo real e o virtual. Isso pode ser refletido no parâmetro de distância ou em um dos parâmetros angulares ou em uma combinação, dependendo da situação. O ajustador 207 pode,
por exemplo, alterar a posição modificando o nível do ouvido esquerdo e direito de modo que a combinação de acústico + renderizado tenha uma diferença de nível entre canais (ILD) correspondente ao ângulo desejado em relação ao usuário.
[114] Em algumas modalidades, a propriedade alvo pode ser uma distribuição de frequência do componente de áudio combinado. De modo similar, a propriedade de renderização pode ser uma distribuição de frequência do componente de áudio virtual renderizado e a propriedade estimada do sinal do mundo real pode ser uma distribuição de frequência do componente de áudio do mundo real aos ouvidos do usuário.
[115] Por exemplo, o componente de áudio do mundo real pode alcançar os ouvidos do usuário através de uma função de transferência acústica que pode ter uma resposta de frequência não plana. A função de transferência acústica pode, por exemplo em algumas modalidades, ser predominantemente determinada por a resposta de frequência da atenuação e vazamento dos fones de ouvido. A atenuação acústica de fones de ouvido para som externo pode variar substancialmente para fones de ouvido diferentes, e mesmo em alguns casos, para usuários diferentes ou diferentes ajustes e posições dos fones de ouvido. Em alguns casos, a característica/função de transferência dos fones de ouvido pode ser substancialmente constante para as frequências relevantes e, consequentemente, pode ser frequentemente considerada como modelada por uma medida de atenuação ou fuga constante.
[116] Entretanto, na prática, as características de transferência de fones de ouvido terão tipicamente uma dependência significativa de frequência dentro da faixa de frequências de áudio. Por exemplo, normalmente, os componentes de som de baixa frequência serão menos atenuados do que os componentes de alta frequência e o som perceptível resultante será diferente.
[117] Em outras modalidades, como quando a renderização de áudio é feita por alto-falantes e o usuário não usa fones de ouvido, a função de transferência acústica pode refletir a resposta acústica geral da fonte do mundo real para o ouvido do usuário. Essa função de transferência acústica pode estar dependente das características da sala, da posição do usuário, da posição da fonte de áudio do mundo real etc.
[118] Nos casos em que a resposta de frequência da função de transferência acústica da fonte de áudio real para o ouvido do usuário não é plana, o componente de áudio real resultante terá uma resposta de frequência diferente da do componente de áudio virtual correspondente (por exemplo, renderizado por fones de ouvido com uma resposta de frequência que pode ser considerada como frequência plana). Consequentemente, o componente de áudio do mundo real não só fará com que o nível do componente de áudio combinado seja alterado, mas também fará com que a distribuição de frequência mude. Dessa forma, o espectro de frequências do componente de áudio combinado irá diferir daquele do componente de áudio virtual, conforme descrito pelos dados de áudio.
[119] Em algumas modalidades, a renderização do componente de áudio virtual pode ser modificada para compensar essa distorção de frequência. Em particular, o estimador 203 pode determinar o espectro de frequência (distribuição de frequência) do componente de áudio do mundo real recebido pelo usuário.
[120] O estimador 203 pode, por exemplo, determinar isso por meio de uma medição do componente de áudio do mundo real durante um intervalo de tempo no qual o componente de áudio virtual não é intencionalmente renderizado. Como outro exemplo, a resposta de frequência de, por exemplo, fones de ouvido usados pelo usuário pode ser estimada com base na geração de sinais de teste no ambiente local (por exemplo, varreduras de frequência de amplitude constante) e na medição dos resultados com o uso de um microfone no interior do fone de ouvido. Em ainda outras modalidades, a resposta de frequência de vazamento do fone de ouvido pode ser conhecida, por exemplo, de testes anteriores.
[121] A distribuição de frequência do componente de áudio do mundo real no ouvido do usuário pode, então, ser estimada pelo estimador 203 para corresponder à distribuição de frequência do componente de áudio do mundo real filtrado pela função de transferência acústica, e isso pode ser usado como a propriedade estimada do componente de áudio do mundo real. Em muitas modalidades, a indicação da distribuição de frequência pode, de fato, ser uma indicação relativa e, dessa forma, a resposta de frequência da função de transferência acústica em muitas modalidades pode ser usada diretamente pelo aparelho (como, por exemplo, a propriedade estimada do componente de áudio do mundo real).
[122] O ajustador 207 pode prosseguir para determinar a propriedade de renderização como uma distribuição de frequência modificada do componente de áudio virtual. A distribuição de frequência alvo pode ser a do componente de áudio virtual, conforme representado pelos dados de áudio recebidos, ou seja, o espectro de frequência alvo do componente de áudio combinado percebido pelo usuário é o espectro de frequência do componente de áudio virtual recebido.
Consequentemente, o ajustador 207 pode modificar o espectro de frequências do componente de áudio virtual renderizado de modo que complemente o espectro de frequências do componente de áudio do mundo real e de modo que os mesmos se somem ao espectro de frequências desejado.
[123] O ajustador 207 pode, especificamente, prosseguir para filtrar o componente de áudio virtual por um filtro determinado a ser complementar à determinada função de transferência acústica. Especificamente, o filtro pode ser substancialmente recíproco da função de transferência acústica.
[124] Tal abordagem pode, em muitas modalidades, fornecer uma distribuição de frequência aprimorada e uma distorção reduzida percebida, e pode resultar especificamente no áudio combinado ser percebido pelo usuário tendo uma distorção de frequência reduzida do que se o componente de áudio virtual não modificado fosse renderizado.
[125] Em algumas modalidades, o ajustador pode ser disposto de modo a determinar a propriedade de renderização em resposta a um limiar psicoacústico para detectar diferenças de áudio. A capacidade psicoacústica humana (ângulo audível mínimo (possivelmente frequência e dependência azimutal), ângulo de movimento auditivo mínimo etc.) poderia ser usada como parâmetro interno para decidir quanto o sistema deve compensar os vazamentos externos de som de entrada.
[126] Por exemplo, no caso em que a propriedade de renderização é uma propriedade de posição; o ajustador pode especificamente usar a capacidade humana para perceber fontes separadas como uma. A capacidade pode ser usada para definir um máximo angular entre a posição da fonte de áudio do mundo real e a posição da fonte de áudio virtual (renderizada).
[127] Uma vez que essa capacidade humana também é afetada pela visão humana, ou seja, se o usuário puder ver (ou não) uma (ou muitas) correspondência(s) visual(ais) na(s) posição(ões) indicada(s), podem ser escolhidos máximos angulares diferentes correspondentes com base em informações sobre se os objetos correspondentes podem ser vistos pelo usuário em um ambiente virtual ou real.
[128] Em algumas modalidades, o ajustador 207 pode ser disposto de modo a determinar a propriedade de renderização em resposta a informações sobre se um usuário é capaz de ver o equivalente visual da fonte de áudio do mundo real (no caso de RA) ou a contraparte visual da fonte de áudio virtual (no caso de VR) ou ambos (realidade mista).
[129] O máximo angular acima também pode ser escolhido com base nas frequências das fontes de áudio ou nos azimutes, uma vez que tem um impacto na capacidade humana.
[130] Um outro exemplo é o uso da capacidade humana de correlacionar um objeto visual a um elemento de áudio. Isso pode ser usado para a propriedade de renderização como uma amplitude máxima de modificação angular da propriedade alvo, desde que o objeto visual esteja na mesma posição da fonte de áudio nos dados recebidos.
[131] Para cenários fora desses limites psicoacústicos humanos, o ajustador pode ser disposto de modo a não atrapalhar a experiência geral.
[132] Por exemplo, o ajustador 207 pode não executar nenhuma modificação fora desses limites.
[133] Em algumas modalidades, o renderizador 209 pode ser disposto de modo a fornecer uma renderização espacial que assegurará uma transição suave entre situações em que o aparelho é capaz de compensar a disparidade entre o mundo real e a fonte virtual dentro da capacidade psicoacústica humana e a situação em que o aparelho não pode compensar dentro desses limites e preferir não afetar a renderização.
[134] Por exemplo, o renderizador (209) pode usar um filtro de suavização temporal na propriedade de renderização fornecida transmitida ao renderizador (209).
[135] O aparelho descrito busca, consequentemente, adaptar a renderização de um componente de áudio virtual com base nas propriedades de um componente de áudio do mundo real para a mesma fonte de áudio do mundo real. Em muitas modalidades, a abordagem pode ser aplicada a uma pluralidade de componentes de áudio/fonte de áudio e especificamente a todos os componentes de áudio/fontes de áudio que existem nos cenários virtual e real.
[136] Em algumas modalidades, pode-se saber quais componentes de áudio dos dados de áudio têm origens no mundo real e para quais há uma fonte de áudio local. Por exemplo, pode ser conhecido que a cena de áudio virtual é gerada para incluir apenas fontes de áudio locais do mundo real (por exemplo, em uma experiência de VR/RA localizada).
[137] Entretanto, em outros casos, esse pode ser apenas o caso de um subconjunto dos componentes de áudio. Em algumas modalidades, o receptor pode receber os componentes de áudio que têm fontes do mundo real no ambiente do usuário a partir de uma ou mais fontes diferentes das fontes que são puramente virtuais para o usuário atual, já que elas podem ser fornecidas através de uma (parte da) interface específica.
[138] Em outros casos, pode não ser conhecido a priori quais componentes de áudio têm equivalentes no mundo real.
[139] Em algumas modalidades, o receptor 201 pode ser disposto de modo a determinar quais componentes de áudio têm equivalentes no mundo real em resposta aos metadados dos dados de cena de áudio. Por exemplo, os dados recebidos podem, por exemplo, ter metadados dedicados que indicam se componentes de áudio individuais têm equivalentes no mundo real ou não. Por exemplo, para cada componente de áudio nos dados de áudio recebidos, pode haver um único sinalizador indicando se ele reflete ou não uma fonte de áudio local do mundo real. Em caso afirmativo, o aparelho pode prosseguir para compensar o componente de áudio antes da renderização, conforme descrito acima.
[140] Tal abordagem pode ser altamente vantajosa em muitas modalidades. Em particular, isso pode possibilitar que um servidor remoto controle ou guie a operação do aparelho de áudio e, assim, a renderização local. Em muitas aplicações práticas, o serviço de VR é fornecido por um servidor remoto e esse servidor pode não apenas ter informações de onde as fontes de áudio do mundo real estão localizadas, mas pode também determinar e decidir quais fontes de áudio estão incluídas na cena de áudio. Consequentemente, o sistema pode possibilitar o controle remoto eficiente da operação.
[141] Em muitas modalidades, o receptor 201 do aparelho da Figura 2 pode ser disposto de modo a determinar se um dado componente de áudio corresponde ou não a uma fonte de áudio do mundo real local.
[142] Conforme descrito anteriormente, isso pode ser feito especificamente mediante a correlação do sinal de áudio de um componente de áudio virtual com um sinal de microfone que captura o ambiente local. O termo “correlação” pode incluir qualquer medição de similaridade possível, incluindo classificação de áudio (por exemplo, reconhecimento de evento de áudio, reconhecimento de alto-falante), comparação de posição (em uma gravação multicanal) ou correlação cruzada de processamento de sinal. Se a correlação máxima exceder um determinado limiar, considera-se que o componente de áudio tem um contraponto de componente de áudio do mundo real local e que corresponde a uma fonte de áudio local. Dessa forma, ele pode continuar a executar a renderização como descrito anteriormente.
[143] Se a correlação estiver abaixo do limiar, considera-se que o componente de áudio não corresponde a uma fonte de áudio local (ou que o nível desta é tão baixo que não resulta em nenhuma interferência ou distorção significativa) e o componente de áudio pode, portanto, ser diretamente processado sem qualquer compensação.
[144] Deve-se considerar que, para maior clareza, a descrição acima descreveu as modalidades da invenção com referência a diferentes circuitos, unidades e processadores funcionais. Entretanto, ficará evidente que qualquer distribuição adequada de funcionalidade entre os diferentes circuitos, unidades ou processadores funcionais pode ser usada sem se desviar da invenção. Por exemplo, a funcionalidade ilustrada a ser executada por processadores ou controladores separados pode ser executada pelo mesmo processador ou pelos mesmos controladores. Por isso, as referências a unidades ou circuitos funcionais específicos devem ser consideradas apenas como referências a meios adequados para fornecer a funcionalidade descrita e não como indicativas de uma estrutura ou organização lógica ou física estrita.
[145] A invenção pode ser implementada em qualquer forma adequada, incluindo hardware, software, firmware ou qualquer combinação dos mesmos. A invenção pode, opcionalmente, ser implementada ao menos parcialmente como software de computador que é executado em um ou mais processadores de dados e/ou processadores de sinal digital. Os elementos e componentes de uma modalidade da invenção podem ser física, funcional e logicamente implementados de qualquer forma adequada. De fato, a funcionalidade pode ser implementada em uma unidade única, em uma pluralidade de unidades ou como parte de outras unidades funcionais. Assim, a invenção pode ser implementada em uma unidade única ou pode ser distribuída física e funcionalmente entre diferentes unidades, circuitos e processadores.
[146] Embora a presente invenção tenha sido descrita em conexão com algumas modalidades, não se pretende limitá-la à forma específica aqui apresentada. Ao invés disso, o escopo da presente invenção é limitado apenas pelas reivindicações em anexo. Adicionalmente, embora possa parecer que um recurso é descrito em conexão com modalidades específicas, o versado na técnica reconhecerá que vários recursos das modalidades descritas podem ser combinados de acordo com a invenção. Nas reivindicações, o termo “que compreende” não exclui a presença de outros elementos ou outras etapas.
[147] Além disso, embora individualmente mencionados, uma pluralidade de meios, elementos, circuitos ou etapas de métodos podem ser implementados, por exemplo, por meio de um único circuito, uma única unidade ou um único processador.
Adicionalmente, embora recursos individuais possam estar incluídos em reivindicações diferentes, eles podem ser vantajosamente combinados, e sua inclusão em reivindicações diferentes não implica que uma combinação de recursos não seja viável e/ou vantajosa.
Além disso, a inclusão de um recurso em uma categoria de reivindicações não implica na limitação a tal categoria, mas, ao invés disso, indica que o recurso é igualmente aplicável a outras categorias das reivindicações, conforme for adequado.
Além disso, a ordem dos recursos nas reivindicações não implica em nenhuma ordem específica na qual os recursos precisam ser trabalhados e, em particular, a ordem das etapas individuais em uma reivindicação de método não implica que as etapas precisam ser executadas nessa ordem.
As etapas podem, na verdade, ser executadas em qualquer ordem adequada.
Além disso, referências no singular não excluem uma pluralidade.
Dessa forma, as referências a “um(a)”, “uns/umas”, “primeiro(a)”, “segundo(a)” etc., não excluem uma pluralidade.
Os sinais de referência nas reivindicações são fornecidos meramente como exemplos esclarecedores e não devem ser interpretados como limitadores do escopo das reivindicações de forma alguma.

Claims (15)

REIVINDICAÇÕES
1. APARELHO DE ÁUDIO, caracterizado por compreender: receptor (201) para receber dados de áudio de uma cena de áudio, sendo que os dados de áudio compreendem dados de áudio para um primeiro componente de áudio que representa uma fonte de áudio do mundo real em um ambiente de áudio de um usuário; um determinador (203) para determinar uma primeira propriedade de um componente de áudio do mundo real que chega ao usuário a partir da fonte de áudio do mundo real através de propagação de som; um processador alvo (205) para determinar uma propriedade alvo de um componente de áudio combinado recebido pelo usuário em resposta aos dados de áudio do primeiro componente de áudio, sendo que o componente de áudio combinado é uma combinação do componente de áudio do mundo real recebido pelo usuário por meio de propagação de som e áudio renderizado do primeiro componente de áudio recebido pelo usuário; um ajustador (207) para determinar uma propriedade de renderização do primeiro componente de áudio mediante a modificação de uma propriedade do primeiro componente de áudio indicado pelos dados de áudio para o primeiro componente de áudio em resposta à propriedade alvo e à primeira propriedade; e um renderizador (209) para renderizar o primeiro componente de áudio em resposta à propriedade de renderização.
2. APARELHO DE ÁUDIO, de acordo com a reivindicação 1, caracterizado por a propriedade alvo ser uma posição alvo percebida do componente de áudio combinado.
3. APARELHO DE ÁUDIO, de acordo com a reivindicação 1, caracterizado por a propriedade alvo ser um nível do componente de áudio combinado.
4. APARELHO DE ÁUDIO, de acordo com a reivindicação 3, caracterizado por o ajustador (207) ser disposto de modo a determinar a propriedade de renderização como um nível de renderização correspondente a um nível do primeiro componente de áudio indicado pelos dados de áudio reduzido em uma quantidade determinada como uma função de um nível do componente de áudio do mundo real recebido por um usuário.
5. APARELHO DE ÁUDIO, de acordo com a reivindicação 1, caracterizado por a propriedade alvo ser uma distribuição de frequência do componente de áudio combinado.
6. APARELHO DE ÁUDIO, de acordo com a reivindicação 5, caracterizado por o renderizador (209) ser disposto de modo a aplicar um filtro ao primeiro componente de áudio, sendo que o filtro tem uma resposta de frequência complementar a uma resposta de frequência de uma trajetória acústica da fonte de áudio do mundo real para o usuário.
7. APARELHO DE ÁUDIO, de acordo com qualquer uma das reivindicações anteriores, caracterizado por o determinador (203) estar disposto de modo a determinar a primeira propriedade em resposta a uma característica de transferência acústica de som externo para um fone de ouvido usado para renderizar o primeiro componente de áudio.
8. APARELHO DE ÁUDIO, de acordo com a reivindicação 7, caracterizado por a característica de transferência acústica compreender ao menos uma dentre uma resposta de frequência e uma propriedade de vazamento de fone de ouvido.
9. APARELHO DE ÁUDIO, de acordo com qualquer uma das reivindicações anteriores, caracterizado por o determinador (203) estar disposto de modo a determinar a primeira propriedade em resposta a um sinal de microfone que captura o ambiente de áudio do usuário.
10. APARELHO DE ÁUDIO, de acordo com qualquer uma das reivindicações anteriores, caracterizado por o ajustador (207) estar disposto de modo a determinar a propriedade de renderização em resposta a um limiar psicoacústico para detectar diferenças de áudio.
11. APARELHO DE ÁUDIO, de acordo com qualquer uma das reivindicações anteriores, caracterizado por o determinador (203) estar disposto de modo a determinar a primeira propriedade em resposta a uma detecção de um objeto que corresponde à fonte de áudio em uma imagem do ambiente de áudio.
12. APARELHO DE ÁUDIO, de acordo com qualquer das reivindicações anteriores, caracterizado por o receptor (201) estar disposto de modo a identificar o primeiro componente de áudio como correspondente à fonte de áudio do mundo real em resposta a uma correlação entre o primeiro componente de áudio e um sinal de microfone que captura o ambiente de áudio do usuário.
13. APARELHO DE ÁUDIO, de acordo com qualquer das reivindicações anteriores, caracterizado por o receptor (201) estar disposto de modo a identificar o primeiro componente de áudio como correspondente à fonte de áudio do mundo real em resposta aos metadados dos dados da cena de áudio.
14. APARELHO DE ÁUDIO, de acordo com qualquer das reivindicações anteriores, caracterizado por os dados de áudio representarem uma cena de áudio de realidade aumentada correspondente ao ambiente de áudio.
15. MÉTODO DE PROCESSAMENTO DE DADOS DE ÁUDIO, sendo que o método é caracterizado por compreender: receber dados de áudio de uma cena de áudio, sendo que os dados de áudio compreendem dados de áudio de um primeiro componente de áudio que representa uma fonte de áudio do mundo real em um ambiente de áudio de um usuário; determinar uma primeira propriedade de um componente de áudio do mundo real que chega ao usuário a partir da fonte de áudio do mundo real através da propagação de som; determinar uma propriedade alvo de um componente de áudio combinado recebido pelo usuário em resposta aos dados de áudio do primeiro componente de áudio, sendo que o componente de áudio combinado é uma combinação do componente de áudio do mundo real recebido pelo usuário por meio de propagação de som e áudio renderizado do primeiro componente de áudio recebido pelo usuário; determinar uma propriedade de renderização do primeiro componente de áudio mediante a modificação de uma propriedade do primeiro componente de áudio indicado pelos dados de áudio do primeiro componente de áudio em resposta à propriedade alvo e à primeira propriedade; e renderizar o primeiro componente de áudio em resposta à propriedade de renderização.
BR112021000154-9A 2018-07-09 2019-07-09 Aparelho de áudio e método de processamento de dados de áudio BR112021000154A2 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18182373.3A EP3595336A1 (en) 2018-07-09 2018-07-09 Audio apparatus and method of operation therefor
EP18182373.3 2018-07-09
PCT/EP2019/068312 WO2020011738A1 (en) 2018-07-09 2019-07-09 Audio apparatus and method of operation therefor

Publications (1)

Publication Number Publication Date
BR112021000154A2 true BR112021000154A2 (pt) 2021-04-06

Family

ID=63077667

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112021000154-9A BR112021000154A2 (pt) 2018-07-09 2019-07-09 Aparelho de áudio e método de processamento de dados de áudio

Country Status (7)

Country Link
US (2) US11523219B2 (pt)
EP (2) EP3595336A1 (pt)
JP (1) JP7170069B2 (pt)
CN (1) CN112369048B (pt)
BR (1) BR112021000154A2 (pt)
MX (1) MX2021000219A (pt)
WO (1) WO2020011738A1 (pt)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG10201800147XA (en) 2018-01-05 2019-08-27 Creative Tech Ltd A system and a processing method for customizing audio experience
US10390171B2 (en) 2018-01-07 2019-08-20 Creative Technology Ltd Method for generating customized spatial audio with head tracking
US11221820B2 (en) 2019-03-20 2022-01-11 Creative Technology Ltd System and method for processing audio between multiple audio spaces
US10911885B1 (en) * 2020-02-03 2021-02-02 Microsoft Technology Licensing, Llc Augmented reality virtual audio source enhancement
CN112270769B (zh) 2020-11-11 2023-11-10 北京百度网讯科技有限公司 一种导游方法、装置、电子设备及存储介质
EP4075830A1 (en) * 2021-04-15 2022-10-19 Sonova AG System and method for estimating an acoustic attenuation of a hearing protection device
CN113672084A (zh) * 2021-08-03 2021-11-19 歌尔光学科技有限公司 Ar显示画面调节方法及系统

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1227392A2 (en) * 2001-01-29 2002-07-31 Hewlett-Packard Company Audio user interface
US8170222B2 (en) * 2008-04-18 2012-05-01 Sony Mobile Communications Ab Augmented reality enhanced audio
EP2337020A1 (en) * 2009-12-18 2011-06-22 Nxp B.V. A device for and a method of processing an acoustic signal
US10326978B2 (en) * 2010-06-30 2019-06-18 Warner Bros. Entertainment Inc. Method and apparatus for generating virtual or augmented reality presentations with 3D audio positioning
US9122053B2 (en) * 2010-10-15 2015-09-01 Microsoft Technology Licensing, Llc Realistic occlusion for a head mounted augmented reality display
US8831255B2 (en) * 2012-03-08 2014-09-09 Disney Enterprises, Inc. Augmented reality (AR) audio with position and action triggered virtual sound effects
US9671566B2 (en) * 2012-06-11 2017-06-06 Magic Leap, Inc. Planar waveguide apparatus with diffraction element(s) and system employing same
WO2014091375A1 (en) * 2012-12-14 2014-06-19 Koninklijke Philips N.V. Reverberation processing in an audio signal
KR20160020377A (ko) * 2014-08-13 2016-02-23 삼성전자주식회사 음향 신호를 생성하고 재생하는 방법 및 장치
US9530426B1 (en) * 2015-06-24 2016-12-27 Microsoft Technology Licensing, Llc Filtering sounds for conferencing applications
US10575112B2 (en) * 2015-09-04 2020-02-25 Koninklijke Philips N.V. Method and apparatus for processing an audio signal associated with a video image
JP6677540B2 (ja) 2016-03-15 2020-04-08 セーレン株式会社 車両用複合表皮材
CN109076306B (zh) * 2016-04-12 2021-04-13 皇家飞利浦有限公司 强调靠近焦距的声音源的空间音频处理
CN109891502B (zh) * 2016-06-17 2023-07-25 Dts公司 一种近场双耳渲染方法、系统及可读存储介质
US9906885B2 (en) * 2016-07-15 2018-02-27 Qualcomm Incorporated Methods and systems for inserting virtual sounds into an environment
EP3594802A1 (en) * 2018-07-09 2020-01-15 Koninklijke Philips N.V. Audio apparatus, audio distribution system and method of operation therefor
WO2020210249A1 (en) * 2019-04-08 2020-10-15 Harman International Industries, Incorporated Personalized three-dimensional audio

Also Published As

Publication number Publication date
US20210289297A1 (en) 2021-09-16
EP3595336A1 (en) 2020-01-15
CN112369048A (zh) 2021-02-12
US11523219B2 (en) 2022-12-06
US20230058952A1 (en) 2023-02-23
EP3821618B1 (en) 2022-09-07
MX2021000219A (es) 2021-03-31
WO2020011738A1 (en) 2020-01-16
EP3821618A1 (en) 2021-05-19
CN112369048B (zh) 2023-06-09
JP7170069B2 (ja) 2022-11-11
JP2021533593A (ja) 2021-12-02

Similar Documents

Publication Publication Date Title
BR112021000154A2 (pt) Aparelho de áudio e método de processamento de dados de áudio
US11082662B2 (en) Enhanced audiovisual multiuser communication
JP2019514293A (ja) 焦点距離に近い音源を強調する空間オーディオ処理
JP2022538511A (ja) レガシーオーディオビジュアルメディアからの空間化された仮想音響シーンの決定
US11656839B2 (en) Audio apparatus, audio distribution system and method of operation therefor
de Bruijn Application of wave field synthesis in videoconferencing
BR112021003449A2 (pt) aparelho de áudio, método de processamento de áudio e produto de programa de computador
US20220225050A1 (en) Head tracked spatial audio and/or video rendering
US20210314710A1 (en) Methods For Obtaining And Reproducing A Binaural Recording
EP3595337A1 (en) Audio apparatus and method of audio processing
US20190246231A1 (en) Method of improving localization of surround sound
BR112021004495A2 (pt) aparelho para processar dados audiovisuais para uma cena e método de processamento de dados audiovisuais
WO2019193244A1 (en) An apparatus, a method and a computer program for controlling playback of spatial audio
US20230377276A1 (en) Audiovisual rendering apparatus and method of operation therefor
RU2797362C2 (ru) Аудиоустройство и способ его работы
US20230283976A1 (en) Device and rendering environment tracking
US20230254660A1 (en) Head tracking and hrtf prediction
Corrigan et al. Depth perception of audio sources in stereo 3D environments
TW202249502A (zh) 在兩個音頻通道上之聲源的離散雙耳空間化
WO2023150486A1 (en) Gesture controlled audio and/or visual rendering