BR112020019805A2

BR112020019805A2 - Método e sistema para difundir uma corrente de áudio multicanal para terminais de espectadores que comparecem a um evento esportivo

Info

Publication number: BR112020019805A2
Application number: BR112020019805-6A
Authority: BR
Inventors: Raphael Blouet; Slim ESSID
Original assignee: Institut Mines-Telecom
Priority date: 2018-03-29
Filing date: 2019-03-28
Publication date: 2021-01-05
Also published as: JP7379363B2; EP3777247A1; US20210014627A1; FR3079706B1; CA3095573A1; WO2019186079A1; AU2019244338A1; US11343632B2; FR3079706A1; TWI810268B; EP3777247B1; JP2021520091A; TW201942767A

Abstract

método e sistema para difundir uma corrente de áudio multicanal para terminais de espectadores que comparecem a um evento esportivo a invenção refere-se a um método para difundir uma corrente de áudio espacializado para terminais (term) de espectadores que comparecem a um evento esportivo. o método compreende a aquisição de uma pluralidade de correntes de áudio que constituem uma cena sonora (ss). a cena sonora (ss) é analisada por um servidor (serv) a fim de fazer uma avaliação da espacialização de som das correntes de áudio e da reprodução dos mesmos nos terminais (term), dependendo, por um lado, da localização das correntes de áudio e, por outro lado, da posição dos espectadores.

Description

“MÉTODO E SISTEMA PARA DIFUNDIR UMA CORRENTE DE ÁUDIO MULTICANAL PARA TERMINAIS DE ESPECTADORES QUE COMPARECEM A UM EVENTO ESPORTIVO”

[0001] A invenção refere-se a métodos e sistemas de difusão que melhoram a percepção do som de espectadores que comparecem a um evento esportivo.

[0002] Mais precisamente, a invenção apresenta métodos e sistemas de difusão que usam realidade de som aumentada, e permitem que um espectador que comparece a um evento esportivo perceba correntes de áudio personalizadas provenientes do evento.

[0003] O documento WO 2007/115392 descreve um sistema que permite que os espectadores assistam remotamente a vários eventos esportivos que ocorrem simultaneamente. Mais precisamente, os espectadores são dotados de um terminal móvel eletrônico no qual recebem várias correntes multimídia, cada uma correspondente a um dos eventos esportivos retransmitidos ao vivo. Normalmente, as correntes de multimídia podem ser correntes de vídeo ou correntes de áudio. O espectador pode escolher quais correntes de multimídia querem acessar. No entanto, esse sistema não permite a imersão total do espectador.

[0004] A presente invenção visa melhorar a situação.

[0005] Para esse fim, são propostos um método e sistema para difusão de uma corrente de áudio multicanal para terminais de espectadores que comparecem a um evento esportivo,

[0006] o método compreende, em um servidor: - aquisição de uma pluralidade de correntes de áudio brutas que constituem uma paisagem sonora que compreende uma ou mais fontes sonoras por meio de uma pluralidade de sensores de áudio distribuídas por um espaço que hospeda o evento esportivo; - análise da paisagem sonora que compreende: ○ isolamento de cada fonte sonora da paisagem sonora e atribuição de uma corrente de áudio de canal único, específica para cada fonte sonora; ○ para cada corrente de áudio de canal único, uma localização espacial em função de uma posição da fonte sonora associada com uma corrente de áudio de canal único, no espaço que hospeda o evento esportivo; ○ geração de uma tabela de descrição das correntes de áudio de canal único, onde a tabela de descrição compreende um identificador de cada corrente de áudio de canal único e, em associação cada identificador de corrente de áudio de canal único, pelo menos um dado de localização; - transmissão da tabela de descrição com uma corrente de áudio multicanal para um ou mais terminais, onde a corrente de áudio multicanal agrega as correntes de áudio de canal único,

[0007] e em um terminal: ○ uso da tabela de descrição recebida e da corrente de áudio multicanal para aplicação de uma filtragem de espacialização do som da corrente de áudio de canal único de acordo com as respectivas localizações de cada corrente de áudio de canal único por um lado e na posição do espectador no dito espaço que hospeda o evento esportivo por outro lado, a fim de reproduzir o som espacializado de pelo menos uma parte das correntes de áudio de canal único no terminal.

[0008] Devido a essas disposições, o espectador está realmente imerso auditivamente no evento esportivo. Na verdade, a reprodução de som especializada serve para levar em conta a posição do espectador para que as correntes de áudio difundidas correspondam exatamente ao que ele está vivendo.

[0009] De acordo com uma implementação, a análise da paisagem sonora compreende adicionalmente: - para cada corrente de áudio de canal único, a classificação da fonte sonora associada com uma corrente de áudio de canal único em uma classe entre uma pluralidade de classes, em função de um tipo;

[0010] a tabela compreende adicionalmente uma dados de classe de corrente de áudio de canal único associados com cada identificador de corrente de áudio de canal único;

[0011] e o método compreende, no terminal:

- leitura da tabela de descrição para identificar a classe de cada corrente de áudio de canal único; - aplicação dos respectivos ganhos para a reprodução de som espacializado, onde os ganhos são escolhidos por um espectador com o terminal de acordo com a classe de cada corrente de áudio de canal único.

[0012] Dessa forma, o espectador pode escolher qual tipo de corrente de áudio deseja ouvir. Sua imersão no evento esportivo só é melhorada porque eles podem deixar de lado as correntes de áudio cuja fonte sonora não os interessa. O espectador vive uma experiência personalizada do evento esportivo.

[0013] De acordo com uma modalidade, o método compreende uma determinação de uma orientação do espectador em relação ao quadro de referência escolhido, em que o método compreende adicionalmente uma aplicação dos respectivos ganhos para as correntes de áudio de canal único espacializadas, onde os respectivos ganhos aplicados à corrente de áudio de canal único especializada mudam em função da posição e/ou orientação do espectador em relação ao quadro de referência escolhido.

[0014] Dessa forma, a imersão do espectador no evento esportivo é aumentada ainda mais. Na verdade, a determinação da sua orientação permite-lhe fazer um “zoom áudio” por parte do espaço que hospeda o evento esportivo que o espectador está vendo.

[0015] De acordo com uma modalidade, o método compreende uma divisão do espaço que hospeda o evento esportivo em uma pluralidade de sub espaços, onde pelo menos um sensor de áudio é fornecido em cada subespaço, em que o método compreende a construção da paisagem sonora por meio de uma mistura de correntes brutas capturadas pelos sensores de áudio e em que o método compreende, para a análise da paisagem sonora, uma determinação das posições das fontes sonoras em relação a cada um dos ditos subespaços.

[0016] Dessa forma, essa etapa permite a reprodução de som espacializado com um número reduzido de etapas, cálculos e trocas de dados. Ne verdade, é suficiente determinar de forma grosseira, a localização das fontes sonoras.

[0017] De acordo com uma implementação, o isolamento de fontes sonoras é feito por separação das fontes.

[0018] De acordo com uma implementação, o isolamento de fontes sonoras é feito por mascaramento de frequência temporal.

[0019] De acordo com uma modalidade, a classificação das correntes de áudio de canal único é feita por aprendizado, onde as correntes de áudio de canal único são classificadas através de uma técnica de rede neural profunda.

[0020] Assim, é possível implementar o método em tempo real.

[0021] De acordo com uma implementação, o método compreende adicionalmente, no servidor: - para cada fase do jogo, uma determinação de um tipo da fase do jogo, entre uma pluralidade de tipos de fases do jogo; - uma seleção, em uma biblioteca de correntes de áudio informativas, de pelo menos uma corrente de áudio informativa com base no tipo determinado da fase do jogo; e - uma transmissão para o terminal da corrente de áudio informativa para a reprodução do som da mesma.

[0022] Assim, permite que o espectador fique ainda mais profundamente imerso no evento esportivo. Isso também torna possível que o espectador não perca as fases cruciais do jogo, pois o sistema serve para alertar os espectadores sobre a fase do jogo em andamento.

[0023] De acordo com uma modalidade, a determinação do tipo de fase do jogo e possivelmente a localização no campo associada com essa fase do jogo, pode ser feita inicialmente através do aprendizado a partir de imagens adquiridas por captura de vídeo de fases do jogo por pelo menos uma câmera, em que o aprendizado é feito através de uma técnica de rede neural profunda.

[0024] Dessa forma, a determinação e possivelmente a localização do tipo de fase do jogo podem ser feitas automaticamente em tempo real.

[0025] A presente invenção também tem como alvo um sistema para difundir uma corrente de áudio multicanal para terminais de espectadores que comparecem a um evento esportivo que compreende: - um module para aquisição de uma pluralidade de correntes de áudio brutas que constituem uma paisagem sonora que compreende uma ou mais fontes sonoras que compreendem uma pluralidade de sensores de áudio distribuídos em um espaço que hospeda o evento esportivo; - um servidor que compreende um módulo computadorizado para análise da paisagem sonora configurada para: ○ isolar cada fonte sonora da paisagem sonora e atribuir uma corrente de áudio de canal único, específica para cada fonte sonora; ○ para cada corrente de áudio de canal único, localizar a fonte sonora associada com a corrente de canal único no espaço que hospeda o evento esportivo; ○ gerar a tabela de descrição de correntes de áudio de canal único, em que a tabela de descrição compreende um identificador de cada corrente de áudio de canal único e, em associação com cada identificador de corrente de áudio de canal único, pelo menos um dado de localização; ○ um módulo de transmissão configurado para transmitir a tabela de descrição com uma corrente de áudio multicanal para um ou mais terminais, em que a corrente de áudio multicanal agrega as correntes de áudio de canal único, - um terminal configurado para: ○ usar a tabela de descrição recebida e a corrente de áudio multicanal para aplicar a filtragem de espacialização do som da corrente de áudio de canal único de acordo com as respectivas localizações de cada corrente de áudio de canal único por um lado e na posição do espectador no dito espaço que hospeda o evento esportivo por outro lado, a fim de reproduzir o som espacializado de pelo menos uma parte das correntes de áudio de canal único no terminal.

[0026] De acordo com uma implementação, um sensor de orientação é capaz de determinar a orientação do espectador no espaço, em que o sensor de orientação é escolhido entre uma unidade de navegação inercial e/ou um acelerômetro.

[0027] Outras vantagens e características da invenção surgirão após a leitura da seguinte descrição detalhada das modalidades da invenção, e exame dos desenhos anexos, nos quais:

[0028] A Figura 1 é uma vista esquemática que mostra a operação do sistema para difusão de uma corrente de áudio multicanal de acordo com a invenção;

[0029] A Figura 2 é um diagrama de sequências das etapas principais do método para difusão de uma corrente de áudio multicanal para terminais de espectadores que comparecem a um evento de acordo com uma amostra de implementação de acordo com a invenção;

[0030] A Figura 3 mostra esquematicamente o sistema de acordo com a invenção.

[0031] “Evento esportivo” é entendido como qualquer evento esportivo que reúna um grande número de espectadores em uma única área para comparecer a um desempenho esportivo. Por exemplo, o sistema pode ser usado no contexto de um jogo de futebol, basquete, beisebol, rúgbi, hóquei, tênis, etc. Essa lista não é limitativa.

[0032] Conforme mostrado nas Figuras 1 e 3, o sistema SYST compreende um módulo de aquisição MAC. O módulo de aquisição MAC compreende uma pluralidade de sensores de áudio M1 − MN, por exemplo de microfones. Os sensores de áudio M1 - MN são distribuídos no espaço que hospeda o evento esportivo. A aparência do espaço que hospeda o evento esportivo pode variar muito de acordo com o tipo de evento esportivo. Em particular, o espaço que hospeda o evento esportivo pode ser um estádio com arquibancadas, um circuito de corrida, etc.

[0033] Para cada tipo de espaço que hospeda o evento esportivo (ou “espaço” no restante da descrição) os sensores de áudio M1 - MN são distribuídos de modo que cada corrente de áudio bruta FB1 - FBN proveniente do evento esportivo seja capturada. Os sensores de áudio M1 - MN podem então ser distribuídos de forma homogênea em torno do espaço que hospeda o evento esportivo.

[0034] Por “correntes de áudio brutas” entende-se as correntes de áudio que são gravadas pelos sensores de áudio M1 - MN e que não foram processadas ainda. As correntes de áudio brutas podem compreender o ruído da multidão que comparece ao evento esportivo, ruídos provenientes do jogo dos jogadores, por exemplo chutando uma bola, um grunhido, etc. As correntes de áudio brutas também podem incluir palavras trocadas entre os jogadores. As correntes de áudio brutas também podem incluir palavras trocadas entre os espectadores. As correntes de áudio brutas formam uma paisagem sonora que compreende uma ou mais fontes sonoras.

[0035] No exemplo da Figura 1, são mostradas correntes de áudio brutas FB1 - FBN e fontes sonoras S1 - S1. A corrente de áudio bruta FB1, associada com a fonte sonora S1, corresponde, por exemplo, a um jogador chutando uma bola. A corrente de áudio bruta FB2 associada com a fonte sonora S2, corresponde a um apito e a corrente de áudio FBN, associada com fonte sonora SN, corresponde a palavras trocadas entre espectadores. As correntes de áudio FB 1 - FBN são capturadas pelos sensores de áudio M1 - MN do módulo de aquisição MAC.

[0036] As correntes de áudio FB1 - FBN são difundidas no espaço. Assim, cada corrente de áudio FB1 - FBN é capturada mais ou menos intensamente por cada sensor de áudio M1 - MZ. Por exemplo, o sensor de áudio M1 captura principalmente a corrente de áudio FB1, mas também captura a corrente de áudio FB2. Da mesma forma, o sensor de áudio M5 captura com muita precisão a corrente de áudio bruta FBN, um pouco menos a corrente de áudio FB1 e ainda menos a corrente de áudio FB2. A paisagem sonora SS é composta pela mistura de todos as correntes de áudio brutas FB1, FB2 e FBN. A paisagem sonora SS compreende várias fontes sonoras S1 - SN.

[0037] O sistema SYST pode compreender pelo menos duas redes de sensores de áudio M1 - MN. A primeira rede de sensores de áudio, por exemplo, serve para capturar o ruído de fundo do evento esportivo, normalmente o ruído da multidão que comparece ao evento esportivo. A primeira rede de sensores de áudio também pode servir para capturar palavras trocadas entre os espectadores. Assim, os sensores de áudio da primeira rede são, de preferência, dispostos perto dos espectadores e, de preferência, diretamente sobre os espectadores.

[0038] A segunda rede de sensores de áudio M1 - MN também pode servir para capturar o ruído de fundo do evento esportivo ou o ruído da multidão. A segunda rede também pode capturar correntes de áudio brutas associadas com o evento esportivo. Isso pode compreender os ruídos provenientes do jogo, como chutando uma bola, ou mesmo as palavras trocadas entre os jogadores.

[0039] É possível definir pelo menos três tipos de fontes sonoras. O primeiro tipo corresponde ao ambiente do evento esportivo. O primeiro tipo compreende, em particular, o ruído da multidão que comparece ao evento esportivo. O segundo tipo corresponde aos eventos do evento esportivo. Por exemplo, compreende em chutar uma bola, apitos, etc. O terceiro tipo corresponde às palavras trocadas entre os espectadores no evento esportivo.

[0040] A pluralidade de correntes de áudio brutas capturadas por cada um dos sensores de áudio M1 - MN é enviada para uma área de análise LOC. A transmissão é mostrada pela seta “IN,” na Figura 1. A área de análise compreende pelo menos um servidor SERV no qual a filtragem das correntes de áudio brutas FB1 - FBN é aplicada. Em particular, é feita uma filtragem por separação de fontes. Através da separação de fontes, os vários eventos sonoros do jogo podem ser separados da paisagem sonora gravada pelos sensores de áudio. As correntes filtradas são enviadas para um terminal TERM para uma reprodução especializada no terminal TERM de pelo menos uma corrente de áudio. O terminal TERM é, por exemplo, um telefone inteligente, um tablet eletrônico ou terminal móvel tipo de computador.

[0041] Dispositivos de difusão DIFF também são fornecidos para difundir as correntes de áudio espacializadas. Os dispositivos de difusão DIFF podem ser alto- falantes pessoais ou fones de ouvido que cada espectador tem à sua disposição.

[0042] O sistema SYST de acordo com a invenção serve em particular para uma reprodução de som personalizada. Por exemplo, a reprodução dos sons em relação ao evento esportivo é feita dependendo da localização de cada fonte sonora S1 – SN, bem como da posição do espectador que usa o terminal TERM no espaço que hospeda o evento esportivo. A posição do espectador pode ser determinada por um módulo de posicionamento MP, capaz de localizar o espectador por Sistema de Posicionamento Global (GPS), por triangulação ou por Comunicação de Campo Próximo (NFC). O espectador ouvirá mais claramente uma corrente de áudio cuja fonte sonora associada está mais próxima a ele. Voltando ao exemplo da Figura 1, um espectador localizado à esquerda do campo ouvirá de forma mais pronunciada a corrente de áudio FB1 associada com a fonte S1 do que a corrente de áudio F2 associada com a fonte sonora S2.

[0043] Em uma simples implementação, o alto-falante tem a possibilidade de inserir preferências de reprodução para a paisagem sonora através do terminal TERM. Por exemplo, o espectador pode escolher ouvir as correntes de áudio associadas a um determinado tipo de fonte sonora. Por exemplo, o espectador pode escolher ouvir apenas as palavras trocadas entre os espectadores, ou apenas os apitos do árbitro. O espectador também pode escolher ouvir mais ou menos alto todas as correntes de áudio dependendo do tipo de fonte de áudio com a qual estão associadas.

[0044] De acordo com outra implementação de amostra, o espectador ouve algumas correntes de áudio mais alto, dependendo de sua orientação no espaço que hospeda o evento esportivo. Por exemplo, o sistema compreende um módulo de orientação MO que compreende um sensor de orientação para determinar qual direção o espectador está olhando. O espectador pode então ser equipado com um acessório, por exemplo, um fone de ouvido ou uma etiqueta, que sustenta o sensor de orientação. O sensor de orientação pode ser um acelerômetro ou uma unidade de navegação inercial. É então possível determinar qual fonte sonora S1 - SN o espectador se dirige a fim de amplificar o volume de difusão das correntes de áudio associadas com essa fonte sonora. A experiência do espectador é melhorada, pois possibilita uma imersão total no evento esportivo que está comparecendo.

[0045] A Figura 2 mostra mais precisamente as principais etapas do método implementado pelo sistema SYST.

[0046] O sistema de aquisição MAC captura todas as correntes de áudio brutas FB1 - FBN através de sensores de áudio M1 - MN. As correntes de áudio brutas FB1 - FBN formam uma paisagem sonora SS que compreende pelo menos uma fonte sonora S1 - SN.

[0047] As etapas E1 a E5 são realizadas pelo servidor SERV. O servidor SERV compreende um módulo de análise computadorizado MIA com o qual isola cada fonte sonora S1 - SN da paisagem sonora SS. A paisagem sonora SS é enviada para o módulo de análise computadorizado MIA. Na etapa E1, o módulo de análise computadorizado MIA isola cada fonte sonora S1 - SN da paisagem sonora SS. O isolamento das fontes sonoras S1 - SN podem ser feitas através de um método de separação de fontes por formação em feixe, como ilustrado na etapa E1A. Conforme uma variante, a etapa de isolamento das fontes sonoras S1 - SN é feita por mascaramento de frequência temporal, conforme ilustrado na etapa E1B. O mascaramento de frequência temporal serve em particular para separar fontes quando dois eventos acontecem simultaneamente em uma única zona espacial.

[0048] Uma vez que a etapa E1 serviu para isolar cada fonte sonora S1 - SN, uma corrente de áudio de canal único específico Fmono1 - FmonoN pode ser atribuído a cada fonte sonora S1 - SN na etapa E2.

[0049] Em cada etapa E3, cada fonte sonora S1 - SN está localizada no espaço que hospeda o evento esportivo. Assim, cada corrente de áudio de canal único Fmono1 - FmonoN pode ser localizada em função da localização da fonte sonora S1 - SN que lhe pertence. Notavelmente, o espaço que hospeda o evento esportivo pode ser dividido em uma pluralidade de subespaços. Por exemplo, o espaço que hospeda o evento esportivo pode ser dividido em uma grade, embora o espaço possa ser dividido de acordo com outra configuração. Por exemplo, cada subespaço pode corresponder a uma área de jogo específica, por exemplo, o centro do campo, cada caixa de gol, as áreas de pênalti, etc. Pelo menos um sensor de áudio M1 - MN é fornecido por subespaço. A localização das fontes sonoras S1 - SN é feita em relação a cada subespaço. Mais precisamente, a localização de cada fonte sonora S1 - SN corresponde ao subespaço em que ela está localizada. A localização de cada corrente de áudio de canal único Fmono1 - FmonoN e da fonte sonora S1 - SN que está associada ao mesmo.

[0050] O módulo de análise computadorizado MIA gera uma tabela de descrição TAB na etapa E5. Cada corrente de áudio de canal único Fmono1 - FmonoN é definida por um identificador ID. Cada identificador ID é associada ao dado de localização LOC da corrente de áudio de canal único Fmono1 - FmonoN determinada na etapa E3.

[0051] De acordo com uma variante de implementação, o método de acordo com a invenção compreende adicionalmente uma etapa preliminar E4 de classificação das correntes de áudio de canal único Fmono1 - FmonoN. Essa classificação é feita em função do tipo de fonte sonora S1 - SN associada com a corrente de áudio de canal único Fmono1 - FmonoN. Conforme descrito acima, existem pelo menos três tipos de fontes sonoras S1 - SN. O primeiro tipo corresponde ao ambiente do evento esportivo e inclui, nomeadamente, o ruído da multidão. O segundo tipo corresponde aos eventos do evento esportivo e, nomeadamente, inclui os chutes dos jogadores e os apitos do árbitro. O terceiro tipo corresponde às palavras trocadas entre espectadores. Cada tipo de fonte sonora pode ser associada com pelo menos uma classe. Várias classes podem corresponder a um único tipo de fonte sonora. Por exemplo, uma primeira classe correspondente a chutar uma bola e uma segunda classe que compreende os apitos do árbitro podem ser associadas ao segundo tipo de fonte sonora.

[0052] De acordo com uma modalidade, a classificação das correntes de áudio de canal único Fmono1 - FmonoN pode ser feita através de um método supervisionado de separação de fontes. A classificação é feita por aprendizado, através de uma técnica de rede neural profunda. Isso tem a vantagem de permitir o uso do método em tempo real. Efetivamente, por causa do aprendizado, o tipo de fonte sonora com que as correntes de áudio estão associadas pode ser reconhecido na transmissão para o servidor SERV das correntes de áudio capturadas pelo módulo de aquisição MAC.

[0053] De acordo com essa variante de implementação, uma classe TYP é adicionalmente atribuída para cada identificador ID de corrente de áudio de canal único Fmono1 - FmonoN incluído na tabela de descrição TAB.

[0054] A tabela de descrição TAB é enviada em seguida para o terminal TERM na etapa E6 através de um módulo de transmissão MT. A transmissão também compreende uma corrente de áudio multicanal Fmulti que compreende o conjunto de correntes de áudio de canal único.

[0055] De acordo com uma variante de implementação, o sistema SYST não compreende um módulo de transmissão MT. As correntes de áudio de canal único Fmono1 - FmonoN estão incluídas em uma biblioteca BIB e são sintetizadas localmente para a reprodução de som espacializado das mesmas.

[0056] As etapas E1 a E6 são feitas em tempo real pelo servidor SERV.

[0057] As etapas E7 a E11 são feitas pelo terminal TERM. O terminal TERM recebeu a tabela de descrição TAB e também a corrente de áudio multicanal Fmulti que agrega o conjunto de correntes de áudio de canal único Fmono1 - FmonoN.

[0058] O terminal TERM pode usar a tabela de descrição para aplicar pelo menos uma filtragem de especialização de som. Na etapa E7, o terminal TERM recebe, assim, dados de posicionamento para o espectador usando o terminal TERM. Os dados de posicionamento são obtidos através do módulo de posicionamento MP e/ou pelo módulo de orientação MO. Os dados de posicionamento compreendem pelo menos a posição geográfica do espectador no quadro de referência do espaço que hospeda o evento esportivo.

[0059] Os dados de posicionamento podem compreender adicionalmente dados relativos à orientação do espectador em relação a um quadro de referência fixo no espaço, por exemplo, o centro do campo de jogo. A orientação do espectador corresponde ao subespaço para o qual ele está voltado. O uso de dados de orientação do espectador serve, conforme observado acima, para fazer um “ zoom de áudio” por parte do espaço visado pelo espectador.

[0060] Os dados de posicionamento são adquiridos continuamente em tempo real pelo módulo de posicionamento MP.

[0061] Na etapa E8, as correntes de áudio de canal único Fmono1 - FmonoN são filtradas em função dos dados de posicionamento do espectador e a localização das correntes de áudio de canal único incluídos na tabela de descrição TAB. Resulta assim, uma pluralidade de correntes de áudio de canal único especializados Fspatia1 - FspatiaN.

[0062] Da mesma forma, o espectador tem a possibilidade de colocar algumas correntes de áudio antes de outras. Eles têm, portanto, a possibilidade de escolher se desejam fazer um zoom de áudio com base na sua orientação espacial, ou quais classes de corrente de áudio difundir. Assim, na etapa E9, o terminal TERM recebe instruções de preferência do espectador. O espectador pode, por exemplo, inserir suas instruções por meio de uma interface do terminal TERM. Por exemplo, um aplicativo dedicado pode ser fornecido para permitir uma troca entre o espectador e o terminal TERM.

[0063] Na etapa E10, o terminal TERM aplica os respectivos ganhos a pelo menos uma parte das correntes de áudio de canal único especializados Fspatia1 - FspatiaN.

[0064] De acordo com a variante de implementação em que a orientação do espectador é considerada, a tabela de descrição TAB é lida. Um respectivo ganho é aplicado às correntes de áudio de canal único especializadas Fspatia1 - FspatiaN para as quais as localizações associadas na tabela de descrição TAB correspondem à direção em que o espectador é orientado. Mais precisamente, um ganho maior é aplicado às correntes de áudio de canal único especializadas Fspatia1 - FspatiaN para as quais a fonte sonora está localizada no mesmo subespaço que o visado pelo espectador.

[0065] Uma vez que os dados de posicionamento são adquiridos em tempo real e continuamente, os ganhos aplicados podem mudar com esses dados. Uma mudança de orientação ou posição geográfica do espectador leva a uma modificação do valor dos ganhos aplicados às várias correntes de áudio de canal único espacializadas. A modificação do valor dos ganhos aplicados é feita em tempo real.

[0066] De acordo com a segunda variante de implementação na qual a classe das correntes de áudio é considerada, a tabela de descrição TAB é lida a fim de determinar qual classe está associada com qual corrente de áudio de canal único especializada Fspatia1 - FspatiaN. Um respectivo ganho é aplicado às correntes de áudio de canal único espacializadas Fspatia1 - FspatiaN, cuja classe corresponde à escolhida pelo espectador. O espectador pode a qualquer momento modificar suas instruções de preferência de modo que diferentes ganhos sejam aplicados. Os respectivos valores de ganho são modificados em tempo real.

[0067] Na etapa E11, as correntes de áudio de canal único especializadas Fspatia1 - FspatiaN são enviadas para um fone de ouvido ou módulo de difusão do tipo alto- falante pessoal. O espectador pode então tirar vantagem da imersão auditiva fornecida pelo sistema de acordo com a invenção.

[0068] De acordo com uma variante de implementação, a integração sobre o andamento do evento esportivo nas difusões de correntes de áudio para os espectadores também se destina. De acordo com essa variante, o servidor SERV pode compreender adicionalmente uma biblioteca BIB que compreende uma pluralidade de correntes de áudio informativas Finfo1 - FinfoN cada um associado com uma fase do jogo. As correntes de áudio informativas Finfo1 - FinfoN podem ser difundidas automaticamente para o espectador. O tipo da fase do jogo em andamento é determinada entre uma pluralidade de tipos de fases do jogo. Os tipos de fases do jogo compreendem, por exemplo gol, penalidade, falta, etc. De acordo com o tipo de fase do jogo determinada, pelo menos uma corrente de áudio informativa Finfo1 - FinfoN é selecionada na biblioteca BIB para a reprodução do som. As correntes de áudio informativas Finfo1 - FinfoN podem ser difundidos automaticamente para o espectador.

[0069] Como variante, as correntes de áudio informativas Finfo1 - FinfoN são difundidas apenas se o espectador as escolher. As correntes de áudio informativas Finfo1 - FinfoN em particular permitem adicionar informações auditivas sobre o que o espectador está vendo. Por exemplo, em uma fase de gol, a corrente de áudio auditivo difundido indica ao espectador que houve um gol. Dessa forma, a imersão do espectador no evento esportivo ao qual está comparecendo pode ser aumentada ainda mais. Dessa forma, eles também não perderão nenhuma fase importante do jogo.

[0070] De acordo com um exemplo, a determinação do tipo da fase do jogo em andamento é feita por meio de um dispositivo de captura DC que compreende pelo menos uma câmera de vídeo, conforme mostrado na Figura 3. O dispositivo de captura DC é disposto de forma ser capaz de acompanhar todas as fases do evento esportivo. As imagens capturadas pelo dispositivo de captura podem ser enviadas para o módulo de análise computadorizado que é capaz de determinar, em tempo real, um tipo de fase do jogo que o dispositivo de captura DC está recebendo. Os tipos de fases do jogo podem ser determinados por meio de um método de aprendizado de rede neural profunda.

Claims

REIVINDICAÇÕES

1. Método para difundir uma corrente de áudio multicanal (Fmulti) para terminais (TERM) de espectadores que comparecem a um evento esportivo, caracterizado pelo fato de que o método compreende: - aquisição de uma pluralidade de correntes de áudio brutas (FB1 - FBN) que constituem uma paisagem sonora (SS) que compreende uma ou mais fontes sonoras (S1 - SN) por meio de uma pluralidade de sensores de áudio (M1 - MN) distribuídos ao longo de um espaço que hospeda o evento esportivo; - análise, por um servidor (SERV), da paisagem sonora (SS) que compreende: ○ isolamento de cada fonte sonora (S1 - SN) da paisagem sonora (SS) e a atribuição de uma corrente de áudio de canal único (Fmono1 - FmonoN), específica para cada fonte sonora (S1 - SN); ○ para cada corrente de áudio de canal único (Fmono1 - FmonoN), uma localização espacial em função de uma posição da fonte sonora (S1 - SN) associada com uma corrente de áudio de canal único (Fmono1 - FmonoN), no espaço que hospeda o evento esportivo, ○ geração de uma tabela de descrição (TAB) das correntes de áudio de canal único (Fmono1 - FmonoN), em que a tabela de descrição (TAB) compreende um identificador (ID) de cada corrente de áudio de canal único (Fmono1 - FmonoN) e, em associação com cada identificador de corrente de áudio de canal único (Fmono1 - FmonoN) (ID), pelo menos um dado de localização; - transmissão da tabela de descrição (TAB) com uma corrente de áudio multicanal (Fmulti) para um ou mais terminais (TERM) pelo servidor (SERV), em que a corrente de áudio multicanal (Fmulti) agrega as correntes de áudio de canal único (Fmono1 - FmonoN); - uso da tabela de descrição recebida (TAB) e da corrente de áudio multicanal (Fmulti) por um terminal (TERM) for para aplicar uma filtragem de espacialização do som da corrente de áudio de canal único (Fmono1 - FmonoN) de acordo com as respectivas localizações de cada corrente de áudio de canal único (Fmono1 -

FmonoN) por outro lado e na posição do espectador no dito espaço que hospeda o evento esportivo por outro lado, a fim de reproduzir o som especializado de pelo menos uma parte das correntes de áudio de canal único (Fmono1 - FmonoN) no terminal (TERM).

2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a análise da paisagem sonora (SS) compreende adicionalmente: - para cada corrente de áudio de canal único (Fmono1 - FmonoN), a classificação da fonte sonora (S1 - SN) associada com a corrente de áudio de canal único (Fmono1 - FmonoN) em uma classe entre uma pluralidade de classes, em função de um tipo; a tabela (TAB) que compreende adicionalmente dados de classe de corrente de áudio de canal único (Fmono1 - FmonoN) associados com cada identificador de corrente de áudio de canal único (Fmono1 - FmonoN) (ID); e o método compreende, no terminal (TERM): - leitura da tabela de descrição (TAB) para identificar a classe de cada corrente de áudio de canal único (Fmono1 - FmonoN); - aplicação dos respectivos ganhos às correntes de áudio de canal único (Fmono1 - FmonoN) para a reprodução de som especializada, em que os ganhos são escolhidos por um espectador com o terminal (TERM) de acordo com a classe de cada corrente de áudio de canal único (Fmono1 - FmonoN).

3. Método, de acordo com uma das reivindicações 1 e 2, caracterizado pelo fato de que compreende uma determinação de uma orientação do espectador em relação ao quadro de referência escolhido, em que o método compreende adicionalmente uma aplicação dos respectivos ganhos às correntes de áudio de canal único (Fspatia1 - FspatiaN), onde os respectivos ganhos aplicados às correntes de áudio de canal único especializadas (Fspatia1 - FspatiaN) mudam em função da posição e/ou orientação do espectador em relação ao quadro de referência escolhido.

4. Método, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que compreende uma divisão do espaço que hospeda o evento esportivo em uma pluralidade de subespaços, onde pelo menos um sensor de áudio (M1 - MN) é fornecido em cada subespaço, em que o método compreende a construção da paisagem sonora (SS) por meio de uma mistura de correntes brutas (FB1 - FBN) capturadas pelos sensores de áudio (M1 - MN); e em que o método compreende, para a análise da paisagem sonora (SS), uma determinação das posições das fontes sonoras (S1 - SN) em relação a cada dos ditos subespaços.

5. Método, de acordo com uma das reivindicações 1 a 4, caracterizado pelo fato de que o isolamento das fontes sonoras (S1 - SN) é feito por meio da separação das fontes.

6. Método, de acordo com uma das reivindicações 1 a 4, caracterizado pelo fato de que o isolamento das fontes sonoras (S1 - SN) é feito por mascaramento de frequência temporal.

7. Método, de acordo com uma das reivindicações 2 a 6, caracterizado pelo fato de que a classificação das correntes de áudio de canal único (Fmono1 - FmonoN) é feita por meio do aprendizado, em que as correntes de áudio de canal único (Fmono1 - FmonoN) são classificadas através de uma técnica de rede neural profunda.

8. Método, de acordo com uma das reivindicações 1 a 7, caracterizado pelo fato de que compreende adicionalmente, no servidor (SERV): - para cada fase do jogo, uma determinação de um tipo de fase, entre uma pluralidade de tipos de fases do jogo; - uma seleção, em uma biblioteca (BIB) de correntes de áudio informativas (Finfo1 - FinfoN), de pelo menos uma corrente de áudio informativa (Finfo1 - FinfoN) com base em determinado tipo de fase do jogo; e - uma transmissão para o terminal (TERM) da corrente de áudio informativa (Finfo1 - FinfoN) para a reprodução do som da mesma.

9. Método, de acordo com a reivindicação 8, caracterizado pelo fato de que a determinação do tipo de fase de jogo é feita por meio do aprendizado de imagens adquiridas por captura de vídeo de fases do jogo por pelo menos uma câmera, onde o aprendizado é feito por meio de uma técnica de rede neural profunda.

10. Sistema para difundir (SYST) uma corrente de áudio multicanal (Fmulti) para terminais (TERM) de espectadores que comparecem a um evento esportivo caracterizado pelo fato de que compreende: - um módulo de aquisição (MAC), que compreende uma pluralidade de correntes de áudio brutas (FB1 - FBN) que constituem uma paisagem sonora (SS) que compreende uma ou mais fontes sonoras (S1 - SN) por meio de uma pluralidade de sensores de áudio (M1 - MN) distribuídas em um espaço que hospeda o evento esportivo; - um servidor (SERV) que compreende um módulo de análise computadorizado (MIA) da paisagem sonora (SS) configurada para: ○ isolar cada fonte sonora (S1 - SN) da paisagem sonora (SS) e atribuir uma corrente de áudio de canal único (Fmono1 - FmonoN) para cada fonte sonora (S1 - SN); ○ para cada corrente de áudio de canal único (Fmono1 - FmonoN) que localiza a fonte sonora (S1 - SN) associada com uma corrente de áudio de canal único (Fmono1 - FmonoN), no espaço que hospeda o evento esportivo; ○ gerar uma tabela de descrição (TAB) das correntes de áudio de canal único (Fmono1 - FmonoN), onde a tabela de descrição (TAB) compreende um identificador (ID) de cada corrente de áudio de canal único (Fmono1 - FmonoN) e, em associação com cada identificador de corrente de áudio de canal único (Fmono1 - FmonoN) (ID), pelo menos pelo menos um dado de localização; ○ um módulo de transmissão (MT) configurado para transmitir a tabela de descrição (TAB) com uma corrente de áudio multicanal (Fmulti) para um ou mais terminais (TERM), onde a corrente de áudio multicanal (Fmulti) agrega as correntes de áudio de canal único (Fmono1 - FmonoN); - um terminal (TERM) configurado para: ○ usar a tabela de descrição recebida (TAB) e da corrente de áudio multicanal (Fmulti) para aplicar uma filtragem de espacialização do som da corrente de áudio de canal único (Fmono1 - FmonoN) de acordo com as respectivas localizações de cada corrente de áudio de canal único (Fmono1 - FmonoN) por um lado e na posição do espectador no dito espaço que hospeda o evento esportivo por outro lado, a fim de reproduzir o som especializado de pelo menos uma parte das correntes de áudio de canal único (Fmono1 - FmonoN) no terminal.

11. Sistema, de acordo com a reivindicação 10, caracterizado pelo fato de que um sensor de orientação é capaz de determinar a orientação do espectador no espaço, onde o sensor de orientação é escolhido entre uma unidade de navegação inercial e/ou um acelerômetro.