JP7379363B2

JP7379363B2 - スポーツイベントを見物する観客の端末へマルチチャネルオーディオストリームをブロードキャストするための方法およびシステム

Info

Publication number: JP7379363B2
Application number: JP2020552216A
Authority: JP
Inventors: ラファエル・ブルエ; スリム・エシド
Original assignee: アンスティテュ・マインズ・テレコム
Priority date: 2018-03-29
Filing date: 2019-03-28
Publication date: 2023-11-14
Anticipated expiration: 2039-03-28
Also published as: AU2019244338B2; JP2021520091A; WO2019186079A1; EP3777247B1; US11343632B2; BR112020019805A2; FR3079706A1; US20210014627A1; CA3095573A1; AU2019244338A1; FR3079706B1; EP3777247A1; TWI810268B; TW201942767A

Description

本発明は、スポーツイベントを見物する観客の音知覚を、それを用いて改善するための、ブロードキャスト方法およびブロードキャストシステムに関する。

より正確には、本発明は、拡張サウンド現実を使用するとともに、スポーツイベントを見物する観客が、イベントから来ている個人化されたオーディオストリームを知覚することを可能にする、ブロードキャスト方法およびブロードキャストシステムに関する。

文書WO2007/115392は、同時に催されるいくつかのスポーツイベントを観客が遠く離れて見物することを可能にするシステムを記載している。より正確には、各々が生で再送信されるスポーツイベントのうちの1つに対応するいくつかのマルチメディアストリームを受信するモバイル電子端末が、観客に提供される。通常、マルチメディアストリームはビデオストリームまたはオーディオストリームであり得る。

観客は、自分がどんなマルチメディアストリームにアクセスしたいのかを選ぶことができる。しかしながら、そのようなシステムは、観客の完全な没入を可能にしない。

本発明は、その状況を改善しようとする。

この目的のために、スポーツイベントを見物する観客の端末へマルチチャネルオーディオストリームをブロードキャストするための方法およびシステムを提供し、
方法は、サーバにおいて、
- スポーツイベントを催す空間にわたって分散された複数のオーディオセンサにより、1つまたは複数の音源を備えるサウンドスケープを構成する複数の未加工オーディオストリームを取得するステップと、
- サウンドスケープを分析するステップであって、
・サウンドスケープの各音源を切り離し、および各音源に特有のシングルチャネルオーディオストリームを割り当てることと、
・シングルチャネルオーディオストリームごとに、スポーツイベントを催す空間の中での、シングルチャネルオーディオストリームに関連する音源の位置に応じた空間的な位置特定を行うことと、
・シングルチャネルオーディオストリームの記述テーブルを生成することであって、記述テーブルが、各シングルチャネルオーディオストリームの識別子、および各シングルチャネルオーディオストリーム識別子に関連して少なくとも1つの位置特定データを備える、前記生成することと、を含むステップと、
- マルチチャネルオーディオストリームを用いて1つまたは複数の端末への記述テーブルを送信するステップであって、マルチチャネルオーディオストリームが、シングルチャネルオーディオストリームを集約する、ステップと、
端末において、
・シングルチャネルオーディオストリームの少なくとも一部の空間化されたサウンドを端末において再生するために、一方では各シングルチャネルオーディオストリームのそれぞれの位置に従って、他方ではスポーツイベントを催す前記空間の中での観客の位置において、シングルチャネルオーディオストリームのサウンド空間化フィルタ処理を適用するために、受信された記述テーブルおよびマルチチャネルオーディオストリームを使用するステップと、を備える。

これらの配置により、観客は実際に、スポーツイベントにおいて聴覚的に没入する。事実上、空間化されたサウンド再生は、観客の位置を考慮に入れる働きをし、その結果、ブロードキャストオーディオストリームは、観客が楽しんでいるものに厳密に対応する。

一実装形態によれば、サウンドスケープを分析するステップは、
- シングルチャネルオーディオストリームごとに、シングルチャネルオーディオストリームに関連する音源を、複数のクラスのうちの1つのクラスへ、タイプに応じて分類するステップをさらに備え、
テーブルは、各シングルチャネルオーディオストリーム識別子に関連するシングルチャネルオーディオストリームクラスデータをさらに備え、
方法は、端末において、
- 各シングルチャネルオーディオストリームのクラスを識別するために記述テーブルから読み取るステップと、
- 空間化されたサウンド再生のために、シングルチャネルオーディオストリームに対してそれぞれの利得を適用するステップであって、利得は、端末を有する観客によって各シングルチャネルオーディオストリームのクラスに従って選ばれる、ステップと、を備える。

そのようにして、観客は、自分がどんなタイプのオーディオストリームを聞きたいのかを選ぶことができる。スポーツイベントにおける観客の没入は、それらの音源が観客の関心を引かないオーディオストリームを彼らが除外できるので改善されるにすぎない。観客は、スポーツイベントの個人化された体験を楽しむ。

一実施形態によれば、方法は、選ばれた参照フレームを基準とした観客の方位を決定するステップを備え、方法は、空間化されたシングルチャネルオーディオストリームに対してそれぞれの利得を適用するステップであって、空間化されたシングルチャネルオーディオストリームに適用されるそれぞれの利得は、選ばれた参照フレームを基準とした観客の位置および/または方位に応じて変化する、ステップを備える。

そのようにして、スポーツイベントにおける観客の没入はさらに高まる。事実上、彼らの方位の決定により、観客が見ているスポーツイベントを催す空間の一部において、「オーディオズーム」を行うことが可能になる。

一実施形態によれば、方法は、スポーツイベントを催す空間を、複数の部分空間へ分割するステップを備え、少なくとも1つのオーディオセンサが、各部分空間の中に設けられ、方法は、オーディオセンサによってキャプチャされた未加工ストリームを混合することによってサウンドスケープを構築するステップを備え、方法は、サウンドスケープを分析するステップのために、前記部分空間の各々を基準とした音源の位置を決定するステップを備える。

このようにして、このステップにより、ステップ、計算、およびデータ交換の数が低減された、空間化されたサウンド再生が可能になる。事実上、音源の位置特定を粗く決定することが十分である。

一実装形態によれば、音源の切り離しは、ソースの分離によって行われる。

一実装形態によれば、音源の切り離しは、時間周波数マスキングによって行われる。

一実施形態によれば、シングルチャネルオーディオストリームの分類は、学習によって行われ、シングルチャネルオーディオストリームは、ディープニューラルネットワーク技法によって分類される。

したがって、本方法をリアルタイムで実施することが可能である。

一実装形態によれば、方法は、サーバにおいて、
- 競技の局面ごとに、競技の局面の複数のタイプのうちの、競技の局面のタイプを決定するステップと、
- 報知的オーディオストリームのライブラリの中での、競技の局面の決定されたタイプに基づき少なくとも1つの報知的オーディオストリームを選択するステップと、
- そのサウンド再生のために、報知的オーディオストリームの端末へ送信するステップと、をさらに備える。

したがって、そのことにより、観客がスポーツイベントにおいてなお一層深く没入することが可能になる。このことはまた、システムが、進行中の競技の局面を観客に注意喚起する働きをするので、観客が競技の重要な局面を逃さないことを可能にする。

一実施形態によれば、競技の局面のタイプを決定するステップ、および場合によっては競技のこの局面に関連するフィールドにおける位置特定を行うステップは、最初に少なくとも1つのカメラによる競技の局面のビデオキャプチャによって取得された画像からの学習によって行うことができ、学習は、ディープニューラルネットワーク技法によって行うことができる。

このようにして、競技の局面のタイプを決定するステップ、および場合によっては位置特定を行うステップは、リアルタイムで自動的に行うことができる。

本発明はまた、スポーツイベントを見物する観客の端末へマルチチャネルオーディオストリームをブロードキャストするためのシステムを目標とし、システムは、
- スポーツイベントを催す空間の中に分散された複数のオーディオセンサを備える、1つまたは複数の音源を備えるサウンドスケープを構成する複数の未加工オーディオストリームの取得のためのモジュールと、
- サウンドスケープの分析のためのコンピュータ化モジュールを備えるサーバであって、
・サウンドスケープの各音源を切り離し、各音源に特有のシングルチャネルオーディオストリームを割り当てることと、
・シングルチャネルオーディオストリームごとに、スポーツイベントを催す空間の中で、シングルチャネルストリームに関連する音源の位置特定を行うことと、
・シングルチャネルオーディオストリームの記述テーブルを生成することであって、記述テーブルが、各シングルチャネルオーディオストリームの識別子、および各シングルチャネルオーディオストリーム識別子に関連して少なくとも1つの位置特定データを備える、前記生成することと、のために構成されたサーバと、
・マルチチャネルオーディオストリームを用いて1つまたは複数の端末へ記述テーブルを送信するために構成された送信モジュールであって、マルチチャネルオーディオストリームが、シングルチャネルオーディオストリームを集約する、送信モジュールと、
- 端末であって、
・シングルチャネルオーディオストリームの少なくとも一部の空間化されたサウンドを端末において再生するために、一方では各シングルチャネルオーディオストリームのそれぞれの位置特定に従って、他方ではスポーツイベントを催す前記空間の中での観客の位置において、シングルチャネルオーディオストリームのサウンド空間化フィルタ処理を適用するために、受信された記述テーブルおよびマルチチャネルオーディオストリームを使用するために構成された端末と、を備える。

一実装形態によれば、方位センサは、空間の中での観客の方位を決定することができ、方位センサは、慣性ナビゲーションユニットおよび/または加速度計のうちから選ばれる。

以下の発明の実施形態の詳細な説明を読み、添付の図面を検討すると、本発明の他の利点および特性が明らかになる。

本発明によるマルチチャネルオーディオストリームのブロードキャストのためのシステムの動作を示す概略図である。本発明による例示的な実装形態による、イベントを見物する観客の端末へマルチチャネルオーディオストリームをブロードキャストするための方法の主要なステップのシーケンス図である。本発明によるシステムを概略的に示す図である。

「スポーツイベント」とは、スポーツ興行を見物するための単一のエリアの中に多数の観客を一緒に来させる、任意のスポーツイベントを意味するものと理解される。たとえば、本システムは、サッカー、バスケットボール、野球、ラグビー、ホッケー、テニスの試合などの場面において使用され得る。この列挙は限定ではない。

図1および図3に示すように、システムSYSTは取得モジュールMACを備える。取得モジュールMACは、たとえば、マイクロフォンの、複数のオーディオセンサM1～MNを備える。オーディオセンサM1～MNは、スポーツイベントを催す空間の中に分散される。スポーツイベントを催す空間の外観は、スポーツイベントのタイプに従って大幅に変わることがある。具体的には、スポーツイベントを催す空間は、スタンドを有する競技場、レーシングサーキットなどであり得る。

スポーツイベントを催す空間のタイプ(または、説明の残部では「空間」)ごとに、オーディオセンサM1～MNは、スポーツイベントから来ている各未加工オーディオストリームF_B1～F_BNがキャプチャされるように分散される。オーディオセンサM1～MNは、このとき、スポーツイベントを催す空間の周囲で一様に分散され得る。

「未加工オーディオストリーム」とは、オーディオセンサM1～MNによって記録され、まだ処理されていない、オーディオストリームを意味するものと理解される。未加工オーディオストリームは、スポーツイベントを見物する群衆の叫び声、競技者の競技、たとえば、ボールを蹴ることから来る喧噪、うなるような声などを備えることができる。未加工オーディオストリームはまた、競技者の間で交わされる言葉を含むことができる。未加工オーディオストリームはまた、観客の間で交わされる言葉を含むことができる。未加工オーディオストリームは、1つまたは複数の音源を備えるサウンドスケープを形成する。

図1からの例では、未加工オーディオストリームF_B1～F_BNおよび音源S1～SNが示される。音源S1に関連する未加工オーディオストリームF_B1は、たとえば、競技者がボールを蹴ることに対応する。音源S2に関連する未加工オーディオストリームF_B2は、ホイッスルに対応し、音源SNに関連するオーディオストリームF_BNは、観客の間で交わされる言葉に対応する。オーディオストリームF_B1～F_BNは、MAC取得モジュールのオーディオセンサM1～MNによってキャプチャされる。

オーディオストリームF_B1～F_BNは、空間にブロードキャストされる。したがって、各オーディオストリームF_B1～F_BNは、各オーディオセンサM1～MNによって、幾分強くキャプチャされる。たとえば、オーディオセンサM1は、主にオーディオストリームF_B1をキャプチャするがオーディオストリームF_B2もキャプチャする。同様に、オーディオセンサM5は、未加工オーディオストリームF_BNを極めて正確にキャプチャし、オーディオストリームF_B1を少し不正確にキャプチャし、オーディオストリームF_B2をなお一層不正確にキャプチャする。サウンドスケープSSは、すべての未加工オーディオストリームF_B1、F_B2、およびF_BNを混合することによって作り上げられる。サウンドスケープSSはいくつかの音源S1～SNを備える。

システムSYSTは、オーディオセンサM1～MNの少なくとも2つのネットワークを備えてよい。オーディオセンサの第1のネットワークは、たとえば、スポーツイベントの暗騒音、通常はスポーツイベントを見物する群衆の叫び声をキャプチャする働きをする。オーディオセンサの第1のネットワークはまた、観客の間で交わされる言葉をキャプチャする働きをすることができる。したがって、第1のネットワークからのオーディオセンサは、好ましくは観客の近くに、また好ましくは観客に直接配置される。

オーディオセンサM1～MNの第2のネットワークも、スポーツイベントからの暗騒音または群衆の叫び声をキャプチャする働きをすることができる。第2のネットワークはまた、スポーツイベントに関連する未加工オーディオストリームをキャプチャすることができる。これは、ボールを蹴ること、さらには競技者の間で交わされる言葉などの、試合から来る喧噪を備えてよい。

少なくとも3つのタイプの音源を規定することが可能である。第1のタイプは、スポーツイベントの雰囲気に対応する。第1のタイプは、具体的には、スポーツイベントを見物する群衆の叫び声を備える。第2のタイプは、スポーツイベントの成り行きに対応する。たとえば、第2のタイプは、ボールを蹴ること、ホイッスルなどを備える。第3のタイプは、スポーツイベントにおいて観客の間で交わされる言葉に対応する。

オーディオセンサM1～MNの各々によってキャプチャされた複数の未加工オーディオストリームは、分析エリアLOCへ送られる。送信は、図1の中で矢印「IN」によって示される。分析エリアは、未加工オーディオストリームF_B1～F_BNのフィルタ処理がその中で適用される少なくとも1つのSERVサーバを備える。具体的には、ソースの分離によるフィルタ処理が行われる。ソースの分離を通じて、競技の様々なサウンドイベントが、オーディオセンサによって記録されたサウンドスケープから分離され得る。フィルタ処理されたストリームは、少なくとも1つのオーディオストリームの、端末TERM上での空間化された再生のために、端末TERMへ送られる。端末TERMは、たとえば、スマートフォン、電子タブレット、またはコンピュータタイプのモバイル端末である。

空間化されたオーディオストリームをブロードキャストするために、ブロードキャストデバイスDIFFも設けられる。ブロードキャストデバイスDIFFは、各観客がその人の配置において有する個人用スピーカーまたはオーディオヘッドセットであってよい。

本発明によるシステムSYSTは、詳細には、個人化されたサウンド再生のための働きをする。たとえば、スポーツイベントに関係する音のサウンド再生は、各音源S1～SNの位置、ならびにスポーツイベントを催す空間の中で端末TERMを使用する観客の位置に応じて行われる。観客の位置は、全地球測位システム(GPS)、三角測量、または近距離場通信(NFC)によって観客を位置特定できる、測位モジュールMPによって決定され得る。観客には、その関連する音源が彼らにより近いオーディオストリームが、より明瞭に聞こえる。図1の例に戻ると、フィールドの左に位置する観客には、音源S2に関連するオーディオストリームF_B2よりもソースS1に関連するオーディオストリームF_B1が、よりはっきりと聞こえる。

簡単な実装形態では、スピーカーは、サウンドスケープに対する再生選好を、端末TERMを介して入力する実現性を有する。たとえば、観客は、いくつかのタイプの音源に関連するオーディオストリームを聞くことを選んでよい。たとえば、観客は、観客の間で交わされる言葉のみを、または審判員のホイッスルのみを聞くことを選んでよい。観客はまた、彼らが関連するオーディオソースのタイプに応じて、すべてのオーディオストリームを幾分大きい音で聞くことを選んでよい。

別の例示的な実装形態によれば、観客は、スポーツイベントを催す空間の中でのその人の方位に応じて、いくつかのオーディオストリームをより大きい音で聞く。たとえば、システムは、観客がどんな方向を見ているのかを決定するための方位センサを備える、方位モジュールMOを備える。観客は、このとき、方位センサをサポートする付属品、たとえば、ヘッドセットまたはタグが装備されてよい。方位センサは、加速度計または慣性ナビゲーションユニットであってよい。次いで、この音源に関連するオーディオストリームのブロードキャストボリュームを増幅するために、どんな音源S1～SNに向かって観客が向きを変えるのかを決定することが可能である。そのことは観客が見物しているスポーツイベントにおいて完全に没入することを可能にするので、観客の体験はそのようにして改善される。

図2は、システムSYSTによって実行される方法の主要なステップをより正確に示す。

取得システムMACは、オーディオセンサM1～MNによってすべての未加工オーディオストリームF_B1～F_BNをキャプチャする。未加工オーディオストリームF_B1～F_BNは、少なくとも1つの音源S1～SNを備えるサウンドスケープSSを形成する。

ステップE1～E5は、サーバSERVによって行われる。サーバSERVは、それを用いてサウンドスケープSSから各音源S1～SNを切り離すための、コンピュータ化分析モジュールMIAを備える。サウンドスケープSSは、コンピュータ化分析モジュールMIAへ送られる。ステップE1において、コンピュータ化分析モジュールMIAは、サウンドスケープSSから各音源S1～SNを切り離す。音源S1～SNの切り離しは、ステップE1Aにおいて図示したような、ビームフォーミングによるソースの分離という方法によって行うことができる。一変形形態として、音源S1～SNの切り離しのステップは、ステップE1Bにおいて図示したような、時間周波数マスキングによって行われる。時間周波数マスキングは、詳細には、単一の空間ゾーンの中で2つのイベントが同時に発生するときにソースを分離する働きをする。

ステップE1が各音源S1～SNを切り離す働きをしたので、ステップE2において、特定のシングルチャネルオーディオストリームF_mono1～F_monoNが各音源S1～SNに割り当てられてよい。

各ステップE3において、各音源S1～SNは、スポーツイベントを催す空間の中に位置する。したがって、各シングルチャネルオーディオストリームF_mono1～F_monoNは、それらに属する音源S1～SNの位置特定に応じて位置特定され得る。特に、スポーツイベントを催す空間は、複数の部分空間に分割され得る。たとえば、スポーツイベントを催す空間はグリッドに分割され得るが、空間は別の構成に従って分割されてもよい。たとえば、各部分空間は、競技の特定のエリア、たとえば、フィールドの中央、各ゴールボックス、ペナルティエリアなどに対応してよい。少なくとも1つのオーディオセンサM1～MNは、部分空間ごとに設けられる。音源S1～SNの位置特定は、各部分空間を基準として行われる。より正確には、各音源S1～SNの位置特定は、それが位置する部分空間に対応する。各シングルチャネルオーディオストリームF_mono1～F_monoNの位置特定、およびそれに関連付けられる、音源S1～SNの位置特定。

コンピュータ化分析モジュールMIAは、ステップE5において記述テーブルTABを生成する。各シングルチャネルオーディオストリームF_mono1～F_monoNは、識別子IDによって規定される。各識別子IDは、ステップE3において決定されたシングルチャネルオーディオストリームF_mono1～F_monoNの位置特定データ’位置’に関連付けられる。

一実装変形形態によれば、本発明による方法は、シングルチャネルオーディオストリームF_mono1～F_monoNの分類の予備的なステップE4をさらに備える。この分類は、シングルチャネルオーディオストリームF_mono1～F_monoNに関連する音源S1～SNのタイプに応じて行われる。上記で説明したように、少なくとも3つのタイプの音源S1～SNがある。第1のタイプは、スポーツイベントの雰囲気に対応し、特に群衆の叫び声を含む。第2のタイプは、スポーツイベントの成り行きに対応し、特に競技者のキックおよび審判員のホイッスルを含む。第3のタイプは、観客の間で交わされる言葉に対応する。各タイプの音源は、少なくとも1つのクラスに関連付けられ得る。いくつかのクラスは、単一のタイプの音源に対応することができる。たとえば、ボールを蹴ることに対応する第1のクラス、および審判員のホイッスルを備える第2のクラスが、第2のタイプの音源に関連付けられ得る。

一実施形態によれば、シングルチャネルオーディオストリームF_mono1～F_monoNの分類は、音源分離の教師あり方法によって行われてよい。分類は、ディープニューラルネットワーク技法による学習によって行われる。このことは、方法のリアルタイムの使用を可能にするという利点を有する。実際上、学習により、オーディオストリームが関連付けられる音源のタイプは、取得モジュールMACによってキャプチャされたオーディオストリームの、サーバSERVへの送信時に認識され得る。

この実装変形形態によれば、記述テーブルTABの中に含まれるシングルチャネルオーディオストリームF_mono1～F_monoNの各識別子IDに、クラスTYPがさらに割り当てられる。

記述テーブルTABは、次に、ステップE6において送信モジュールMTによって端末TERMへ送られる。送信はまた、シングルチャネルオーディオストリームのセットを備えるマルチチャネルオーディオストリームF_multiを備える。

一実装変形形態によれば、システムSYSTは、送信モジュールMTを備えない。シングルチャネルオーディオストリームF_mono1～F_monoNは、ライブラリBIBの中に含められ、それらの空間化されたサウンド再生のために局所的に合成される。

ステップE1～E6は、サーバSERVによってリアルタイムで行われる。

ステップE7～E11は、端末TERMによって行われる。端末TERMは、記述テーブルTAB、およびシングルチャネルオーディオストリームF_mono1～F_monoNのセットを集約するマルチチャネルオーディオストリームF_multiも受信した。

端末TERMは、少なくとも1つのサウンド空間化フィルタ処理を適用するために記述テーブルを使用し得る。ステップE7において、端末TERMはこのようにして、端末TERMを使用する観客に対する測位データを受信する。測位データは、測位モジュールMPによって、かつ/または方位モジュールMOによって得られる。測位データは、少なくとも、スポーツイベントを催す空間の参照のフレームの中での観客の地理的位置を備える。

測位データは、空間の中で固定された参照フレーム、たとえば、競技場の中央を基準とした、観客の方位に対するデータをさらに備えることができる。観客の方位は、その人がそれに向かって向きを変える部分空間に対応する。観客からの方位データの使用は、上記に見られるように、観客によって目標とされる空間の一部において、「オーディオズーム」を行う働きをする。

測位データは、測位モジュールMPによってリアルタイムで継続的に取得される。

ステップE8において、シングルチャネルオーディオストリームF_mono1～F_monoNは、観客からの測位データ、および記述テーブルTABの中に含まれるシングルチャネルオーディオストリームの位置特定に応じて、フィルタ処理される。このようにして、空間化された複数のシングルチャネルオーディオストリームF_spatia1～F_spatiaNが、結果として生じる。

同じように、観客は、他のオーディオストリームよりも前にいくつかのオーディオストリームを置く実現性を有する。したがって、観客がその人の空間的方位に基づくオーディオズームを行うことを希望するかどうか、またはどのクラスのオーディオストリームをブロードキャストすべきかを選ぶ実現性を、観客は有する。したがって、ステップE9において、端末TERMは、観客から選好命令を受け取る。観客は、たとえば、端末TERMのインターフェースを通じて彼らの命令を入力してよい。たとえば、観客と端末TERMとの間でのやり取りを可能にするために、専用アプリケーションが提供され得る。

ステップE10において、端末TERMは、空間化されたシングルチャネルオーディオストリームF_spatia1～F_spatiaNの少なくともの一部にそれぞれの利得を適用する。

観客の方位が考慮される実装変形形態によれば、記述テーブルTABが読み取られる。それぞれの利得は、記述テーブルTABの中の関連する位置特定が、観客が向いている方向に対応すべき、空間化されたシングルチャネルオーディオストリームF_spatia1～F_spatiaNに適用される。より正確には、観客によって目標とされる部分空間と同じ部分空間の中で音源が位置特定されるべき、空間化されたシングルチャネルオーディオストリームF_spatia1～F_spatiaNには、より大きい利得が適用される。

測位データがリアルタイムかつ継続的に取得されるので、適用される利得はこれらのデータとともに変化し得る。観客の方位または地理的位置の変化は、空間化された様々なシングルチャネルオーディオストリームに適用される利得の値の修正につながる。適用される利得の値の修正はリアルタイムで行われる。

オーディオストリームのクラスが考慮される第2の実装変形形態によれば、空間化されたどんなシングルチャネルオーディオストリームF_spatia1～F_spatiaNにどんなクラスが関連付けられているのかを決定するために、記述テーブルTABが読み取られる。それぞれの利得は、観客によって選ばれたクラスにそれらのクラスが対応する空間化されたシングルチャネルオーディオストリームF_spatia1～F_spatiaNに適用される。観客は、任意の瞬間において、異なる利得が適用されるように彼らの選好命令を修正することができる。それぞれの利得値はリアルタイムで修正される。

ステップE11において、空間化されたシングルチャネルオーディオストリームF_spatia1～F_spatiaNは、オーディオヘッドセットまたは個人用スピーカータイプのブロードキャストモジュールへ送られる。観客は、次いで、本発明によるシステムによってもたらされる聴覚的な没入を利用することができる。

一実装変形形態によれば、観客へブロードキャストされるオーディオストリームの中にスポーツイベントの進捗についての情報を統合することも意図される。この変形形態によれば、サーバSERVは、各々が競技の1つの局面に関連する複数の報知的オーディオストリームF_info1～F_infoNを備えるライブラリBIBをさらに備えてよい。報知的オーディオストリームF_info1～F_infoNは、自動的に観客へブロードキャストされ得る。進行中の競技の局面のタイプが、競技の局面の複数のタイプの中から決定される。競技の局面のタイプは、たとえば、ゴール、ペナルティ、ファウルなどを備える。決定された競技の局面のタイプに従って、それらのサウンド再生のために少なくとも1つの報知的オーディオストリームF_info1～F_infoNがライブラリBIBの中で選択される。報知的オーディオストリームF_info1～F_infoNは、自動的に観客へブロードキャストされ得る。

一変形形態として、報知的オーディオストリームF_info1～F_infoNは、観客がそれを選ぶ場合にしかブロードキャストされない。報知的オーディオストリームF_info1～F_infoNは、詳細には、観客が何を見ているのかについての聴覚情報を追加することを可能にする。たとえば、ゴール局面において、ブロードキャスト聴覚的オーディオストリームは、ゴールがあったことを観客に示す。このようにして、観客が見物しているスポーツイベントにおける彼らの没入はさらに高まり得る。このようにして、観客はまた、競技のいかなる重要な局面も逃さない。

一例によれば、進行中の競技の局面のタイプの決定は、図3に示すような、少なくとも1つのビデオカメラを備えるキャプチャデバイスDCによって行われる。キャプチャデバイスDCは、スポーツイベントのすべての局面に追従できるように配設される。キャプチャデバイスによってキャプチャされた画像は、キャプチャデバイスDCが現在入手している競技の局面のタイプをリアルタイムで決定できる、コンピュータ化分析モジュールへ送られ得る。試合局面のタイプは、ディープニューラルネットワーク学習方法によって決定され得る。

BIB ライブラリ
DIFF ブロードキャストデバイス
F_B1～F_BN 未加工オーディオストリーム
F_mono1～F_monoN シングルチャネルオーディオストリーム
F_multi マルチチャネルオーディオストリーム
F_spatia1～F_spatiaN 空間化されたシングルチャネルオーディオストリーム
ID 識別子
LOC 分析エリア
M1～MN オーディオセンサ
MAC 取得システム
MIA コンピュータ化分析モジュール
MO 方位モジュール
MP 測位モジュール
MT 送信モジュール
S1～SN 音源
SERV サーバ
SS サウンドスケープ
SYST システム
TAB 記述テーブル
TERM 端末

Claims

スポーツイベントを見物する観客の端末(TERM)へマルチチャネルオーディオストリーム(F_multi)をブロードキャストするための方法であって、
前記スポーツイベントを催す空間にわたって分散された複数のオーディオセンサ(M1～MN)により、1つまたは複数の音源(S1～SN)を備えるサウンドスケープ(SS)を構成する複数の未加工オーディオストリーム(F_B1～F_BN)を取得するステップと、
サーバ(SERV)により前記サウンドスケープ(SS)を分析するステップであって、
前記サウンドスケープ(SS)の各音源(S1～SN)を切り離し、および各音源(S1～SN)に特有のシングルチャネルオーディオストリーム(F_mono1～F_monoN)を割り当てることと、
シングルチャネルオーディオストリーム(F_mono1～F_monoN)ごとに、前記スポーツイベントを催す前記空間の中での、シングルチャネルオーディオストリーム(F_mono1～F_monoN)に関連する前記音源(S1～SN)の位置に応じた空間的な位置特定を行うことと、
前記シングルチャネルオーディオストリーム(F_mono1～F_monoN)の記述テーブル(TAB)を生成することであって、前記記述テーブル(TAB)が、各シングルチャネルオーディオストリーム(F_mono1～F_monoN)の識別子(ID)、および各シングルチャネルオーディオストリーム(F_mono1～F_monoN)の識別子(ID)に関連して少なくとも1つの位置特定データを備える、前記生成することと、を含むステップと、
マルチチャネルオーディオストリーム(F_multi)を用いて、前記サーバ(SERV)により1つまたは複数の端末(TERM)へ前記記述テーブル(TAB)を送信するステップであって、前記マルチチャネルオーディオストリーム(F_multi)が、前記シングルチャネルオーディオストリーム(F_mono1～F_monoN)を集約する、ステップと、
前記シングルチャネルオーディオストリーム(F_mono1～F_monoN)の少なくとも一部の空間化されたサウンドを前記端末(TERM)において再生するために、一方では各シングルチャネルオーディオストリーム(F_mono1～F_monoN)のそれぞれの位置に従って、他方では前記スポーツイベントを催す前記空間の中での前記観客の位置において、前記シングルチャネルオーディオストリーム(F_mono1～F_monoN)のサウンド空間化フィルタ処理を適用するために、端末(TERM)により受信された記述テーブル(TAB)および前記マルチチャネルオーディオストリーム(F_multi)を使用するステップと、
を備え、
前記方法は、前記サーバ(SERV)において、
競技の局面ごとに、競技の局面の複数のタイプのうちの、競技の前記局面のタイプを決定するステップと、
報知的オーディオストリーム(F _info 1～F _info N)のライブラリ(BIB)の中での、競技の前記局面の前記決定されたタイプに基づき少なくとも1つの報知的オーディオストリーム(F _info 1～F _info N)を選択するステップと、
そのサウンド再生のために、前記報知的オーディオストリーム(F _info 1～F _info N)を前記端末(TERM)へ送信するステップと、
をさらに備え、
競技の局面の前記タイプを前記決定するステップが、少なくとも1つのカメラによる競技の局面のビデオキャプチャによって取得された画像から学習することによって行われ、前記学習が、ディープニューラルネットワーク技法によって行われる、方法。
前記サウンドスケープ(SS)を前記分析するステップが、
シングルチャネルオーディオストリーム(F_mono1～F_monoN)ごとに、シングルチャネルオーディオストリーム(F_mono1～F_monoN)に関連する前記音源(S1～SN)を、複数のクラスのうちの1つのクラスへ、タイプに応じて分類するステップをさらに備え、
前記記述テーブル(TAB)が、各シングルチャネルオーディオストリーム(F_mono1～F_monoN)の識別子(ID)に関連するシングルチャネルオーディオストリーム(F_mono1～F_monoN)クラスデータをさらに備え、
前記方法が、前記端末(TERM)において、
各シングルチャネルオーディオストリーム(F_mono1～F_monoN)の前記クラスを識別するために前記記述テーブル(TAB)から読み取るステップと、
前記空間化されたサウンド再生のために、前記シングルチャネルオーディオストリーム(F_mono1～F_monoN)に対して、それぞれの利得を適用するステップであって、前記利得が、前記端末(TERM)を有する観客によって各シングルチャネルオーディオストリーム(F_mono1～F_monoN)の前記クラスに従って選ばれる、ステップと、
を備える、請求項1に記載の方法。
選ばれた参照フレームを基準とした前記観客の方位を決定するステップを備え、
前記方法が、前記空間化されたシングルチャネルオーディオストリーム(F_spatia1～F_spatiaN)に対して、それぞれの利得を適用するステップであって、前記空間化されたシングルチャネルオーディオストリーム(F_spatia1～F_spatiaN)に適用される前記それぞれの利得が、前記選ばれた参照フレームを基準とした前記観客の位置および/または方位に応じて変化する、ステップを備える、請求項1または2に記載の方法。
前記スポーツイベントを催す前記空間を、複数の部分空間へ分割するステップを備え、少なくとも1つのオーディオセンサ(M1～MN)が、各部分空間の中に設けられ、
前記方法が、前記オーディオセンサ(M1～MN)によってキャプチャされた未加工ストリーム(F_B1～F_BN)を混合することによって前記サウンドスケープ(SS)を構築するステップを備え、
前記方法が、前記サウンドスケープ(SS)を前記分析するステップのために、前記部分空間の各々を基準とした前記音源(S1～SN)の前記位置を決定するステップを備える、請求項1から3のいずれか一項に記載の方法。
音源(S1～SN)の前記切り離しが、ソースの分離によって行われる、請求項1から4のいずれか一項に記載の方法。
音源(S1～SN)の前記切り離しが、時間周波数マスキングによって行われる、請求項1から4のいずれか一項に記載の方法。
前記シングルチャネルオーディオストリーム(F_mono1～F_monoN)の分類が、学習によって行われ、前記シングルチャネルオーディオストリーム(F_mono1～F_monoN)が、ディープニューラルネットワーク技法によって分類される、請求項2から6のいずれか一項に記載の方法。
スポーツイベントを見物する観客の端末(TERM)へマルチチャネルオーディオストリーム(F_multi)をブロードキャストするためのシステム(SYST)であって、
前記スポーツイベントを催す空間にわたって分散された複数のオーディオセンサ(M1～MN)による、1つまたは複数の音源(S1～SN)を備えるサウンドスケープ(SS)を構成する複数の未加工オーディオストリーム(F_B1～F_BN)を備える取得モジュール(MAC)と、
前記サウンドスケープ(SS)の分析のためのコンピュータ化モジュール(MIA)を備えるサーバ(SERV)であって、
前記サウンドスケープ(SS)の各音源(S1～SN)を切り離し、シングルチャネルオーディオストリーム(F_mono1～F_monoN)を各音源(S1～SN)に割り当てることと、
シングルチャネルオーディオストリーム(F_mono1～F_monoN)ごとに、前記スポーツイベントを催す前記空間の中で、シングルチャネルオーディオストリーム(F_mono1～F_monoN)に関連する前記音源(S1～SN)の位置特定をすることと、
前記シングルチャネルオーディオストリーム(F_mono1～F_monoN)の記述テーブル(TAB)を生成することであって、前記記述テーブル(TAB)が、各シングルチャネルオーディオストリーム(F_mono1～F_monoN)の識別子(ID)、および各シングルチャネルオーディオストリーム(F_mono1～F_monoN)の識別子(ID)に関連して少なくとも1つの位置特定データを備える、前記生成することと、のために構成されたサーバと、
マルチチャネルオーディオストリーム(F_multi)を用いて1つまたは複数の端末(TERM)へ前記記述テーブル(TAB)を送信するために構成された送信モジュール(MT)であって、前記マルチチャネルオーディオストリーム(F_multi)が、前記シングルチャネルオーディオストリーム(F_mono1～F_monoN)を集約する、送信モジュール(MT)と、
端末(TERM)であって、
前記シングルチャネルオーディオストリーム(F_mono1～F_monoN)の少なくとも一部の空間化されたサウンドを前記端末において再生するために、一方では各シングルチャネルオーディオストリーム(F_mono1～F_monoN)のそれぞれの位置に従って、他方では前記スポーツイベントを催す前記空間の中での前記観客の位置において、前記シングルチャネルオーディオストリーム(F_mono1～F_monoN)のサウンド空間化フィルタ処理を適用するために、受信された記述テーブル(TAB)および前記マルチチャネルオーディオストリーム(F_multi)を使用するために構成された端末と、
を備え、
前記サーバ(SERV)が、
競技の局面ごとに、競技の局面の複数のタイプのうちの、競技の前記局面のタイプを決定し、
報知的オーディオストリーム(F _info 1～F _info N)のライブラリ(BIB)の中での、競技の前記局面の前記決定されたタイプに基づき少なくとも1つの報知的オーディオストリーム(F _info 1～F _info N)を選択し、
そのサウンド再生のために、前記報知的オーディオストリーム(F _info 1～F _info N)を前記端末(TERM)へ送信する、
ようにさらに構成され、
競技の局面の前記タイプを前記決定が、少なくとも1つのカメラによる競技の局面のビデオキャプチャによって取得された画像から学習することによって行われ、前記学習が、ディープニューラルネットワーク技法によって行われる、システム。
方位センサが、空間の中での前記観客の方位を決定することができ、前記方位センサが、慣性ナビゲーションユニットおよび/または加速度計のうちから選ばれる、請求項8に記載のシステム。