JP7295851B2 - 仮想現実アプリケーションのためのオーディオ配信の最適化 - Google Patents

仮想現実アプリケーションのためのオーディオ配信の最適化 Download PDF

Info

Publication number
JP7295851B2
JP7295851B2 JP2020520204A JP2020520204A JP7295851B2 JP 7295851 B2 JP7295851 B2 JP 7295851B2 JP 2020520204 A JP2020520204 A JP 2020520204A JP 2020520204 A JP2020520204 A JP 2020520204A JP 7295851 B2 JP7295851 B2 JP 7295851B2
Authority
JP
Japan
Prior art keywords
audio
stream
scene
video
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020520204A
Other languages
English (en)
Other versions
JP2020537418A (ja
Inventor
ムルタザ・アドリアン
フックス・ハラルド
ツェルハン・ベルント
プログシュティーズ・ヤン
アニエッリ・マッテオ
ホフマン・インゴ
Original Assignee
フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2020537418A publication Critical patent/JP2020537418A/ja
Priority to JP2023095140A priority Critical patent/JP2023116635A/ja
Application granted granted Critical
Publication of JP7295851B2 publication Critical patent/JP7295851B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/0093Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00 with means for monitoring data relating to the user, e.g. head-tracking, eye-tracking
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0179Display position adjusting means not related to the information to be displayed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/293Generating mixed stereoscopic images; Generating mixed monoscopic and stereoscopic images, e.g. a stereoscopic image overlay window on a monoscopic image background
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/361Reproducing mixed stereoscopic images; Reproducing mixed monoscopic and stereoscopic images, e.g. a stereoscopic image overlay window on a monoscopic image background
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/23439Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements for generating different versions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6587Control parameters, e.g. trick play commands, viewpoint selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0179Display position adjusting means not related to the information to be displayed
    • G02B2027/0187Display position adjusting means not related to the information to be displayed slaved to motion of at least a part of the body of the user, e.g. head, eye

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Optics & Photonics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Stereophonic System (AREA)
  • User Interface Of Digital Computer (AREA)
  • Position Input By Displaying (AREA)

Description

仮想現実(VR)環境、あるいは同様に拡張現実(AR)または複合現実(MR)または360度のビデオ環境では、ユーザーは通常、例えばヘッドマウントディスプレイ(HMD)を使用して360度のコンテンツ全体を視覚化して、ヘッドフォンで(または同様に、その位置に応じて正しいレンダリングを含むスピーカーで)聴くことができる。
単純な使用事例では、コンテンツは、ある瞬間に1つのオーディオ/ビデオシーン(例えば、360度のビデオ)だけが再生されるように作成される。オーディオ/ビデオシーンは固定された位置(例えば、ユーザーが中心に位置する球など)を有し、ユーザーはシーン内を移動できず、頭を様々な方向(ヨー、ピッチ、ロール)に回転させることしかできない。この場合、ユーザーの頭の向きに基づいて、異なるビデオとオーディオが再生される(異なるビューポートが表示される)。
ビデオの場合、ビデオコンテンツは、レンダリングプロセスを記述するためのメタデータ(例えば、ステッチ情報、プロジェクションマッピングなど)と共に、360度のシーン全体について配信され、現在のユーザーのビューポートに基づいて選択されるが、オーディオの場合、コンテンツはシーン全体で同じである。メタデータに基づいて、オーディオコンテンツが現在のユーザーのビューポートに適合される(例えば、オーディオオブジェクトは、ビューポート/ユーザーの向きの情報に基づいて異なってレンダリングされる)。360度コンテンツとは、ユーザーが(例えば、ユーザーの頭の向きまたはリモートコントロールデバイスにより)選択することができる、同時に複数の視野角で構成される任意のタイプのコンテンツを指すことに留意されたい。
より複雑なシナリオでは、ユーザーがVRシーン内を移動したり、あるシーンから次のシーンに「ジャンプ」したりすると、オーディオコンテンツも変化する可能性がある(例えば、1つのシーンで聞こえないオーディオソースが次のシーンで聞こえるようになる-「ドアが開く」)。既存のシステムでは、完全なオーディオシーンを1つのストリームにエンコードし、必要に応じて(メインストリームに応じて)追加のストリームにエンコードすることができる。このようなシステムは、次世代オーディオシステム(例えば、MPEG-H 3Dオーディオなど)として公知である。このような使用事例は、以下を含むことができる。
・例1:ユーザーが新しい部屋に入室することを選択し、オーディオ/ビデオシーン全体が変化する
・例2:ユーザーがVRシーン内を移動し、ドアを開けて通り抜ける場合、1つのシーンから次のシーンへのオーディオの移行が必要であることを意味する
このシナリオを説明する目的で、様々なオーディオ/ビデオコンテンツが利用可能な空間(またはVR環境)の離散的な位置として、空間内の離散的なビューポイントの概念が導入されている。
「ストレートフォワード」ソリューションは、ユーザーの位置/向きに関する再生デバイスからのフィードバックに基づいてエンコーディング(オーディオ要素の数、空間情報など)を変更するリアルタイムエンコーダを用意することである。このソリューションは、例えば、ストリーミング環境では、クライアントとサーバーとの間の非常に複雑な通信を意味する。
・クライアント(通常は単純なロジックのみを使用すると想定されている)は、様々なストリームに対する要求だけでなく、ユーザーの位置に基づいて適切なコンテンツの処理を可能にするエンコードの詳細に関する複雑な情報も伝達するための高度なメカニズムを必要とする。
・メディアサーバーには通常、様々なストリーム(「セグメントごとの」配信を可能にする特定の形式でフォーマットされている)が予め入力されており、サーバーの主な機能は、利用可能なストリームに関する情報を提供し、要求されたときに配信を行うことである。再生デバイスからのフィードバックに基づいてエンコードを可能にするシナリオを有効にするために、メディアサーバーは、複数のライブメディアエンコーダとの高度な通信リンク、およびリアルタイムで変化することができるすべてのシグナリング情報(例えば、メディアプレゼンテーション記述)をオンザフライで作成する機能を必要とする。
そのようなシステムは想像することができるが、その複雑さと計算の要件は、現在利用可能な、あるいは今後数十年で開発されるであろう機器およびシステムの機能および特徴を超えている。
あるいは、完全なVR環境(「完全な世界」)を表すコンテンツを常に配信することもできる。これで問題は解決するが、利用可能な通信リンクの容量を超える巨大なビットレートが必要になる。
これはリアルタイム環境では複雑であり、利用可能なシステムを使用してこのような使用事例を可能にするために、この機能を低い複雑度で可能にする代替ソリューションが提案されている。
2.用語および定義
以下の用語がこの技術分野で使用されている。
・オーディオ要素:例えば、オーディオオブジェクト、オーディオチャネル、シーンベースのオーディオ(高次アンビソニックス-HOA)、またはすべての任意の組み合わせとして表すことができるオーディオ信号。
・関心領域(ROI):ある時点でユーザーが関心をもつビデオコンテンツ(または表示またはシミュレーションされた環境)の1つの領域。これは通常、例えば球上の領域、または2Dマップからの多角形の選択である。ROIは特定の目的のために特定の領域を識別し、考慮中のオブジェクトの境界を定義する。
・ユーザー位置情報:位置情報(例えば、x、y、z座標)、方位情報(ヨー、ピッチ、ロール)、移動方向、移動速度など。
・ビューポート:現在表示され、ユーザーが閲覧している全天球ビデオの一部。
・ビューポイント:ビューポートの中心点。
・360度ビデオ(没入型ビデオまたは全天球ビデオとしても公知である):このドキュメントのコンテキストでは、同時に一方向に複数のビュー(ビューポート)を含むビデオコンテンツを表す。そのようなコンテンツは、例えば、全方位カメラまたはカメラの集合を使用して作成することができる。再生中に、視聴者は視聴方向を制御することができる。
・メディアプレゼンテーション記述(MPD)は、例えばXMLなどの構文であり、メディアセグメント、それらの関係、およびそれらを選択するために必要な情報に関する情報を含む。
・アダプテーションセットには、メディアストリームまたはメディアストリームのセットが含まれる。最も単純なケースでは、コンテンツのすべてのオーディオとビデオを含む1つのアダプテーションセットであるが、帯域幅を減らすために、各ストリームを異なるアダプテーションセットに分割することができる。一般的な事例は、1つのビデオアダプテーションセットと複数のオーディオアダプテーションセットを(サポートされる言語ごとに1つ)有することである。アダプテーションセットは、字幕または任意のメタデータを含むこともできる。
・表現により、アダプテーションセットに異なる方法でエンコードされた同じコンテンツを含めることができる。ほとんどの場合、表現は複数のビットレートで提供される。これにより、クライアントはバッファリングを待たずに再生することができる最高品質のコンテンツを要求することができる。表現は様々なコーデックでエンコードすることもできるため、サポートされている様々なコーデックを有するクライアントをサポートすることができる。
このアプリケーションのコンテキストでは、アダプテーションセットの概念がより一般的に使用され、実際に表現を参照することもある。また、メディアストリーム(オーディオ/ビデオストリーム)は通常、最初にクライアント(例えば、DASHクライアント)によって再生される実際のメディアファイルであるメディアセグメントにカプセル化される。メディアセグメントには、MPEG-4コンテナフォーマットに類似したISOベースメディアファイルフォーマット(ISOBMFF)またはMPEG-2トランスポートストリーム(TS)などの、様々なフォーマットを使用することができる。メディアセグメントへのカプセル化および様々な表現/アダプテーションセットでのカプセル化は、ここで説明する方法とは無関係であり、本方法はすべての様々なオプションに適用される。
さらに、この文書における方法の説明はDASHサーバーとクライアントの通信を中心にしているが、本方法はMMT、MPEG-2 TS、DASH-ROUTE、ファイル再生のためのファイルフォーマットなどの他の配信環境で機能するのに十分に一般的である。
一般的に、アダプテーションセットはストリームに対して上位のレイヤにあり、メタデータ(例えば、位置に関連付けられた)を含むことができる。ストリームは複数のオーディオ要素を含むことができる。オーディオシーンは、複数のアダプテーションセットの一部として配信される複数のストリームに関連付けることができる。
3.現在の解決策
現在の解決策は次の通りである。
[1].ISO/IEC 23008-3:2015,Information technology--High efficiency coding and media delivery in heterogeneous environments--Part 3:3D audi
[2].N16950,Study of ISO/IEC DIS 23000-20 Omnidirectional Media Format
現在の解決策は制限されており、1つの固定された場所で独立したVRエクスペリエンスを提供することができるため、ユーザーは向きを変えることができるが、VR環境内では移動することができない。
ISO/IEC 23008-3:2015,Information technology--High efficiency coding and media delivery in heterogeneous environments--Part 3:3D audio N16950,Study of ISO/IEC DIS 23000-20 Omnidirectional Media Format
一実施形態によれば、仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のためのシステムは、メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成されてもよく、システムは、VR、AR、MR、または360度ビデオ環境シーンをユーザーに表現するためにビデオストリームからビデオ信号をデコードするように構成された少なくとも1つのメディアビデオデコーダと、少なくとも1つのオーディオストリームからのオーディオ信号をデコードするように構成された少なくとも1つのオーディオデコーダと、を含んでもよく、システムは、少なくともユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データに基づいて、少なくとも1つのオーディオストリームおよび/またはオーディオストリームの1つのオーディオ要素および/または1つのアダプテーションセットをサーバーに要求するように構成されてもよい。
一態様によれば、システムは、少なくとも1つのオーディオストリームおよび/またはオーディオストリームの1つのオーディオ要素および/または1つのアダプテーションセットをサーバーから取得するために、サーバーにユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データを提供するように構成されてもよい。
一実施形態は、少なくとも1つのシーンは、少なくとも1つのオーディオ要素に関連付けられ、各オーディオ要素は、オーディオ要素が可聴である視覚環境内の位置および/または領域に関連付けられ、シーン内の様々なユーザーの位置および/またはビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データに、様々なオーディオストリームが提供されるように構成されてもよい。
別の態様によれば、システムは、オーディオストリームの少なくとも1つのオーディオ要素および/または1つのアダプテーションセットを、シーンにおける現在のユーザーのビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置に対して再生するかどうかを決定するように構成されてもよく、システムは、現在のユーザーの仮想位置で少なくとも1つのオーディオ要素を要求および/または受信するように構成されてもよい。
一態様によれば、システムは、少なくともユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データに基づいて、オーディオストリームの少なくとも1つのオーディオ要素および/または1つのアダプテーションセットが、関連性があり、かつ/または可聴であるようになるかどうかを予測的に決定するように構成されてもよく、システムは、シーンにおける予測されたユーザーの動きおよび/またはインタラクションの前に、特定のユーザーの仮想位置で少なくとも1つのオーディオ要素および/またはオーディオストリームおよび/またはアダプテーションセットを要求および/または受信するように構成されてもよく、システムは、受信すると、少なくとも1つのオーディオ要素および/またはオーディオストリームを、シーンにおけるユーザーの動きおよび/またはインタラクション後の特定のユーザーの仮想位置で再生するように構成されてもよい。
システムの一実施形態は、シーンにおけるユーザーの動きおよび/またはインタラクションの前のユーザーの仮想位置で、より低いビットレートおよび/または品質レベルで少なくとも1つのオーディオ要素を要求および/または受信するように構成されてもよく、システムは、シーンにおけるユーザーの動きおよび/またはインタラクションの後のユーザーの仮想位置で、より高いビットレートおよび/または品質レベルで少なくとも1つのオーディオ要素を要求および/または受信するように構成されてもよい。
一態様によれば、システムは、少なくとも1つのオーディオ要素が少なくとも1つのシーンに関連付けられ、各オーディオ要素がシーンに関連付けられた視覚環境内の位置および/または領域に関連付けられるように構成されてもよく、システムは、ユーザーからより遠いオーディオ要素よりもユーザーにより近いオーディオ要素に対して、より高いビットレートおよび/または品質でストリームを要求および/または受信するように構成されてもよい。
システムの一態様によれば、少なくとも1つのオーディオ要素は、少なくとも1つのシーンに関連付けられ、少なくとも1つのオーディオ要素は、シーンに関連付けられた視覚環境内の位置および/または領域に関連付けられてもよく、システムは、シーンにおける各ユーザーの仮想位置での関連性および/または監査能力レベルに基づいて、オーディオ要素の異なるビットレートおよび/または品質レベルで異なるストリームを要求するように構成されてもよく、システムは、現在のユーザーの仮想位置でより関連性があり、かつ/または可聴性がより高いオーディオ要素に対して、より高いビットレートおよび/または品質レベルでオーディオストリームを要求するように構成されてもよく、および/または現在のユーザーの仮想位置で関連性がより低く、かつ/または可聴性がより低いオーディオ要素に対して、より低いビットレートおよび/または品質レベルでオーディオストリームを要求するように構成されてもよい。
システムの一実施形態では、少なくとも1つのオーディオ要素は、シーンに関連付けられてもよく、各オーディオ要素は、シーンに関連付けられた視覚環境内の位置および/または領域に関連付けられ、システムは、ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データをサーバーに定期的に送信するように構成されてもよく、それにより、第1の位置では、より高いビットレートおよび/または品質のストリームがサーバーから提供され、第2の位置では、より低いビットレートおよび/または品質のストリームがサーバーから提供され、第1の位置は、第2の位置よりも少なくとも1つのオーディオ要素に近い。
一実施形態では、システムは、複数のシーンが隣接および/または近接する環境などの複数の視覚環境に対して定義されてもよく、第1の現在のシーンに関連付けられた第1のストリームが提供され、ユーザーが第2のさらなるシーンに移行した場合には、第1のシーンに関連付けられたストリームと第2のシーンに関連付けられた第2のストリームの両方が提供される。
一実施形態では、システムは、複数のシーンが第1および第2の視覚環境に対して定義されてもよく、第1および第2の環境は、隣接および/または近接する環境であり、第1のシーンに関連付けられた第1のストリームは、ユーザーの位置または仮想位置が第1のシーンに関連付けられた第1の環境にある場合の第1のシーンの再生のために、サーバーから提供され、第2のシーンに関連付けられた第2のストリームは、ユーザーの位置または仮想位置が第2のシーンに関連付けられた第2の環境にある場合の第2のシーンの再生のために、サーバーから提供され、ユーザーの位置または仮想位置が第1のシーンと第2のシーンとの間の移行位置にある場合に、第1のシーンに関連付けられた第1のストリームと第2のシーンに関連付けられた第2のストリームの両方が提供される。
一実施形態では、システムは、複数のシーンが、隣接および/または近接する環境である第1および第2の視覚環境に対して定義されてもよく、システムは、ユーザーの仮想位置が第1の環境にある場合の第1のシーンの再生のために、第1の環境に関連付けられた第1のシーンに関連付けられた第1のストリームを要求および/または受信するように構成され、システムは、ユーザーの仮想位置が第2の環境にある場合の第2のシーンの再生のために、第2の環境に関連付けられた第2のシーンに関連付けられた第2のストリームを要求および/または受信するように構成されてもよく、システムは、ユーザーの仮想位置が第1の環境と第2の環境との間の移行位置にある場合に、第1のシーンに関連付けられた第1のストリームと第2のシーンに関連付けられた第2のストリームの両方を要求および/または受信するように構成されてもよい。
一態様によれば、システムは、第1のシーンに関連付けられた第1のストリームが、ユーザーが第1のシーンに関連付けられた第1の環境にいるときに、より高いビットレートおよび/または品質で取得されるように構成されてもよく、一方、第2の環境に関連付けられた第2のシーンに関連付けられた第2のストリームは、ユーザーが第1のシーンから第2のシーンへの移行位置の始まりにいるときに、より低いビットレートおよび/または品質で取得され、ユーザーが第1のシーンから第2のシーンへの移行位置の終わりにいるときに、第1のシーンに関連付けられた第1のストリームは、より低いビットレートおよび/または品質で取得され、第2のシーンに関連付けられた第2のストリームは、より高いビットレートおよび/または品質で取得され、より低いビットレートおよび/または品質は、より高いビットレートおよび/または品質よりも低い。
一態様によれば、システムは、複数のシーンが、隣接および/または近隣環境などの複数の環境に対して定義されるように構成されてもよく、システムは、第1の現在の環境に関連付けられた第1の現在のシーンに関連付けられたストリームを取得してもよく、シーンの境界からのユーザーの位置または仮想位置の距離が所定のしきい値より小さい場合には、システムは、第2のシーンに関連付けられた第2の隣接および/または近接する環境に関連付けられたオーディオストリームをさらに取得してもよい。
一態様によれば、システムは、複数の視覚環境に対して複数のシーンが定義され得るように構成されてもよく、システムは、より高いビットレートおよび/または品質で現在のシーンに関連付けられたストリーム、ならびにより低いビットレートおよび/または品質で第2のシーンに関連付けられたストリームを要求および/または取得し、より低いビットレートおよび/または品質は、より高いビットレートおよび/または品質よりも低い。
一態様によれば、システムは、複数のN個のオーディオ要素が定義され得るように構成されてもよく、これらのオーディオ要素の位置または領域までのユーザーの距離が所定のしきい値よりも大きい場合に、N個のオーディオ要素は、N個のオーディオ要素の位置または領域に近い位置または領域に関連付けられたより小さい数M(M<N)個のオーディオ要素を取得するように処理され、それによって、N個のオーディオ要素の位置または領域までのユーザーの距離が所定のしきい値よりも小さい場合に、N個のオーディオ要素に関連付けられた少なくとも1つのオーディオストリームをシステムに提供する、またはN個のオーディオ要素の位置または領域までのユーザーの距離が所定のしきい値よりも大きい場合に、M個のオーディオ要素に関連付けられた少なくとも1つのオーディオストリームをシステムに提供する。
一態様によれば、システムは、少なくとも1つの視覚環境シーンが、少なくとも1つの複数のN個のオーディオ要素(N>=2)に関連付けられ、各オーディオ要素は、視覚環境内の位置および/または領域に関連付けられるように構成されてもよく、少なくとも1つの複数のN個のオーディオ要素は、高いビットレートおよび/または品質レベルで少なくとも1つの表現で提供され、少なくとも1つの複数のN個のオーディオ要素は、低いビットレートおよび/または品質レベルで少なくとも1つの表現で提供され、少なくとも1つの表現は、N個のオーディオ要素を処理して、N個のオーディオ要素の位置または領域に近い位置または領域に関連付けられたより少ない数M(M<N)個のオーディオ要素を取得することによって取得され、システムは、オーディオ要素がシーンでの現在のユーザーの仮想位置でより関連性があり、かつ/または可聴性がより高い場合に、オーディオ要素についてより高いビットレートおよび/または品質レベルで表現を要求するように構成されてもよく、システムは、オーディオ要素がシーンでの現在のユーザーの仮想位置でより関連性が低く、かつ/または可聴性がより低い場合に、オーディオ要素についてより低いビットレートおよび/または品質レベルで表現を要求するように構成されてもよい。
一態様によれば、システムは、ユーザーの距離および/または関連性および/または可聴レベルおよび/または角度の向きが所定のしきい値よりも低い場合に、異なるストリームが異なるオーディオ要素について取得されるように構成されてもよい。
一実施形態では、システムは、シーンにおけるユーザーの向きおよび/またはユーザーの動きの方向および/またはユーザーのインタラクションに基づいて、ストリームを要求および/または取得するように構成されてもよい。
一実施形態では、システムのビューポートは、位置および/または仮想位置および/または動きのデータおよび/または頭部に関連付けられてもよい。
一態様によれば、システムは、異なるオーディオ要素が異なるビューポートで提供されるように構成されてもよく、システムは、1つの第1のオーディオ要素がビューポート内にある場合に、ビューポート内にない第2のオーディオ要素よりも高いビットレートの第1のオーディオ要素を要求および/または受信するように構成されてもよい。
一態様によれば、システムは、第1のオーディオストリームと第2のオーディオストリームを要求および/または受信するように構成されてもよく、第1のオーディオストリームの第1のオーディオ要素は、第2のオーディオストリームの第2のオーディオ要素よりも関連性があり、かつ/または可聴性が高く、第1のオーディオストリームは、第2のオーディオストリームのビットレートおよび/または品質よりも高いビットレートおよび/または品質で要求および/または受信される。
一態様によれば、システムは、少なくとも2つの視覚環境シーンが定義されるように構成されてもよく、少なくとも1つの第1および第2のオーディオ要素は、第1の視覚環境に関連付けられた第1のシーンに関連付けられ、少なくとも1つの第3のオーディオ要素は、第2の視覚環境に関連付けられた第2のシーンに関連付けられ、システムは、少なくとも1つの第2のオーディオ要素が第2の視覚環境シーンにさらに関連付けられていることを記述するメタデータを取得するように構成されてもよく、システムは、ユーザーの仮想位置が第1の視覚環境にある場合に、少なくとも第1および第2のオーディオ要素を要求および/または受信するように構成されてもよく、システムは、ユーザーの仮想位置が第2の視覚環境シーンにある場合に、少なくとも第2および第3のオーディオ要素を要求および/または受信するように構成されてもよく、システムは、ユーザーの仮想位置が第1の視覚環境シーンと第2の視覚環境シーンとの間で移行している場合に、少なくとも第1および第2および第3のオーディオ要素を要求および/または受信するように構成されてもよい。
システムの一実施形態は、少なくとも1つの第1のオーディオ要素が、少なくとも1つのオーディオストリームおよび/またはアダプテーションセットで提供されるように構成されてもよく、少なくとも1つの第2のオーディオ要素は、少なくとも1つの第2のオーディオストリームおよび/またはアダプテーションセットで提供され、少なくとも1つの第3のオーディオ要素は、少なくとも1つの第3のオーディオストリームおよび/またはアダプテーションセットで提供され、少なくとも第1の視覚環境シーンは、少なくとも第1および第2のオーディオストリームおよび/またはアダプテーションセットを必要とする完全なシーンとしてメタデータによって記述され、第2の視覚環境シーンは、少なくとも第3のオーディオストリームおよび/またはアダプテーションセット、ならびに少なくとも第1の視覚環境シーンに関連付けられた少なくとも第2のオーディオストリームおよび/またはアダプテーションセットを必要とする不完全なシーンとしてメタデータによって記述され、システムは、ユーザーの仮想位置が第2の視覚環境にある場合に、メタデータを操作して、第1の視覚環境に属する第2のオーディオストリームと、第2の視覚環境に関連付けられた第3のオーディオストリームと、を新しい単一のストリームにマージすることを可能にするように構成されたメタデータプロセッサを含む。
一態様によれば、システムは、ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データに基づいて、少なくとも1つのオーディオデコーダの前に少なくとも1つのオーディオストリーム内のメタデータを操作するように構成されたメタデータプロセッサを含む。
一態様によれば、メタデータプロセッサは、ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データに基づいて、少なくとも1つのオーディオデコーダの前に少なくとも1つのオーディオストリーム内の少なくとも1つのオーディオ要素を有効および/または無効にするように構成されてもよく、システムが、現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データの結果として、オーディオ要素がもう再生されないと決定した場合に、メタデータプロセッサは、少なくとも1つのオーディオデコーダの前に少なくとも1つのオーディオストリーム内の少なくとも1つのオーディオ要素を無効にするように構成されてもよく、システムが、ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データの結果として、オーディオ要素が再生されると決定した場合に、メタデータプロセッサは、少なくとも1つのオーディオデコーダの前に少なくとも1つのオーディオストリーム内の少なくとも1つのオーディオ要素を有効にするように構成されてもよい。
一態様によれば、システムは、ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはメタデータおよび/または仮想位置に基づいて選択されたオーディオ要素のデコードを無効にするように構成されてもよい。
一態様によれば、システムは、現在のオーディオシーンに関連付けられた少なくとも1つの第1のオーディオストリームを、隣接し、近接する、および/または将来のオーディオシーンに関連付けられた少なくとも1つのストリームにマージするように構成されてもよい。
一態様によれば、システムは、ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはメタデータおよび/または仮想位置データに関する統計データまたは集計データを取得および/または収集して、統計データまたは集計データに関連付けられたサーバーに要求を送信するように構成されてもよい。
一態様によれば、システムは、少なくとも1つのストリームに関連付けられたメタデータに基づいて、かつ、ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはメタデータおよび/または仮想位置データに基づいて、少なくとも1つのストリームのデコードおよび/または再生を非アクティブ化するように構成されてもよい。
一態様によれば、システムは、少なくともユーザーの現在または推定のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはメタデータおよび/または仮想位置データに基づいて、選択したオーディオストリームのグループに関連付けられたメタデータを操作して、再生されるオーディオシーンを構成するオーディオ要素を選択および/または有効化および/またはアクティブ化する、および/または選択されたすべてのオーディオストリームを単一のオーディオストリームにマージすることを可能にするように構成されてもよい。
一態様によれば、システムは、異なるシーンに関連付けられた隣接および/または近接する環境の境界からのユーザーの位置の距離、あるいは、現在の環境でのユーザーの位置または将来の環境での予測に関連付けられた他のメトリックに基づいて、サーバーへの少なくとも1つのストリームの要求を制御するように構成されてもよい。
システムの一態様によれば、各オーディオ要素またはオーディオオブジェクトについて、サーバーシステムから情報が提供されてもよく、情報は、サウンドシーンまたはオーディオ要素がアクティブである場所についての記述情報を含む。
一態様によれば、システムは、現在または将来またはビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはメタデータおよび/または仮想位置および/またはユーザーの選択に基づいて、1つのシーンの再生と、少なくとも2つのシーンの合成、ミキシング、多重化、重ね合わせ、または結合との間で選択するように構成されてもよく、2つのシーンは異なる隣接および/または近接する環境に関連付けられている。
一態様によれば、システムは、少なくともアダプテーションセットを作成または使用するように構成されてもよく、いくつかのアダプテーションセットが1つのオーディオシーンに関連付けられ、および/または各アダプテーションセットを1つのビューポイントまたは1つのオーディオシーンに関連付ける追加情報が提供され、および/または1つのオーディオシーンの境界に関する情報、および/または1つのアダプテーションセットと1つのオーディオシーンとの関係に関する情報(例えば、オーディオシーンは、3つのアダプテーションセットにカプセル化された3つのストリームにエンコードされる)、および/またはオーディオシーンの境界と複数のアダプテーションセットとの間の接続に関する情報を含むことができる追加情報が提供される。
一態様によれば、システムは、隣接または近接する環境に関連付けられたシーンのストリームを受信し、2つの環境間の境界の移行の検出時に、隣接または近接する環境のストリームのデコードおよび/または再生を開始するように構成されてもよい。
一態様によれば、システムは、クライアントと、メディア消費デバイスで再生されるビデオおよび/またはオーディオストリームを配信するように構成されたサーバーとして動作するように構成されてもよい。
一態様によれば、システムは、少なくとも1つの第1のオーディオシーンに関連付けられた少なくとも1つのオーディオストリームを含む少なくとも1つの第1のアダプテーションセットを要求および/または受信し、少なくとも1つの第1のオーディオシーンを含む少なくとも2つのオーディオシーンに関連付けられた少なくとも1つの第2のオーディオストリームを含む少なくとも1つの第2のアダプテーションセットを要求および/または受信し、ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはメタデータおよび/または仮想位置データに関して利用可能なメタデータ、ならびに/あるいは少なくとも1つの第1のアダプテーションセットの少なくとも1つの第1のオーディオシーンへの関連付けおよび/または少なくとも1つの第2のアダプテーションセットの少なくとも1つの第1のオーディオシーンへの関連付けを記述する情報に基づいて、少なくとも1つの第1のオーディオストリームと少なくとも1つの第2のオーディオストリームとを、デコードされる新しいオーディオストリームにマージすることを可能にするように構成されてもよい。
一態様によれば、システムは、ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはメタデータおよび/または仮想位置データに関する情報、ならびに/あるいはユーザーのアクションによってトリガーされた変化を特徴付ける情報を受信し、アダプテーションセットの利用可能性に関する情報と、少なくとも1つのシーンおよび/またはビューポイントおよび/またはビューポートおよび/または位置および/または仮想位置および/または動きのデータおよび/または向きに対する少なくとも1つのアダプテーションセットの関連付けを記述する情報と、を受信するように構成されてもよい。
一態様によれば、システムは、少なくとも1つのストリームに埋め込まれた少なくとも1つのオーディオシーンからの少なくとも1つのオーディオ要素と、少なくとも1つの追加ストリームに埋め込まれた少なくとも1つの追加オーディオシーンからの少なくとも1つの追加オーディオ要素と、を再生するかどうかを決定し、肯定的な決定の場合に、追加オーディオシーンの少なくとも1つの追加のストリームを少なくとも1つのオーディオシーンの少なくとも1つのストリームにマージまたは合成または多重化または重ね合わせまたは結合する操作を行うように構成されてもよい。
一態様によれば、システムは、少なくともユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはメタデータおよび/または仮想位置データに基づいて、選択されたオーディオストリームに関連付けられたオーディオメタデータを操作して、再生するように決定されたオーディオシーンを構成するオーディオ要素を選択および/または有効化および/またはアクティブ化し、選択されたすべてのオーディオストリームを単一のオーディオストリームにマージすることを可能にするように構成されてもよい。
一態様によれば、仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のためのオーディオおよびビデオストリームをクライアントに配信するためのサーバーが提供されてもよく、ビデオおよびオーディオストリームはメディア消費デバイスで再生され、サーバーは、視覚環境を記述するビデオストリームを、エンコードするためのエンコーダおよび/または格納するための記憶装置を含んでもよく、視覚環境はオーディオシーンに関連付けられ、サーバーは、クライアントに配信される複数のストリームおよび/またはオーディオ要素および/またはアダプテーションセットを、エンコードするためのエンコーダおよび/または格納するための記憶装置をさらに含んでもよく、ストリームおよび/またはオーディオ要素および/またはアダプテーションセットは、少なくとも1つのオーディオシーンに関連付けられ、サーバーは、クライアントからの要求に基づいてビデオストリームを選択して配信し、ビデオストリームは環境に関連付けられ、クライアントからの要求に基づいて、オーディオストリームおよび/またはオーディオ要素および/またはアダプテーションセットを選択し、要求は、少なくともユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データ、ならびに環境に関連付けられたオーディオシーンに関連付けられ、オーディオストリームをクライアントに配信するように構成される。
一態様によれば、ストリームはアダプテーションセットにカプセル化されてもよく、各アダプテーションセットは、同じオーディオコンテンツの異なるビットレートおよび/または品質で、異なる表現に関連付けられた複数のストリームを含み、選択されたアダプテーションセットは、クライアントからの要求に基づいて選択される。
一態様によれば、システムは、クライアントおよびサーバーとして動作してもよい。
一態様によれば、システムはサーバーを含んでもよい。
一態様によれば、メディア消費デバイス(例えば、再生デバイス)で再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のための方法が提供されてもよく、VR、AR、MR、または360度ビデオ環境シーンのユーザーへの表現のためにビデオストリームからビデオ信号をデコードするステップと、オーディオストリームからオーディオ信号をデコードするステップと、ユーザーの現在のビューポートおよび/または位置データおよび/または頭の向きおよび/または動きのデータおよび/またはメタデータおよび/または仮想位置データおよび/またはメタデータに基づいて、少なくとも1つのオーディオストリームを、サーバーに要求し、および/またはサーバーから取得するステップと、を含む。
一態様によれば、プロセッサによって実行されると、プロセッサに上記の方法を実行させる命令を含むコンピュータプログラムが提供されてもよい。
発明の例を示す図である。 発明の例を示す図である。 発明の例を示す図である。 発明の例を示す図である。 発明の例を示す図である。 発明の例を示す図である。 発明の例を示す図である。 発明の例を示す図である。 発明のシナリオを示す図である。 発明のシナリオを示す図である。 発明のシナリオを示す図である。 発明のシナリオを示す図である。 発明のシナリオを示す図である。 発明の方法を示す図である。 発明の方法を示す図である。 発明の方法を示す図である。 発明の方法を示す図である。
本明細書の以下(例えば、図1.1以降)には、本発明の態様によるシステムの例が開示されている。
本発明のシステムの例(以下に開示する異なる例によって具体化されてもよい)は、まとめて符号102で示されている。システム102は、例えば、ユーザーへのオーディオシーンおよび/または視覚環境の表現のためにサーバーシステム(例えば、120)オーディオおよび/またはビデオストリームから取得することができるので、クライアントシステムであってもよい。クライアントシステム102はまた、例えば、オーディオおよび/またはビデオストリームに関するサイドおよび/または補助情報を提供するメタデータをサーバーシステム120から受信してもよい。
システム102は、実際にオーディオおよび/またはビデオ信号をユーザーに再生するメディア消費デバイス(MCD)に関連付けられてもよい(またはいくつかの例ではそれを含んでもよい)。いくつかの例では、ユーザーはMCDを着用してもよい。
システム102は、サーバーシステム120への要求を実行することができ、この要求は、少なくとも1人のユーザーの現在のビューポートおよび/または頭の向き(例えば、角度の向き)および/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データ110に関連付けられる。(いくつかのメトリックが提供されてもよい)。ビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データ110は、MCDからクライアントシステム102へのフィードバックで提供されてもよく、このフィードバックに基づいて、クライアントシステム102は、サーバーシステム120に要求を提供してもよい。
場合によっては、要求(符号112で示される)には、ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データ110(またはその表示または処理されたバージョン)が含まれる場合がある。ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データ110に基づいて、サーバーシステム120は必要なオーディオおよび/またはビデオストリームおよび/またはメタデータを提供する。この場合、サーバーシステム120は、(例えば、仮想環境における)ユーザーの位置の知識を有することができ、正しいストリームをユーザーの位置に関連付けることができる。
他の場合では、クライアントシステム102からの要求112は、特定のオーディオおよび/またはビデオストリームの明示的な要求を含むことができる。この場合、要求112は、ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データ110に基づくことができる。クライアントシステム102は、クライアントシステム102が必要なストリームをその中に格納していない場合でも、ユーザーにレンダリングする必要があるオーディオおよびビデオ信号の知識を有している。クライアントシステム102は、例では、サーバーシステム120内の特定のストリームを対象にすることができる。
クライアントシステム102は、メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のためのシステムであってもよく、
システム102は、
VR、AR、MR、または360度ビデオ環境シーンをユーザーに表現するためにビデオストリームからビデオ信号をデコードするように構成された少なくとも1つのメディアビデオデコーダと、
少なくとも1つのオーディオストリーム106からのオーディオ信号(108)をデコードするように構成された少なくとも1つのオーディオデコーダ104と、を含み、
システム102は、少なくともユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データ110に基づいて、少なくとも1つのオーディオストリーム106および/またはオーディオストリームの1つのオーディオ要素および/または1つのアダプテーションセットをサーバー120に要求112するように構成される。
VR、AR、MR環境では、ユーザー140は、特定の環境(例えば、特定の部屋)にいることを意味する場合があることに留意されたい。環境は、例えばサーバー側(必ずしもサーバーシステム120を含まないが、その後サーバー120のストレージに格納されたビデオストリームを以前にエンコードした別のエンコーダを含むサーバーシステム120の側)でエンコードされたビデオ信号で記述される。各瞬間に、いくつかの例では、ユーザーは一部のビデオ信号(例えば、ビューポート)のみを楽しむことができる。
一般的に、各環境は特定のオーディオシーンに関連付けられてもよい。オーディオシーンは、特定の環境で、特定の期間にわたってユーザーに再生されるすべての音の集まりとして理解することができる。
従来、環境は離散した数で理解されてきた。したがって、環境の数は有限であると理解されてきた。同じ理由で、オーディオシーンの数は有限であると理解されてきた。したがって、従来技術では、VR、AR、MRシステムは次のように設計されている。
-ユーザーは、常に1つの環境にいることを目的としている。したがって、環境ごとに:
oクライアントシステム102は、単一の環境に関連付けられたビデオストリームのみをサーバーシステム120に要求する。
oクライアントシステム102は、単一のシーンに関連付けられたオーディオストリームのみをサーバーシステム120に要求する。
この手法は不便なものになっている。
例えば、すべてのオーディオストリームは、シーン/環境ごとにクライアントシステム102にまとめて配信され、ユーザーが別の環境に移動すると、完全に新しいオーディオストリームを配信する必要がある(例えば、ユーザーがドアを通過するとき、環境/シーンの伝達を意味する)。
さらに、場合によっては不自然なエクスペリエンスが発生する場合もある。例えば、ユーザーが壁(仮想部屋の仮想壁など)に近い場合、壁の反対側から音が聞こえるはずである。しかし、このエクスペリエンスは従来の環境では不可能である。現在のシーンに関連付けられているオーディオストリームの集合には、隣接する環境/シーンに関連付けられているストリームが明らかに含まれていない。
一方、オーディオストリームのビットレートを上げると、通常、ユーザーエクスペリエンスが向上する。これにより、さらに問題が発生する可能性がある。ビットレートが高いほど、サーバーシステムがクライアントシステム102に配信する必要があるペイロードが高くなる。例えば、オーディオシーンに複数のオーディオソース(オーディオ要素として伝達される)が含まれている場合、それらのいくつかはユーザーの位置の近くにあり、他はユーザーの位置から遠くにある場合、遠くにあるサウンドソースは聞こえにくくなる。したがって、すべてのオーディオ要素を同じビットレートまたは品質レベルで配信すると、ビットレートが非常に高くなる可能性がある。これは、非効率的なオーディオストリーム配信を意味する。サーバーシステム120が可能な限り最高のビットレートでオーディオストリームを配信する場合には、低い可聴レベルまたは全体のオーディオシーンとの関連性が低いにもかかわらず、ユーザーの近くで生成された関連するサウンドと同様に高いビットレートを必要とするので、非効率的な配信が発生する。したがって、1つのシーンのすべてのオーディオストリームが最高のビットレートで配信される場合には、サーバーシステム120とクライアントシステム102との間の通信は、不必要にペイロードを増加させるであろう。1つのシーンのすべてのオーディオストリームがより低いビットレートで配信される場合には、ユーザーのエクスペリエンスは満足のいくものにはならない。
通信の問題は、上で説明した不便さを悪化させる。ユーザーがドアを通過すると、環境/シーンを瞬時に変化させることになり、サーバーシステム120がすべてのストリームをクライアントシステム102に瞬時に提供する必要がある。
したがって、従来は上記の問題を解決することはできなかった。
しかしながら、本発明により、これらの問題を解決することが可能である。クライアントシステム102は、サーバーシステム120に要求をするが、それはユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データに基づいてもよい(および環境/シーンに基づくだけではない)。したがって、サーバーシステム120は、各瞬間に、例えば、ユーザーの位置ごとにレンダリングされるオーディオストリームを提供することができる。
例えば、ユーザーが壁に近づかない場合には、クライアントシステム102が隣接環境のストリームを要求する必要はない(例えば、ユーザーが壁に近づいたときにのみクライアントシステム102が要求してもよい)。さらに、壁の外から来るストリームは、小音量で聞こえてもよいので、ビットレートが低下してもよい。特に、より関連性の高いストリーム(例えば、現在の環境内のオーディオオブジェクトからのストリーム)は、サーバーシステム120からクライアントシステム102に、最高のビットレートおよび/または最高の品質レベルで配信される(その結果、関連性の低いストリームは、ビットレートや品質レベルが低いため、関連性の高いストリームのために空き帯域を残す)。
より低い品質レベルは、例えば、ビットレートを下げるか、送信する必要のあるデータが減るようにオーディオ要素を処理することで取得することができるが、オーディオ信号あたりの使用ビットレートは一定に保たれる。例えば、10個のオーディオオブジェクトがすべてユーザーから遠く離れた様々な位置にある場合には、これらのオブジェクトは、ユーザーの位置に基づいて、より少ない数の信号に混合することができる。
-ユーザーの位置から非常に離れた位置(例えば、第1のしきい値より高い位置)では、オブジェクトが2つの信号に混合され(空間位置とセマンティックに基づいて他の数も可能)、2つの「仮想オブジェクト」として配信される。
-ユーザーの位置に近い位置(例えば、第1のしきい値よりも低いが、第1のしきい値よりも小さい第2のしきい値よりも高い)では、オブジェクトは5つの信号に混合され(それらの空間位置とセマンティックに基づいて)、5つの(他の数が可能)「仮想オブジェクト」として配信される。
-ユーザーの位置に非常に近い位置(第1および第2のしきい値より低い位置)では、10個のオブジェクトが最高の品質を提供する10個のオーディオ信号として配信される。
最高品質のオーディオ信号はすべて非常に重要で可聴であると考えられるかもしれないが、ユーザーは各オブジェクトを個別に特定することが可能であってもよい。遠く離れた位置での品質レベルがより低い場合、一部のオーディオオブジェクトは関連性が低くなるか聞こえなくなる可能性があり、したがって、ユーザーは空間内のオーディオ信号を個別にローカライズできなくなり、したがって、これらのオーディオ信号を配信するための品質レベルを下げても、ユーザーのエクスペリエンスの品質が低下することにはならない。
別の例は、ユーザーがドアを越えたときである。移行位置(例えば、2つの異なる環境/シーン間の境界)では、サーバーシステム120は、両方のシーン/環境の両方のストリームを提供するが、より低いビットレートである。これは、ユーザーが2つの異なる環境(元々異なるシーン/環境に関連付けられていた異なるオーディオストリームからサウンドがマージされてもよい)からのサウンドを体験し、各サウンドソース(またはオーディオ要素)の最高品質レベルが必要ないためである。
上記に鑑みて、本発明は、離散的な数の視覚環境およびオーディオシーンの従来の手法を超えることを可能にするが、異なる環境/シーンの漸進的な表現を可能にし、ユーザーにより現実的なエクスペリエンスを与える。
以下では、各視覚環境(例えば、仮想環境)は、オーディオシーンに関連付けられているとみなす(環境の属性は、シーンの属性でもあり得る)。各環境/シーンは、例えば、幾何学的座標系(仮想的な幾何学的座標系であってもよい)に関連付けられ得る。環境/シーンには境界がある場合があるため、ユーザーの位置(例えば仮想位置)が境界を超えると、別の環境/シーンに到達する。境界は、使用される座標系に基づいてもよい。環境は、環境/シーンのいくつかの特定の座標に配置され得るオーディオオブジェクト(オーディオ要素、サウンドソース)を含んでもよい。例えば、オーディオオブジェクト(オーディオ要素、サウンドソース)に対するユーザーの相対位置および/または向きに関して、クライアントシステム102は異なるストリームを要求することができ、かつ/またはサーバーシステム120は異なるストリームを(例えば、距離および/または方向に応じてより高い/より低いビットレートおよび/または品質レベルで)提供することができる。
より一般的には、クライアントシステム102は、可聴性および/または関連性に基づいて、異なるストリーム(例えば、異なるビットレートおよび/または品質レベルでの同じ音の異なる表現)をサーバーシステム120に要求し、および/またはそれから取得することができる。可聴性および/または関連性は、例えば、少なくともユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データに基づいて決定されてもよい。
いくつかの例では、異なるストリームをマージする可能性がある。いくつかの場合では、少なくとも2つのシーンを合成、ミキシング、多重化、重ね合わせ、または結合する可能性がある。例えば、ミキサーおよび/またはレンダラー(例えば、複数のデコーダの下流で使用され、それぞれが少なくとも1つのオーディオストリームをデコードする)を使用する、または、例えばストリームの復号化の上流などのストリームの多重化操作を実行する可能性がある。他の場合では、様々なストリームをデコードして、様々なスピーカー設定でそれらをレンダリングする可能性があってもよい。
本発明は、必ずしも視覚環境やオーディオシーンの概念を拒否するものではないことに留意されたい。特に、本発明では、特定のシーン/環境に関連付けられたオーディオおよびビデオストリームは、ユーザーが環境/シーンに入ったときに、サーバーシステム120からクライアントシステム102に配信されてもよい。それにもかかわらず、同じ環境/シーン内で、異なるオーディオストリームおよび/またはオーディオオブジェクトおよび/またはアダプテーションセットが要求され、アドレスされ、および/または配信される場合がある。特に、次の可能性がある。
-視覚環境に関連付けられたビデオデータの少なくとも一部は、ユーザーのシーンへの入り口でサーバー120からクライアント102に配信される、および/または
-少なくとも一部のオーディオデータ(ストリーム、オブジェクト、アダプテーションセットなど)は、現在(または将来)のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはメタデータおよび/または仮想位置および/またはユーザーの選択/インタラクションに基づいてのみクライアントシステム102に配信される、および/または
-(場合によっては)、(現在または将来の位置、ビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはメタデータおよび/または仮想位置および/またはユーザーの選択に関係なく)、現在のシーンに基づいて、いくつかのオーディオデータがクライアントシステム102に配信され、一方、残りのオーディオデータは、現在または将来のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはメタデータおよび/または仮想位置および/またはユーザーの選択に基づいて配信される。
様々な要素(サーバーシステム、クライアントシステム、MCDなど)は、異なるハードウェアデバイスまたは同じものの要素を表すことができることに留意されたい(例えば、クライアントとMCDは同じ携帯電話の一部として実装することができ、または、同様にクライアントは、MCDを構成する二次画面に接続されたPCに配置することができる)。
実施例
図1.1に示すシステム102(クライアント)の一実施形態は、ビデオおよびオーディオシーン(以下、シーン150と呼ぶ)に関連付けられていると理解することができる環境(例えば、仮想環境)内の定義された位置に基づいて(オーディオ)ストリーム106を受信するように構成される。同じシーン150内の異なる位置は、一般に、システム102のオーディオデコーダ104に(例えば、メディアサーバー120から)提供される異なるストリーム106またはストリーム106に関連付けられた異なるメタデータを意味する。システム102は、メディア消費者デバイス(MCD)に接続され、そこから、同じ環境におけるユーザーの位置および/または仮想位置に関連付けられたフィードバックを受信する。以下では、環境内でのユーザーの位置は、ユーザーが楽しむ特定のビューポートに関連付けられてもよい(例えば、ビューポートは、ユーザーに表示される、球に投影された長方形の表面として仮定された表面であると意図される)。
例示的なシナリオでは、ユーザーがVR、AR、および/またはMRシーン150内を移動するとき、オーディオコンテンツは、変化する可能性がある1つまたは複数のオーディオソース152によって仮想的に生成されると想像することができる。オーディオソース152は、仮想環境内の位置を指し得るという意味で、仮想オーディオソースとして理解することができる。各オーディオソースのレンダリングは、ユーザーの位置に適合される(例えば、簡略化された例では、オーディオソースのレベルは、ユーザーがオーディオソースの位置に近いほど高く、ユーザーがオーディオソースから離れているほど低くなる)。それにも関わらず、各オーディオ要素(オーディオソース)は、デコーダに提供されるオーディオストリームにエンコードされる。オーディオストリームは、シーン内の様々な位置および/または領域に関連付けることができる。例えば、あるシーンでは聞こえないオーディオソース152は、例えば、VR、ARおよび/またはMRシーン150のドアが開かれると、次のシーンで聞こえるようになるかもしれない。次に、ユーザーは、新しいシーン/環境150(例えば、部屋)に入ることを選択することができ、オーディオシーン全体が変化する。このシナリオを説明する目的で、異なるオーディオコンテンツが利用可能な空間(またはVR環境)の離散的位置として、空間の離散的ビューポイントの用語を使用することができる。
一般的に言えば、メディアサーバー120は、シーン150内のユーザーの位置に基づいて、特定のシーン150に関連付けられたストリーム106を提供することができる。ストリーム106は、少なくとも1つのエンコーダ154によってエンコードされ、メディアサーバー120に提供され得る。メディアサーバー120は、通信113を用いて(例えば、通信ネットワークを介して)ストリーム113を送信することができる。ストリーム113の提供は、(例えば、仮想環境における)ユーザーの位置110に基づいてシステム102によって設定された要求112に基づいてもよい。ユーザーの位置110はまた、ユーザーが楽しむビューポート(各位置に関して、表される単一の長方形が1つある)およびビューポイント(ビューポイントはビューポートの中心である)に関連付けられていると理解することもできる。したがって、ビューポートの提供は、いくつかの例では、位置の提供と同じであってもよい。
図1.2に示すシステム102は、クライアント側の別の構成に基づいて(オーディオ)ストリーム113を受信するように構成される。この例示的な実施態様では、符号化側で、複数のメディアエンコーダ154が設けられ、それらを用いて1つのビューポイントの1つのサウンドシーン部分に関連付けられた利用可能なシーン150ごとに1つまたは複数のストリーム106を作成することができる。
メディアサーバー120は、異なるビットレートでの同じオーディオおよびビデオストリームの異なるエンコードを含む複数のオーディオおよびビデオアダプテーションセット(図示せず)を格納することができる。さらに、メディアサーバーには、作成されたすべてのアダプテーションセットの利用可能性を含む、すべてのアダプテーションセットの記述情報が含まれてもよい。アダプテーションセットはまた、1つの特定のオーディオシーンおよび/またはビューポイントへの1つのアダプテーションセットの関連付けを記述する情報を含んでもよい。このようにして、各アダプテーションセットを、利用可能なオーディオシーンの1つに関連付けることができる。
アダプテーションセットは、例えば、完全なオーディオシーンまたは単に個々のオーディオオブジェクトを含み得る、各オーディオシーンおよび/またはビューポイントの境界を記述する情報をさらに含んでもよい。1つのオーディオシーンの境界は、例えば、球の幾何学的座標(例えば、中心および半径)として定義されてもよい。
クライアント側のシステム102は、現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/またはユーザーの仮想位置またはユーザーの行動によって引き起こされる変化を特徴付ける任意の情報に関する情報を受信することができる。さらに、システム102はまた、すべてのアダプテーションセットの利用可能性に関する情報、ならびに1つのオーディオシーンおよび/またはビューポイントへの1つのアダプテーションセットの関連付けを記述する情報、ならびに/あるいは各オーディオシーンおよび/またはビューポイントの「境界」を記述する情報(例えば、完全なオーディオシーンまたは個別のオブジェクトのみを含むことができる)も受信することができる。例えば、そのような情報は、DASH配信環境の場合、メディアプレゼンテーション記述(MPD)XML構文の一部として提供することができる。
システム102は、コンテンツ消費に使用されるメディア消費デバイス(MCD)にオーディオ信号を提供することができる。また、メディア消費デバイスは、ユーザーの位置および/または向きおよび/または移動方向に関する収集情報(またはユーザーのアクションによってトリガーされた変化を特徴付ける情報)を位置および移行データ110として収集する役割を果たす。
ビューポートプロセッサ1232は、メディア消費デバイス側から位置および移行データ110を受信するように構成されてもよい。ビューポートプロセッサ1232はまた、メタデータでシグナリングされたROIおよび受信端(システム102)で利用可能なすべての情報に関する情報を受信することができる。次に、ビューポートプロセッサ1232は、受信されたおよび/または利用可能なメタデータから受信および/または導出されたすべての情報に基づいて、特定の瞬間にどのオーディオビューポイントを再生すべきかを決定することができる。例えば、ビューポートプロセッサ1232は、1つの完全なオーディオシーンを再生するように決定することができ、1つの新しいオーディオシーン108は、すべての利用可能なオーディオシーンから作成しなければならず、例えば、複数のオーディオシーンの一部のオーディオ要素のみが再生されるが、一方、これらのオーディオシーンの他の残りのオーディオ要素は再生されない。ビューポートプロセッサ1232はまた、2つ以上のオーディオシーン間の移行を再生する必要があるかどうかを決定することができる。
選択部分1230は、ビューポートプロセッサ1232から受信された情報に基づいて、受信端によって受信された情報でシグナリングされた利用可能なアダプテーションセットから1つまたは複数のアダプテーションセットを選択するために設けることができ、選択されたアダプテーションセットは、ユーザーの現在の場所で再生されるべきオーディオシーンを完全に記述する。このオーディオシーンは、エンコード側で定義された1つの完全なオーディオシーンであってもよく、すべての利用可能なオーディオシーンから新しいオーディオシーンを作成する必要があってもよい。
さらに、ビューポートプロセッサ1232の指示に基づいて、2つ以上のオーディオシーン間の移行が生じようとしている場合、選択部分は、受信端によって受信された情報でシグナリングされた利用可能なアダプテーションセットから1つまたは複数のアダプテーションセットを選択するように構成することができ、選択されたアダプテーションセットは、近い将来に再現する必要があるオーディオシーンを完全に記述する(例えば、ユーザーが次のオーディオシーンの方向に特定の速度で歩く場合、次のオーディオシーンが必要になることが予測され、再生に先立って選択される)。
さらに、隣接する場所に対応するいくつかのアダプテーションセットが、最初により低いビットレートおよび/またはより低い品質レベルで選択され、例えば、より低いビットレートでエンコードされた表現が1つのアダプテーションセットで利用可能な表現から選択され、そして、位置の変化に基づいて、それらの特定のアダプテーションセットに対してより高いビットレートを選択することにより品質が向上する、例えば、より高いビットレートでエンコードされた表現が1つのアダプテーションセットで利用可能な表現から選択される。
選択部分から受信した指示に基づいて、メディアサーバーからの利用可能なアダプテーションセットのうちの1つまたは複数のアダプテーションセットを要求するために、ダウンロードおよびスイッチング部分1234が設けられてもよく、メディアサーバーから利用可能なアダプテーションセットから1つまたは複数のアダプテーションセットを受信し、受信したすべてのオーディオストリームからメタデータ情報を抽出するように構成される。
メタデータプロセッサ1236は、受信されたオーディオストリームについてのダウンロードおよびスイッチング情報から、受信された各オーディオストリームに対応するオーディオメタデータを含むことができる情報を受信するために提供されてもよい。メタデータプロセッサ1236はまた、ビューポートプロセッサ1232によって示されるように、新しいオーディオシーンを構成する必要なオーディオ要素152を選択/有効化するために、ユーザーの位置および/または向きおよび/または移動方向110に関する情報を含むことができるビューポートプロセッサ1232から受信した情報に基づいて、各オーディオストリーム113に関連するオーディオメタデータを処理および操作して、すべてのオーディオストリーム113を単一のオーディオストリーム106にマージできるように構成されてもよい。
ストリームマクサー/マージャー1238は、メタデータプロセッサ1236から受信され、受信したすべてのオーディオストリーム113に対応する変更および処理されたオーディオメタデータを含むことができる情報に基づいて、選択されたすべてのオーディオストリームを1つのオーディオストリーム106にマージするように構成されてもよい。
メディアデコーダ104は、ユーザーの位置および/または向きおよび/または移動方向に関する情報に基づいて、ビューポートプロセッサ1232によって示されるように、新しいオーディオシーンの再生のための少なくとも1つのオーディオストリームを受信およびデコードするように構成される。
別の実施形態では、図1.7に示すシステム102は、異なるオーディオビットレートおよび/または品質レベルでオーディオストリーム106を受信するように構成されてもよい。この実施形態のハードウェア構成は、図1.2のものと同様である。少なくとも1つの視覚環境シーン152は、少なくとも1つの複数のN個のオーディオ要素(N>=2)に関連付けることができ、各オーディオ要素は、視覚環境内の位置および/または領域に関連付けられる。少なくとも1つの複数のN個のオーディオ要素152は、高いビットレートおよび/または品質レベルで少なくとも1つの表現で提供され、少なくとも1つの複数のN個のオーディオ要素152は、低いビットレートおよび/または品質レベルで少なくとも1つの表現で提供され、少なくとも1つの表現は、N個のオーディオ要素152を処理して、N個のオーディオ要素152の位置または領域に近い位置または領域に関連付けられたより少ない数M(M<N)個のオーディオ要素152を取得することによって取得される。
N個のオーディオ要素152の処理は、例えば、オーディオ信号の単純な追加であってもよいし、あるいはそれらの空間位置110に基づくアクティブなダウンミックス、またはそれらの空間位置を使用してオーディオ信号の間に位置する新しい仮想位置へのオーディオ信号のレンダリングであってもよい。システムは、オーディオ要素がシーンでの現在のユーザーの仮想位置でより関連性があり、かつ/または可聴性がより高い場合に、オーディオ要素についてより高いビットレートおよび/または品質レベルで表現を要求するように構成されてもよく、システムは、オーディオ要素がシーンでの現在のユーザーの仮想位置でより関連性が低く、かつ/または可聴性がより低い場合に、オーディオ要素についてより低いビットレートおよび/または品質レベルで表現を要求するように構成される。
図1.8は、システム(システム102であってもよい)の一例を示し、メディア消費デバイスで再生されるビデオストリーム1800およびオーディオストリーム106を受信するように構成された仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のためのシステム102を示しており、
システム102は、
VR、AR、MR、または360度ビデオ環境をユーザーに表現するためにビデオストリーム1800からビデオ信号1808をデコードするように構成された少なくとも1つのメディアビデオデコーダ1804と、
少なくとも1つのオーディオストリーム106からのオーディオ信号108をデコードするように構成された少なくとも1つのオーディオデコーダ104と、を含んでもよい。
システム102は、少なくともユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データ110(例えば、メディア消費デバイス180からのフィードバックとして提供されるに基づいて、少なくとも1つのオーディオストリーム106および/またはオーディオストリームの1つのオーディオ要素および/または1つのアダプテーションセットをサーバー(例えば120)に要求する(112)ように構成されてもよい。
システム102は、図1.1~図1.7のシステム102と同じであってもよく、および/または図2a以降のシナリオを取得してもよい。
本例はまた、メディア消費デバイス[例えば、再生デバイス]で再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のための方法を指し、本方法は、
VR、AR、MR、または360度ビデオ環境シーンのユーザーへの表現のためにビデオストリームからビデオ信号をデコードするステップと、
オーディオストリームからオーディオ信号をデコードするステップと、
ユーザーの現在のビューポートおよび/または位置データおよび/または頭の向きおよび/または動きのデータおよび/またはメタデータおよび/または仮想位置データおよび/またはメタデータに基づいて、少なくとも1つのオーディオストリームを、サーバーに要求し、および/またはサーバーから取得するステップと、を含む。
事例1
異なるシーン/環境150は、一般に、サーバー120からの異なるストリーム106の受信を意味する。しかしながら、オーディオデコーダ104によって受信されたストリーム106はまた、同じシーン150におけるユーザーの位置によって条件付けられてもよい。
図2aに示す第1の(開始)時点(t=t)で、ユーザーは、例えば、シーン150内に配置され、VR環境(またはAR環境、またはMR環境)内で第1の定義された位置を有する。デカルトXYZ座標系(例えば水平など)では、ユーザーの第1のビューポート(位置)110’が座標x’とy’に関連付けられている(軸Zはここでは用紙から出るように向けられている)。この第1のシーン150では、2つのオーディオ要素152-1および152-1が配置され、オーディオ要素1(152-1)の座標x’およびy’、ならびにオーディオ要素2(152-2)のx’およびy’をそれぞれ有する。ユーザーのオーディオ要素1(152-1)までの距離d’は、ユーザーのオーディオ要素2までの距離d’(152-1)よりも小さい。すべてのユーザー位置(ビューポート)データは、MCDからシステム102に送信される。
図2bに示す第2の例示的な時点(t=t)で、ユーザーは、例えば同じシーン150内であるが、第2の異なる位置に配置される。デカルトXY座標系では、ユーザーの第2のビューポート(位置)110”が新しい座標x”およびy”に関連付けられている(軸Zはここでは用紙から出るように向けられている)。ここで、オーディオ要素1(152-1)からのユーザーの距離d”は、オーディオ要素2(152-2)からのユーザーの距離d”よりも大きい。すべてのユーザー位置(ビューポート)データは、MCDからシステム102に再び送信される。
360度環境内の特定のビューポートを視覚化するための前記MCDを装備したユーザーは、例えば、ヘッドフォンで聞いていてもよい。ユーザーは、同じシーン150の図2aおよび図2bに示す異なる位置についての異なる音の再生を楽しむことができる。
例えば図2aから図2bのシーン内の任意の位置および/または移行および/またはビューポートおよび/または仮想位置および/または頭の向きおよび/または動きのデータは、信号110として、MCDからシステム102(クライアント)に周期的に(例えば、フィードバックで)送信することができる。クライアントは、位置および移行データ110’または110”(例えば、ビューポートデータ)をサーバー120に再送信することができる。クライアント102またはサーバー120は、位置および移行データ110’または110”(例えば、ビューポートデータ)に基づいて、現在のユーザー位置で正しいオーディオシーンを再生するために必要なオーディオストリーム106を決定することができる。クライアントは、対応するオーディオストリーム106についての要求112を決定して送信することができ、サーバー120は、クライアント(システム102)によって提供される位置情報に応じてストリーム106を適宜配信するように構成することができる。あるいは、サーバー120は、クライアント(システム102)によって提供された位置情報に応じて、それに応じてストリーム106を決定し、配信してもよい。
クライアント(システム102)は、シーン150を表すためにデコードされるストリームの送信を要求することができる。いくつかの例では、システム102は、MCDで再現される最高品質レベルに関する情報を送信することができる(他の例では、シーン内のユーザーの位置に基づいて、MCDで再生される品質レベルを決定するのはサーバー120である)。それに応じて、サーバー120は、表現されるオーディオシーンに関連付けられた多数の表現の1つを選択して、ユーザーの位置110’または110”に従って少なくとも1つのストリーム106を配信することができる。したがって、クライアント(システム102)は、例えば、オーディオデコーダ104を介して、オーディオ信号108をユーザーに配信し、ユーザーの実際の(有効な)位置110’または110”に関連する音を再生するように構成されてもよい(アダプテーションセット113が使用されてもよい。例えば、異なるビットレートでの同じストリームの異なる変形がユーザーの異なる位置に使用されてもよい)。
ストリーム106(事前処理またはオンザフライで生成されてもよい)をクライアント(システム102)に送信することができ、特定のサウンドシーンに関連付けられた多数のビューポイントのために構成することができる。
(例えば、仮想)環境におけるユーザーの特定の位置(例えば、110’または110”)に従って、異なるストリーム106に対して異なる品質(例えば、異なるビットレート)が提供されてもよいことに留意されたい。例えば、複数のオーディオソース152-1および152-2の場合、各オーディオソース152-1および152-2は、シーン150内の特定の位置に関連付けられてもよい。ユーザーの位置110’または110’が第1のオーディオソース152-1に近いほど、第1のオーディオソース152-2に関連付けられたストリームの必要な解像度および/または品質が高くなる。この例示的な事例は、図2aのオーディオ要素1(152-1)ならびに図2bのオーディオ要素2(152-2)に適用することができる。第2のオーディオソース152-2からユーザーの位置110が離れているほど、第2のオーディオソース152-2に関連付けられたストリーム106の必要な解像度は低くなる。この例示的な事例は、図2aのオーディオ要素2(152-2)ならびに図2bのオーディオ要素1(152-1)に適用することができる。
実際、第1に、近いオーディオソースはより高いレベルで聞こえて(したがって、より高いビットレートで提供される)、第2に、遠いオーディオソースはより低いレベルで聞こえる(より低い解像度を要求することを可能にすることができる)ということである。
したがって、クライアント102によって提供される環境における位置110’または110”に基づいて、サーバー120は、異なるビットレート(または他の品質)で異なるストリーム106を提供することができる。遠くにあるオーディオ要素は高品質レベルを必要としないという事実に基づいて、より低いビットレートまたは品質レベルで配信された場合でも、全体的なユーザー品質のエクスペリエンスが維持される。
したがって、エクスペリエンスの品質を維持しながら、異なるユーザーの位置にあるいくつかのオーディオ要素に異なる品質レベルを使用することができる。
このソリューションがなければ、すべてのストリーム106はサーバー120からクライアントに最高のビットレートで提供され、これにより、サーバー120からクライアントへの通信チャネルのペイロードが増加する。
事例2
図3(事例2)は、別の例示的なシナリオの一実施形態を示し(空間XYZの垂直平面XZで表され、軸Yは用紙に入るように表される)、ユーザーが第1のVR、AR、および/またはMRシーンA(150A)で移動し、ドアを開いて、ドアを通って歩く(移行150AB)と、これは、時刻tの第1のシーン150Aから時刻tの一時的な位置(150AB)を介して時刻tの次の(第2の)シーンB(150B)へのオーディオの移行を意味する。
時点tでは、ユーザーは、第1のVR、ARおよび/またはMRシーンのx方向の位置xにいてもよい。時点tでは、ユーザーは、位置xで異なる第2のVR、ARおよび/またはMRシーンB(150B)にいてもよい。瞬間tで、ユーザーは、ドア(例えば、仮想ドア)を開いて通り抜けている間、移行位置150ABにいてもよい。したがって、移行は、第1のシーン150Aから第2のシーン150Bへのオーディオ情報の移行を意味する。
この状況では、ユーザーは自分の位置110を、例えば第1のVR環境(図1.1に示すように第1のビューポイント(A)で特徴付けられる)から第2のVR環境(図1.1に示すように第2のビューポイント(B)で特徴付けられる)に変化させている。特定の場合、例えば、x方向の位置xにあるドアを通る移行の間に、いくつかのオーディオ要素152Aおよび152Bが、両方のビューポイント(位置AおよびB)に存在してもよい。
ユーザー(MCDを備えている)は位置110(x-x)をドアの方に変化させており、これは、移行位置xで、オーディオ要素が第1のシーン150Aと第2のシーン150Bの両方に属していることを意味する。MCDは、新しい位置および移行データ110をクライアントに送信し、クライアントはそれをメディアサーバー120に再送信する。ユーザーは、第1の位置xと第2の位置xとの間の中間位置xによって定義される適切なオーディオソースを聞くことが可能になり得る。
第1の位置(x)から第2の位置(x)への任意の位置と移行は、MCDからクライアントに定期的(例えば、連続的)に送信される。クライアント102は、位置および移行データ110(x~x)をメディアサーバー120に再送信することができ、メディアサーバー120は、受信した位置と移行データ110(x~x)に応じて、実際のアダプテーションセット113’の形で前処理されたストリーム106の新しいセットなどの1つの専用アイテムを配信するように構成される。
メディアサーバー120は、最高のビットレートを表示するMCDの機能に関するだけでなく、1つの位置から別の位置への移動中のユーザーの位置および移行データ110(x-x)にも関する、前述の情報に関連付けられた多数の表現のうちの1つを選択することができる。(この状況では、アダプテーションセットを使用することができる。メディアサーバー120は、MCDのレンダリング能力を妨げることなく、どのアダプテーションセット113’がユーザーの仮想移行を最適に表すかを決定することができる。)
したがって、メディアサーバー120は、位置の移行に従って(例えば、新しいアダプテーションセット113’として)専用ストリーム106を配信することができる。クライアント102は、それに応じて、例えば、メディアオーディオデコーダ104を介して、オーディオ信号108をユーザー140に配信するように構成されてもよい。
ストリーム106(オンザフライで生成され、かつ/または前処理された)は、定期的(例えば、連続的)に実現されたアダプテーションセット113’でクライアント102に送信することができる。
ユーザーがドアを通って歩くと、サーバー120は、第1のシーン150Aのストリーム106および第2のシーン150Bのストリーム106の両方を送信することができる。これは、これらのストリーム106を同時に混合または多重化または構成または再生して、ユーザーにリアルな印象を与えるためである。したがって、ユーザーの位置110(例えば、「ドアに対応する位置」)に基づいて、サーバー120は、異なるストリーム106をクライアントに送信する。
この場合でも、異なるストリーム106が同時に聞かれるので、それらは異なる解像度を有し、異なる解像度でサーバー120からクライアントに送信されてもよい。ユーザーが移行を完了し、第2の(位置)シーン150Aにいるとき(そしてユーザーの後ろのドアを閉じたとき)には、サーバー120が第1のシーン150のストリーム106を送信することを減らすかまたは控えることができる(サーバー120がすでにクライアント102にストリームを提供している場合、クライアント102はそれらを使用しないように決定することができる)。
事例3
図4(事例3)は、別の例示的なシナリオ(空間XYZの垂直平面XZで表され、軸Yは用紙に入るように表される)を伴う一実施形態を示し、ユーザーがVR、ARおよび/またはMRシーン150A内を移動すると、時間tにおける1つの第1の位置から時間tにおける第1のシーン150A内の第2の位置へのオーディオの移行を意味する。第1の位置にいるユーザーは、時刻tでは壁から距離dで壁から遠く離れていてもよく、時刻tでは壁からの距離dで壁に近くてもよい。ここで、d>dである。距離dでは、ユーザーはシーン150Aのソース152Aのみを聞くが、壁を越えたシーン150Bのソース152Bも聞くことができる。
ユーザーが第2の位置(d)にいるとき、クライアント102は、ユーザーの位置110(d)に関するデータをサーバー120に送信し、サーバー120から、第1のシーン150Aのオーディオストリーム106だけでなく、第2のシーン150Bのオーディオストリーム106も受信する。例えば、サーバー120によって提供されるメタデータに基づいて、クライアント102は、例えば、デコーダ104を介して、(壁を越えて)第2のシーン150Bのストリーム106を小さい音量で再生させる。
この場合でも、第2のシーン150Bのストリーム106のビットレート(品質)は低くてもよく、したがって、サーバー120からクライアントへの送信ペイロードを減らす必要がある。特に、クライアント(および/またはビューポート)の位置110(d、d)は、サーバー120によって提供されるオーディオストリーム106を定義する。
例えば、システム102は、第1の現在の環境に関連付けられた第1の現在のシーン(150A)に関連付けられたストリームを取得するように構成されてもよく、そして、シーンの境界(例えば、壁に対応する)からのユーザーの位置または仮想位置の距離が所定のしきい値より小さい(例えば、d<dしきい値)場合、システム102はさらに、第2のシーン(150B)に関連する第2の、隣接および/または近接する環境に関連するオーディオストリームを取得する。
事例4
図5aおよび図5bは、別の例示的なシナリオを伴う一実施形態を示し(空間XYZの水平面XYで表され、軸Zは用紙から出るように表される)、ユーザーは、同一のVR、AR、および/またはMRシーン150に位置しているが、例えば2つのオーディオ要素までの異なる距離で異なる瞬間に配置される。
図5aに示す第1の瞬間t=tにおいて、ユーザーは、例えば、第1の位置に配置される。この第1の位置では、第1のオーディオ要素1(152-1)および第2のオーディオ要素2(152-2)は、MCDを備えたユーザーからの距離dおよびdにそれぞれ(例えば、実質的に)配置される。この場合、距離dおよびdの両方が定義されたしきい値距離dしきい値よりも大きい場合があり、したがって、システム102は、両方のオーディオ要素を単一の仮想ソース152-3にグループ化するように構成される。単一の仮想ソースの位置とプロパティ(空間的な範囲など)は、例えば、2つのソースによって生成された元の音場をできるだけよく模倣するような方法で、元の2つのソースの位置に基づいて計算することができる(例えば、2つのよく局所化されたポイントソースは、それらの間の距離の中央に単一のソースとして再生することができる)。ユーザー位置データ110(d、d)は、MCDからシステム102(クライアント)に送信され、続いてサーバー120に送信することができ、サーバー120は、サーバーシステム120によってレンダリングされる適切なオーディオストリーム106を送信することを決定することができる(他の実施形態では、サーバー120から送信されるストリームを決定するのはクライアント102である)。両方のオーディオ要素を単一の仮想ソース152-3にグループ化することにより、サーバー120は、前述の情報に関連付けられた多数の表現のうちの1つを選択することができる。(例えば、それに応じて専用ストリーム106、それに応じて例えば1つの単一チャネルに関連付けられたアダプテーションセット113’を配信することが可能である。)したがって、ユーザーは、MCDを介して、実際のオーディオ要素1(152-1)と2(152-2)との間に配置された単一の仮想オーディオ要素152-3から送信されたオーディオ信号を受信することができる。
図5bに示す第2の瞬間t=tで、ユーザーは、例えば、同じシーン150内に配置され、図5aと同じVR環境に第2の定義された位置を有する。この第2の位置では、2つのオーディオ要素152-1および152-2は、ユーザーからの距離dおよびdにそれぞれ(例えば、実質的に)配置される。距離dおよびdは両方とも、しきい値距離dしきい値より短くてもよく、したがって、オーディオ要素152-1および152-2の単一の仮想ソース152-3へのグループ化はもはや使用されない。ユーザー位置データは、MCDからシステム102に送信され、続いてサーバー120に送信され、サーバー120は、システムサーバー120によってレンダリングされる別の適切なオーディオストリーム106を送信することを決定することができる(他の実施形態では、この決定はクライアント102によって行われる)。オーディオ要素をグループ化することを回避することにより、サーバー120は、前述の情報に関連付けられた異なる表現を選択して、それに応じて、オーディオ要素ごとに異なるチャネルに関連付けられたアダプテーションセット113’を備えた専用ストリーム106を配信することができる。その結果、ユーザーは、MCDを介して、2つの異なるオーディオ要素1(152-1)および2(152-2)から送信されるオーディオ信号108を受信することができる。したがって、ユーザーの位置110がオーディオソース1(152-1)および2(152-2)に近いほど、オーディオソースに関連付けられたストリームの必要な品質レベルを高く選択する必要がある。
実際、図5bに示すように、オーディオソース1(152-1)および2(152-2)がユーザーに対して近くにあるほど、レベルを高く調整する必要があるため、オーディオ信号108はより高い品質レベルでレンダリングされる。対照的に、図5bに表されている遠隔に配置されたオーディオソース1および2は、単一の仮想ソースによって再生されるときの、より低いレベルで聞かれる必要があるため、例えばより低い品質レベルでレンダリングされる。
同様の構成では、多数のオーディオ要素がユーザーの前に配置され、それらのすべてがユーザーからのしきい値距離よりも大きい距離に配置されている。一実施形態では、5つのオーディオ要素の2つのグループがそれぞれ2つの仮想ソースに結合されてもよい。ユーザー位置データは、MCDからシステム102に送信され、続いてサーバー120に送信され、サーバー120は、システムサーバー120によってレンダリングされる適切なオーディオストリーム106を送信することを決定することができる。10個のオーディオ要素すべてを2つの単一の仮想ソースのみにグループ化することにより、サーバー120は、前述の情報に関連付けられた多数の表現のうちの1つを選択して、それに応じて例えば2つの単一のオーディオ要素に関連付けられたアダプテーションセット113’を備えた専用ストリーム106を配信することができる。その結果、ユーザーは、MCDを介して、実際のオーディオ要素と同じ配置領域に配置された2つの異なる仮想オーディオ要素から送信されたオーディオ信号を受信することができる。
その後の瞬間に、ユーザーは多数(10個)のオーディオ要素に接近している。この後続のシーンでは、すべてのオーディオ要素は、しきい値距離dしきい値より小さい距離に配置されているので、システム102は、オーディオ要素のグループ化を終了するように構成される。新しいユーザー位置データは、MCDからシステム102に送信され、続いてサーバー120に送信され、サーバー120は、サーバーシステム120によってレンダリングされる別の適切なオーディオストリーム106を送信することを決定することができる。オーディオ要素をグループ化しないことにより、サーバー120は、前述の情報に関連付けられた異なる表現を選択して、それに応じて、オーディオ要素ごとに異なるチャネルに関連付けられたアダプテーションセット113’を備えた専用ストリーム106を配信することができる。その結果、ユーザーはMCDを介して、10個の異なるオーディオ要素から送信されたオーディオ信号を受信することができる。したがって、ユーザーの位置110がオーディオソースに近いほど、オーディオソースに関連付けられているストリームの必要な解像度を高く選択する必要がある。
事例5
図6(事例5)は、例示的な3つの異なる方向(それぞれが異なるビューポート160-1、160-2、160-3に関連付けられる)に向けられ得るメディア消費者デバイス(MCD)を着用する単一のシーン150の1つの位置にあるユーザー140を示す。図6に示すこれらの方向は、極座標系および/またはデカルトXY座標系で、図6の下部の例えば180°にある第1のビューポイント801、図6の右側の例えば90°に位置する第2のビューポイント802、および図6の上部の例えば0°に位置する第3のビューポイント803を指す方向(例えば、角度方向)を有してもよい。これらの各ビューポイントは、メディア消費者デバイス(MCD)を装着しているユーザー140の向きに関連付けられており、中央に位置しているユーザーには、MCDの向きに従って対応するオーディオ信号108をレンダリングするMCDによって表示される特定のビューポートが提供される。
この特定のVR環境では、第1のオーディオ要素s1(152)は例えば180°に位置するビューポイントの近傍である第1のビューポート160-1に位置しており、第2のオーディオ要素s2(152)は、例えば180°に位置するビューポイントの近傍である第3のビューポート160-3に位置している。自分の向きを変化させる前に、ユーザー140は、ビューポイント801(ビューポート160-1)に向かう第1の向きで、ユーザーの実際の(有効な)位置に関連付けられた音は、オーディオ要素s2からよりもオーディオ要素s1からの方が大きくなることを体験する。
ユーザーの向きを変化させることにより、ユーザー140は、ビューポイント802に向かう第2の向きで、ユーザーの実際の位置110に関連付けられた音は、両方のオーディオ要素s1およびs2からほぼ同じ音量で横から来ることを体験する。
最後に、ユーザーの向きを変化させることにより、ユーザー140は、ビューポイント801(ビューポート160-3)に向かう第3の向きで、オーディオ要素2に関連付けられた音を、オーディオ要素s1に関連付けられた音よりも大きく体験することができる(実際には、オーディオ要素2からの音は前方から到達し、オーディオ要素1からの音は後方から到達する)。
したがって、異なるビューポートおよび/または向きおよび/または仮想位置データは、異なるビットレートおよび/または品質に関連付けることができる。
その他の事例および実施例
図7Aは、図中の一連の動作ステップの形で、システムによるオーディオストリームを受信するための方法の一実施形態を示す。任意の瞬間に、システム102のユーザーは、ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置に関連付けられる。特定の瞬間に、システムは、図7Aのステップ701で、現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置に基づいて再生されるオーディオ要素を決定することができる。したがって、次のステップ703で、各オーディオ要素の関連性および可聴性レベルを決定することができる。図6で上述したように、VR環境は、特定のシーン150内に、ユーザーの近くに、またはさらに遠くに配置された異なるオーディオ要素を有することができるが、周囲360度の中で特定の向きを有する場合もある。これらのすべての要因が、各オーディオ要素の関連性と可聴性のレベルを決定する。
次のステップ705で、システム102は、メディアサーバー120からのオーディオ要素のそれぞれについて決定された関連性および可聴レベルに従ってオーディオストリームを要求することができる。
次のステップ707で、システム102は、メディアサーバー120によって適宜準備されたオーディオストリーム113を受信することができ、異なるビットレートのストリームは、前述のステップで決定された関連性および可聴レベルを反映することができる。
次のステップ709で、システム102(例えば、オーディオデコーダ)は、受信されたオーディオストリーム113をデコードすることができ、それによって、ステップ711で、現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置に従って、特定のシーン150が(例えば、MCDによって)再現される。
図7Bは、前述の一連の動作図による、メディアサーバー120とシステム102との間のインタラクションを示す。特定の瞬間において、メディアサーバーは、前述のシーン150の関連するオーディオ要素の前述で決定されたより低い関連性および可聴レベルに従って、より低いビットレートでオーディオストリーム750を送信することができる。システムは、後続の瞬間752で、インタラクションまたは位置データの変化が発生したと判断することができる。そのようなインタラクションは、例えば、同じシーン150における位置データの変化から、または、例えば、ドアハンドルによって提供されるドアによってユーザーが第1のシーンから分離された第2のシーンに入ろうとする間にドアハンドルをアクティブにすることから生じ得る。
現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置の変化は、システム102によってメディアサーバー120に送信される要求754をもたらすことができる。この要求は、後続のシーン150に対して決定された関連するオーディオ要素のより高い関連性と可聴性レベルを反映することができる。要求754への応答として、メディアサーバーはより高いビットレートでストリーム756を送信し、システム102による現在のユーザーの仮想位置でのシーン150のもっともらしい現実的な再生を可能にする。
図8Aは、システムによってオーディオストリームを受信するための方法の別の実施形態を、図中の一連の動作ステップの形でも示す。特定の瞬間801で、第1の現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置の決定が実行され得る。肯定的な場合を差し引くことによって、低ビットレートによって定義された第1の位置に関連付けられたストリームの要求が準備され、ステップ803でシステム102によって送信され得る。
3つの異なる結果を有する決定ステップ805が、後続の瞬間に実行され得る。定義された1つまたは2つのしきい値は、このステップで、例えば後続のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置に関する予測決定を決定するために関連付けられてもよい。したがって、第2の位置への変化の確率に関して、第1および/または第2のしきい値との比較を実行することができ、その結果、例えば、3つの異なる後続のステップが実行される。
例えば非常に低い確率(例えば、上記の第1の所定のしきい値との比較に関連付けられる)を反映する結果では、新しい比較ステップ801が実行される。
低い確率(例えば、第1の所定のしきい値より高いが、例では、第1のしきい値より高く、第2の所定のしきい値より低い)を反映する結果では、低ビットレートのオーディオストリーム113に対する要求がステップ809で生じ得る。
高い確率(例えば、第2の所定のしきい値より高い)を反映する結果では、ステップ807で、高ビットレートのオーディオストリーム113に対する要求を実行することができる。したがって、ステップ807または809を実行した後に実行される後続のステップは、やはり決定ステップ801であり得る。
図8Bは、前述の動作図のシーケンスのうちの1つだけによる、メディアサーバー120とシステム102との間のインタラクションを示す。特定の瞬間に、メディアサーバーは、前述のシーン150のオーディオ要素の前述の決定された低い関連性および可聴レベルに従って、低ビットレートでオーディオストリーム850を送信することができる。システムは、後続の瞬間852において、インタラクションが予測的に発生することになると判断することができる。現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置の予測的変化は、システム102によってメディアサーバー120に送信される適切な要求854をもたらすことができる。この要求は、それぞれの後続のシーン150に必要なオーディオ要素の可聴レベルに応じて、高ビットレートに関連付けられた第2の位置に到達する可能性が高いという上記の事例のうちの1つを反映することができる。応答として、メディアサーバーはより高いビットレートでストリーム856を送信し、システム102による現在のユーザーの仮想位置でのシーン150のもっともらしい現実的な再生を可能にする。
図1.3に示すシステム102は、クライアント側での別の構成に基づいてオーディオストリーム113を受信するように構成され、システムアーキテクチャは、複数のオーディオデコーダ1320、1322を使用するソリューションに基づいて離散的なビューポイントを使用することができる。クライアント側では、システム102は、例えば、追加的または代替的に複数のオーディオデコーダ1320、1322を備える図1.2に記載されたシステムの部分を具現化することができ、これは、例えば、いくつかのオーディオ要素が非アクティブ化された状態で、メタデータプロセッサ1236によって示されるように、個々のオーディオストリームをデコードするように構成され得る。
ユーザーの位置および/または向きおよび/または動きの方向に関する情報に基づいて最終的なオーディオシーンを再生するように構成されているミキサー/レンダラー1238が、システム102に設けられてもよく、すなわち、例えば、その特定の場所で聞こえない一部のオーディオ要素は無効にするか、レンダリングしないようにする。
図1.4、図1.5および図1.6に示す以下の実施形態は、柔軟なアダプテーションセットを有する離散的なビューポイントのための独立したアダプテーションセットに基づく。ユーザーがVR環境内を移動する場合、オーディオシーンが継続的に変化することがある。優れたオーディオエクスペリエンスを確保するために、特定の時点でオーディオシーンを構成するすべてのオーディオ要素を、メディアデコーダで使用できるようにする必要があり、メディアデコーダは最終的なオーディオシーンを作成するために位置情報を利用することができる。
コンテンツが予めエンコードされている場合には、予め定義されたいくつかの場所で、これらのオーディオシーンが重複せず、ユーザーが1つの場所から次の場所へ「ジャンプ/切り替え」できるという前提の下で、システムはこれらの特定の場所のオーディオシーンを正確に再生することができる。
しかし、ユーザーがある場所から次の場所に「歩く」場合、2つ(またはそれ以上)のオーディオシーンのオーディオ要素を同時に聞くことができる。この使用事例の解決策は、複数のオーディオストリームを(単一のメディアデコーダを備えたマクサーまたは追加のミキサー/レンダラーを備えた複数のメディアデコーダのいずれかを使用して)デコードするために提供されたメカニズムに依存しない、以前のシステムの例で提供されていて、完全なオーディオシーンを記述するオーディオストリームをクライアントに提供する必要がある。
複数のオーディオストリーム間で共通のオーディオ要素の概念を導入することにより、最適化が以下で提供される。
態様と実施例に関する説明
解決策1:離散的位置(ビューポイント)の独立したアダプテーションセット。
上記の問題を解決する1つの方法は、場所ごとに完全に独立したアダプテーションセットを使用することである。この解決策をよりよく理解するために、シナリオ例として図1.1を使用する。この例では、3つの異なる個別のビューポイント(3つの異なるオーディオシーンで構成される)を使用して、ユーザーが移動することができる完全なVR環境を作成する。したがって、
・いくつかの独立した、または重複するオーディオシーンは、いくつかのオーディオストリームにエンコードされる。オーディオシーンごとに、1つのメインストリームを使用することも、使用事例に応じて1つのメインストリームと追加の補助ストリームを使用することもできる(例えば、異なる言語を含む一部のオーディオオブジェクトは、効率的な配信のために独立したストリームにエンコードすることができる)。提供されている例では、オーディオシーンAは2つのストリーム(A1およびA2)にエンコードされ、オーディオシーンBは3つのストリーム(B1、B2およびB3)にエンコードされ、オーディオシーンCは3つのストリーム(C1、C2およびC3)にエンコードされる。オーディオシーンAとオーディオシーンBは、いくつかの共通要素(この例では2つのオーディオオブジェクト)を共有していることに留意されたい。すべてのシーンは完全で独立している必要があるため(例えば、非VR再生デバイスでの独立した再生の場合)、共通の要素を各シーンで2回エンコードする必要がある。
・すべてのオーディオストリームは異なるビットレート(すなわち、異なる表現)でエンコードされているため、ネットワーク接続に応じて効率的なビットレート適応が可能である(すなわち、高速接続を使用しているユーザーには高速ビットレートコード化バージョンが提供され、低速ネットワーク接続のユーザーにはより低いビットレートのバージョンが配信される)。
・オーディオストリームはメディアサーバーに格納され、各オーディオストリームについて、異なるビットレート(つまり異なる表現)の異なるエンコーディングが1つのアダプテーションセットにグループ化され、適切なデータが作成されたすべてのアダプテーションセットの利用可能性を通知する。
・さらに、メディアサーバーは、アダプテーションセットに加えて、各オーディオシーンの「境界」の位置と、各アダプテーションセット(例えば、完全なオーディオシーンまたは個別のオブジェクトのみを含む)との関係に関する情報を受信する。このようにして、各アダプテーションセットは、利用可能なオーディオシーンの1つに関連付けられ得る。1つのオーディオシーンの境界は、例えば、球の幾何学的座標(例えば、中心および半径)として定義されてもよい。
o各アダプテーションセットには、サウンドシーンまたはオーディオ要素がアクティブである場所に関する記述情報も含まれている。例えば、1つの補助ストリームに1つまたは複数のオブジェクトが含まれている場合、アダプテーションセットには、オブジェクトが聞こえる場所(例えば、球の中心の座標と半径)などの情報を含めることができる。
・メディアサーバーは、各アダプテーションセットに関連付けられた「境界」の場所に関する情報をクライアント(DASHクライアントなど)に提供する。例えば、DASH配信環境の場合、これはメディアプレゼンテーション記述(MPD)XML構文に埋め込まれてもよい。
・クライアントは、ユーザーの位置および/または向きおよび/または移動方向に関する情報(またはユーザーのアクションによってトリガーされた変化を特徴付ける情報)を受信する。
・クライアントは、各アダプテーションセットに関する情報を受信し、これと、ユーザーの位置および/または向きおよび/または移動の方向(または、x、y、z座標やヨー、ピッチ、ロールの値など、ユーザーのアクションによってトリガーされた変化を特徴付ける情報)に基づいて、クライアントは、ユーザーの現在の場所で再生されるオーディオシーンを完全に記述する1つまたは複数のアダプテーションセットを選択する。
・クライアントは1つまたは複数のアダプテーションセットを要求する
oさらに、クライアントは、複数のオーディオシーンを完全に記述するより多くのアダプテーションセットを選択し、複数のオーディオシーンに対応するオーディオストリームを使用して、ユーザーの現在の場所で再生する必要がある新しいオーディオシーンを作成する。例えば、ユーザーがVR環境内を歩いていて、ある時点でその間に(または2つのオーディオシーンが聞こえる効果がある場所に)いる。
oオーディオストリームが利用可能になると、複数のメディアデコーダを使用して個々のオーディオストリームをデコードし、追加のミキサー/レンダラー1238を使用して、ユーザーの位置および/または向きおよび/または移動方向に関する情報に基づいて最終的なオーディオシーンを再生することができる(すなわち、例えば、その特定の場所で聞こえないオーディオ要素の一部は無効にするか、レンダリングしない)。
oあるいは、メタデータプロセッサ1236を使用して、ユーザーの位置および/または向きおよび/または動きの方向に関する情報に基づいて、すべてのオーディオストリームに関連付けられたオーディオメタデータを操作することにより、
・新しいオーディオシーンを構成する必要なオーディオ要素152を選択/有効化する。
・また、すべてのオーディオストリームを単一のオーディオストリームにマージできるようにする。
・メディアサーバーは必要なアダプテーションセットを配信する。
・あるいは、クライアントはユーザーの位置決めに関する情報をメディアサーバーに提供し、メディアサーバーは必要なアダプテーションセットに関する指示を提供する。
図1.2は、このようなシステムの別の実装例を示している。
・エンコード側
o1つのビューポイントの1つのサウンドシーン部分に関連付けられた利用可能な各オーディオシーンに対して1つまたは複数のオーディオストリームを作成するために使用することができる複数のメディアエンコーダ
o1つのビューポイントの1つのビデオシーンパーツに関連付けられた使用可能な各ビデオシーンの1つまたは複数のビデオストリームを作成するために使用することができる複数のメディアエンコーダ。簡略化のため、ビデオエンコーダは図に表示されていない。
o異なるビットレート(つまり、異なる表現)で同じオーディオおよびビデオストリームの異なるエンコーディングを含む複数のオーディオおよびビデオアダプテーションセットを格納するメディアサーバー。さらに、メディアサーバーは、すべてのアダプテーションセットの記述情報を格納し、それは以下を含むことができる。
・作成されたすべてのアダプテーションセットの利用可能性。
・1つのアダプテーションセットと1つのオーディオシーンおよび/またはビューポイントとの関連付けを記述する情報。このようにして、各アダプテーションセットは、利用可能なオーディオシーンの1つに関連付けられ得る。
・各オーディオシーンおよび/またはビューポイントの「境界」を記述する情報(例えば、完全なオーディオシーンまたは個別のオブジェクトのみを含んでもよい)。1つのオーディオシーンの境界は、例えば、球の幾何学的座標(例えば、中心および半径)として定義されてもよい。
・クライアント側では、以下のいずれかを含むシステム(クライアントシステム)。
o以下を受信することができる受信側、
・ユーザーの位置および/または向きおよび/または移動方向に関する情報(またはユーザーのアクションによってトリガーされた変化を特徴付ける情報)
・すべてのアダプテーションセットの利用可能性に関する情報、ならびに1つのアダプテーションセットと1つのオーディオシーンおよび/またはビューポイントとの関連付けを記述する情報、ならびに/あるいは各オーディオシーンおよび/またはビューポイントの「境界」を記述する情報(例えば、完全なオーディオシーンまたは個別のオブジェクトのみを含んでもよい)。例えば、そのような情報は、DASH配信環境の場合、メディアプレゼンテーション記述(MPD)XML構文の一部として提供されてもよい。
oコンテンツ消費(例えば、HMDに基づく)に使用されるメディア消費デバイス側。また、メディア消費デバイスは、ユーザーの位置および/または向きおよび/または移動方向に関する収集情報(またはユーザーのアクションによってトリガーされた変化を特徴付ける情報)を収集する役割を果たす。
oビューポートプロセッサ1232は以下のように構成することができる。
・メディア消費デバイス側から、ユーザーの位置および/または向きおよび/または移動方向を含む現在のビューポートに関する情報(またはユーザーのアクションによってトリガーされた変更を特徴付ける情報)を受信する。
・メタデータ(OMAF仕様で通知されたビデオビューポート)で通知されたROIに関する情報を受信する。
・受信側で利用可能なすべての情報を受信する。
・受信したおよび/または利用可能なメタデータから受信したおよび/または導出されたすべての情報に基づいて、特定の瞬間にどのオーディオ/ビデオビューポイントを再生するかを決定する。例えば、ビューポートプロセッサ1232は次のように決定する。
・1つの完全なオーディオシーンが再現される。
・使用可能なすべてのオーディオシーンから1つの新しいオーディオシーンを作成する必要がある(例えば、複数のオーディオシーンの一部のオーディオ要素のみが再生され、これらのオーディオシーンの他の残りのオーディオ要素は再生されない)。
・2つ以上のオーディオシーン間の移行を再現する必要がある。
oビューポートプロセッサ1232から受信した情報に基づいて、受信端によって受信された情報で通知された利用可能なアダプテーションセットから1つまたは複数のアダプテーションセットを選択するように構成された選択部分1230。選択されたアダプテーションセットは、ユーザーの現在の場所で再生されるオーディオシーンを完全に記述する。このオーディオシーンは、エンコード側で定義された1つの完全なオーディオシーンであるか、または利用可能なすべてのオーディオシーンから新しいオーディオシーンを作成する必要がある。
さらに、ビューポートプロセッサ1232の指示に基づいて、2つ以上のオーディオシーン間の移行が生じようとしている場合、選択部分1230は、受信端によって受信された情報でシグナリングされた利用可能なアダプテーションセットから1つまたは複数のアダプテーションセットを選択するように構成することができ、選択されたアダプテーションセットは、近い将来に再現する必要があるオーディオシーンを完全に記述する(例えば、ユーザーが次のオーディオシーンの方向に特定の速度で歩く場合、次のオーディオシーンが必要になることが予測され、再生に先立って選択される)。
・さらに、隣接する場所に対応するいくつかのアダプテーションセットは、最初に低いビットレートで選択されてもよく(つまり、低いビットレートでエンコードされた表現が、1つのアダプテーションセットで利用可能な表現から選択される)、そして、位置の変化に基づいて、これらの特定のアダプテーションセットに対してより高いビットレートを選択することにより、品質が向上する(つまり、より高いビットレートでエンコードされた表現が、1つのアダプテーションセットで利用可能な表現から選択される)。
o次のように構成できるダウンロードおよびスイッチング部分、
・選択部分1230から受信した指示に基づいて、メディアサーバー120から利用可能なアダプテーションセットのうちの1つまたは複数のアダプテーションセットを要求する。
・メディアサーバー120から利用可能な適応セットから1つまたは複数の適応セット(すなわち、各適応セット内で利用可能なすべての表現のうちの1つの表現)を受け取る。
・受信したすべてのオーディオストリームからメタデータ情報を抽出
次のように構成できるメタデータプロセッサ1236、
・受信されたオーディオストリームについてのダウンロードおよびスイッチング情報から、受信された各オーディオストリームに対応するオーディオメタデータを含むことができる情報を受信する。
・ユーザーの位置および/または向きおよび/または移動方向に関する情報を含むことができるビューポートプロセッサ1232から受信した情報に基づいて、各オーディオストリームに関連するオーディオメタデータを処理および操作することにより、
・ビューポートプロセッサ1232によって示されるように、新しいオーディオシーンを構成する必要なオーディオ要素152を選択/有効化する。
・すべてのオーディオストリームを単一のオーディオストリームにマージすることができる。
oストリームマクサー/マージャー1238は、メタデータプロセッサ1236から受信され、受信したすべてのオーディオストリームに対応する変更および処理されたオーディオメタデータを含むことができる情報に基づいて、選択されたすべてのオーディオストリームを1つのオーディオストリームにマージするように構成されてもよい。
oメディアデコーダは、ユーザーの位置および/または向きおよび/または移動方向に関する情報に基づいて、ビューポートプロセッサ1232によって示されるように、新しいオーディオシーンの再生のための少なくとも1つのオーディオストリームを受信およびデコードするように構成される。
図1.3は、クライアント側で、例えば図1.2で説明したシステムの一部を具体化できるシステム(クライアントシステム)を含むシステムを示し、それはさらにまたは代わりに以下を含む。
・複数のメディアデコーダは、メタデータプロセッサ1236によって示されるように個々のオーディオストリームをデコードするように構成することができる(例えば、いくつかのオーディオ要素が非アクティブ化される)。
・ミキサー/レンダラー1238は、ユーザーの位置および/または向きおよび/または動きの方向に関する情報に基づいて最終的なオーディオシーンを再生するように構成することができる(すなわち、例えば、その特定の場所で聞こえない一部のオーディオ要素は無効にするか、レンダリングしない)。
解決策2
図1.4、図1.5、および図1.6は、本発明の解決策2に基づく例を示す(これは、図1.1および/または図1.2および/または図1.3の例の実施形態であってもよい):柔軟なアダプテーションセットを有する離散的位置(ビューポイント)の独立したアダプテーションセット。
ユーザーがVR環境内を移動する場合、オーディオシーン150は連続的に変化することがある。優れたオーディオエクスペリエンスを確保するために、特定の時点でオーディオシーン150を構成するすべてのオーディオ要素152を、メディアデコーダで使用できるようにする必要があり、メディアデコーダは最終的なオーディオシーンを作成するために位置情報を利用することができる。
コンテンツが予めエンコードされている場合には、予め定義されたいくつかの場所で、これらのオーディオシーンが重複せず、ユーザーが1つの場所から次の場所へ「ジャンプ/切り替え」できるという前提の下で、システムはこれらの特定の場所のオーディオシーンを正確に再生することができる。
しかし、ユーザーがある場所から次の場所に「歩く」場合、2つ(またはそれ以上)のオーディオシーン150のオーディオ要素152を同時に聞くことができる。この使用事例の解決策は、複数のオーディオストリームを(単一のメディアデコーダを備えたマクサーまたは追加のミキサー/レンダラー1238を備えた複数のメディアデコーダのいずれかを使用して)デコードするために提供されたメカニズムに依存しない、以前のシステムの例で提供されていて、完全なオーディオシーン150を記述するオーディオストリームをクライアント/システム102に提供する必要がある。
複数のオーディオストリーム間で共通のオーディオ要素152の概念を導入することにより、以下で最適化が提供される。
図1.4は、異なるシーンが少なくとも1つのオーディオ要素(オーディオオブジェクト、サウンドソースなど)を共有する例を示している。したがって、クライアント102は、例えば、1つのシーンAのみに関連付けられ(例えば、ユーザーが現在いる環境に関連付けられている)、オブジェクト152Aに関連付けられた1つのメインストリーム106Aと、異なるシーンBによって共有され(例えば、ユーザーが現在いるシーンAとオブジェクト152Bを共有する隣接または隣接するストリームBとの間の境界内のストリーム)、オブジェクト152Bに関連付けられた1つの補助ストリーム106Bと、を受信することができる。
したがって、図1.4に示すように、
・いくつかの独立した、または重複するオーディオシーンは、いくつかのオーディオストリームにエンコードされる。オーディオストリーム106は、次のような方法で作成される。
o各オーディオシーン150について、それぞれのオーディオシーンの一部であるオーディオ要素152のみを含み、他のオーディオシーンの一部ではない1つのメインストリームを作成することができる。および/または
oオーディオ要素152を共有するすべてのオーディオシーン150について、共通のオーディオ要素152は、オーディオシーンの1つにのみ関連付けられた補助オーディオストリームでのみエンコードされ、他のオーディオシーンとの関連付けを示す適切なメタデータ情報が作成される。または別の言い方をすると、追加のメタデータは、一部のオーディオストリームが複数のオーディオシーンと一緒に使用される可能性を示している。および/または
o使用事例によっては、追加の補助ストリームが作成される場合がある(例えば、異なる言語を含む一部のオーディオオブジェクトは、効率的な配信のために独立したストリームにエンコードされる場合がある)。
o提供された実施形態では、
・オーディオシーンAは以下にエンコードされている:
・メインオーディオストリーム(A1、106A)、
・補助オーディオストリーム(A2、106B)
・オーディオシーンAの一部のオーディオ要素152BがこれらのオーディオストリームAではなく、異なるオーディオシーン(オーディオシーンB)に属する補助ストリームA2(106B)にエンコードされていることを示すことができるメタデータ情報
・オーディオシーンBは以下にエンコードされている:
・メインオーディオストリーム(B1、106C)、
・補助オーディオストリーム(B2)、
・補助オーディオストリーム(B3)、
・オーディオストリームB2からのオーディオ要素152Bが、オーディオシーンAにも属する一般的なオーディオ要素152Bであることを示すことができるメタデータ情報。
・オーディオシーンCは3つのストリーム(C1、C2、およびC3)にエンコードされる。
・オーディオストリーム106(106A、106B、106C…)は、異なるビットレート(つまり、異なる表現)でエンコードされ、例えばネットワーク接続に応じて、効率的なビットレート適応が可能になる(つまり、高速接続を使用しているユーザーには高ビットレートのコード化バージョンが配信され、低速ネットワーク接続を使用しているユーザーには低ビットレートのバージョンが配信される)。
・オーディオストリーム106はメディアサーバー120に格納され、各オーディオストリームについて、異なるビットレート(つまり異なる表現)の異なるエンコーディングが1つのアダプテーションセットにグループ化され、適切なデータが作成されたすべてのアダプテーションセットの利用可能性を通知する。(同じオーディオ信号に関連付けられているストリームの複数の表現が、異なるビットレートおよび/または品質および/または解像度で、同じアダプテーションセットに存在してもよい。)
・さらに、メディアサーバー120は、アダプテーションセットに加えて、各オーディオシーンの「境界」の位置と、各アダプテーションセット(例えば、完全なオーディオシーンまたは個別のオブジェクトのみを含む)との関係に関する情報を受信することができる。このようにして、各アダプテーションセットは、利用可能なオーディオシーン150のうちの1つまたは複数に関連付けられ得る。1つのオーディオシーンの境界は、例えば、球の幾何学的座標(例えば、中心および半径)として定義されてもよい。
o各アダプテーションセットは、サウンドシーンまたはオーディオ要素152がアクティブである場所に関する記述情報も含んでもよい。例えば、1つの補助ストリーム(例えば、A2、106B)に1つまたは複数のオブジェクトが含まれている場合、アダプテーションセットには、オブジェクトが聞こえる場所(例えば、球の中心の座標と半径)などの情報を含めることができる。
o追加または代替として、各アダプテーションセット(例えば、シーンBに関連付けられたアダプテーションセット)は、記述情報(例えば、メタデータ)を含むことができ、それは、1つのオーディオシーン(例えばB)のオーディオ要素(例えば152B)が(また、あるいはさらに)別のオーディオシーン(例えばA)に属するオーディオストリーム(例えば106B)にエンコードされることを示すことができる。
・メディアサーバー120は、各アダプテーションセットに関連付けられた「境界」の位置に関する情報を、システム102(クライアント)、例えば、DASHクライアントに提供することができる。例えば、DASH配信環境の場合、これはメディアプレゼンテーション記述(MPD)XML構文に埋め込まれてもよい。
・システム102(クライアント)は、ユーザーの位置および/または向きおよび/または移動方向に関する情報(またはユーザーのアクションによってトリガーされた変化を特徴付ける情報)を受信することができる。
・システム102(クライアント)は、各アダプテーションセットに関する情報を受信することができ、これおよび/またはユーザーの位置および/または向きおよび/または移動の方向(または、x、y、z座標やヨー、ピッチ、ロールの値など、ユーザーのアクションによってトリガーされた変化を特徴付ける情報)に基づいて、システム102(クライアント)は、ユーザー140の現在の場所で再生されるオーディオシーン150を完全にまたは部分的に記述する1つまたは複数のアダプテーションセットを選択することができる。
・システム102(クライアント)は、1つまたは複数のアダプテーションセットを要求することができる。
oさらに、システム102(クライアント)は、複数のオーディオシーン150を完全にまたは部分的に記述する1つまたは複数のアダプテーションセットを選択し、複数のオーディオシーン150に対応するオーディオストリーム106を使用して、ユーザー140の現在の場所で再生される新しいオーディオシーン150を作成することができる。
oオーディオ要素152が複数のオーディオシーン150の一部であることを示すメタデータに基づいて、共通のオーディオ要素152は、新しいオーディオシーンを作成するために、完全なオーディオシーンごとに、2回要求する代わりに1回だけ要求することができる。
oオーディオストリームがクライアントシステム102で利用可能になると、例では、1つまたは複数のメディアデコーダ(104)を使用して、個々のオーディオストリームをデコードし、および/または追加のミキサー/レンダラーを使用して、ユーザーの位置および/または向きおよび/または移動方向に関する情報に基づいて最終的なオーディオシーンを再生することができる(すなわち、例えば、その特定の場所で聞こえないオーディオ要素の一部は無効にするか、レンダリングしない)。
o代替的または追加的に、メタデータプロセッサを使用して、ユーザーの位置および/または向きおよび/または移動方向に関する情報に基づいて、すべてのオーディオストリームに関連付けられたオーディオメタデータを操作することにより、
・新しいオーディオシーンを構成する必要なオーディオ要素152(152A-152c)を選択/有効化する。および/または
・すべてのオーディオストリームを単一のオーディオストリームにマージできるようにする。
・メディアサーバー120は必要なアダプテーションセットを配信することができる。
・あるいは、システム102(クライアント)は、ユーザー140の位置決めに関する情報をメディアサーバー120に提供し、メディアサーバーは必要なアダプテーションセットについての指示を提供する。
図1.5は、このようなシステムの別の例示的な実施態様を示している。
・エンコード側
1つのビューポイントの1つのサウンドシーン部分に関連付けられた1つまたは複数の利用可能なオーディオシーン150からオーディオ要素152を埋め込む1つまたは複数のオーディオストリーム106を作成するために使用することができる複数のメディアエンコーダ154。
・各オーディオシーン150について、それぞれのオーディオシーン150の一部であるオーディオ要素152のみを含み、他のオーディオシーンの一部ではない1つのメインストリームを作成することができる。
・同じオーディオシーンに対して追加の補助ストリームを作成することができる(例えば、異なる言語を含む一部のオーディオオブジェクトは、効率的な配信のために独立したストリームにエンコードすることができる)。
・以下を含む追加の補助ストリームを作成することができる。
・複数のオーディオシーン150に共通のオーディオ要素152。
・この補助ストリームと、共通のオーディオ要素152を共有する他のすべてのオーディオシーン150との関連付けを示すメタデータ情報。または別の言い方をすると、メタデータは、一部のオーディオストリームが複数のオーディオシーンと一緒に使用され得る可能性を示している。
o1つのビューポイントの1つのビデオシーン部分に関連付けられた使用可能な各ビデオシーンの1つまたは複数のビデオストリームを作成するために使用することができる複数のメディアエンコーダ。簡略化のため、ビデオエンコーダは図に表示されていない。
o異なるビットレート(つまり、異なる表現)で同じオーディオおよびビデオストリームの異なるエンコーディングを含む複数のオーディオおよびビデオアダプテーションセットを格納するメディアサーバー120。さらに、メディアサーバー120は、すべてのアダプテーションセットの記述情報を格納し、それは以下を含むことができる。
・作成されたすべてのアダプテーションセットの利用可能性。
・1つのアダプテーションセットと1つのオーディオシーンおよび/またはビューポイントとの関連付けを記述する情報。このようにして、各アダプテーションセットは、利用可能なオーディオシーンの1つに関連付けられ得る。
・各オーディオシーンおよび/またはビューポイントの「境界」を記述する情報(例えば、完全なオーディオシーンまたは個別のオブジェクトのみを含んでもよい)。1つのオーディオシーンの境界は、例えば、球の幾何学的座標(例えば、中心および半径)として定義されてもよい。
・少なくとも1つの共通のオーディオ要素を共有する、1つのアダプテーションセットと複数のオーディオシーンの関連付けを示す情報。
・クライアント側では、以下のいずれかを含むシステム(クライアントシステム)。
o以下を受信することができる受信側、
・ユーザーの位置および/または向きおよび/または移動方向に関する情報(またはユーザーのアクションによってトリガーされた変化を特徴付ける情報)
・すべてのアダプテーションセットの利用可能性に関する情報、ならびに1つのアダプテーションセットと1つのオーディオシーンおよび/またはビューポイントとの関連付けを記述する情報、ならびに/あるいは各オーディオシーンおよび/またはビューポイントの「境界」を記述する情報(例えば、完全なオーディオシーンまたは個別のオブジェクトのみを含んでもよい)。例えば、そのような情報は、DASH配信環境の場合、メディアプレゼンテーション記述(MPD)XML構文の一部として提供されてもよい。
・少なくとも1つの共通のオーディオ要素を共有する、1つのアダプテーションセットと複数のオーディオシーンの関連付けを示す情報。
oコンテンツ消費(例えば、HMDに基づく)に使用されるメディア消費デバイス側。また、メディア消費デバイスは、ユーザーの位置および/または向きおよび/または移動方向に関する収集情報(またはユーザーのアクションによってトリガーされた変化を特徴付ける情報)を収集する役割を果たす。
oビューポートプロセッサ1232は以下のように構成することができる。
・メディア消費デバイス側から、ユーザーの位置および/または向きおよび/または移動方向を含む現在のビューポートに関する情報(またはユーザーのアクションによってトリガーされた変更を特徴付ける情報)を受信する。
・メタデータ(OMAF仕様で通知されたビデオビューポート)で通知されたROIに関する情報を受信する。
・受信側で利用可能なすべての情報を受信する。
・受信したおよび/または利用可能なメタデータから受信したおよび/または導出されたすべての情報に基づいて、特定の瞬間にどのオーディオ/ビデオビューポイントを再生するかを決定する。例えば、ビューポートプロセッサ1232は次のように決定する。
・1つの完全なオーディオシーンが再現される
・使用可能なすべてのオーディオシーンから1つの新しいオーディオシーンを作成する必要がある(例えば、複数のオーディオシーンの一部のオーディオ要素のみが再生され、これらのオーディオシーンの他の残りのオーディオ要素は再生されない)。
・2つ以上のオーディオシーン間の移行を再現する必要がある
oビューポートプロセッサ1232から受信した情報に基づいて、受信端によって受信された情報で通知された利用可能なアダプテーションセットから1つまたは複数のアダプテーションセットを選択するように構成された選択部分1230。選択されたアダプテーションセットは、ユーザーの現在の場所で再生されるべきオーディオシーンを完全または部分的に記述する。このオーディオシーンは、エンコード側で定義された1つまたは一部が完全なオーディオシーンであるか、使用可能なすべてのオーディオシーンから新しいオーディオシーンを作成する必要がある。
・さらに、複数のオーディオシーンに属するオーディオ要素152が、少なくとも1つのアダプテーションセットと、同じオーディオ要素152を含む複数のオーディオシーンとの関連付けを示す情報に基づいて選択された場合。
さらに、ビューポートプロセッサ1232の指示に基づいて、2つ以上のオーディオシーン間の移行が生じようとしている場合、選択部分1230は、受信端によって受信された情報でシグナリングされた利用可能なアダプテーションセットから1つまたは複数のアダプテーションセットを選択するように構成することができ、選択されたアダプテーションセットは、近い将来に再現する必要があるオーディオシーンを完全に記述する(例えば、ユーザーが次のオーディオシーンの方向に特定の速度で歩く場合、次のオーディオシーンが必要になることが予測され、再生に先立って選択される)。
・さらに、隣接する場所に対応するいくつかのアダプテーションセットは、最初に低いビットレートで選択されてもよく(つまり、低いビットレートでエンコードされた表現が、1つのアダプテーションセットで利用可能な表現から選択される)、そして、位置の変化に基づいて、これらの特定のアダプテーションセットに対してより高いビットレートを選択することにより、品質が向上する(つまり、より高いビットレートでエンコードされた表現が、1つのアダプテーションセットで利用可能な表現から選択される)。
o次のように構成できるダウンロードおよびスイッチング部分、
・選択部分1230から受信した指示に基づいて、メディアサーバー120から利用可能なアダプテーションセットのうちの1つまたは複数のアダプテーションセットを要求する。
・メディアサーバー120から利用可能な適応セットから1つまたは複数の適応セット(すなわち、各適応セット内で利用可能なすべての表現のうちの1つの表現)を受け取る。
・受信したすべてのオーディオストリームからメタデータ情報を抽出
次のように構成できるメタデータプロセッサ1236、
・受信されたオーディオストリームについてのダウンロードおよびスイッチング情報から、受信された各オーディオストリームに対応するオーディオメタデータを含むことができる情報を受信する。
・ユーザーの位置および/または向きおよび/または移動方向に関する情報を含むことができるビューポートプロセッサ1232から受信した情報に基づいて、各オーディオストリームに関連するオーディオメタデータを処理および操作することにより、
・ビューポートプロセッサ1232によって示されるように、新しいオーディオシーンを構成する必要なオーディオ要素152を選択/有効化する。
・すべてのオーディオストリームを単一のオーディオストリームにマージすることができる。
oストリームマクサー/マージャー1238は、メタデータプロセッサ1236から受信され、受信したすべてのオーディオストリームに対応する変更および処理されたオーディオメタデータを含むことができる情報に基づいて、選択されたすべてのオーディオストリームを1つのオーディオストリームにマージするように構成されてもよい。
oメディアデコーダは、ユーザーの位置および/または向きおよび/または移動方向に関する情報に基づいて、ビューポートプロセッサ1232によって示されるように、新しいオーディオシーンの再生のための少なくとも1つのオーディオストリームを受信およびデコードするように構成される。
図1.6は、クライアント側で、例えば図5で説明したシステムの一部を具体化できるシステム(クライアントシステム)を含むシステムを示し、それはさらにまたは代わりに以下を含む。
・複数のメディアデコーダは、メタデータプロセッサ1236によって示されるように個々のオーディオストリームをデコードするように構成することができる(例えば、いくつかのオーディオ要素が非アクティブ化される)。
・ミキサー/レンダラー1238は、ユーザーの位置および/または向きおよび/または動きの方向に関する情報に基づいて最終的なオーディオシーンを再生するように構成することができる(すなわち、例えば、その特定の場所で聞こえない一部のオーディオ要素は無効にするか、レンダリングしない)。
ファイル再生のためのファイルフォーマットの更新
ファイル形式の使用事例の場合、複数のメインストリームと補助ストリームを個別のトラックとして単一のISOBMFFファイルにカプセル化することができる。このようなファイルの単一のトラックは、前述のように単一のオーディオ要素を表す。正しいプレイアウトに必要な情報を含むMPDは利用できないため、例えば、特定のファイルフォーマットボックスまたはトラックおよび映画レベルの特定のファイルフォーマットボックスを提供/導入することにより、情報をファイルフォーマットレベルで提供する必要がある。使用事例に応じて、カプセル化されたオーディオシーンの正しいレンダリングを可能にするために必要な様々な情報があるが、以下の情報のセットは基本的なものであり、常に存在しなければならない。
・含まれているオーディオシーンに関する情報、例えば「場所の境界」
・利用可能なすべてのオーディオ要素、特にどのオーディオ要素がどのトラックにカプセル化されているかに関する情報
・カプセル化されたオーディオ要素の場所に関する情報
・1つのオーディオシーンに属するすべてのオーディオ要素のリスト、1つのオーディオ要素が複数のオーディオシーンに属してもよい。
この情報があれば、追加のメタデータプロセッサや共有エンコーディングを使用する場合も含め、言及されているすべての使用事例がファイルベースの環境でも機能するはずである。
上記の例に関するさらなる考慮事項
例(例えば、図1.1~図6のうちの少なくとも1つ)では、少なくとも1つのシーンは、少なくとも1つのオーディオ要素(オーディオソース152)に関連付けることができ、各オーディオ要素は、オーディオ要素が聞こえる視覚環境における位置および/または領域に関連付けられ、その結果、シーン内の異なるユーザーの位置および/またはビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データについて、異なるオーディオストリームがサーバーシステム120からクライアントシステム102に提供される。
例では、クライアントシステム102は、オーディオストリーム(例えば、A1、A2)の少なくとも1つのオーディオ要素152および/または1つのアダプテーションセットを、シーンにおける現在のユーザーのビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置の存在下で再生するかどうかを決定するように構成されてもよく、システム102は、現在のユーザーの仮想位置で少なくとも1つのオーディオ要素を要求および/または受信するように構成される。
例では、クライアントシステム(例えば102)は、少なくともユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データ(110)に基づいて、オーディオストリームの少なくとも1つのオーディオ要素(152)および/または1つのアダプテーションセットが、関連性があり、かつ/または可聴であるようになるかどうかを予測的に決定するように構成されてもよく、システムは、シーンにおける予測されたユーザーの動きおよび/またはインタラクションの前に、特定のユーザーの仮想位置で少なくとも1つのオーディオ要素および/またはオーディオストリームおよび/またはアダプテーションセットを要求および/または受信するように構成され、システムは、受信すると、少なくとも1つのオーディオ要素および/またはオーディオストリームを、シーンにおけるユーザーの動きおよび/またはインタラクション後の特定のユーザーの仮想位置で再生するように構成される。例えば、上記の図8Aおよび図8Bを参照されたい。いくつかの例では、システム102または120の動作の少なくとも1つは、予測データおよび/または統計データおよび/または集計データに基づいて実行され得る。
例では、クライアントシステム(例えば102)は、シーンにおけるユーザーの動きおよび/またはインタラクションの前のユーザーの仮想位置で、より低いビットレートおよび/または品質レベルで少なくとも1つのオーディオ要素(例えば152)を要求および/または受信するように構成されてもよく、システムは、シーンにおけるユーザーの動きおよび/またはインタラクションの後のユーザーの仮想位置で、より高いビットレートおよび/または品質レベルで少なくとも1つのオーディオ要素を要求および/または受信するように構成される。例えば、図7Bを参照されたい。
例では、少なくとも1つのオーディオ要素は、少なくとも1つのシーンに関連付けられ、少なくとも1つのオーディオ要素は、シーンに関連付けられた視覚環境内の位置および/または領域に関連付けられてもよく、システムは、シーンにおける各ユーザーの仮想位置での関連性および/または監査能力レベルに基づいて、オーディオ要素の異なるビットレートおよび/または品質レベルで異なるストリームを要求するように構成され、システムは、現在のユーザーの仮想位置でより関連性があり、かつ/または可聴性がより高いオーディオ要素に対して、より高いビットレートおよび/または品質レベルでオーディオストリームを要求するように構成され、および/または現在のユーザーの仮想位置で関連性がより低く、かつ/または可聴性がより低いオーディオ要素に対して、より低いビットレートおよび/または品質レベルでオーディオストリームを要求するように構成される。一般的には、図7Aを参照されたい。また、図2aおよび図2b(より関連性の高いおよび/またはより可聴性の高いソースがユーザーに近い可能性がある)、図3(より関連性の高いおよび/またはより可聴性の高いソースは、ユーザーが位置xにあるときのシーン150aのソースであり、より関連性がありおよび/またはより可聴性の高いソースは、ユーザーが位置xにあるときのシーン150bのソースである)、図4(時刻tにおいて、より関連性の高いおよび/またはより可聴性の高いソースは、第1のシーンのものであり得る)、図6(より可聴性の高いソースは、ユーザーが正面から見るものであり得る)を参照されたい。
例では、少なくとも1つのオーディオ要素(152)は、シーンに関連付けられ、各オーディオ要素は、シーンに関連付けられた視覚環境内の位置および/または領域に関連付けられ、クライアントシステム102は、ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データ(110)をサーバーシステム120に定期的に送信するように構成され、それにより、少なくとも1つのオーディオ要素(152)に近い位置では、サーバーからより高いビットレートおよび/または品質が提供され、少なくとも1つのオーディオ要素(152)からより離れた位置では、より低いビットレートおよび/または品質のストリームがサーバーから提供される。例えば、図2aおよび図2bを参照されたい。
例では、複数のシーン(例えば150A、150B)が隣接および/または近接する環境などの複数の視覚環境に対して定義されてもよく、第1の現在のシーン(例えば150A)に関連付けられた第1のストリームが提供され、ユーザーが第2のさらなるシーン(例えば150B)に移行(150AB)した場合には、第1のシーンに関連付けられたストリームと第2のシーンに関連付けられた第2のストリームの両方が提供される。例えば、図3を参照されたい。
例では、複数のシーンが第1および第2の視覚環境に対して定義され、第1および第2の環境は、隣接および/または近接する環境であり、第1のシーンに関連付けられた第1のストリームは、ユーザーの仮想位置が第1のシーンに関連付けられた第1の環境にある場合の第1のシーンの再生のために、サーバーから提供され、第2のシーンに関連付けられた第2のストリームは、ユーザーの仮想位置が第2のシーンに関連付けられた第2の環境にある場合の第2のシーンの再生のために、サーバーから提供され、ユーザーの仮想位置が第1のシーンと第2のシーンとの間の移行位置にある場合に、第1のシーンに関連付けられた第1のストリームと第2のシーンに関連付けられた第2のストリームの両方が提供される。例えば、図3を参照されたい。
例では、第1のシーンに関連付けられた第1のストリームは、ユーザーが第1のシーンに関連付けられた第1の環境にいるときに、より高いビットレートおよび/または品質で取得され、一方、第2の環境に関連付けられた第2のシーン環境に関連付けられた第2のストリームは、ユーザーが第1のシーンから第2のシーンへの移行位置の始まりにいるときに、より低いビットレートおよび/または品質で取得され、ユーザーが第1のシーンから第2のシーンへの移行位置の終わりにいるときに、第1のシーンに関連付けられた第1のストリームは、より低いビットレートおよび/または品質で取得され、第2のシーンに関連付けられた第2のストリームは、より高いビットレートおよび/または品質で取得される。これは、例えば、図3の場合である。
例では、複数のシーン(例えば、150A、150B)は、複数の視覚環境(例えば、隣接する環境)に対して定義され、システム102は、より高いビットレートおよび/または品質で現在のシーンに関連付けられたストリームと、より低いビットレートおよび/または品質で第2のシーンに関連付けられたストリームと、を要求および/または取得することができる。例えば、図4を参照されたい。
例では、複数のN個のオーディオ要素が定義され、これらのオーディオ要素の位置または領域までのユーザーの距離が所定のしきい値よりも大きい場合に、N個のオーディオ要素は、N個のオーディオ要素の位置または領域に近い位置または領域に関連付けられたより小さい数M(M<N)個のオーディオ要素を取得するように処理され、それによって、N個のオーディオ要素の位置または領域までのユーザーの距離が所定のしきい値よりも小さい場合に、N個のオーディオ要素に関連付けられた少なくとも1つのオーディオストリームをシステムに提供する、またはN個のオーディオ要素の位置または領域までのユーザーの距離が所定のしきい値よりも大きい場合に、M個のオーディオ要素に関連付けられた少なくとも1つのオーディオストリームをシステムに提供する。例えば、図1.7を参照されたい。
例では、少なくとも1つの視覚環境シーンは、少なくとも1つの複数のN個のオーディオ要素(N>=2)に関連付けられ、各オーディオ要素は、視覚環境内の位置および/または領域に関連付けられ、少なくとも1つの複数のN個のオーディオ要素は、高いビットレートおよび/または品質レベルで少なくとも1つの表現で提供されてもよく、少なくとも1つの複数のN個のオーディオ要素は、低いビットレートおよび/または品質レベルで少なくとも1つの表現で提供され、少なくとも1つの表現は、N個のオーディオ要素を処理して、N個のオーディオ要素の位置または領域に近い位置または領域に関連付けられたより少ない数M(M<N)個のオーディオ要素を取得することによって取得され、システムは、オーディオ要素がシーンでの現在のユーザーの仮想位置でより関連性があり、かつ/または可聴性がより高い場合に、オーディオ要素についてより高いビットレートおよび/または品質レベルで表現を要求するように構成され、システムは、オーディオ要素がシーンでの現在のユーザーの仮想位置でより関連性が低く、かつ/または可聴性がより低い場合に、オーディオ要素についてより低いビットレートおよび/または品質レベルで表現を要求するように構成される。例えば、図1.7を参照されたい。
例では、ユーザーの距離および/または関連性および/または可聴レベルおよび/または角度の向きが所定のしきい値よりも低い場合に、異なるストリームが異なるオーディオ要素について取得される。例えば、図1.7を参照されたい。
例では、異なるオーディオ要素が異なるビューポートで提供されるため、1つの第1のオーディオ要素が現在のビューポート内にある場合、第1のオーディオ要素は、ビューポート内にない第2のオーディオ要素よりも高いビットレートで取得される。例えば、図6を参照されたい。
例では、少なくとも2つの視覚環境シーンが定義され、少なくとも1つの第1および第2のオーディオ要素は、第1の視覚環境に関連付けられた第1のシーンに関連付けられ、少なくとも1つの第3のオーディオ要素は、第2の視覚環境に関連付けられた第2のシーンに関連付けられ、システム102は、少なくとも1つの第2のオーディオ要素が第2の視覚環境シーンにさらに関連付けられていることを記述するメタデータを取得するように構成され、システムは、ユーザーの仮想位置が第1の視覚環境にある場合に、少なくとも第1および第2のオーディオ要素を要求および/または受信するように構成され、システムは、ユーザーの仮想位置が第2の視覚環境シーンにある場合に、少なくとも第2および第3のオーディオ要素を要求および/または受信するように構成され、システムは、ユーザーの仮想位置が第1の視覚環境シーンと第2の視覚環境シーンとの間で移行している場合に、少なくとも第1および第2および第3のオーディオ要素を要求および/または受信するように構成される。例えば、図1.4を参照されたい。これは、図3にも適用される。
例では、少なくとも1つの第1のオーディオ要素は、少なくとも1つのオーディオストリームおよび/またはアダプテーションセットで提供されてもよく、少なくとも1つの第2のオーディオ要素は、少なくとも1つの第2のオーディオストリームおよび/またはアダプテーションセットで提供され、少なくとも1つの第3のオーディオ要素は、少なくとも1つの第3のオーディオストリームおよび/またはアダプテーションセットで提供され、少なくとも第1の視覚環境シーンは、少なくとも第1および第2のオーディオストリームおよび/またはアダプテーションセットを必要とする完全なシーンとしてメタデータによって記述され、第2の視覚環境シーンは、少なくとも第3のオーディオストリームおよび/またはアダプテーションセット、ならびに少なくとも第1の視覚環境シーンに関連付けられた少なくとも第2のオーディオストリームおよび/またはアダプテーションセットを必要とする不完全なシーンとしてメタデータによって記述され、システムは、ユーザーの仮想位置が第2の視覚環境にある場合に、メタデータを操作して、第1の視覚環境に属する第2のオーディオストリームと、第2の視覚環境に関連付けられた第3のオーディオストリームと、を新しい単一のストリームにマージすることを可能にするように構成されたメタデータプロセッサを含む。例えば、図1.2~図1.3、図1.5、および図1.6を参照されたい。
例では、システム102は、ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データに基づいて、少なくとも1つのオーディオデコーダの前に少なくとも1つのオーディオストリーム内のメタデータを操作するように構成されたメタデータプロセッサ(例えば1236)を含んでもよい。
例では、メタデータプロセッサ(例えば1236)は、ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データに基づいて、少なくとも1つのオーディオデコーダの前に少なくとも1つのオーディオストリーム内の少なくとも1つのオーディオ要素を有効および/または無効にするように構成されてもよく、システムが、現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データの結果として、オーディオ要素がもう再生されないと決定した場合に、メタデータプロセッサは、少なくとも1つのオーディオデコーダの前に少なくとも1つのオーディオストリーム内の少なくとも1つのオーディオ要素を無効にするように構成されてもよく、システムが、ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データの結果として、オーディオ要素が再生されると決定した場合に、メタデータプロセッサは、少なくとも1つのオーディオデコーダの前に少なくとも1つのオーディオストリーム内の少なくとも1つのオーディオ要素を有効にするように構成されてもよい。
サーバー側
ここでは、仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のためのオーディオおよびビデオストリームをクライアントに配信するためのサーバー(120)も参照され、ビデオおよびオーディオストリームはメディア消費デバイスで再生され、サーバー(120)は、視覚環境を記述するビデオストリームを、エンコードするためのエンコーダおよび/または格納するための記憶装置を含み、視覚環境はオーディオシーンに関連付けられ、サーバーは、クライアントに配信される複数のストリームおよび/またはオーディオ要素および/またはアダプテーションセットを、エンコードするためのエンコーダおよび/または格納するための記憶装置をさらに含み、ストリームおよび/またはオーディオ要素および/またはアダプテーションセットは、少なくとも1つのオーディオシーンに関連付けられ、サーバーは、
クライアントからの要求に基づいてビデオストリームを選択して配信し、
ビデオストリームは環境に関連付けられ、クライアントからの要求に基づいて、オーディオストリームおよび/またはオーディオ要素および/またはアダプテーションセットを選択し、要求は、少なくともユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データ、ならびに環境に関連付けられたオーディオシーンに関連付けられ、
オーディオストリームをクライアントに配信するように構成される。
さらなる実施形態および変形例
特定の実施態様に応じて、実施例はハードウェアで実施することができる。実施態様は、例えば、フロッピーディスク、デジタル多用途ディスク(DVD)、ブルーレイディスク、コンパクトディスク(CD)、読み取り専用メモリ(ROM)、プログラム可能な読み取り専用メモリ(PROM)、消去およびプログラム可能な読み取り専用メモリ(EPROM)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)またはフラッシュメモリなど、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働することができる)電子的に読み取り可能な制御信号が格納されているデジタル記憶媒体を使用して実行することができる。したがって、デジタル記憶媒体はコンピュータで読み取り可能であってもよい。
一般に、実施例は、プログラム命令を含むコンピュータプログラム製品として実施されてもよく、プログラム命令は、コンピュータプログラム製品がコンピュータ上で実行されるときに方法の1つを実行するように動作する。プログラム命令は、例えば、機械可読媒体に格納されてもよい。
他の実施例は、機械可読なキャリアに格納された、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含む。言い換えれば、したがって、方法の一例は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の1つを実行するためのプログラム命令を有するコンピュータプログラムである。
したがって、方法のさらなる例は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含み、それが記録されたデータキャリア媒体(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。データキャリア媒体、デジタルストレージ媒体、または記録された媒体は、無形で一時的な信号ではなく、有形および/または非一時的なものである。
さらなる例は、本明細書に記載されている方法の1つを実行する処理ユニット、例えばコンピュータ、またはプログラム可能な論理デバイスを含む。
さらなる例は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
さらなる例は、本明細書で説明される方法の1つを実行するためのコンピュータプログラムを受信機に(例えば、電子的または光学的に)転送する装置またはシステムを含む。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであってもよい。装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバーを含んでもよい。
いくつかの例では、プログラマブルロジックデバイス(例えば、フィールドプログラマブルゲートアレイ)を使用して、本明細書に記載の方法の機能の一部またはすべてを実行してもよい。いくつかの例では、フィールドプログラマブルゲートアレイは、本明細書に記載の方法の1つを実行するためにマイクロプロセッサと協働してもよい。一般に、本方法は、任意の適切なハードウェア装置によって実行されてもよい。
上記の例は、上で説明した原理を例示するものである。本明細書に記載の配置および詳細の修正および変更は明らかであることを理解されたい。したがって、本明細書の実施例の記述および説明として提示される特定の詳細によってではなく、差し迫った特許請求の範囲によって限定されることが意図されている。

Claims (46)

  1. メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のためのシステム(102)であって、
    前記システム(102)は、
    VR、AR、MR、または360度ビデオ環境をユーザーに表現するためにビデオストリーム(1800)からビデオ信号をデコードするように構成された少なくとも1つのメディアビデオデコーダと、
    オーディオシーンの表現のためのオーディオストリーム(106)からのオーディオ信号(108)をデコードするように構成された少なくとも1つのオーディオデコーダ(104)と、を含み、
    前記システム(102)は、少なくとも前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データ(110)に基づいて、第1のオーディオストリーム(106)と第2のオーディオストリーム(106)および/またはオーディオストリームの1つのオーディオ要素および/または1つのアダプテーションセットをサーバー(120)に要求する(112)ように構成され、
    前記第1のオーディオストリームの第1のオーディオ要素は、前記第2のオーディオストリームの第2のオーディオ要素よりも関連性があり、かつ/または可聴性が高く、前記第1のオーディオストリームは、前記第2のオーディオストリームのビットレートよりも高いビットレートで要求および/または受信され、
    複数のオーディオシーン(150A、150B)は、隣接および/または近接するビデオ環境としての複数のビデオ環境に対して定義され、
    第1の現在のオーディオシーンに関連付けられた第1のストリームが提供され、ユーザーが第2のさらなるオーディオシーンに移行した場合には、前記第1のオーディオシーンに関連付けられた前記オーディオストリームと前記第2のオーディオシーンに関連付けられた前記第2のオーディオストリームの両方が提供される、システム(102)。
  2. メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のためのシステム(102)であって、
    前記システム(102)は、
    VR、AR、MR、または360度ビデオ環境をユーザーに表現するためにビデオストリーム(1800)からビデオ信号をデコードするように構成された少なくとも1つのメディアビデオデコーダと、
    オーディオシーンの表現のための少なくとも1つのオーディオストリーム(106)からのオーディオ信号(108)をデコードするように構成された少なくとも1つのオーディオデコーダ(104)と、を含み、
    前記システム(102)は、少なくとも前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データ(110)に基づいて、少なくとも1つのオーディオストリーム(106)をサーバー(120)に要求する(112)ように構成され、
    前記システム(102)は、異なるオーディオシーンに関連する隣接および/または近接するビデオ環境の境界からの前記ユーザーの位置の距離に基づいて、前記サーバー(120)への前記少なくとも1つのオーディオストリームの前記要求を制御するように構成される、システム(102)。
  3. 前記少なくとも1つのオーディオストリーム(106)および/またはオーディオストリームの1つのオーディオ要素および/または1つのアダプテーションセットを前記サーバー(120)から取得するために、前記サーバー(120)に前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データ(110)を提供するように構成される、請求項に記載のシステム。
  4. 少なくとも1つのオーディオシーンは、少なくとも1つのオーディオ要素(152)に関連付けられ、各オーディオ要素は、前記オーディオ要素が可聴である前記ビデオ環境内の位置および/または領域に関連付けられ、オーディオシーン内の様々なユーザーの位置および/またはビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データに、様々なオーディオストリームが提供される、請求項1または2に記載のシステム。
  5. オーディオストリームの少なくとも1つのオーディオ要素および/または1つのアダプテーションセットを、オーディオシーンにおける現在のユーザーのビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置に対して再生するかどうかを決定するように構成され、
    前記システムは、前記現在のユーザーの仮想位置で前記少なくとも1つのオーディオ要素を要求および/または受信するように構成される、請求項1または2に記載のシステム。
  6. 少なくとも前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データ(110)に基づいて、オーディオストリームの少なくとも1つのオーディオ要素(152)および/または1つのアダプテーションセットが、関連性があり、かつ/または可聴であるようになるかどうかを予測的に決定するように構成され、
    前記システムは、オーディオシーンにおける測されたユーザーの動きおよび/またはインタラクションの前に、特定のユーザーの仮想位置で前記少なくとも1つのオーディオ要素および/またはオーディオストリームおよび/またはアダプテーションセットを要求および/または受信するように構成され、
    前記システムは、受信すると、前記少なくとも1つのオーディオ要素および/またはオーディオストリームを、オーディオシーンにおける前記ユーザーの動きおよび/またはインタラクション後の前記特定のユーザーの仮想位置で再生するように構成される、請求項1または2に記載のシステム。
  7. ユーザーのインタラクションの前の前記ユーザーの仮想位置で、より低いビットレートで前記少なくとも1つのオーディオ要素(152)を要求および/または受信するように構成され、前記インタラクションは、同じオーディオシーン(150)での位置データの変化、または現在のシーンから分離された次のシーンに入ることのいずれかによって生じ、
    前記システムは、オーディオシーンにおける前記ユーザーのインタラクションの後の前記ユーザーの仮想位置で、より高いビットレートで前記少なくとも1つのオーディオ要素を要求および/または受信するように構成される、請求項に記載のシステム。
  8. 少なくとも1つのオーディオシーンに関連付けられた少なくとも1つのオーディオ要素(152)は、オーディオシーンに関連付けられた前記ビデオ環境内の位置および/または領域に関連付けられ、
    前記システムは、前記ユーザーからより遠いオーディオ要素よりも前記ユーザーにより近いオーディオ要素に対して、より高いビットレートでストリームを要求および/または受信するように構成される、請求項1または2に記載のシステム。
  9. メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のためのシステム(102)であって、
    前記システム(102)は、
    VR、AR、MR、または360度ビデオ環境をユーザーに表現するためにビデオストリーム(1800)からビデオ信号をデコードするように構成された少なくとも1つのメディアビデオデコーダと、
    オーディオシーンの表現のためのオーディオストリーム(106)からのオーディオ信号(108)をデコードするように構成された少なくとも1つのオーディオデコーダ(104)と、を含み、
    前記システム(102)は、少なくとも前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データ(110)に基づいて、第1のオーディオストリーム(106)と第2のオーディオストリーム(106)および/またはオーディオストリームの1つのオーディオ要素および/または1つのアダプテーションセットをサーバー(120)に要求する(112)ように構成され、
    前記第1のオーディオストリームの第1のオーディオ要素は、前記第2のオーディオストリームの第2のオーディオ要素よりも関連性があり、かつ/または可聴性が高く、前記第1のオーディオストリームは、前記第2のオーディオストリームのビットレートよりも高いビットレートで要求および/または受信され、
    少なくとも1つのオーディオ要素(152)は、少なくとも1つのオーディオシーンに関連付けられ、前記少なくとも1つのオーディオ要素は、ビデオ環境内の位置および/または領域に関連付けられ、
    前記システムは、オーディオシーンにおける各ユーザーの仮想位置での関連性に基づいて、オーディオ要素の異なるビットレートで異なるストリームを要求するように構成され、
    前記システムは、ーザーの現在の仮想位置でより関連性があり、かつ/または可聴性がより高いオーディオ要素に対して、より高いビットレートでオーディオストリームを要求するように構成される、システム。
  10. 少なくとも1つのオーディオ要素(152)は、オーディオシーンに関連付けられ、各オーディオ要素は、オーディオシーンに関連付けられた前記ビデオ環境内の位置および/または領域に関連付けられ、
    前記システムは、前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データ(110)を前記サーバーに定期的に送信するように構成され、それにより、
    第1の位置では、より高いビットレートのストリームが前記サーバーから提供され、
    第2の位置では、より低いビットレートのストリームが前記サーバーから提供され、
    前記第1の位置は、前記第2の位置よりも前記少なくとも1つのオーディオ要素(152)に近い、請求項1または2に記載のシステム。
  11. 複数のオーディオシーン(150A、150B)は、隣接および/または近接するビデオ環境としての複数のビデオ環境に対して定義され、
    第1の現在のオーディオシーンに関連付けられた第1のストリームが提供され、ユーザーが第2のさらなるオーディオシーンに移行した場合には、前記第1のオーディオシーンに関連付けられた前記オーディオストリームと前記第2のオーディオシーンに関連付けられた2のストリームの両方が提供される、請求項2に記載のシステム。
  12. メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のためのシステム(102)であって、
    前記システム(102)は、
    VR、AR、MR、または360度ビデオ環境をユーザーに表現するためにビデオストリーム(1800)からビデオ信号をデコードするように構成された少なくとも1つのメディアビデオデコーダと、
    オーディオシーンの表現のためのオーディオストリーム(106)からのオーディオ信号(108)をデコードするように構成された少なくとも1つのオーディオデコーダ(104)と、を含み、
    前記システム(102)は、少なくとも前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データ(110)に基づいて、第1のオーディオストリーム(106)と第2のオーディオストリーム(106)および/またはオーディオストリームの1つのオーディオ要素および/または1つのアダプテーションセットをサーバー(120)に要求する(112)ように構成され、
    前記第1のオーディオストリームの第1のオーディオ要素は、前記第2のオーディオストリームの第2のオーディオ要素よりも関連性があり、かつ/または可聴性が高く、前記第1のオーディオストリームは、前記第2のオーディオストリームのビットレートよりも高いビットレートで要求および/または受信され、
    複数のオーディオシーン(150A、150B)は、第1および第2のビデオ環境に対して定義され、前記第1および第2のビデオ環境は、隣接および/または近接するビデオ環境であり、
    1のオーディオシーンに関連付けられた第1のストリームは、前記ユーザーの位置または仮想位置が前記第1のオーディオシーンに関連付けられた第1のビデオ環境にある場合の前記第1のオーディオシーンの再生のために、前記サーバーから提供され、
    2のオーディオシーンに関連付けられた第2のストリームは、前記ユーザーの位置または仮想位置が前記第2のオーディオシーンに関連付けられた第2のビデオ環境にある場合の前記第2のオーディオシーンの再生のために、前記サーバーから提供され、
    前記ユーザーの位置または仮想位置が前記第1のオーディオシーンと前記第2のオーディオシーンとの間の移行位置にある場合に、前記第1のオーディオシーンに関連付けられた第1のストリームと前記第2のオーディオシーンに関連付けられた第2のストリームの両方が提供される、システム。
  13. メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のためのシステム(102)であって、
    前記システム(102)は、
    VR、AR、MR、または360度ビデオ環境をユーザーに表現するためにビデオストリーム(1800)からビデオ信号をデコードするように構成された少なくとも1つのメディアビデオデコーダと、
    オーディオシーンの表現のためのオーディオストリーム(106)からのオーディオ信号(108)をデコードするように構成された少なくとも1つのオーディオデコーダ(104)と、を含み、
    前記システム(102)は、少なくとも前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データ(110)に基づいて、第1のオーディオストリーム(106)と第2のオーディオストリーム(106)および/またはオーディオストリームの1つのオーディオ要素および/または1つのアダプテーションセットをサーバー(120)に要求する(112)ように構成され、
    前記第1のオーディオストリームの第1のオーディオ要素は、前記第2のオーディオストリームの第2のオーディオ要素よりも関連性があり、かつ/または可聴性が高く、前記第1のオーディオストリームは、前記第2のオーディオストリームのビットレートよりも高いビットレートで要求および/または受信され、
    複数のオーディオシーン(150A、150B)は、隣接および/または近接する環境である第1および第2のビデオ環境に対して定義され、
    前記システムは、前記ユーザーの仮想位置が前記第1のビデオ環境にある場合の第1のオーディオシーン(150A)の再生のために、前記第1のビデオ環境に関連付けられた前記第1のオーディオシーンに関連付けられた第1のストリームを要求および/または受信するように構成され、
    前記システムは、前記ユーザーの仮想位置が前記第2のビデオ環境にある場合の前記第2のオーディオシーン(150B)の再生のために、前記第2のビデオ環境に関連付けられた2のオーディオシーンに関連付けられた第2のストリームを要求および/または受信するように構成され、
    前記システムは、前記ユーザーの仮想位置が前記第1のビデオ環境と前記第2のビデオ環境との間の移行位置(150AB)にある場合に、前記第1のオーディオシーンに関連付けられた第1のストリームと前記第2のオーディオシーンに関連付けられた第2のストリームの両方を要求および/または受信するように構成される、システム。
  14. 前記第1のオーディオシーンに関連付けられた前記第1のストリームは、前記ユーザーが前記第1のオーディオシーンに関連付けられた前記第1のビデオ環境にいるときに、より高いビットレートで取得され、
    一方、前記第2のビデオ環境に関連付けられた前記第2のオーディオシーンに関連付けられた前記第2のストリームは、前記ユーザーが前記第1のオーディオシーンから前記第2のオーディオシーンへの移行位置の始まりにいるときに、より低いビットレートで取得され、
    前記ユーザーが前記第1のオーディオシーンから前記第2のオーディオシーンへの移行位置の終わりにいるときに、前記第1のオーディオシーンに関連付けられた前記第1のストリームは、より低いビットレートで取得され、前記第2のオーディオシーンに関連付けられた前記第2のストリームは、より高いビットレートで取得され、
    前記より低いビットレートは、前記より高いビットレートよりも低い、請求項13に記載のシステム。
  15. 複数のオーディオシーン(150A、150B)は、隣接および/または近隣環境の複数の環境に対して定義され、
    前記システムは、第1の現在の環境に関連付けられた第1の現在のオーディオシーンに関連付けられた前記オーディオストリームを取得するように構成され、
    オーディオシーンの境界からの前記ユーザーの位置または仮想位置の距離が所定のしきい値より小さい場合には、前記システムは、第2のオーディオシーンに関連付けられた第2の隣接および/または近接するビデオ環境に関連付けられたオーディオストリームをさらに取得する、請求項1または2に記載のシステム。
  16. 複数のビデオ環境に対して複数のオーディオシーン(150A、150B)が定義され、
    前記システムは、より高いビットレートで現在のオーディオシーンに関連付けられた前記オーディオストリームと、より低いビットレートで第2のオーディオシーンに関連付けられた前記オーディオストリームと、を要求および/または取得し、
    前記より低いビットレートは前記より高いビットレートよりも低い、請求項1または2に記載のシステム。
  17. 複数のN個のオーディオ要素が定義され、これらのオーディオ要素の位置または領域までの前記ユーザーの距離が所定のしきい値よりも大きい場合に、前記N個のオーディオ要素は、前記N個のオーディオ要素の前記位置または領域に近い位置または領域に関連付けられたより小さい数M個のオーディオ要素を取得するように処理され、それによって、
    前記N個のオーディオ要素の前記位置または領域までの前記ユーザーの距離が所定のしきい値よりも小さい場合に、前記N個のオーディオ要素に関連付けられた少なくとも1つのオーディオストリームを前記システムに提供する、または
    前記N個のオーディオ要素の前記位置または領域までの前記ユーザーの距離が所定のしきい値よりも大きい場合に、前記M個のオーディオ要素に関連付けられた少なくとも1つのオーディオストリームを前記システムに提供する、請求項1または2に記載のシステム。
  18. 少なくとも1つのビデオ環境は、少なくとも1つの複数のN個のオーディオ要素に関連付けられ、各オーディオ要素は、前記ビデオ環境内の位置および/または領域に関連付けられ、
    前記少なくとも1つの複数のN個のオーディオ要素は、高いビットレートで少なくとも1つの表現で提供され、
    前記少なくとも1つの複数のN個のオーディオ要素は、低いビットレートで少なくとも1つの表現で提供され、前記少なくとも1つの表現は、前記N個のオーディオ要素を処理して、前記N個のオーディオ要素の前記位置または領域に近い位置または領域に関連付けられたより少ない数M個のオーディオ要素を取得することによって取得され、
    前記システムは、前記オーディオ要素がオーディオシーンでの前記ーザーの現在の仮想位置でより関連性があり、かつ/または可聴性がより高い場合に、前記オーディオ要素についてより高いビットレートで前記表現を要求するように構成され、
    前記システムは、前記オーディオ要素がオーディオシーンでの前記現在のユーザーの仮想位置でより関連性が低く、かつ/または可聴性がより低い場合に、前記オーディオ要素についてより低いビットレートで前記表現を要求するように構成される、請求項1または2または17に記載のシステム。
  19. 前記ユーザーの距離が所定の距離しきい値よりも低い場合、または前記関連性が所定の関連性しきい値よりも低い場合、または可聴性レベルが所定の距離しきい値よりも、所定のしきい値よりも低い場合に、異なるオーディオ要素に対して異なるオーディオストリームが取得される、請求項18に記載のシステム。
  20. オーディオシーンにおける前記ユーザーの向きおよび/または前記ユーザーの動きの方向および/またはユーザーのインタラクションに基づいて、前記オーディオストリームを要求および/または取得するように構成される、請求項1または2に記載のシステム。
  21. 前記ビューポートは、前記位置および/または仮想位置および/または動きのデータおよび/または頭の向きに関連付けられる、請求項2に記載のシステム。
  22. 異なるオーディオ要素が異なるビューポートで提供され、前記システムは、1つの第1のオーディオ要素(S1)がビューポート(160-1)内にある場合に、前記ビューポート内にない第2のオーディオ要素(S2)よりも高いビットレートの第1のオーディオ要素を要求および/または受信するように構成される、請求項1または2または21に記載のシステム。
  23. 第1のオーディオストリームと第2のオーディオストリームを要求および/または受信するように構成され、前記第1のオーディオストリームの1のオーディオ要素は、前記第2のオーディオストリームの2のオーディオ要素よりも関連性があり、かつ/または可聴性が高く、
    前記第1のオーディオストリームは、前記第2のオーディオストリームのットレートよりも高いビットレートで要求および/または受信される、請求項に記載のシステム。
  24. メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のためのシステム(102)であって、
    前記システム(102)は、
    VR、AR、MR、または360度ビデオ環境をユーザーに表現するためにビデオストリーム(1800)からビデオ信号をデコードするように構成された少なくとも1つのメディアビデオデコーダと、
    オーディオシーンの表現のためのオーディオストリーム(106)からのオーディオ信号(108)をデコードするように構成された少なくとも1つのオーディオデコーダ(104)と、を含み、
    前記システム(102)は、少なくとも前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データ(110)に基づいて、第1のオーディオストリーム(106)と第2のオーディオストリーム(106)および/またはオーディオストリームの1つのオーディオ要素および/または1つのアダプテーションセットをサーバー(120)に要求する(112)ように構成され、
    前記第1のオーディオストリームの第1のオーディオ要素は、前記第2のオーディオストリームの第2のオーディオ要素よりも関連性があり、かつ/または可聴性が高く、前記第1のオーディオストリームは、前記第2のオーディオストリームのビットレートよりも高いビットレートで要求および/または受信され、
    少なくとも2つの視覚環境シーンが定義され、少なくとも1つの第1および第2のオーディオ要素(152A、152B)は、第1のビデオ環境に関連付けられた第1のオーディオシーンに関連付けられ、少なくとも1つの第3のオーディオ要素(152C)は、第2のビデオ環境に関連付けられた第2のオーディオシーンに関連付けられ、
    前記システムは、前記少なくとも1つの第2のオーディオ要素(152B)が前記第2のビデオ環境にさらに関連付けられていることを記述するインタラクションメタデータを取得するように構成され、
    前記システムは、前記ユーザーの仮想位置が前記第1のビデオ環境にある場合に、前記少なくとも1つの第1および第2のオーディオ要素(152A、152B)を要求および/または受信するように構成され、
    前記システムは、前記ユーザーの仮想位置が前記第2のビデオ環境にある場合に、前記少なくとも1つの第2および第3のオーディオ要素(152B、152C)を要求および/または受信するように構成され、
    前記システムは、前記ユーザーの仮想位置が前記第1のビデオ環境と第2のビデオ環境との間で移行している場合に、前記少なくとも1つの第1および第2および第3のオーディオ要素(152A、152B、152C)を要求および/または受信するように構成される、システム。
  25. 前記少なくとも1つの第1のオーディオ要素(152)は、少なくとも1つのオーディオストリーム(A1、106A)および/またはアダプテーションセットで提供され、前記少なくとも1つの第2のオーディオ要素(152B)は、少なくとも1つの第2のオーディオストリーム(A2、106B)および/またはアダプテーションセットで提供され、前記少なくとも1つの第3のオーディオ要素(152C)は、少なくとも1つの第3のオーディオストリーム(B1、10C)および/またはアダプテーションセットで提供され、前記少なくとも1つの第1のビデオ環境は、前記少なくとも1つの第1および第2のオーディオストリーム(A1、A2、106A、106B)および/またはアダプテーションセットを必要とするオーディオシーンとしてインタラクションメタデータによって記述され、前記第2のビデオ環境は、前記少なくとも1つの第3のオーディオストリーム(B1、106C)および/またはアダプテーションセット、ならびに前記少なくとも1つの第1のビデオ環境に関連付けられた前記少なくとも1つの第2のオーディオストリーム(A2、152B)および/またはアダプテーションセットを必要とするオーディオシーンとしてインタラクションメタデータによって記述され、
    前記システムは、前記ユーザーの仮想位置が前記第2のビデオ環境にある場合に、前記インタラクションメタデータを操作して、前記第1のビデオ環境に属する前記第2のオーディオストリーム(A2、152B)と、前記第2のビデオ環境に関連付けられた前記第3のオーディオストリーム(B1、152C)と、を新しい単一のストリームにマージするように構成されたメタデータプロセッサ(1236)を含む、請求項24に記載のシステム。
  26. メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のためのシステム(102)であって、
    前記システム(102)は、
    VR、AR、MR、または360度ビデオ環境をユーザーに表現するためにビデオストリーム(1800)からビデオ信号をデコードするように構成された少なくとも1つのメディアビデオデコーダと、
    オーディオシーンの表現のためのオーディオストリーム(106)からのオーディオ信号(108)をデコードするように構成された少なくとも1つのオーディオデコーダ(104)と、を含み、
    前記システム(102)は、少なくとも前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データ(110)に基づいて、第1のオーディオストリーム(106)と第2のオーディオストリーム(106)および/またはオーディオストリームの1つのオーディオ要素および/または1つのアダプテーションセットをサーバー(120)に要求する(112)ように構成され、
    前記第1のオーディオストリームの第1のオーディオ要素は、前記第2のオーディオストリームの第2のオーディオ要素よりも関連性があり、かつ/または可聴性が高く、前記第1のオーディオストリームは、前記第2のオーディオストリームのビットレートよりも高いビットレートで要求および/または受信され、
    前記システムは、前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データに基づいて、前記少なくとも1つのオーディオデコーダ(104)の前に少なくとも1つのオーディオストリーム内のメタデータを操作するように構成されたメタデータプロセッサ(1236)を含む、システム。
  27. 前記メタデータプロセッサ(1236)は、前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データに基づいて、前記少なくとも1つのオーディオデコーダ(104)の前に少なくとも1つのオーディオストリーム(106A-106C)内の少なくとも1つのオーディオ要素(152A-152C)を有効および/または無効にするように構成され、
    前記システムが、現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データの結果として、前記オーディオ要素(152A-152C)がもう再生されないと決定した場合に、前記メタデータプロセッサ(1236)は、前記少なくとも1つのオーディオデコーダ(104)の前に少なくとも1つのオーディオストリーム(106A-106C)内の少なくとも1つのオーディオ要素(152A-152C)を無効にするように構成され、
    前記システムが、ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データの結果として、前記オーディオ要素(152A-152C)が再生されると決定した場合に、前記メタデータプロセッサ(1236)は、前記少なくとも1つのオーディオデコーダの前に少なくとも1つのオーディオストリーム内の少なくとも1つのオーディオ要素(152A-152C)を有効にするように構成される、請求項26に記載のシステム。
  28. メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のためのシステム(102)であって、
    前記システム(102)は、
    VR、AR、MR、または360度ビデオ環境をユーザーに表現するためにビデオストリーム(1800)からビデオ信号をデコードするように構成された少なくとも1つのメディアビデオデコーダと、
    オーディオシーンの表現のためのオーディオストリーム(106)からのオーディオ信号(108)をデコードするように構成された少なくとも1つのオーディオデコーダ(104)と、を含み、
    前記システム(102)は、少なくとも前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データ(110)に基づいて、第1のオーディオストリーム(106)と第2のオーディオストリーム(106)および/またはオーディオストリームの1つのオーディオ要素および/または1つのアダプテーションセットをサーバー(120)に要求する(112)ように構成され、
    前記第1のオーディオストリームの第1のオーディオ要素は、前記第2のオーディオストリームの第2のオーディオ要素よりも関連性があり、かつ/または可聴性が高く、前記第1のオーディオストリームは、前記第2のオーディオストリームのビットレートよりも高いビットレートで要求および/または受信され、
    前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはメタデータおよび/または仮想位置に基づいて選択されたオーディオ要素(152A-152C)のデコードを無効にするように構成される、システム。
  29. メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のためのシステム(102)であって、
    前記システム(102)は、
    VR、AR、MR、または360度ビデオ環境をユーザーに表現するためにビデオストリーム(1800)からビデオ信号をデコードするように構成された少なくとも1つのメディアビデオデコーダと、
    オーディオシーンの表現のためのオーディオストリーム(106)からのオーディオ信号(108)をデコードするように構成された少なくとも1つのオーディオデコーダ(104)と、を含み、
    前記システム(102)は、少なくとも前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データ(110)に基づいて、第1のオーディオストリーム(106)と第2のオーディオストリーム(106)および/またはオーディオストリームの1つのオーディオ要素および/または1つのアダプテーションセットをサーバー(120)に要求する(112)ように構成され、
    前記第1のオーディオストリームの第1のオーディオ要素は、前記第2のオーディオストリームの第2のオーディオ要素よりも関連性があり、かつ/または可聴性が高く、前記第1のオーディオストリームは、前記第2のオーディオストリームのビットレートよりも高いビットレートで要求および/または受信され、
    現在のオーディオシーンに関連付けられた少なくとも1つの第1のオーディオストリーム(106A)を、隣接し、近接する、および/または将来のオーディオシーンに関連付けられた少なくとも1つのストリーム(106C)にマージするように構成される、システム。
  30. メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のためのシステム(102)であって、
    前記システム(102)は、
    VR、AR、MR、または360度ビデオ環境をユーザーに表現するためにビデオストリーム(1800)からビデオ信号をデコードするように構成された少なくとも1つのメディアビデオデコーダと、
    オーディオシーンの表現のためのオーディオストリーム(106)からのオーディオ信号(108)をデコードするように構成された少なくとも1つのオーディオデコーダ(104)と、を含み、
    前記システム(102)は、少なくとも前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データ(110)に基づいて、第1のオーディオストリーム(106)と第2のオーディオストリーム(106)および/またはオーディオストリームの1つのオーディオ要素および/または1つのアダプテーションセットをサーバー(120)に要求する(112)ように構成され、
    前記第1のオーディオストリームの第1のオーディオ要素は、前記第2のオーディオストリームの第2のオーディオ要素よりも関連性があり、かつ/または可聴性が高く、前記第1のオーディオストリームは、前記第2のオーディオストリームのビットレートよりも高いビットレートで要求および/または受信され、
    前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはメタデータおよび/または仮想位置データに関する統計データまたは集計データを取得および/または収集して、前記統計データまたは集計データに関連付けられた前記サーバー(120)に前記要求を送信するようにさらに構成される、システム。
  31. 前記少なくとも1つのオーディオストリームに関連付けられたメタデータに基づいて、かつ、前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはメタデータおよび/または仮想位置データに基づいて、少なくとも1つのストリームのデコードおよび/または再生を非アクティブ化するように構成される、請求項に記載のシステム。
  32. メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のためのシステム(102)であって、
    前記システム(102)は、
    VR、AR、MR、または360度ビデオ環境をユーザーに表現するためにビデオストリーム(1800)からビデオ信号をデコードするように構成された少なくとも1つのメディアビデオデコーダと、
    オーディオシーンの表現のためのオーディオストリーム(106)からのオーディオ信号(108)をデコードするように構成された少なくとも1つのオーディオデコーダ(104)と、を含み、
    前記システム(102)は、少なくとも前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データ(110)に基づいて、第1のオーディオストリーム(106)と第2のオーディオストリーム(106)および/またはオーディオストリームの1つのオーディオ要素および/または1つのアダプテーションセットをサーバー(120)に要求する(112)ように構成され、
    前記第1のオーディオストリームの第1のオーディオ要素は、前記第2のオーディオストリームの第2のオーディオ要素よりも関連性があり、かつ/または可聴性が高く、前記第1のオーディオストリームは、前記第2のオーディオストリームのビットレートよりも高いビットレートで要求および/または受信され、
    少なくとも前記ユーザーの現在または推定のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはメタデータおよび/または仮想位置データに基づいて、選択したオーディオストリーム(106A-106C)のグループに関連付けられたメタデータを操作して、
    再生されるオーディオシーンを構成するオーディオ要素(152A-152C)を選択および/またはアクティブ化する、および/または
    選択されたすべてのオーディオストリームを単一のオーディオストリームにマージするようにさらに構成される、システム。
  33. メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のためのシステム(102)であって、
    前記システム(102)は、
    VR、AR、MR、または360度ビデオ環境をユーザーに表現するためにビデオストリーム(1800)からビデオ信号をデコードするように構成された少なくとも1つのメディアビデオデコーダと、
    オーディオシーンの表現のためのオーディオストリーム(106)からのオーディオ信号(108)をデコードするように構成された少なくとも1つのオーディオデコーダ(104)と、を含み、
    前記システム(102)は、少なくとも前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データ(110)に基づいて、第1のオーディオストリーム(106)と第2のオーディオストリーム(106)および/またはオーディオストリームの1つのオーディオ要素および/または1つのアダプテーションセットをサーバー(120)に要求する(112)ように構成され、
    前記第1のオーディオストリームの第1のオーディオ要素は、前記第2のオーディオストリームの第2のオーディオ要素よりも関連性があり、かつ/または可聴性が高く、前記第1のオーディオストリームは、前記第2のオーディオストリームのビットレートよりも高いビットレートで要求および/または受信され、
    各オーディオ要素(152A-152C)またはオーディオオブジェクトについて、前記サーバー(120)から情報が提供され、前記情報は、オーディオシーンまたは前記オーディオ要素がアクティブである場所についての記述情報を含む、システム。
  34. メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のためのシステム(102)であって、
    前記システム(102)は、
    VR、AR、MR、または360度ビデオ環境をユーザーに表現するためにビデオストリーム(1800)からビデオ信号をデコードするように構成された少なくとも1つのメディアビデオデコーダと、
    オーディオシーンの表現のためのオーディオストリーム(106)からのオーディオ信号(108)をデコードするように構成された少なくとも1つのオーディオデコーダ(104)と、を含み、
    前記システム(102)は、少なくとも前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データ(110)に基づいて、第1のオーディオストリーム(106)と第2のオーディオストリーム(106)および/またはオーディオストリームの1つのオーディオ要素および/または1つのアダプテーションセットをサーバー(120)に要求する(112)ように構成され、
    前記第1のオーディオストリームの第1のオーディオ要素は、前記第2のオーディオストリームの第2のオーディオ要素よりも関連性があり、かつ/または可聴性が高く、前記第1のオーディオストリームは、前記第2のオーディオストリームのビットレートよりも高いビットレートで要求および/または受信され、
    前記現在または将来またはビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはメタデータおよび/または仮想位置および/またはユーザーの選択に基づいて、1つのオーディオシーンの再生と、少なくとも2つのオーディオシーンの合成、ミキシング、多重化、重ね合わせ、または結合との間で選択するように構成され、前記2つのオーディオシーンは異なる隣接および/または近接する環境に関連付けられている、システム。
  35. 少なくともアダプテーションセットを作成または使用するように構成され、
    いくつかのアダプテーションセットが1つのオーディオシーンに関連付けられ、および/または
    各アダプテーションセットを1つのビューポイントまたは1つのオーディオシーンに関連付ける追加情報が提供され、および/または
    1つのオーディオシーンの前記境界に関する情報、および/または
    1つのアダプテーションセットと1つのオーディオシーンとの関係に関する情
    を含む追加情報が提供される、請求項2に記載のシステム。
  36. 隣接または近接する環境に関連付けられたオーディオシーンのストリームを受信し、
    2つの環境間の境界の前記移行の検出時に、前記隣接または近接する環境の前記オーディオストリームのデコードおよび/または再生を開始する、
    ように構成される、請求項1、11または24に記載のシステム。
  37. クライアントとして動作するように構成された、請求項1から35のいずれか一項に記載の前記システム(102)と、メディア消費デバイスで再生されるビデオおよび/またはオーディオストリームを配信するように構成されたサーバー(120)と、を含むシステム。
  38. メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のためのシステム(102)であって、
    前記システム(102)は、
    VR、AR、MR、または360度ビデオ環境をユーザーに表現するためにビデオストリーム(1800)からビデオ信号をデコードするように構成された少なくとも1つのメディアビデオデコーダと、
    オーディオシーンの表現のためのオーディオストリーム(106)からのオーディオ信号(108)をデコードするように構成された少なくとも1つのオーディオデコーダ(104)と、を含み、
    前記システム(102)は、少なくとも前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データ(110)に基づいて、第1のオーディオストリーと第2のオーディオストリーおよび/またはオーディオストリームの1つのオーディオ要素および/または1つのアダプテーションセットをサーバー(120)に要求する(112)ように構成され、
    前記第1のオーディオストリームの第1のオーディオ要素は、前記第2のオーディオストリームの第2のオーディオ要素よりも関連性があり、かつ/または可聴性が高く、前記第1のオーディオストリームは、前記第2のオーディオストリームのビットレートよりも高いビットレートで要求および/または受信され、
    前記システムは、
    少なくとも1つの第1のオーディオシーンに関連付けられた少なくとも1つのオーディオストリーム(106A)を含む少なくとも1つの第1のアダプテーションセットを要求および/または受信し、
    前記少なくとも1つの第1のオーディオシーンを含む少なくとも2つのオーディオシーンに関連付けられた少なくとも1つの第2のオーディオストリーム(106B)を含む少なくとも1つの第2のアダプテーションセットを要求および/または受信し、
    ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはメタデータおよび/または仮想位置データに関して利用可能なメタデータ、ならびに/あるいは前記少なくとも1つの第1のアダプテーションセットの前記少なくとも1つの第1のオーディオシーンへの関連付けおよび/または前記少なくとも1つの第2のアダプテーションセットの前記少なくとも1つの第1のオーディオシーンへの関連付けを記述する情報に基づいて、前記第1のオーディオストリーム(106A)と前記少なくとも1つの第2のオーディオストリーム(106B)とを、デコードされる新しいオーディオストリームにマージする、
    ようにさらに構成される、システム。
  39. メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のためのシステム(102)であって、
    前記システム(102)は、
    VR、AR、MR、または360度ビデオ環境をユーザーに表現するためにビデオストリーム(1800)からビデオ信号をデコードするように構成された少なくとも1つのメディアビデオデコーダと、
    オーディオシーンの表現のためのオーディオストリーム(106)からのオーディオ信号(108)をデコードするように構成された少なくとも1つのオーディオデコーダ(104)と、を含み、
    前記システム(102)は、少なくとも前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データ(110)に基づいて、第1のオーディオストリーム(106)と第2のオーディオストリーム(106)および/またはオーディオストリームの1つのオーディオ要素および/または1つのアダプテーションセットをサーバー(120)に要求する(112)ように構成され、
    前記第1のオーディオストリームの第1のオーディオ要素は、前記第2のオーディオストリームの第2のオーディオ要素よりも関連性があり、かつ/または可聴性が高く、前記第1のオーディオストリームは、前記第2のオーディオストリームのビットレートよりも高いビットレートで要求および/または受信され、
    ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはメタデータおよび/または仮想位置データに関する情報、ならびに/あるいは前記ユーザーのアクションによってトリガーされた変化を特徴付ける情報を受信し、
    アダプテーションセットの利用可能性に関する情報と、少なくとも1つのオーディオシーンおよび/またはビューポイントおよび/またはビューポートおよび/または位置および/または仮想位置および/または動きのデータおよび/または向きに対する少なくとも1つのアダプテーションセットの関連付けを記述する情報と、を受信する、
    ように構成される、システム。
  40. メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のためのシステム(102)であって、
    前記システム(102)は、
    VR、AR、MR、または360度ビデオ環境をユーザーに表現するためにビデオストリーム(1800)からビデオ信号をデコードするように構成された少なくとも1つのメディアビデオデコーダと、
    オーディオシーンの表現のためのオーディオストリーム(106)からのオーディオ信号(108)をデコードするように構成された少なくとも1つのオーディオデコーダ(104)と、を含み、
    前記システム(102)は、少なくとも前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データ(110)に基づいて、第1のオーディオストリーム(106)と第2のオーディオストリーム(106)および/またはオーディオストリームの1つのオーディオ要素および/または1つのアダプテーションセットをサーバー(120)に要求する(112)ように構成され、
    前記第1のオーディオストリームの第1のオーディオ要素は、前記第2のオーディオストリームの第2のオーディオ要素よりも関連性があり、かつ/または可聴性が高く、前記第1のオーディオストリームは、前記第2のオーディオストリームのビットレートよりも高いビットレートで要求および/または受信され、
    少なくとも1つのオーディオストリームに埋め込まれた少なくとも1つのオーディオシーンからの少なくとも1つのオーディオ要素(152)と、少なくとも1つの追加オーディオストリーム(106B)に埋め込まれた少なくとも1つの追加オーディオシーンからの少なくとも1つの追加オーディオ要素(152B)と、を再生するかどうかを決定し、
    肯定的な決定の場合に、前記追加オーディオシーンの前記少なくとも1つの追加ストリーム(106B)を前記少なくとも1つのオーディオシーンの前記少なくとも1つのオーディオストリーム(106A)にマージまたは合成または多重化または重ね合わせまたは結合する操作を行う、
    ように構成される、システム。
  41. メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のためのシステム(102)であって、
    前記システム(102)は、
    VR、AR、MR、または360度ビデオ環境をユーザーに表現するためにビデオストリーム(1800)からビデオ信号をデコードするように構成された少なくとも1つのメディアビデオデコーダと、
    オーディオシーンの表現のためのオーディオストリーム(106)からのオーディオ信号(108)をデコードするように構成された少なくとも1つのオーディオデコーダ(104)と、を含み、
    前記システム(102)は、少なくとも前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データ(110)に基づいて、第1のオーディオストリーム(106)と第2のオーディオストリーム(106)および/またはオーディオストリームの1つのオーディオ要素および/または1つのアダプテーションセットをサーバー(120)に要求する(112)ように構成され、
    前記第1のオーディオストリームの第1のオーディオ要素は、前記第2のオーディオストリームの第2のオーディオ要素よりも関連性があり、かつ/または可聴性が高く、前記第1のオーディオストリームは、前記第2のオーディオストリームのビットレートよりも高いビットレートで要求および/または受信され、
    少なくとも前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはメタデータおよび/または仮想位置データに基づいて、選択されたオーディオストリームに関連付けられたオーディオメタデータを操作して、
    再生するように決定されたオーディオシーンを構成する前記オーディオ要素を選択および/または有効化および/またはアクティブ化し、
    選択されたすべてのオーディオストリームを単一のオーディオストリームにマージすることを可能にする、
    ように構成される、システム。
  42. 仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のためのオーディオおよびビデオストリームをクライアントに配信するためのサーバー(120)であって、前記ビデオおよびオーディオストリームはメディア消費デバイスで再生され、
    前記サーバー(120)は、ビデオ環境を記述するビデオストリームを、エンコードするためのエンコーダおよび/または格納するための記憶装置を含み、前記ビデオ環境はオーディオシーンに関連付けられ、
    前記サーバーは、前記クライアントに配信される複数のストリームおよび/またはオーディオ要素および/またはアダプテーションセットを、エンコードするためのエンコーダ(154)および/または格納するための記憶装置をさらに含み、前記オーディオストリームおよび/またはオーディオ要素および/またはアダプテーションセットは、少なくとも1つのオーディオシーンに関連付けられ、
    前記サーバー(120)は、
    前記クライアントからの要求に基づいてビデオストリーム(106)を選択して配信し、前記ビデオストリームは環境に関連付けられ、
    前記クライアント(102)からの要求に基づいて、オーディオストリーム(106)および/またはオーディオ要素および/またはアダプテーションセットを選択し、前記要求は、少なくともユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データ、ならびに環境に関連付けられたオーディオシーンに関連付けられ、
    前記オーディオストリーム(106)を前記クライアントに配信する、
    ように構成され、
    前記要求は、異なるオーディオシーンに関連付けられた隣接および/または近接するビデオ環境の境界からの前記ユーザーの位置の距離に基づく、サーバー(120)。
  43. 仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のためのオーディオおよびビデオストリームをクライアントに配信するためのサーバー(120)であって、前記ビデオおよびオーディオストリームはメディア消費デバイスで再生され、
    前記サーバー(120)は、ビデオ環境を記述するビデオストリームを、エンコードするためのエンコーダおよび/または格納するための記憶装置を含み、前記ビデオ環境はオーディオシーンに関連付けられ、
    前記サーバーは、前記クライアントに配信される複数のオーディオストリームおよび/またはオーディオ要素および/またはアダプテーションセットを、エンコードするためのエンコーダおよび/または格納するための記憶装置をさらに含み、前記オーディオストリームおよび/またはオーディオ要素および/またはアダプテーションセットは、少なくとも1つのオーディオシーンに関連付けられ、
    前記サーバーは、
    前記クライアントからの要求に基づいてビデオストリームを選択して配信し、前記ビデオストリームは環境に関連付けられ、
    前記クライアントからの要求に基づいて、オーディオストリームおよび/またはオーディオ要素および/またはアダプテーションセットを選択し、前記要求は、少なくともユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはインタラクションメタデータおよび/または仮想位置データ、ならびに環境に関連付けられたオーディオシーンに関連付けられ、
    前記オーディオストリームを前記クライアントに配信する、
    ように構成され、
    第1のオーディオストリームの第1のオーディオ要素は、第2のオーディオストリームの第2のオーディオ要素よりも関連性があり、かつ/または可聴性が高く、前記第1のオーディオストリームは、前記第2のオーディオストリームのビットレートよりも高いビットレートで要求および/または受信され、
    前記オーディオストリームはアダプテーションセットにカプセル化され、各アダプテーションセットは、同じオーディオコンテンツの異なるビットレートで、異なる表現に関連付けられた複数のストリームを含み、
    前記選択されたアダプテーションセットは、前記クライアントからの前記要求に基づいて選択される、サーバー(120)。
  44. 前記オーディオストリームはアダプテーションセットにカプセル化され、各アダプテーションセットは、同じオーディオコンテンツの異なるビットレートで、異なる表現に関連付けられた複数のストリームを含み、
    前記選択されたアダプテーションセットは、前記クライアントからの前記要求に基づいて選択される、請求項42に記載のサーバー。
  45. メディア消費デバイスで再生されるビデオストリームおよびオーディオストリームを受信するように構成された仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のための方法であって、
    VR、AR、MR、または360度ビデオ環境シーンのユーザーへの表現のためにビデオストリームからビデオ信号をデコードするステップと、
    オーディオシーンの前記表現のためにオーディオストリームからのオーディオ信号をデコードするステップと、
    前記ユーザーの現在のビューポートおよび/または位置データおよび/または頭の向きおよび/または動きのデータおよび/またはメタデータおよび/または仮想位置データおよび/またはメタデータに基づいて、少なくとも1つのオーディオストリームを、サーバー(120)に要求し、および/または前記サーバーから取得するステップと、
    異なるオーディオシーンに関連する隣接および/または近接するビデオ環境の境界からの前記ユーザーの位置の距離に基づいて、前記サーバー(120)への前記少なくとも1つのオーディオストリームの前記要求を制御するステップと、
    を含む方法。
  46. プロセッサによって実行されると、前記プロセッサに請求項45に記載の方法を実行させる命令を含むコンピュータプログラム。
JP2020520204A 2017-10-12 2018-10-11 仮想現実アプリケーションのためのオーディオ配信の最適化 Active JP7295851B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023095140A JP2023116635A (ja) 2017-10-12 2023-06-09 仮想現実アプリケーションのためのオーディオ配信の最適化

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17196259.0 2017-10-12
EP17196259 2017-10-12
PCT/EP2018/077770 WO2019072984A1 (en) 2017-10-12 2018-10-11 AUDIO DIFFUSION OPTIMIZATION FOR VIRTUAL REALITY APPLICATIONS

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023095140A Division JP2023116635A (ja) 2017-10-12 2023-06-09 仮想現実アプリケーションのためのオーディオ配信の最適化

Publications (2)

Publication Number Publication Date
JP2020537418A JP2020537418A (ja) 2020-12-17
JP7295851B2 true JP7295851B2 (ja) 2023-06-21

Family

ID=60191107

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2020520204A Active JP7295851B2 (ja) 2017-10-12 2018-10-11 仮想現実アプリケーションのためのオーディオ配信の最適化
JP2023095140A Pending JP2023116635A (ja) 2017-10-12 2023-06-09 仮想現実アプリケーションのためのオーディオ配信の最適化

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023095140A Pending JP2023116635A (ja) 2017-10-12 2023-06-09 仮想現実アプリケーションのためのオーディオ配信の最適化

Country Status (15)

Country Link
US (2) US11354084B2 (ja)
EP (2) EP4329319A3 (ja)
JP (2) JP7295851B2 (ja)
KR (2) KR102568373B1 (ja)
CN (5) CN116193213A (ja)
AR (6) AR113357A1 (ja)
AU (2) AU2018348762B2 (ja)
BR (1) BR112020008073A2 (ja)
CA (6) CA3230310A1 (ja)
MX (1) MX2020003450A (ja)
RU (2) RU2750505C1 (ja)
SG (2) SG10202106080XA (ja)
TW (1) TWI713911B (ja)
WO (1) WO2019072984A1 (ja)
ZA (3) ZA202002064B (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10242486B2 (en) * 2017-04-17 2019-03-26 Intel Corporation Augmented reality and virtual reality feedback enhancement system, apparatus and method
RU2762400C1 (ru) * 2018-02-22 2021-12-21 Долби Интернешнл Аб Способ и устройство обработки вспомогательных потоков медиаданных, встроенных в поток mpeg-h 3d audio
CN109151565B (zh) * 2018-09-04 2019-12-20 北京达佳互联信息技术有限公司 播放语音的方法、装置、电子设备及存储介质
JP2020137044A (ja) * 2019-02-25 2020-08-31 ソニーセミコンダクタソリューションズ株式会社 音声信号処理装置
US11211073B2 (en) * 2019-04-22 2021-12-28 Sony Corporation Display control of different verbatim text of vocal deliverance of performer-of-interest in a live event
US11429340B2 (en) * 2019-07-03 2022-08-30 Qualcomm Incorporated Audio capture and rendering for extended reality experiences
US11432097B2 (en) * 2019-07-03 2022-08-30 Qualcomm Incorporated User interface for controlling audio rendering for extended reality experiences
US20210006976A1 (en) * 2019-07-03 2021-01-07 Qualcomm Incorporated Privacy restrictions for audio rendering
CN111246225B (zh) * 2019-12-25 2022-02-08 北京达佳互联信息技术有限公司 信息交互方法、装置、电子设备及计算机可读存储介质
JP7371595B2 (ja) * 2020-09-15 2023-10-31 横河電機株式会社 装置、システム、方法およびプログラム
GB2599359A (en) * 2020-09-23 2022-04-06 Nokia Technologies Oy Spatial audio rendering
US20220103948A1 (en) * 2020-09-25 2022-03-31 Apple Inc. Method and system for performing audio ducking for headsets
US11914157B2 (en) 2021-03-29 2024-02-27 International Business Machines Corporation Adjustable air columns for head mounted displays
US20220391167A1 (en) * 2021-06-02 2022-12-08 Tencent America LLC Adaptive audio delivery and rendering
CN113660347B (zh) * 2021-08-31 2024-05-07 Oppo广东移动通信有限公司 数据处理方法、装置、电子设备和可读存储介质
US20230086248A1 (en) * 2021-09-21 2023-03-23 Meta Platforms Technologies, Llc Visual navigation elements for artificial reality environments
US20230260537A1 (en) * 2022-02-16 2023-08-17 Google Llc Single Vector Digital Voice Accelerometer
CN116709162B (zh) * 2023-08-09 2023-11-21 腾讯科技(深圳)有限公司 音频处理方法及相关设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004072694A (ja) 2002-08-09 2004-03-04 Sony Corp 情報提供システムおよび方法、情報提供装置および方法、記録媒体、並びにプログラム
JP2007029506A (ja) 2005-07-28 2007-02-08 Konami Digital Entertainment:Kk ゲーム装置、音声データの生成方法及びプログラム
JP2009043274A (ja) 2002-01-09 2009-02-26 Dolby Lab Licensing Corp 対話型立体的オーディオビジュアル・システム

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020103554A1 (en) * 2001-01-29 2002-08-01 Hewlett-Packard Company Interactive audio system
DE102005008366A1 (de) * 2005-02-23 2006-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ansteuern einer Wellenfeldsynthese-Renderer-Einrichtung mit Audioobjekten
US20080022348A1 (en) 2006-07-03 2008-01-24 Samoa Opulence Investment Inc. Interactive video display system and a method thereof
US8520872B2 (en) * 2008-08-14 2013-08-27 Samsung Electronics Co., Ltd. Apparatus and method for sound processing in a virtual reality system
US10326978B2 (en) * 2010-06-30 2019-06-18 Warner Bros. Entertainment Inc. Method and apparatus for generating virtual or augmented reality presentations with 3D audio positioning
WO2013085639A1 (en) 2011-10-28 2013-06-13 Magic Leap, Inc. System and method for augmented and virtual reality
US20150296247A1 (en) 2012-02-29 2015-10-15 ExXothermic, Inc. Interaction of user devices and video devices
JP6459006B2 (ja) * 2014-05-30 2019-01-30 ソニー株式会社 情報処理装置および情報処理方法
US9787846B2 (en) * 2015-01-21 2017-10-10 Microsoft Technology Licensing, Llc Spatial audio signal processing for objects with associated audio content
US20160255348A1 (en) * 2015-02-27 2016-09-01 Arris Enterprises, Inc. Adaptive joint bitrate allocation
GB2536025B (en) * 2015-03-05 2021-03-03 Nokia Technologies Oy Video streaming method
AU2016324039B2 (en) 2015-09-16 2021-09-30 Magic Leap, Inc. Head pose mixing of audio files
US20170109131A1 (en) * 2015-10-20 2017-04-20 Bragi GmbH Earpiece 3D Sound Localization Using Mixed Sensor Array for Virtual Reality System and Method
US10229540B2 (en) 2015-12-22 2019-03-12 Google Llc Adjusting video rendering rate of virtual reality content and processing of a stereoscopic image
WO2017120681A1 (en) * 2016-01-15 2017-07-20 Michael Godfrey Method and system for automatically determining a positional three dimensional output of audio information based on a user's orientation within an artificial immersive environment
US10229541B2 (en) 2016-01-28 2019-03-12 Sony Interactive Entertainment America Llc Methods and systems for navigation within virtual reality space using head mounted display
US10291910B2 (en) * 2016-02-12 2019-05-14 Gopro, Inc. Systems and methods for spatially adaptive video encoding
US11017712B2 (en) * 2016-08-12 2021-05-25 Intel Corporation Optimized display image rendering
CN106774891A (zh) * 2016-12-15 2017-05-31 北京小鸟看看科技有限公司 虚拟现实场景的音效产生方法、设备及虚拟现实设备
US10659906B2 (en) * 2017-01-13 2020-05-19 Qualcomm Incorporated Audio parallax for virtual reality, augmented reality, and mixed reality
GB2560923A (en) * 2017-03-28 2018-10-03 Nokia Technologies Oy Video streaming
KR20230048463A (ko) * 2017-06-15 2023-04-11 돌비 인터네셔널 에이비 컴퓨터 매개 현실 애플리케이션에서 송신기와 수신기 사이의 통신을 최적화하는 방법, 장치 및 시스템
US11164606B2 (en) * 2017-06-30 2021-11-02 Qualcomm Incorporated Audio-driven viewport selection

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009043274A (ja) 2002-01-09 2009-02-26 Dolby Lab Licensing Corp 対話型立体的オーディオビジュアル・システム
JP2004072694A (ja) 2002-08-09 2004-03-04 Sony Corp 情報提供システムおよび方法、情報提供装置および方法、記録媒体、並びにプログラム
JP2007029506A (ja) 2005-07-28 2007-02-08 Konami Digital Entertainment:Kk ゲーム装置、音声データの生成方法及びプログラム

Also Published As

Publication number Publication date
US20200278828A1 (en) 2020-09-03
CA3078858A1 (en) 2019-04-18
ZA202208364B (en) 2023-03-29
TW201924362A (zh) 2019-06-16
AR125882A2 (es) 2023-08-23
CN111466122B (zh) 2023-02-28
KR20230130729A (ko) 2023-09-12
US11354084B2 (en) 2022-06-07
CN111466122A (zh) 2020-07-28
CA3230310A1 (en) 2019-04-18
EP3695613B1 (en) 2024-01-03
CN116193215A (zh) 2023-05-30
CN116193212A (zh) 2023-05-30
CA3230304A1 (en) 2019-04-18
AR125880A2 (es) 2023-08-23
KR20200078537A (ko) 2020-07-01
CA3230205A1 (en) 2019-04-18
JP2020537418A (ja) 2020-12-17
SG10202106080XA (en) 2021-07-29
BR112020008073A2 (pt) 2020-11-03
AR113357A1 (es) 2020-04-22
JP2023116635A (ja) 2023-08-22
AU2018348762A1 (en) 2020-05-07
EP4329319A2 (en) 2024-02-28
CA3230231A1 (en) 2019-04-18
AU2023263436A1 (en) 2023-11-23
ZA202002064B (en) 2023-02-22
EP3695613A1 (en) 2020-08-19
SG11202003269SA (en) 2020-05-28
AU2018348762B2 (en) 2023-08-10
US20220261215A1 (en) 2022-08-18
KR102568373B1 (ko) 2023-08-18
TWI713911B (zh) 2020-12-21
EP3695613C0 (en) 2024-01-03
CN116193213A (zh) 2023-05-30
WO2019072984A1 (en) 2019-04-18
CA3230221A1 (en) 2019-04-18
AR125884A2 (es) 2023-08-23
ZA202208388B (en) 2023-03-29
MX2020003450A (es) 2020-10-01
AR125883A2 (es) 2023-08-23
CN116193214A (zh) 2023-05-30
RU2750505C1 (ru) 2021-06-29
RU2765569C1 (ru) 2022-02-01
AR125881A2 (es) 2023-08-23
EP4329319A3 (en) 2024-04-24

Similar Documents

Publication Publication Date Title
JP7295851B2 (ja) 仮想現実アプリケーションのためのオーディオ配信の最適化
JP7072649B2 (ja) 高品質のエクスペリエンスのためのオーディオメッセージの効率的な配信および使用のための方法および装置
KR102243666B1 (ko) 360도 비디오를 전송하는 방법, 360도 비디오를 수신하는 방법, 360도 비디오 전송 장치, 360도 비디오 수신 장치
RU2801698C2 (ru) Оптимизация доставки звука для приложений виртуальной реальности
US20230043591A1 (en) Information processing apparatus and method
Macq et al. Application Scenarios and Deployment Domains

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200606

A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20200606

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200606

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210603

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210901

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220822

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20221118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230609

R150 Certificate of patent or registration of utility model

Ref document number: 7295851

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150