JP6979035B2 - 仮想現実メディアコンテンツのストリーミングを向上させる方法、デバイス及びコンピュータプログラム - Google Patents

仮想現実メディアコンテンツのストリーミングを向上させる方法、デバイス及びコンピュータプログラム Download PDF

Info

Publication number
JP6979035B2
JP6979035B2 JP2018560004A JP2018560004A JP6979035B2 JP 6979035 B2 JP6979035 B2 JP 6979035B2 JP 2018560004 A JP2018560004 A JP 2018560004A JP 2018560004 A JP2018560004 A JP 2018560004A JP 6979035 B2 JP6979035 B2 JP 6979035B2
Authority
JP
Japan
Prior art keywords
media
quality
media data
regions
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018560004A
Other languages
English (en)
Other versions
JP2019524004A5 (ja
JP2019524004A (ja
Inventor
ナエル ウエドラオゴ
フランク ドゥヌアル
ジョナサン タケ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of JP2019524004A publication Critical patent/JP2019524004A/ja
Publication of JP2019524004A5 publication Critical patent/JP2019524004A5/ja
Application granted granted Critical
Publication of JP6979035B2 publication Critical patent/JP6979035B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • H04N21/2353Processing of additional data, e.g. scrambling of additional data or processing content descriptors specifically adapted to content descriptors, e.g. coding, compressing or processing of metadata
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • G06F3/147Digital output to display device ; Cooperation and interconnection of the display device with other functional units using display panels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/643Communication protocols
    • H04N21/64322IP
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8543Content authoring using a description language, e.g. Multimedia and Hypermedia information coding Expert Group [MHEG], eXtensible Markup Language [XML]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234327Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into layers, e.g. base layer and one or more enhancement layers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Transfer Between Computers (AREA)

Description

本発明は、概略として、通信ネットワーク、例えばインターネットプロトコル(IP)標準に準拠する通信ネットワーク上のタイムドメディアデータストリームの分野に関する。より具体的には、本発明は、HyperText Transfer Protocol(HTTP)を使用するIPネットワーク上で仮想現実又は全方向性メディアデータのストリーミングを向上する方法、デバイス及びコンピュータプログラムに関する。
ビデオ符号化は、ビデオ画像が送信又は記憶可能となるように、一連のビデオ画像をコンパクトなデジタル化されたビットストリームに変換する方法である。符号化デバイスは、表示及び鑑賞に関するビットストリームの再構築が利用可能な関連する復号デバイスで、ビデオ画像を符号化するのに使用される。概略の目的は、元のビデオ情報よりも小さいサイズとなるようにビットストリームを成形することである。これにより、ビットストリームコードを送信又は記憶するのに転送ネットワーク又は記憶デバイスに要求される容量は、効果的に減少する。一般的に、送信されるために、ビデオビットストリームは、通常はヘッダ及びチェックビットを付加する送信プロトコルに従ってカプセル化される。
通常、通信ネットワーク上のメディアデータをストリーミングすることは、メディアプレゼンテーションを表すデータが、通信ネットワーク上でクライアントデバイスともいう再生デバイスに、サーバともいうホストコンピュータによって提供されることを意味する。一般的に、クライアントデバイスは、デスクトップパーソナルコンピュータ(PC)、タブレットPC、ノートブック又は可搬コンピュータ、携帯電話、ワイヤレスハンドヘルドデバイス、パーソナルデジタルアシスタント(PDA)、ゲームコンソール、ヘッドマウントデバイスなど、様々な従来のコンピューティングデバイスのいずれかとして実施されるメディア再生コンピュータである。通常、クライアントデバイスは、(配信されるべきファイル全体を待つよりも)ホストから受信するにつれてストリーミングされたコンテンツをレンダリングする。
一般的に、メディアプレゼンテーションは、クライアントデバイスによって連携して再生されるためにクライアントデバイスにサーバから送信され得るオーディオ、ビデオ、テキスト、メタデータ及び/又はサブタイトルなどの幾つかのメディアコンポーネントを含む。それらのメディアコンポーネントは通常、別個のメディアストリームに個別に符号化され、次に、全体で又は個別に、それらは複数のメディアセグメントにカプセル化され、後者によって連携して再生されるクライアントデバイスにサーバから送信される。
一般的な方法は、クライアントデバイスが特性(例えば解像度、計算能力及び帯域幅)の関数として1つのバージョンを選択できるように、同一のメディアコンポーネントの幾つかのバージョンに対するアクセスを付与することを目的とする。既存の独占所有権のある解決策によれば、代替バージョンの各々が記述され、メディアデータが小さな時間的セグメントに分割される。セグメントは、異なるメディアに関する圧縮データ又は生データを含むメディアセグメントであってもよいし、クライアントにおけるメディア復号器をセットアップ、インスタンス化及び初期化するのに使用される初期化セグメントであってもよい。
HTTPを介した動的及び適応ストリーミングのコンテキストにおいて、DASH(Dynamic Adaptive Streaming over HTTP)といわれる標準が、MPEG標準化委員会(「ISO/IEC 23009−1、Dynamic adaptive streaming over HTTP(DASH)、パート1、メディアプレゼンテーション記述及びセグメントフォーマット」)から出現した。この標準により、メディアプレゼンテーションのメディアコンテンツのコンパクトな記述のHTTP Uniform Resource Location(URL)との関連付けが可能となる。通常、そのような関連付けは、マニフェストファイル又は記述ファイルといわれるファイルに記述される。DASHのコンテキストにおいて、このマニフェストファイルは、MPDファイル(Media Presentation Discription)ともいわれるXMLファイルである。XMLファイルも使用するSmoothStreamingのような、又はプレイリストともいうマニフェストに関するプレーンテキストファイルを幾らか使用するHTTPLiveStreamingのような、他のマニフェストベースのストリーミングソリューションが存在する。好ましい実施形態として、DASHはストリーミングプロトコルとして使用されるが、マニフェストに付加される記述的情報はこれらの他のソリューションにおいて同等の効果を提供し得る。
マニフェストファイルは、マニフェストに記述されるメディアサンプルに関する記述的情報を指定するディスクリプタのセットを収集する。ディスクリプタは、例えばXMLノード(要素及び/又は属性)のような構造化要素であってもよいし、又はキーワード若しくはコメントがこれらのディスクリプタの搬送に特化される場合はJSON(JavaScript(登録商標) Object Notation)で記述されてもよいし、プレーンテキストフォーマットにさえ記述されてもよい。
マニフェストファイルを受信することにより、クライアントデバイスは、各メディアコンテンツコンポーネントの記述を得る。したがって、メディアプレゼンテーションに提案されたメディアコンテンツコンポーネントの種類が認識され、関連する初期化及び/又はメディアセグメントをダウンロードするのに使用すべきHTTP URLが理解される。そのため、クライアントデバイスは、どのメディアコンテンツコンポーネントを(HTTP要求を介して)ダウンロードして再生(すなわちメディアセグメントを受信した後に復号して再生)するかを決定することができる。
そのような関連付けに加えて、DASH標準は、各メディアコンテンツを時間間隔の関数として分割することを提案する。時間分解は、MPDファイルに記述される。したがって、後者は、HTTP URLとメディアコンテンツからの各コンポーネントのコンパクトな記述との間の関連付けを、各時間間隔にわたって定義する。各メディアコンテンツコンポーネントは、これらの時間間隔に対応する複数の独立したメディアセグメントにカプセル化され得る。
この標準により、クライアントが、所望の時間間隔にわたってメディアプレゼンテーションの所望のメディアコンテンツコンポーネントをダウンロードすることが可能となる。
MPEG DASHにおけるメディアセグメント内のメディアコンテンツコンポーネントのストリーミングに使用されるカプセル化ファイルフォーマットは、MPEG標準化活動のコンテキストにおいて定義されたISO Base Media File Formatに準拠し得る。特に、カプセル化ファイルフォーマットは、High Efficiency Video Coding(HEVC)のカプセル化の標準化及びISO Base Media File Format(ISO/IEC 14496パート15)におけるそのスケーラブルな延長に関連し得る。なお、DASHは、カプセル化ファイルフォーマットに不可知論的である。例えば、使用できるMPEG−2Transportストリーム又はメディアストリームをカプセル化するWebM若しくはCommonMediaApplicationFormatである。
なお、タイル構成に依拠する対象領域の抽出/ストリーミング及び表示は、例えばユーザがビデオシーケンスの特定のエリアをクリックして特定の選択したエリアについてより高解像度のビデオにアクセスすること、又はある空間のエリア(又はタイル)から他へとビデオシーケンスをナビゲーション/パンニングすることを許可することによって、ストリーミング中のインタラクティブ高品質ズームイン機能を可能とするのに特に役立つ。
ビデオ解像度は、標準精細度(SD)から高精細度(HD)及び超高精細度(例えば、4K2K又は8K4K)まで連続的に増加することが想定されるべきである。ビデオシーケンスは、シングルレイヤ(例えばHEVC)又はマルチレイヤ(例えばスケーラブルHEVC)符合化標準のいずれかを使用して符号化され得る。マルチレイヤコーディングフォーマットの場合、所与のレイヤは、1以上の他のレイヤに対する参照データとして使用され得る。レイヤ化されたビデオ編成は、複数の従属メディアコンテンツコンポーネントを用いて効率的に表されることができ、各コンポーネントはスケーラビリティの異なるレベルでビデオレイヤを表す。所与のメディアコンテンツコンポーネントを復号するために、クライアントデバイスは、メディアコンテンツコンポーネントそれ自体だけでなく、それが依存する全てのメディアコンテンツコンポーネントにアクセスする必要がある。
また、ビデオストリーミング機能を有するモバイル及び接続デバイスの急増も想定されるべきである。したがって、モバイルデバイスのユーザが、品質を維持したまま又は向上させることによってビデオシーケンスのサブパーツを表示し、又はサブパーツに着目したい場合、ビデオシーケンスをタイルに分割することが重要となる。したがって、タイルを使用することにより、ユーザは、ビデオシーケンスの空間的なサブパーツ(又は部分若しくは領域)をインタラクティブに要求できる。スケーラブルビデオコーディングフォーマット(例えばスケーラブルHEVC又はマルチビューHEVC)の場合、符号化依存性が拡張レイヤのタイルとベースレイヤの1以上のタイルとの間に存在し得ることを除いて、各ビデオレイヤは、複数の独立した空間的サブパーツに編集可能ともなる。
さらに、ワイドスクリーンの使用及びゴーグルなどのヘッドマウントデバイスの使用も急速に増加し、ユーザに没入型体験を提供する。さらに、旧来的な2Dスクリーン上で没入型体験を提供するために、あるメディアプレーヤは、クライアントがナビゲーションメニューを介してビデオ内をパンニングできるようにする特定のユーザインターフェースを提供する。幾つかのデバイスが、現在ユーザを仮想現実(VR)環境に没入させるのに利用可能である。VRビデオシーケンス又は全方向性ビデオシーケンスは、一般的には、広いエリアを撮影する少なくとも1つの広角対物レンズを搭載した1台のカメラ又は種々の方向におけるビデオ及びオーディオデータを取り込む幾つかの同期カメラのいずれかによって撮像される。後者の場合、結果として生じる複数のビデオシーケンスは、その後、一般的にPanoramaビデオシーケンスといわれるシングルビデオシーケンスを形成するように変換される。各カメラが4K解像度を有する例を考慮すると、結果として生じるパノラマビデオシーケンスは、10Kよりも大きい解像度を有することもあり、その処理(計算、メモリ記憶、転送及びさらにはネットワーク転送に関して)を複雑にする。
そのようなビデオシーケンスのファイルフォーマットにおけるカプセル化は、例えば全方向性ファイルフォーマット仕様又はISOベースメディアファイルフォーマットに基づいて行うことができる。
様々な表示デバイス、例えば異なる処理及び表示能力を有する大型スクリーン又はヘッドマウントディスプレイ(HMD)は、特にHTTPを介した適応ストリーミングのコンテキストにおいて全てのデバイスに適応できるストリーミングソリューションの必要性を生じさせる。特に、HMDの表示サイズは、一般的に大型スクリーンのサイズよりも小さい。結果として、Panoramaビデオシーケンスのサブパーツ(又は部分若しくは領域)への空間的なアクセスは、HMDデバイスで表示するPanoramaビデオシーケンスの全体を送信することを回避する。
したがって、クライアントの必要性及び特性の機能として、仮想現実又は全方向性メディアデータのストリーミングを最適化する必要がある。
本発明は、前述の事項のうちの1以上に対処するために考案されたものである。
これに関連して、例えばhttpプロトコルを使用するインターネットのなどのIPネットワークを介する仮想現実メディアコンテンツの適応ストリーミングに関する解決策が提供される。
本発明の第1の目的によれば、シーンのワイドビューの撮像投影を表すメディアデータをサーバから受信する方法が提供され、受信されたメディアデータは、ワイドビューの少なくとも一部を3D幾何学的表示面にレンダリングすること、又はワイドビューの少なくとも一部を少なくとも2つの異なる視点による表示面にレンダリングすることを可能とし、レンダリングは、ワイドビューの少なくとも一部の撮像投影を表すメディアデータの少なくとも1つのレンダリング投影を備え、方法はクライアントにおいて実行され、
ワイドビューの撮像投影を表すメディアデータの情報を含む記述ファイルをサーバから受信するステップであって、その情報はメディアデータを生成するワイドビューの撮像に関する記述的情報及びワイドビューの撮像投影を表すメディアデータの少なくとも1つの空間的区間の品質レベルに関する記述的情報を含む、ステップ、
記述ファイルに基づいて少なくとも1つのメディアデータストリームを要求するための少なくとも1つの要求メッセージをサーバに送信するステップ、及び、
少なくとも1つの要求メッセージに応じて、少なくとも1つの要求されたメディアデータストリームに対応するメディアデータをサーバから受信するステップ
を備える。
したがって、本発明の方法は、要求されたデータのみが送信されるので仮想現実メディアデータの送信を最適化することができ、高解像度の画像に対応できるので品質を向上させることができ、送信されるべきデータの制御がクライアントによって行われるのでサーバ端でのスケーラビリティを保持することができる。また、本発明の方法によれば、クライアントは、少ないリソースしか必要としない。
一実施形態では、メディアデータを生成するワイドビューの撮像に関する記述的情報は、撮像投影に関連する。
一実施形態では、ワイドビューの撮像投影を表すメディアデータの少なくとも1つの空間的区画の品質レベルは、表示面にレンダリングされる場合、対応する空間的区画の所望の品質レベルの関数として特定される。
一実施形態では、記述的情報は、少なくとも部分的に少なくとも1つのディスクリプタ内に提供される。
一実施形態では、少なくとも1つのディスクリプタはメディアデータの空間的区画の少なくとも1つのバージョンの記述的情報を備え、記述的情報は少なくとも部分的に少なくとも1つのディスクリプタに記述された空間的区画の定義及び関連する品質レベルを備える。
一実施形態では、少なくとも部分的に少なくとも1つのディスクリプタに記述された空間的区画は、撮像投影から生じる領域の関数として定義される。
一実施形態では、少なくとも1つのディスクリプタはメディアデータの異なる空間的区画の記述的情報を備えるディスクリプタのリストを備え、少なくとも1つの他のディスクリプタはメディアデータの異なる空間的区画と関連付けられる少なくとも1以上の異なる品質レベルを備える。
一実施形態では、記述的情報は、受信すべきメディアデータに関するリソースを識別する情報を備える。
一実施形態では、品質レベルはフレーム符号の関数として定義された視野を備え、視野は空間的部分又は好適なレンダリング視野に対応する
一実施形態では、視野は複数の値によって定義され、複数の値の少なくとも一つの値は品質レベルの項目の関数として、及びクライアントの少なくとも一つの特性の関数として計算される。
一実施形態では、品質レベルはフレーム符号の関数として定義される視点を備え、視点は空間的部分又は好適なレンダリング視点に関する。
一実施形態では、記述的情報は、フレーム符号の識別子をさらに備える。
一実施形態では、品質レベルは、品質ランクを備える。
一実施形態では、ディスクリプタは、受信されたメディアデータのレンダリングを可能としながらディスクリプタ内の記述的情報に対応するメディアデータがクライアントによって破棄され得るかをシグナリングするシグナリング情報に関連付けられる。
本発明の第2の目的によれば、シーンのワイドビューの撮像投影を表すメディアデータをサーバからクライアントにストリーミングする方法が提供され、ストリーミングされるメディアデータは、クライアントがワイドビューの少なくとも一部を3D幾何学的表示面上にレンダリングすること、又はワイドビューの少なくとも一部を少なくとも2つの異なる視点による表示面上にレンダリングすることを可能とし、レンダリングはワイドビューの少なくとも一部の撮像投影を表すメディアデータの少なくとも1つのレンダリング投影を備え、方法はサーバにおいて実行され、
ワイドビューの撮像投影を表すメディアデータについての情報を備える記述ファイルをクライアントに送信するステップであって、その情報はメディアデータを生成するためのワイドビューの撮像に関する記述的情報及びワイドビューの撮像投影を表すメディアデータの少なくとも一つの空間的区画の品質レベルに関する記述的情報を含む、ステップ、
記述ファイルに基づいて少なくとも1つのメディアデータストリームを要求するための少なくとも1つの要求メッセージをクライアントから受信するステップ、及び、
少なくとも1つの要求メッセージに応じて、少なくとも1つの要求されたメディアデータストリームに対応するメディアデータをクライアントに送信するステップ
を備える。
したがって、本発明の方法は、要求されたデータのみが送信されるので仮想現実メディアデータの送信を最適化することができ、高解像度の画像に対応できるので品質を向上させることができ、送信されるべきデータの制御がクライアントによって行われるのでサーバ端でのスケーラビリティを保持することができる。また、本発明の方法によれば、クライアントは、少ないリソースしか必要としない。
一実施形態では、メディアデータを生成するワイドビューの撮像に関する記述的情報は、撮像投影に関連する。
一実施形態では、ワイドビューの撮像投影を表すメディアデータの少なくとも1つの空間的区画の品質レベルは、表示面にレンダリングされる場合、対応する空間的区画の所望の品質レベルの関数として特定される。
一実施形態では、記述的情報は、少なくとも部分的に少なくとも1つのディスクリプタ内に提供される。
一実施形態では、少なくとも1つのディスクリプタはメディアデータの空間的区画の少なくとも1つのバージョンの記述的情報を備え、記述的情報は少なくとも部分的に少なくとも1つのディスクリプタに記述された空間的区画の定義及び関連する品質レベルを備える。
一実施形態では、少なくとも部分的に少なくとも1つのディスクリプタに記述された空間的区画は、撮像投影から生じる領域の関数として定義される。
一実施形態では、少なくとも1つのディスクリプタはメディアデータの異なる空間的区画の記述的情報を備えるディスクリプタのリストを備え、少なくとも1つの他のディスクリプタはメディアデータの異なる空間的区画と関連付けられる少なくとも1以上の異なる品質レベルを備える。
一実施形態では、記述的情報は、受信すべきメディアデータに関するリソースを識別する情報を備える。
一実施形態では、品質レベルはフレーム符号の関数として定義された視野を備え、視野は空間的部分又は好適なレンダリング視野に対応する
一実施形態では、視野は複数の値によって定義され、複数の値の少なくとも一つの値は品質レベルの項目の関数として、及びクライアントの少なくとも一つの特性の関数として計算される。
一実施形態では、品質レベルはフレーム符号の関数として定義される視点を備え、視点は空間的部分又は好適なレンダリング視点に関する。
一実施形態では、記述的情報は、フレーム符号の識別子をさらに備える。
一実施形態では、品質レベルは、品質ランクを備える。
一実施形態では、ディスクリプタは、受信されたメディアデータのレンダリングを可能としながらディスクリプタ内の記述的情報に対応するメディアデータがクライアントによって破棄され得るかをシグナリングするシグナリング情報に関連付けられる。
本発明の第3の目的によれば、シーンのワイドビューの撮像投影を表すメディアデータをサーバから受信するためのクライアントに対するデバイスが提供され、受信されるメディアデータは、ワイドビューの少なくとも一部を3D幾何学的表示面にレンダリングすること、又はワイドビューの少なくとも一部を少なくとも2つの異なる視点による表示面にレンダリングすることを可能とし、レンダリングはワイドビューの少なくとも一部の撮像投影を表すメディアデータの少なくとも1つのレンダリング投影を備え、デバイスが、
ワイドビューの撮像投影を表すメディアデータに関する情報を備える記述ファイルをサーバから受信するステップであって、その情報はメディアデータを生成するためのワイドビューの撮像に関する記述的情報及びワイドビューの撮像投影を表すメディアデータの少なくとも1つの空間的区間の品質レベルに関する記述的情報を含む、ステップ、
記述ファイルに基づいて少なくとも1つのメディアデータストリームを要求するための少なくとも1つの要求メッセージをサーバに送信するステップ、及び、
少なくとも1つの要求メッセージに応じて、少なくとも1つの要求されたメディアデータストリームに対応するメディアデータをサーバから受信するステップ
を実行するように構成されたマイクロプロセッサを備える。
したがって、本発明のデバイスは、要求されたデータのみが送信されるので仮想現実メディアデータの送信を最適化することができ、高解像度の画像に対応できるので品質を向上させることができ、送信されるべきデータの制御がクライアントによって行われるのでサーバ端でのスケーラビリティを保持することができる。また、本発明のデバイスによれば、クライアントは、少ないリソースしか必要としない。
一実施形態では、マイクロプロセッサは、メディアデータを生成するワイドビューの撮像に関する記述的情報が撮像投影に関連するようにさらに構成される。
一実施形態では、マイクロプロセッサは、ワイドビューの撮像投影を表すメディアデータの少なくとも1つの空間的区画の品質レベルが表示面にレンダリングされる場合、対応する空間的区画の所望の品質レベルの関数として特定されるようにさらに構成される。
一実施形態では、マイクロプロセッサは、記述的情報が少なくとも部分的に少なくとも1つのディスクリプタ内に提供されるようにさらに構成される。
一実施形態では、マイクロプロセッサは、少なくとも1つのディスクリプタがメディアデータの空間的区画の少なくとも1つのバージョンの記述的情報を備えるようにさらに構成され、記述的情報が少なくとも部分的に少なくとも1つのディスクリプタに記述された空間的区画の定義及び関連する品質レベルを備える。
一実施形態では、マイクロプロセッサは、少なくとも部分的に少なくとも1つのディスクリプタに記述された空間的区画が撮像投影から生じる領域の関数として定義されるようにさらに構成される。
一実施形態では、マイクロプロセッサは、少なくとも1つのディスクリプタがメディアデータの異なる空間的区画の記述的情報を備えるディスクリプタのリストを備え、少なくとも1つの他のディスクリプタがメディアデータの異なる空間的区画と関連付けられる少なくとも1以上の異なる品質レベルを備えるようにさらに構成される。
一実施形態では、マイクロプロセッサは、記述的情報が受信すべきメディアデータに関するリソースを識別する情報を備えるようにさらに構成される。
一実施形態では、マイクロプロセッサは、品質レベルがフレーム符号の関数として定義された視野を備えるようにさらに構成され、視野は空間的部分又は好適なレンダリング視野に対応する。
一実施形態では、マイクロプロセッサは、視野が複数の値によって定義されるようにさらに構成され、複数の値の少なくとも一つの値は品質レベルの項目の関数として、及びクライアントの少なくとも一つの特性の関数として計算される。
一実施形態では、マイクロプロセッサは、品質レベルがフレーム符号の関数として定義される視点を備えるようにさらに構成され、視点は空間的部分又は好適なレンダリング視点に関する。
一実施形態では、マイクロプロセッサは、記述的情報がフレーム符号の識別子をさらに備えるようにさらに構成される。
一実施形態では、マイクロプロセッサは、品質レベルが品質ランクを備えるようにさらに構成される。
一実施形態では、マイクロプロセッサは、ディスクリプタが受信されたメディアデータのレンダリングを可能としながらディスクリプタ内の記述的情報に対応するメディアデータがクライアントによって破棄され得るかをシグナリングするシグナリング情報に関連付けられるようにさらに構成される。
本発明の第4の目的によれば、シーンのワイドビューの撮像投影を表すメディアデータをサーバからクライアントにストリーミングするためのサーバに対するデバイスが提供され、ストリーミングされるメディアデータはクライアントがワイドビューの少なくとも一部を3D幾何学的表示面にレンダリングすること又はワイドビューの少なくとも一部を少なくとも2つの異なる視点による表示面にレンダリングすることを可能とし、レンダリングはワイドビューの少なくとも一部の撮像投影を表すメディアデータの少なくとも1つのレンダリング投影を備え、デバイスは、
ワイドビューの撮像投影を表すメディアデータの情報を含む記述ファイルをクライアントに送信するステップであって、情報はメディアデータを生成するためのワイドビューの撮像に関する記述的情報及びワイドビューの撮像投影を表すメディアデータの少なくとも一つの空間的区画の品質レベルに関する記述的情報を含む、ステップ、
記述ファイルに基づいて少なくとも1つのメディアデータストリームを要求するための少なくとも1つの要求メッセージをクライアントから受信するステップ、及び
少なくとも1つの要求メッセージに応じて、少なくとも1つの要求されたメディアデータストリームに対応するメディアデータをクライアントに送信するステップ
を実行するように構成されたマイクロプロセッサを備える。
したがって、本発明のデバイスは、要求されたデータのみが送信されるので仮想現実メディアデータの送信を最適化することができ、高解像度の画像に対応できるので品質を向上させることができ、送信されるべきデータの制御がクライアントによって行われるのでサーバ端でのスケーラビリティを保持することができる。また、本発明のデバイスによれば、クライアントは、少ないリソースしか必要としない。
一実施形態では、マイクロプロセッサは、メディアデータを生成するワイドビューの撮像に関する記述的情報が撮像投影に関連するようにさらに構成される。
一実施形態では、マイクロプロセッサは、ワイドビューの撮像投影を表すメディアデータの少なくとも1つの空間的区画の品質レベルが表示面にレンダリングされる場合、対応する空間的区画の所望の品質レベルの関数として特定されるようにさらに構成される。
一実施形態では、マイクロプロセッサは、記述的情報が少なくとも部分的に少なくとも1つのディスクリプタ内に提供されるようにさらに構成される。
一実施形態では、マイクロプロセッサは、少なくとも1つのディスクリプタがメディアデータの空間的区画の少なくとも1つのバージョンの記述的情報を備えるようにさらに構成され、記述的情報は少なくとも部分的に少なくとも1つのディスクリプタに記述された空間的区画の定義及び関連する品質レベルを備える。
一実施形態では、マイクロプロセッサは、少なくとも部分的に少なくとも1つのディスクリプタに記述された空間的区画が撮像投影から生じる領域の関数として定義されるようにさらに構成される。
一実施形態では、マイクロプロセッサは、少なくとも1つのディスクリプタがメディアデータの異なる空間的区画の記述的情報を備えるディスクリプタのリストを備え、少なくとも1つの他のディスクリプタがメディアデータの異なる空間的区画と関連付けられる少なくとも1以上の異なる品質レベルを備えるようにさらに構成される。
一実施形態では、マイクロプロセッサは、記述的情報が受信すべきメディアデータに関するリソースを識別する情報を備えるようにさらに構成される。
一実施形態では、マイクロプロセッサは、品質レベルがフレーム符号の関数として定義された視野を備えるようにさらに構成され、視野が空間的部分又は好適なレンダリング視野に対応する。
一実施形態では、マイクロプロセッサは、視野が複数の値によって定義されるようにさらに構成され、複数の値の少なくとも一つの値が品質レベルの項目の関数として、及びクライアントの少なくとも一つの特性の関数として計算される。
一実施形態では、マイクロプロセッサは、品質レベルがフレーム符号の関数として定義される視点を備えるようにさらに構成され、視点が空間的部分又は好適なレンダリング視点に関する。
一実施形態では、マイクロプロセッサは、記述的情報がフレーム符号の識別子をさらに備えるようにさらに構成される。
一実施形態では、マイクロプロセッサは、品質レベルが品質ランクを備えるようにさらに構成される。
一実施形態では、マイクロプロセッサは、ディスクリプタが受信されたメディアデータのレンダリングを可能としながらディスクリプタ内の記述的情報に対応するメディアデータがクライアントによって破棄され得るかをシグナリングするシグナリング情報に関連付けられるようにさらに構成される。
本発明はソフトウェアで実施され得るので、本発明は、任意の適切な搬送媒体、特に適切な有体搬送媒体又は適切な一時的搬送媒体上でプログラム可能な装置に提供するコンピュータ可読コードとして具現され得る。有体搬送媒体は、フロッピーディスク、CD−ROM、ハードディスクドライブ、磁気テープデバイス又は固体メモリデバイスなどの記憶媒体を含み得る。一時的搬送媒体は、電気信号、電子信号、光信号、音響信号、磁気信号又は電磁信号、例えばマイクロ波若しくはRF信号などの信号を含み得る。
本発明の更なる効果が、図面及び詳細な説明を検討すれば当業者には明らかとなる。任意の追加の効果がここに組み込まれることが意図される。
本発明の実施形態を、例示としてのみ、以下の図面を参照してここに説明する。
図1a、1b及び1cからなる図1は、パノラマビデオシーケンスの特性を概略的に示す。 図2は、本発明の実施形態が基づく、HTTPを介するメディアストリーミングの一般原則を示す。 図3aは、メディアプレゼンテーション及び対応するマニフェストファイルを生成するステップを示す。 図3bは、マニフェストファイルを受信するステップ及びメディアストリームを選択するステップを示す。 図4は、DASHコンテキストにおけるマニフェストファイルの構造例を示す。 図5は、本発明の1以上の実施形態を具現化するコンピューティングデバイスの概略ブロック図である。
実施形態によれば、本発明により、クライアントによって必要とされる特性に対応する特性を有するセグメントが要求され得るように仮想現実又は全方向性メディアコンテンツのセグメントの記述をストリーミングマニフェスト又はストリーミング再生リストに提供することが可能となる。そのような特性は、特に、視野、視点、及び動的適応を可能とする相対的な品質情報を備える。
DASHのコンテキストにおいて、及び好ましい実施形態として、ストリーミングマニフェスト:メディアプレゼンテーションディスクリプション(MPD)を形成するために、メディアコンテンツをメディアデータセグメントにカプセル化するのにISO BMFF標準が使用される。一般的に、各トラックは、DASHを使用して独立したメディアコンテンツとしてマニフェストに記述される。
しかし、(例えばメタデータトラックとしてOMAF定義を介して)MPDに記述されたVRビデオシーケンスの特定の符号化構成を特定するために、ユーザは(マニフェストに加えて)第1の初期化セグメントをダウンロードしなければならないことが観察されている。次にユーザは、VRビデオコンテンツの符号化構成を取得するのに、最低限でも各ビデオコンテンツの各第1のメディアデータセグメントの始まりをダウンロードしなければならず、さらにVRコンテンツ特性を指定するメタデータサンプルを含むメタデータトラックもダウンロードしなければならない。この初期化情報をダウンロードすると、遅延及び追加のHTTP往復時間が発生する。これらの遅延により、ユーザは、メディアプレゼンテーションの鑑賞を開始する前に待機しなければならない。
これらの問題を解決するために、品質に関する種々の設定を有する全ての仮想現実メディアコンテンツコンポーネントは、マニフェストにコンパクトな方法で記述される。このように、特定の符合化構成及び/又は特定の品質レベルとHTTP−URLとの間の関連付けを確立することができ、ビデオセグメントのダウンローディングが全てのビデオセグメントの代替に関して最適に実行される。言い換えると、本発明の実施形態により、マニフェスト又は再生リストに記述される異なるメディアストリーム内の符合化構成(及び品質についても)を正確に表現することが可能となり、ビデオバージョンを選択する場合に、ダウンロードする必要のあるもの及びオプションでダウンロード可能なものをストリーミングクライアントに示すことが可能となる。
上述したように、エンドユーザに没入型体験を提供するように生成される新しい種類のビデオシーケンスが存在する。そのようなビデオシーケンスは、「魚眼」対物レンズを使用するか、複数の方向に応じて取得画像に対して特殊なリグに配置される幾つかのカメラを使用して撮像される。後者の設定によれば、得られる画像はワイドシーンのパノラマ画像を形成するためにスティッチングされる(「魚眼」対物レンズを使用する場合は、このパノラマ画像が直接得られる)。
図1a、1b及び1cからなる図1に、マルチ方向性、プルリ方向性、全方向性、360°又は仮想現実ビデオシーケンスともいわれるパノラマビデオシーケンスの特性を概略的に示す。
以下では、ワイドビューは、画像が取得されるシーンのビューであり、このワイドビューは一般に使用されるよりも大きな視野角(広角)に対応すると考えられる。説明のために、180°パノラマをワイドビューとして考える。他の例は、撮影されたシーンの没入型ビューを形成する水平軸に沿った360°(おそらく垂直軸においても360°)ワイドビューである。そのようなワイドビューに対応する画像は、通常は仮想現実に使用される。なお、360°ビューは、コンピュータによって生成される合成シーケンスであってもよい。
広角のビューにおいて、一般的にパノラマビデオシーケンスは、適切な比率を保持するように、表示されるより前に幾何学的な投影を必要とする。なお、使用される投影は、現実を反映しなくてもよく、むしろワイドビューの(すなわちステレオ投影http://en.wikipedia.orf/wiki/Stereographic_projectionに基づく小さな惑星の写真効果のような)芸術的表現であってもよい。
ワイドビューから撮像された(又は計算された)画像及び画像のシーケンスは、それぞれパノラマ画像及びパノラマ画像シーケンスを形成する。
例えば、図1aのビデオ100は、パノラマ画像105−1から105−nのシーケンスからなる。これらのパノラマ画像は、画像の2Dプラン上へのワイドビューの投影から生じる。
それゆえ、各パノラマビデオ又はパノラマ画像は、特定の幾何学的投影、又は2Dマップ内への参照点を囲む3D球面シーン(又はその一部)の幾何学的な変換であるパノラマ投影と関連付けられる。幾つかのタイプの投影が存在する(非限定リストである)。
−球体型投影
−楕円球体型投影
−円筒型投影
−立方体型投影
−角錐型投影
−投影使用なし
なお、ここで、画素の不連続なマップを生成し得る投影が存在する。説明のために、立方体投影は、全体として立方体の1つの面に各々が対応する6つの投影エリアからなる。
パノラマ領域は、パノラマ画像の、長方形であってもなくてもよい画素のサブセットである。各パノラマ領域は、パノラマ投影タイプの特定のタイプからもたらされる。例えば、立方体型投影を考慮すると、パノラマ画像の各領域は、立方体の1つの面に対応し得る。
図1aに戻り、パノラマ画像105−1は、立方体型投影から生じる。それゆえ、R1からR6の6つのエリアに分割される。これらのエリアの各々は、一般的に110に参照されるパノラマ領域であり、立方体の1つの面に対応する。
図1bに示すように、ディスプレイ上の360°パノラマ画像のレンダリングは、全体として、ディスプレイ上に投影を介してパノラマ画像を変換することにあり、球体115として表され得る3Dワイドビューの没入型観察を可能とする。
図1cに示すように、ディスプレイの特性に依存して、3Dワイドビューを表す3D球体の部分120のみが鑑賞され得る。この部分は、ディスプレイの視野(FOV)によって決定される。このFOVは、部分の2つの観測角度によって、例えば水平FOV角度125及び垂直FOV角度130でパラメータ化される。他のパラメータ化は、水平FOV及び対角FOV角度である。
所定の3Dフレーム符号(例えば図1bの3Dフレーム符号135)における球体表面上のワイドビューのバージョンの投影の観察方向を視点という。ビューポート140は、特定の視点及び特定のFOVに従って(3D球体に投影された)パノラマ画像の投影に対応する2D画像である。
図2に、HTTPを介するメディアストリーミングの一般原則を示し、本発明の実施形態はそれに基づいている。
図示のように、メディアサーバ200は、特に、異なるメディアコンテンツコンポーネント例えばオーディオ及びビデオデータストリームを含むメディアプレゼンテーション205がその中に含まれるメディアプレゼンテーションを備える。オーディオ及びビデオストリームは、独立してインターリーブ又は記憶され得る。メディアプレゼンテーションは、メディアコンテンツコンポーネントの代替のバージョンを(異なるビットレート、品質、解像度、サンプリングレートなどで)提案できる。
例えば、このメディアプレゼンテーションのメディアコンテンツコンポーネントは、ISO Base Media File Format及びDASH推奨に従ってカプセル化される。カプセル化ステップの結果、各代替バージョン(すなわちDASHコンテキストのRepresentation、例えばRepresentation1及びRepresentation2)は、小さな独立した及び連続的な時間的メディアセグメント(それぞれ例えば時間的メディアセグメント210−1から210−3及び211−1から211−3)、例えばMP4標準(ISO/IEC14496−14)に準拠して、独立してアドレッシング及びダウンロードされ得るメディアセグメントに、時間的に分割される。各メディアセグメントは、1以上のメディアコンテンツコンポーネントを含む。アドレス(すなわち図示の例ではHTTP URLアドレス)は全てのメディアセグメントに対してサーバ200によって設定され、マニフェストは図3を参照してこれより以下に説明するように作成される。
マニフェスト、例えばMPDは、ドキュメント、典型的にはXMLファイルであり(又はHTTP Live Streamingについてはプレーンテキストファイルでさえある)、所与のメディアプレゼンテーションについてアクセス可能となる全てのメディアコンテンツコンポーネントを記述する。そのような記述は、メディアコンテンツコンポーネントのタイプ(例えばオーディオ、ビデオ、オーディオビデオ、メタデータ又はテキスト)、メディアセグメントの継続時間及びメディアセグメントに関連付けられるアドレス(例えばURL)、すなわちメディアコンテンツコンポーネントが得られるアドレスを備え得る。
通常、MPDは、図4に示す階層データモデルに基づく。それは1つ又は複数の期間(図4の符号400)で構成され、各期間は開始時間及び継続時間を有し、1つ又は複数のアダプテーションセット(図4の符号401)で構成される。アダプテーションセットは、1つ又は複数のメディアコンテンツコンポーネント及びその種々の符号化された代替(図4の符号402)についての情報を提供し、同一のメディアコンテンツコンポーネントの各符号化された代替はRepresentationといわれる。そして、各Representationは、通常は1つ又は複数のメディア及び/又は初期化セグメント(図4の符号403)で構成される。
説明のために、メディアプレゼンテーション205のオーディオ及びビデオストリームは、インターリービングされているとみなす。これらのインターリービングされたオーディオ及びビデオデータストリームは、2つの代替のバージョンとして提案され、各バージョンは連続的な時間的メディアセグメント、例えば3つの連続的な期間に対応する3つの連続的な時間的メディアセグメント210−1から210−3及び211−1から211−3に分割される。マニフェストファイルは、幾つかのメディアセグメントを含む少なくとも2つのバージョンを備える少なくとも1つのアダプテーションセット(図示せず)で構成されるメディアプレゼンテーションを記述する。これらのセグメントのアドレスは、サーバ200によって設定される。メディアコンテンツコンポーネント並びにメディアセグメント210−1から210−3及び211−1から211−3に関係する情報のこれらのアドレス及び他の項目は、メディアプレゼンテーション205に対応するマニフェスト215においてアクセス可能である。
このマニフェストファイルは、クライアント220に送信される(ステップ225)。受信された後、クライアント220によって解析されて、マニフェストファイル215はどのプレゼンテーションが利用可能であるか、メディアプレゼンテーション205のメディアセグメント210−1から210−3及び211−1から211−3のどちらがアクセス可能であるかを判定する。また、マニフェストファイル215は、これらのメディアセグメントのhttpアドレス及びこれらのメディアセグメント間の関係を特定するのにも使用される。さらに、マニフェストファイル215によって、メディアプレゼンテーションのコンテンツ(すなわち所与の例においてはインターリービングされたオーディオ及びビデオ)についての情報の項目が与えられる。情報のこれらの項目は、解像度、ビットレート及び同様の情報を備え得る。
したがって、この情報を考慮すると、クライアント220のアダプテーションロジックモジュール250は、適切なバージョンからメディアセグメントを選択して、これらのメディアセグメントをダウンロードする対応するhttp要求を発行することができる(ステップ230)。それに応じて、サーバ200は、要求された時間的メディアセグメントを送信する(ステップ235)。http応答235において受信されたこれらの時間的メディアセグメントは、パージング(デカプセル化)され、次に適切なメディアデコーダ240(通常はメディアタイプ毎に1つの復号器)において復号され、ディスプレイ245に表示され得る。特に、表示するステップは、例えばパノラマ画像を新しいフレーム符号(ディスプレイフレーム符号)に投影する変換処理を含み得る。
なお、サーバ200は、別個のサーバ又はデバイスにあってもよく、各々が以下のステップの1以上を実行する。
−メディアコンテンツを生成するステップ
−メディアストリームをファイルフォーマットにカプセル化するステップ
−ストリーミングマニフェスト又は再生リストファイルを生成するステップ
−メディアプレゼンテーションを送信するステップ、及び
−多くの場合、コンテンツセグメントとしてメディアコンテンツを送信するステップ
それゆえ、クライアントは、マニフェストについての要求を第1のサーバ、例えばアプリケーションサーバに発してもよく、メディアコンテンツについての要求を1以上の他のサーバ、例えばメディアサーバ又はストリーミングサーバに発してもよい。例えばメディアがCDN(コンテンツ配信ネットワーク)を介して配信される場合は、メディアサンプルを送信するサーバも異なっていてもよい。
図3aに、メディアプレゼンテーション及び対応するマニフェストファイルを生成するステップを示す。そのようなステップは通常、図2のサーバ200などのサーバによって実行される。
それぞれ300及び305で示されるオーディオ及びビデオデータは、例えば図3に示すステップを実行するサーバに接続されるデータ記憶サーバなどの外部ソースから通信ネットワークを介して得ることができる。
図示のように、生ビデオデータ301は、仮想現実ビデオを生成するようにスティッチングされ得る(ステップ302)。そのようなステップは、サーバ内で又は遠隔的に、例えばビデオソースにおいて実行され得る。
シーンのワイドビュー、例えば図1bの符号180で示すように水平方向及び垂直方向の両方に360°ビューを考慮しつつ、ワイドビューのパノラマ画像は、1台のイメージセンサ又はイメージセンサのセットによって撮像されたこのワイドビューの2D画像上への投影(撮像投影という)に対応する。したがって、撮像投影スキームは、例えば記録されたシーンの適切な比率を保持するように各パノラマ画像に関連付けられる。
オーディオデータは、ステップ310の間に圧縮される。そのような圧縮は、例えばMP3規格(MPEG−1/2オーディオレイヤ3)に基づき得る。並行して(又は以前又は以降で)、ビデオデータは、ステップ315の間に圧縮される。この目的のために、MPEG4、MPEG/AVC、SVC、HEVC又はスケーラブルHEVCなどのビデオデータ圧縮アルゴリズムが使用され得る。
オーディオ及びビデオデータは、それぞれ符号320及び325で示すようにデータエレメンタリストリームとして圧縮される。オーディオ及びビデオデータが圧縮された後(ステップ326)、圧縮されたエレメンタリストリームは、メディアプレゼンテーション335全体を作成するようにステップ330の間にカプセル化される。
例えば、ISO BMFF標準(又は、さらに説明のために、このISO BMFF標準のAVC、SVC、HEVC又はスケーラブルHEVCへの延長)は、メディアプレゼンテーション全体として符号化されたオーディオ及びビデオエレメンタリストリームのコンテンツを記述するのに使用され得る。したがって、カプセル化されたメディアプレゼンテーションは、マニフェスト、例えばXMLマニフェスト345の生成(ステップ340)についての入力として使用される。
MPEG−2 Transport Stream、Common Media Application Format及びWebMなどの、メディアデータストリームに関する記述的メタデータ及びタイミング情報を提供するいずれのカプセル化フォーマットもまた使用され得る。カプセル化フォーマットは、サーバによって抽出されることができストリーミングクライアントがメディアデータの最適なバージョンを選択することに役立つマニフェストファイルに提供され得る記述的情報を提供する必要がある。
図3bに、マニフェストファイルからメディアプレゼンテーションを選択するステップを示す。通常、そのようなステップは、図2のクライアント220などのストリーミングクライアントによって実行される。最初のクライアント要求350に応じて、マニフェストファイル345が、クライアントによって受信される。マニフェストファイルは、ダウンロードされるべきメディアストリームを特定するようにステップ360でパージングされる。
次に、メディアストリームの選択ステップ365は、クライアントの特性(例えば帯域幅、コーデック、解像度、VRサポートなど)に一致するメディアセグメントのリストを特定することを目的とする。これは、図2に示すクライアント220のアダプテーションロジック250などのアダプテーションロジックによって対処され得る。例えば、クライアントは、ステップ370でそれらのHTTP URLアドレスで要求されたメディアセグメントのリストを含むRepresentationをMPDファイルから選択する。
それに応じて、メディアプレゼンテーションファイルが受信される。それにはカプセル化されたメディアストリームが含まれる。そしてメディアデータエレメンタリストリームは、ステップ380でメディアストリームを復号する前に、カプセル化フォーマットから抽出される。例えばISO BMFFファイルの場合、エレメンタリストリームの抽出は通常、mp4リーダ又はmp4パーザによって対処される。したがって、各エレメンタリストリームは、適切な復号器で復号され、次にステップ390の間にVRレンダラ上にレンダリングされる。
特に、レンダリング処理は、没入型体験を提供する復号されたサンプルのレンダリング投影ステップを含む。ストリーミングセッションの間、クライアントのアダプテーションロジックは、送信を監視し(ステップ385)、メディアの別のバージョンに切替えることもある(例えばクライアントバッファがオーバーフロー若しくはアンダーフローの危険性がある場合、又はユーザインターフェースを介してユーザからの選択若しくは動作に従う場合)。そのような場合、アルゴリズムは、ステップ365に戻る。切替えがない場合、ステップ370において、同一バージョンの次のメディアセグメントが要求される。
図4に、DASHマニフェストファイルの階層型コンテンツの例を示す。より正確には、サーバで利用可能なメディアプレゼンテーションのコンテンツ及びメディアデータともいわれる各メディアコンポーネントとHTTPアドレスとの間の関係を示す。
説明のために、メディアプレゼンテーションは、(任意のコンテンツをスプライシングする)periodといわれる粗粒期間に時間的に分割され得る。
MPDレベルでの「period」は、ある時間間隔に対して利用可能な全てのメディアコンポーネント(ピリオドが1つのみの場合はメディアプレゼンテーションの完全な継続時間であり得る)を記述する。このピリオド内で、メディアコンテンツコンポーネントは、簡単なストリーミング、ランダムアクセス及び切替を可能とするように、前述の小さな時間間隔に対応する幾つかのデータセグメントから構成され得る。
MPD(例えばXML MPD)は、各ピリオドに対応する全てのデータを含む。したがって、この情報を受信すると、クライアントは、各時間間隔のコンテンツを認識する。例えば、メディアプレゼンテーション400は幾つかの要素に分割され、各々はperiodに対応する。さらに説明のために、第2のピリオドは、モーメント100s及び294s内に構成される。
各メディアプレゼンテーションのピリオドは、対応する時間間隔に対して利用可能なメディアコンテンツコンポーネントを記述するデータを含む。401として示すメディアプレセンセーションのピリオドの1つをより詳細に説明する。
さらに、幾つかの「アダプテーションセット」要素が、1つはビデオ記述に関して、1つはオーディオ記述に関して組込まれる。各アダプテーションセットは、所与のトラックに関連付けられる。この例においては、第1のアダプテーションセットはビデオトラックに関連付けられ、第2のアダプテーションセットは考慮されている時間間隔においてビデオトラックに対応するオーディオトラックに関連付けられる。
図示のように、アダプテーションセット構造402は、サーバで利用可能な符号化されたビデオの異なる可能なRepresentation(すなわちバージョン)に関する情報を含む。この例においては、第1のRepresentationは、500kbit/sのビットレートで符号化される640×480の空間的解像度を有するビデオである。さらなるパラメータは、フィールド「SegmentInfo」403によって与えられる。
第2のRepresentationは、250kbit/sで符号化される同一のビデオである。例えば、第1のRepresentationと比較すると品質の低下を表し得る。クライアントは、ネットワーク上の利用可能な帯域幅に応じて、それらのRepresentationの間を切替ることができることになる。
これらのRepresentationの各々は、クライアントがビデオに関係するHTTPアドレスを知る場合にはHTTP要求によってダウンロードされ得る。各RepresentationのコンテンツとHTTPアドレスとの間の関連付けは、追加の時間的サブレイヤを使用することによって行われる。
符号403で示すように、ビデオRepresentation402は、(この例では10秒の)時間的セグメントに分割される。
各時間的セグメント403は、HTTPアドレスを介してアクセス可能なサーバで記憶されたコンテンツである。さらに、初期化セグメントは、利用可能である。この初期化セグメントは、(ビデオがISO BMFF又は延長を使用してカプセル化されていた場合)カプセル化されたビデオのMP4コンテンツを記述するMP4初期化情報を含む。例えば、それは、クライアントがビデオに関する復号アルゴリズムをインスタンス化するのに役立つ。初期化セグメント及びメディアセグメントのHTTPアドレスは、MPD(又は記述)ファイルに与えられ、以下により詳細に説明する。
なお、DASH標準は、アダプテーションセットレベル又はサブリプレゼンテーションレベルのいずれかで、MPDのメディアコンテンツコンポーネント間の空間的関係を表す能力を導入する。それは「urn:mpeg:dash:VR:2014」と等しい@schemeIdURIを有するSupplementalProperty又はEssentialPropertyディスクリプタのいずれかを使用することにある。@value属性は、SRD(空間的関係記述)パラメータの値のコンマ区切りのリストで構成され、以下のパラメータを備える。
−source_idは、メディアコンテンツのソースの識別子を提供する。Period内で「source_id値」といわれる同一の値を共有する異なるSRDで使用されるパラメータ(object_x、object_y、object_width、object_height)が比較されて2つのRepresentationが相互に空間的に関連していることを特定し得る。
−object_xは、このSRDディスクリプタによって定義される参照空間において、このディスクリプタを使用してAdaptationSet又はSubRepresentationに記述されるビデオの左上角部の水平位置を提供する。
−object_yは、このSRDディスクリプタによって定義される参照空間において、このディスクリプタを使用してAdaptationSet又はSubRepresentationに記述されるビデオの左上角部の垂直位置を提供する。
−object_widthは、このSRDディスクリプタによって定義される参照空間において、このディスクリプタを使用してAdaptationSet又はSubRepresentationに記述されるビデオの幅を提供する。
−object_heightは、このSRDディスクリプタによって定義される参照空間において、このディスクリプタを使用してAdaptationSet又はSubRepresentationに記述されるビデオの高さを提供する。
−total_widthは、同一のsource_id値のSRDを有するAdaptationSet又はSubRepresentationに記述されるビデオのx軸に沿った最大範囲を提供する。この値は、存在しない場合は、同一のsource_id値を有するSRDアノテーションのtotal_width値に設定される。所与のsource_id値について、少なくとも1つのtotal_width値が指定されなければならない。
−total_heightは、同一のsource_id値のSRDを有するAdaptationSet又はSubRepresentationに記述されるビデオのy軸に沿った最大範囲を提供する。この値は、存在しない場合は、同一のsource_id値を有するSRDアノテーションのtotal_height値に設定される。所与のsource_id値について、少なくとも1つのtotal_height値が指定されなければならない。
−spatial_set_idは、同一のsource_id値を有するAdaptationSet又はSubRepresentationのグループに関する識別子を提供する。spatial_set_idパラメータは、AdaptationSet又はSubRepresentationのグループが重なりのない若しくは間隙のない連続ビデオのグループを構成しているか、又は同一のスケーラビリティレイヤの一部であることを示すのに使用されることができる。
object_x及びobject_yパラメータ(それぞれobject_width及びobject_height)は、ソースと関連付けられた座標系において関連するAdaptationSet又はSubRepresentationの、source_idパラメータによって識別される2D位置(それぞれ2Dサイズ)を表す。この座標系は、任意の原点を使用し得る。特定の実施形態によれば、x軸は左から右に向けられ、y軸は上から下に向けられる。同一のsource_id値を共有する全てのSRDは、同一の原点及び軸配向を有する。
total_width及びtotal_height値は、この座標系における参照空間を定義する。object_x、object_y、object_width及びobject_heightパラメータの値は、total_width及びtotal_heightパラメータの値に関連している。同一のsource_id値を共有するSRDの位置(object_x、object_y)及びサイズ(object_width、object_height)は、参照空間のサイズを考慮して、すなわち、それぞれのディスクリプタのobject_x及びobject_width値をtotal_width値で除し、object_y及びobject_height値をtotal_height値で除した後に比較されてもよい。
上述したように、仮想現実ビデオサーバは、異なる処理能力及び異なるディスプレイ構成、例えば狭角ディスプレイ(ゴーグルに関しては通常40−120°FOV)から顕著な広角(マルチプロジェクタディスプレイ及び/又はウォールスクリーンに関しては最大360°FOV)を有し得る多種多様なクライアントに対応する必要がある。したがって、適応ストリーミングコンテキストにおいては、ビデオサーバは、ビデオシーケンスの符号化されたバージョンを多数生成して(クライアントによって正しくレンダリングされないサンプルに対して、送信中に帯域幅を消費することを回避するように)各特定のクライアントがその処理制約を満たす適切なメディアストリームを確実に見つけられるようにする必要がある。
本発明の実施形態によれば、ビデオサーバは、VRコンテンツの使用に特定の仮想現実メディアデータの新規の組合せを生成する。これら新規の組合せにより、VRクライアントに対して選択代替が付加され、それによりVRクライアントのニーズの機能として最適なVRストリームを選択することが可能となる。特に、ビデオサーバは、異なる視野(FOV)を有するビデオシーケンスを生成し得る。サーバは、クライアントが最良の品質を与えられた視点を選択できるように、パノラマ画像の特定のエリアにおいて異なる符号化品質も使用してもよい。
品質の差は以下の項目のいずれか1つ又は両方に起因し得る。
−特定のエリアに関する異なる符号化品質(QP)、及び
−特定の視点においてより高い画素解像度にもたらし得る異なるパノラマ投影
例えば、ビデオサーバは、角錐型投影を使用し得る。この投影モデルにおいては、角錐底面は、他の4つの面よりも高い画素解像度を有する。結果として、角錐底面上に球体として表される3Dワイドビューの1つの視点から投影されるサンプルの品質は、反対方向に従って投影されるサンプルよりも良好な品質を有する。それゆえビデオサーバは、異なる投影方向を使用して(例えば、3Dワイドビューを表す球体の規則的なサンプリングで、あらゆる方向において)、幾つかのストリーム(例えば30)を計算する。
符号化処理ループ(例えば図3を参照して説明されるステップ300から326)の最後に得られるストリームのセットは、その後にファイルフォーマット(通常はISO BMFF)を使用する異なるメディアストリームにカプセル化される。なお、ストリームのセットは、各ストリームについて異なるカプセル化トラックを使用して同じメディアストリームにカプセル化されてもよい。これには、特に各符号化されるレイヤが単一のメディアストリームの異なるトラックにカプセル化され得るスケーラブルビデオストリームに当てはまる。
付録のテーブル1に示す第1の実施形態によれば、ビデオサーバは、1つのメディアストリームの少なくとも1つのセグメントの視野を特定する情報を含むマニフェストファイル(例えばDASHコンテキストに対してはMPD)を生成する。この情報は、3Dワイドビューを表す球体の3Dフレーム符号、例えば図1bのフレーム符号135において、関係するセグメントと共に鑑賞され得る最大視野に対応する。
第1の代替例によれば、FOVは、それぞれ図1cに示す水平及び垂直角度125及び130などの水平角度、垂直角度又は斜角度のいずれかに対応する単一の値によってパラメータ化される。このFOV値は、0から360まで変化し得るものであり、度で測定された角度に対応する。
MPDファイルにおいて、この新規のパラメータは、MPDの幾つかのレベルでの専用ディスクリプタにおいて定義され得る。
特に、この新規のディスクリプタは、XMLノード(属性又は要素)としてセグメントの記述において定義されてもよく、水平FOV角度については@HFOV、垂直FOV角度については@VFOV又は対角FOVについては@DFOVである。また、アダプテーションセット、リプレゼンテーション又はサブリプレゼンテーションレベルでの属性又は要素において定義されてもよい。例えばここでは名称が提供され、任意の予約された名称が、RepresentationBaseType要素、AdaptationSetType、RepresentationType又はSubRepresentationTypeの新規の属性としてMPDのXMLスキームにおいて使用され宣言され得る。
この新規のディスクリプタは、専用のディスクリプタにおいて、例えばサブリプレゼンテーションレベル、リプレゼンテーションレベル又はアダプテーションセットレベルで定義され得る(例えばそのschemeIdUri属性において「urn:mpeg:dash:VR:2016」のような特定のURNでシグナリングされる)VRコンテンツに専用のディスクリプタにおいて定義され得る。それは、親AdaptationSet、Representation又はSubRepresentationがVRのschemeIdUri属性をサポートしないクライアントによって対処される場合にはSupplementalPropertyディスクリプタとして、及び親AdaptationSet、Representation又はSubRepresentationがVRのschemeIdUri属性をサポートしないクライアントによって破棄される必要のある場合にはEssentialPropertyディスクリプタとして定義され得る。
次に、使用されるべき(2つの角度値によってパラメータ化された)FOVは、MPDによって提供される角度値及び対応するメディアサンプルのサイズ又はアスペクト比を使用して計算される。説明のために、MPDによって提供されるFOV情報が水平FOV角度である場合、垂直FOV角度は、このFOV情報値をアスペクト比で除することによって計算される。したがって、一例として、MPDが180(初期設定では度)に等しいHFOV値及び16/9であるアスペクト比を示す場合、垂直値は、180*9/16=101°に等しくなる。
第2の代替例によれば、FOVは、同一のディスクリプタを使用する少なくとも2つの角度値によってマニフェストファイルに指定される。第2のFOVを計算する必要がなく、クライアント端でのマニフェストの処理時間はわずかに改善される。
なお、マニフェストファイルにおいてFOVパラメータを定義する効果は、クライアントはマニフェストファイルをパージングしてFOVパラメータの関数として選択する適切なバージョンを識別するだけでよいことである。マニフェストにおけるこの付加的な情報がなければ、クライアントは、全てのバージョンの初期化セグメントをダウンロードしてストリームのFOVに関するファイルフォーマットにおける情報をパージングする必要がある。
したがって、クライアントは、マニフェストファイルをパージングし、各メディアストリーム代替についてFOVの情報を抽出する。クライアントは、そのFOVに最も近いFOVを有するメディアストリームを選択する。FOVがディスプレイのFOVよりも狭い場合は、復号された画像はVRコンテンツの正確な鑑賞を保証するようにレンダリング前に引き延ばされる。
代替例では、クライアントは、予備的なステップにおいて、FOV値がそのFOVよりも狭いメディアストリームを破棄する。
そして、クライアントのディスプレイFOVに最も近いFOVのメディアストリームのみが選択される。それにより、十分なFOVを有するメディアストリームが選択されることが保証される。
他の実施形態によれば、ビデオサーバは、メディアセグメントと関連付けられる目標とするディスプレイの構成を指定するマニフェストにおいて他の情報を指定する。例えばMPDにおいては、これはアダプテーションセットレベルで、リプレゼンテーションレベルで又はサブリプレゼンテーションレベルであっても行われ得る。
例えば、そのような情報は、ディスプレイの目標とするFOVに向けられてもよい。したがって、ストリームは、90°水平FOVを有するHMDを目標とするように符号化されてもよく、一方で他のストリームは210°水平FOVを目標とするように符号化されてもよい。目標とする(又は好適な)FOVがメディアストリームのFOVより狭いことがあるので、目標とする(又は好適な)FOVは前述のFOV情報と異なることが観察される。特に、ある撮像投影は、パノラマの特定の部分上により多くの画素解像度を提供する。例えば、角錐型投影は、その底面上により高い品質を生成する。角錐底面の対応するFOVは、投影の1つのパラメータであり、それゆえVRストリームごとに異なっていてもよい。例えば、結果として生じるストリームは360°FOV及び3Dフレーム符号(例えば図1bの3Dフレーム符号135)における角錐底面のサイズに対応する120°の好適な(又は目標とする)FOVを提供し得る。
付録のテーブル2の疑似マニフェストは、アダプテーションセットレベルで好適な(又は目標とする)FOV値(ここでは180、度単位とみなされる)を専用のディスクリプタにおいて示すマニフェストの一例である。なお、SupplementalProperty汎用DASHディスクリプタに対する新規属性によって搬送される情報は、このDASH汎用ディスクリプタの値属性に配置されることができる。
結果として、このアダプテーションセットに属する全てのリプレゼンテーションは、180°のFOVで表示されるのに適している。好適な(又は目標とする)FOVパラメータのシンタックスは、先の実施形態のFOVパラメータと同様に定義され得る。特に、それは、それぞれ水平、垂直又は対角の好適なFOV値のいずれかに対応する複数の値を有する単一のパラメータを介して、又は3つの可能なFOV角度からの2つの値によって指定され得る。単一のFOV角度値を使用する場合には、HFOVは、デフォルトで使用される。2つの値が使用される場合には、HFOV及びVFOVが、デフォルトで使用される。代替例において、好適なFOVディスクリプタは、使用される角度及びFOVを定義するそれらの値も指定する情報を含む。
クライアント端では、マニフェストの受信に応じて、かつ後者をパージングした後、好適なFOVパラメータを得てもよい。結果として、クライアントは、その所定のディスプレイのFOV以上に大きく、かつ最も近い好適な(又は目標とする)FOVを有するバージョンを選択し得る。結果として、クライアントは、そのレンダリングデバイス上に最高のレンダリング品質を提供することになるメディアセグメントを要求することが可能となる。
マニフェストに指定され得る第2のパラメータは、最適な視点(すなわち1つのバージョンを鑑賞するのに使用されるべき鑑賞方向)である。このパラメータは、ワイドビューリプレゼンテーションのフレーム符号(例えば図1bのフレーム符号135)における鑑賞方向を指定する値のセットを記述する。
付録のテーブル3は、そのようなパラメータをSupplementalPropertyディスクリプタにバージョンレベルで付加することによって、クライアントに最適な視点を提供する方法を説明する疑似マニフェストの一例である。この例によれば、このパラメータは、4つのoptimalViewpoint値=「refID,yaw,pitch,roll」によって定義され、
−refIDは、共通のフレーム符号を選択する目的のフレーム符号の識別子であり、
−yawは、フレーム符号識別子の値に関連付けられるフレーム符号におけるYaw角度の値であり、
−pitchは、フレーム符号識別子の値に関連付けられるフレーム符号におけるPitch角度の値であり、
−rollは、フレーム符号識別子の値に関連付けられるフレーム符号におけるRoll角度の値である。
通常、HMDシステムに対して、Yaw角度は頭部の左から右へ又は右から左への回転に対応し、Pitch角度は上から下へ又は下から上への回転に対応し、Roll角度は鑑賞方向軸周りの頭部の回転(傾き)に対応する。
フレーム符号の識別子は、好ましくは、最適な鑑賞方向座標が同一のフレーム符号において定義されるバージョンに対して同一となる固有の識別子の値である。フレーム符号の原点は、デフォルト、又はクライアントによって(例えばDASHコンテキストにおいては「main」値を有するRoleディスクリプタを介して、又はデフォルトの視点情報を提供するのに定義された特定の名称及びschemeIdUriを有する専用のDASHディスクリプタを介して)選択された初期バージョンであるべきであり、Yaw、Pitch、Rollは、このリプレゼンテーションに対しては0に等しくなるべきである。
代替例によれば、Yaw値のみが定義され、残る2つの値(Pitch及びRoll)はオプション(及びデフォルトで0に設定される)である。例えば、値=「0,180,0」は、ヨー角度の値は0であり、ピッチ角度の値は180°であり、ロール角度の値は0であることを意味する。別の例は、値=「120」である。この場合、ヨー値のみが指定され(120に等しい)ピッチ及びロールはデフォルトの値0に等しいと推測される。デフォルトによって、角度値は度で表され、他の単位が好適である場合には、FOVディスクリプタにangle_unit(例えばangle_unit=「radian」)又は第4の選択的パラメータを提供する付加的な属性を必要とする。
代替例によれば、Yaw、Pitch及びRollは、全て選択的である(及びデフォルトで0に設定される)。そのような場合には、ディスクリプタは、どの角度が定義されるかを明示的に指定した。例えば、前述の値属性は、2つのコンポーネントパラメータのリストである。第1のコンポーネントは、例えば「ヨー」、「ピッチ」若しくは「ロール」と等しい角度のタイプを指定する文字列であるか、又は各角度タイプに関連付けられる所定の整数値である。第2のコンポーネントは、第1のコンポーネントの値によって内部に定められる角度の対応する値である。
ここでも、クライアント端では、マニフェストの受信に応じて、かつ後者をパージングした後、最適な視点パラメータを得てもよい。その結果、クライアントは、視点状態に最も近い最適な視点を有するバージョンを選択し得る。例えば、ユーザの現在の鑑賞方向(視点)がメディアストリーム選択処理(例えば図3bのステップ365)の間に特定される場合には、この観測視点は、各バージョンの最適な視点情報と比較される参照値として使用される。観測視点との差異を最小にするバージョン(すなわちDASHコンテキストにおけるAdaptationSet、Representation又はSubRepresentation)は、選択される。結果として、クライアントは、現在のクライアントの鑑賞状態に対して最高の品質を提供すべきメディアセグメントを要求することが可能となる。
付録のテーブル2及びテーブル3に示す例において、マニフェストパーザがサポートされていない場合にはディスクリプタを無視可能とするために、好適なFOV及び/又は最適な視点がSupplementalPropertyディスクリプタに指定されることが観察される。実際に、最適な視点又は好適なFOVのいずれかが無視されていても、リプレゼンテーションは、さらに再生可能である。
代替例によれば、ビデオサーバは、非VRクライアントに有用なものとはならない代替のリプレゼンテーションを無視させ、デフォルトのリプレゼンテーション(SupplementalPropertyディスクリプタを伴うもの)を選択させるように、1つの特定のリプレゼンテーション又はアダプテーションセットを除いてこれらのパラメータをEssentialPropertyディスクリプタに指定する。パラメータは、好ましくは、これらのパラメータがアダプテーションセットレベル、リプレゼンテーションレベル又はサブリプレゼンテーションレベルのいずれかで使用され得るように、RepresentationBaseTypeで提供される。
他の代替例によれば、好適なFOV及び/又は最適な視点は、VRコンテンツに関する情報のパージングをさらに簡単にするように、アダプテーションセットレベルにおいて(又はリプレゼンテーション若しくはサブリプレゼンテーションレベルにおいて)ある専用のXMLノード内に(MPDスキームに宣言されるその名称で)指定される。次に、VR情報パラメータは、子要素又はMPDのXML要素のいずれかの属性のどちらかとして指定され得る。そのような場合には、VR情報は、存在する場合には、それが指定されるXML要素によって記述されたメディアストリームだけでなく、その全ての子にも適用される。
さらに他の実施形態によれば、ビデオサーバは、クライアントがパノラマ画像のサブパートに関連付けられる異なるレベルの品質の機能として適切なバージョンを選択することに役立つマニフェストファイルを生成し得る。例えば、ビデオサーバは、立方体型投影を使用する1つのパノラマビデオシーケンスに対して幾つかのメディアデータストリームを符号化し得る。立方体型投影の各面は、異なる品質レベルで符号化され得る。したがって、ビデオサーバは、(各ストリームに対して異なる)1つのパノラマ領域が高品質であるがその他は中度又は低度の品質となるように、各ストリーム内において6つの異なるストリームを生成する。同様のストリーム構成が、パノラマ投影の他のタイプに対して使用され得る。
そのような場合、クライアントは、ユーザ鑑賞方向(又は視点)の機能として選択するバージョンを特定することができない。したがって、ビデオサーバは、好ましくは、クライアントがユーザ視点の機能として適切なバージョンを選択するのに役立つヒントを提供するマニフェストファイルに新規の情報を付加する。
この実施形態によれば、サーバは、パノラマ領域に好ましくは対応するパノラマストリームにおける品質領域のセットを定義する。品質領域の位置は、品質領域の記述であるマニフェストの新規の情報フィールドにおいて予め定められていてもよいし、指定されていてもよい。そのようなqualityRegionパラメータは、x軸及びy軸座標を含み各パノラマ画像における領域並びにパノラマ領域のサイズ(幅及び高さ)を局在化する。これらの4つの値は、パノラマ領域を識別するqualityRegionパラメータの値の第1のセットを構成する。
パノラマ領域の位置に加えて、オプションのパラメータは、パノラマ領域に関するさらなる情報を指定するのに使用され得る。説明のために、それによってパノラマ領域が対応する立方体型投影の面を示す識別子が指定され得る。識別子は、前、後、上、下、左又は右の面に対応する所定の整数値であり得る。例えば、OMAFにおいて提案された表面識別子値の1つであり得る。識別子は、先のリストにおける面の名称そのままである文字列要素としても定義されてもよい。同様のアプローチが、他の投影タイプに対して使用され得る。
他のフィールドは、値の第1のセットと関連付けられて、領域と関連付けられる品質ランクを提供し得る。そのような品質ランクは、0に等しい場合には最高品質を示す整数値であり得る。品質ランクが増加する場合は、品質が低下する。あるいは、品質ランクは、「high、low、medium、highest及びlowest」などの所定の値のセット内に選択され得る。
付録のテーブル4aに、以下のシンタックスqualityRegion=「qRegId,x,y,w,h」を有する品質領域ディスクリプタの一例を示し、
−qRegIdは、品質領域の固有識別子であり、
−(x,y)は、品質領域の座標であり、
−(w,h)は、それぞれ品質領域の幅及び高さである。
この例では、qualityRegionは、DASH汎用ディスクリプタの新規の要素として表される。それらは、1つの新規の属性におけるリストとしても表されることもでき、DASHの場合には選択されたディスクリプタ(DASH汎用のもの又は明示的なもののいずれか)内にこれら5つのパラメータを提供する任意のXML構造によっても表されることもできる。
qualityRegion座標は、パノラマビデオシーケンスフレーム符号において定義される。qualityRegionは、パノラマビデオシーケンスの全ての異なるバージョンに共通のディスクリプタにおいて定義される。通常、テーブル4aの例に示すように、MPDファイルは、Panoramaバージョン毎に幾つかのRepresentationを有するAdaptationSetを含む。それゆえ、QualityRegionディスクリプタは、AdaptationSetレベルで定義される。パノラマビデオシーケンスの異なるバージョンが異なるサイズを有する場合には、qualityRegion座標は、その幅及び高さ属性を使用するAdaptationSet参照において定義される。PanoramaにおけるqualityRegionの対応する位置は、AdaptationSetの幅(resp.高さ)及びパノラマビデオシーケンスの幅(resp.高さ)の比を適用することによって特定される。品質ランク情報は、各パノラマバージョンレベルで、第1のパラメータがqualityRegionディスクリプタに記述された領域の固有識別子qRegIdであるqualityRegionDescriptorで指定される。qualityRegionDescriptorの第2のパラメータは、qualityRankの値である。
代替例において、パノラマ領域の位置は、空間的関係ディスクリプタに従って指定される。例えば、DASHコンテキストにおいては、SRDディスクリプタが、各品質領域に対応する各メディアストリームに対して使用される。この場合は、SRDディスクリプタは、その値が対応する品質領域の固有識別子に対応するspatial_set_idを含む。テーブル4bに、SRDディスクリプタを使用してqualityRegion情報を指定する情報を有するマニフェストファイルを示す。シーケンスの2つのパノラマバージョンは、第1のAdaptationSetにおいて2つのRepresentation内に記述される。さらに、SRDディスクリプタは、この第1のAdaptationSetにおいて使用されパノラマビデオシーケンスが品質領域にさらに分割されることを示す。そして、品質領域の各々(例えば2つ)は、異なるAdaptationSetに(例えば第2及び第3のAdaptationSetに)記述される。品質領域に対応するAdaptationSetのSRDディスクリプタにおいて使用されるspatial_set_id値は、qRegId品質領域の固有識別子として使用される。そして、先の実施形態と同一のqualityRegionDescriptorは、1つのパノラマビデオシーケンスバージョンに対応する各Representationにおいて使用される。
他の実施形態によれば、品質領域は、ワイドビューバージョンのフレーム符号(例えば図1bのフレーム符号135)において定義される。そのような場合には、品質領域を局在化することを可能とする値の第1のセットは、(図1cを参照することにより示すように)視点及びFOVに関連付けられたフレーム符号において特定される。
好適な視点を参照することによって、上述したように、品質領域の視点は、ヨー、ピッチ及びロール値に対応する3つのベクトル成分のセットとして定義され得る。代替例においては、3つの成分のうちの少なくとも1つが提供され、他は0に等しいと推測される。
同様に、品質領域のFOVは、単一のFOV値、典型的には水平FOV角度、又は2つのFOV値、例えば水平FOV角度及び垂直FOV角度で表され得る。
最後の実施形態によって提供される効果は、品質領域がパノラマ投影から独立して定義され得るという事実にある。
付録のテーブル4cに、パノラマシーケンスの2つのバージョンに対応する2つのリプレゼンテーションに指令された疑似マニフェストの一例を示す。第1のリプレゼンテーションによれば、120°の水平FOV及び90°の垂直FOVに対する(0,0,0)視点方向における品質領域は、高品質レベル(「r0」)を用いて符号化される。パノラマ画像の残りの領域は、より低い品質レベルを用いて符号化される。第2のリプレゼンテーションによれば、120°の水平FOV及び90°の垂直FOVに対する(180,0,0)視点方向における品質領域は高品質を用いて意符号化され、パノラマ画像の残りの領域はより低い品質レベルを用いてさらに符号化される。
特定の実施形態によれば、サーバ200は、アダプテーションセット、リプレゼンテーション又はサブリプレゼンテーションレベルで専用のSupplementalPropertyディスクリプタにqualityRegionDescriptionパラメータを含むMPDファイルを生成する。
このパラメータのシンタックスは、以下のようなものであればよい。
qualityRegionDescription=“pitch,yaw,roll,h_fov,v_fov,qualityRank[,regionID]”
ここで
−pitch、yaw及びrollは、フレーム符号における視点方向であり、
−h_fov及びv_fovは、それぞれ水平及び垂直FOV角度であり、
−qualityRankは、品質ランクであり、及び
−オプションのregionID値は、(適用可能であれば)品質領域が対応するパノラマ領域を示す。
そのようなマニフェストを受信すると、クライアントは、各品質領域記述に記述された対応する値とそれらを比較するように、その鑑賞方向及び現在のFOVを特定する。現在表示されているパノラマ画像のエリアを含む品質領域に対する最高品質ランクを提供するリプレゼンテーションが選択されてもよい。
マニフェスト、例えばクライアント端でのMPDのパージングを簡略化するために、ビデオサーバは、MPDにおいて指定される品質領域のリストを生成し得る。品質領域のリストは、MPDの任意のレベル(トップレベル、ピリオド、アダプテーションセット、リプレゼンテーション又はサブリプレゼンテーション)で、そのリストが領域リストのレベルの任意のサブレベルに対して有効であるという制約と共に定義され得る。好ましくは、品質領域のリストは、ピリオドレベルで定義される。
先の実施形態を参照して上述したように、品質領域のリストの品質領域は、ワイドビューリプレゼンテーションのフレーム符号(例えば図1bのフレーム符号135)における視点及びFOVから特定され得る。例えば、1つのqualityRegionパラメータは、qRegIdが品質領域の固有識別子であり、(pitch,yaw,roll)が視点値を表し、(h_fov,v_fov)が水平及び垂直FOV角度を表すqualityRegion=“qRegId,pitch,yaw,roll,h_fov,v_fov”値で定義され得る。
品質領域のリストは、品質領域におけるワイドビューのサンプリングに対応する幾つかの品質領域のリストである。
付録のテーブル5に示すように、疑似マニフェストファイルは、VR schemeIdUri属性がピリオドレベルで定義される専用のディスクリプタにn個の品質領域(ここでnは4より大きい整数値)のリストを定義する。
各リプレゼンテーションは、品質領域識別子を参照して品質ランク値が後続する品質領域識別子を備えるqualityRegionDescription属性における各領域に関連付けられたqualityRank属性を指定する。
n個の品質領域の各々に対するqualityRank値を指定することを回避するために、特別な品質領域識別子(通常、「default」文字列又は−1に等しい)は、非特定領域に対するデフォルトのqualityRank値を示す。
テーブル5に示す例において、第1のリプレゼンテーションは、品質領域のデフォルトのqualityRank値が5であり品質領域識別子ゼロに対応するqualityRegionが品質ランク0を有することを示す2つの品質領域記述パラメータを含む。
クライアント端では、マニフェストを受信すると、後者は、パージングされて、ユーザによって表示されるべき品質領域の識別子を特定する。そして、クライアントは、そのように特定された品質領域識別子に対する最低のqualityRank値を有するリプレゼンテーションを選択する。したがって、この最後の実施形態において、クライアント側のパージング処理は、減少する。
なお、前述した実施形態において、VR関連パラメータは、MPDの任意のレベルで定義され得る。特に、新規のパラメータの任意の組合せが、サーバとクライアントとの間のストリームコンテキストに応じて可能である。さらに、VR関連パラメータは、「urn:mpeg:dash:VR:2016」と等しいSchemeIdUri属性を有する専用のディスクリプタ、典型的にはSupplementalPropertyディスクリプタ(又はEssentialPropertyディスクリプタ)で定義するべきである。VR関連パラメータは、新規のXMLノード(要素又は属性)として定義されてもよい。代替例において、これらのパラメータは、任意のRepresentationBaseType互換可能なXML要素の新規の要素(又は属性)として直接導入される。そのような場合には、VR関連パラメータは、VR関連パラメータ及びその子パラメータを含む最上位のXML要素に対して有効である。
特定の実施形態によれば、サーバは、再生可能なVRコンテンツに対するデフォルトのリプレゼンテーションを選択することによって、新規のVRディスクリプタをサポートしないクライアントとの後方互換性を提供する。選択されたリプレゼンテーションは、例えばパノラマビューに対応していてもよいし、ディスプレイ端で投影処理が適用されなくても過大な歪みなく表示可能なパノラマビューのデフォルトのパノラマ領域に対応していてもよい。
その目的のため、サーバは、SupplementalPropertyディスクリプタタイプをこの選択されたリプレゼンテーションに関連付けられる新規のVRディスクリプタに対して使用することができ、EssentialPropertyディスクリプタタイプをその他のリプレゼンテーションに対して使用することができる。これにより、新規のVRディスクリプタをサポートしないクライアントがマニフェストファイルの1つのビューを復号できることが保証される。他の代替例において、選択されたリプレゼンテーションは、例えば「main」値のRoleディスクリプタを介してデフォルトのビューとして定義される。
図5は、本発明の1以上の実施形態を実装するコンピューティングデバイス500の概略ブロック図である。コンピューティングデバイス500は、マイクロコンピュータ、ワークステーション又は軽量ポータブルデバイスなどのデバイスであってもよい。コンピューティングデバイス500は、
−マイクロプロセッサなどの中央処理装置(CPU)501、
−本発明の実施形態の方法の実行可能コードを記憶するランダムアクセスメモリ(RAM)502、その他、マニフェストを読み出し、及び書き込み、並びに/又はビデオを符号化し、並びに/又は所与のファイルフォーマットでデータを読み出し、若しくは生成するための方法を実行するのに必要な変数及びパラメータを記録するように適合されたレジスタ、例えばそのメモリ容量が拡張ポートに接続されたオプションのRAMによって拡張可能である、
−本発明の実施形態を具現化するコンピュータプログラムを記憶する読出し専用メモリ(ROM)503、
−通常、処理されるべきデジタルデータが送信又は受信される通信ネットワークに順次接続されるネットワークインターフェース504。ネットワークインターフェース504は、単一のネットワークインターフェースであってもよいし、異なるネットワークインターフェースのセット(例えば有線及び無線インターフェース、又は異なる種類の有線若しくは無線インターフェース)から構成されてもよい。データは、CPU501において稼働するソフトウェアアプリケーションの制御下で送信用にネットワークインターフェースに書き込まれ、又は受信用にネットワークインターフェースから読み出される。
−ユーザからの入力を受信する又はユーザに情報を表示するユーザインターフェース(UI)505、
−ハードディスク(HD)506、
−ビデオソース又はディスプレイなどの外部デバイスとデータを送受信するためのI/Oモジュール507
に接続された通信バスを備える。
実行可能コードは、読出し専用メモリ503、ハードディスク506、又は例えばディスクなどの取り外し可能デジタル媒体のいずれかに記憶され得る。変形例によれば、プログラムの実行可能コードは、実行される前にハードディスク506などの通信デバイス500の記憶手段の1つに記憶されるために、ネットワークインターフェース504を介して通信ネットワークによって受信され得る。
中央処理装置501は、本発明の実施形態による1つ又は複数のプログラムのソフトウェアコードの命令又は一部の実行を制御及び指示するように適合され、その命令は前述の記憶手段の1つに記憶される。電源投入後、CPU501は、例えばプログラムROM503又はハードディスク(HD)506からそれらの命令がロードされた後のソフトウェアアプリケーションに関連する主RAMメモリ502からの命令を実行することができる。CPU501によって実行される場合、そのようなソフトウェアアプリケーションは、前述の図に示すフローチャートのステップを実行する。
この実施形態においては、装置は、ソフトウェアを使用して本発明を実施するプログラム可能な装置である。一方、代替的には、本発明は、(例えば特定用途向け集積回路すなわちASICの形態における)ハードウェアにおいて実施されてもよい。
本発明を特定の実施形態を参照して上で説明したが、本発明は特定の実施形態に限定されるものではなく、本発明の範囲内にある変形例は当業者には明らかになるはずである。
例えば本発明は、例えば特定の対象領域を拡大するようにTV又はマルチメディアディスプレイのリモートコントローラとして作用するカメラ、スマートフォン、ヘッドマウントディスプレイ又はタブレットのようなデバイスに組み込まれてもよい。それらはまた、特定の対象エリアを選択することによってマルチメディアプレゼンテーションの個人用の閲覧体験を有するのに同じデバイスから使用され得る。これらのデバイス及び方法からのユーザによる他の使用は、その人の選好するビデオの選択された一部を他の接続デバイスと共有することである。それらはまた、監視カメラが本発明によるデータを提供する方法をサポートするという条件で、スマートフォン又はタブレットと共に使用して、監視下にある建造物の特定エリアで何が起こっているかを監視することができる。
多くのさらなる変更及び変形が、前述の例示された実施形態を参照することにより当業者に示唆され、それらは例としてのみ与えられており、本発明の範囲を限定することを意図したものではなく、その範囲は添付の特許請求の範囲によってのみ特定される。特に、異なる実施形態からの異なる特徴は、適宜入れ替えられてもよい。
付録
テーブル1:視野を指定する情報を有する疑似マニフェスト
<MPD>
<Period …>
<!-- Panorama view (Pyramid Projection)-->
<AdaptationSet …>
<SupplementalProperty schemeldUri ="urn:mpeg:dash:VR:2016" HFOV="180"/>
<SegmentTemplate media="seg_$Number$.m4s" startNumber="1" initialization="seg_init.mp4"/>
<Representation id="1" ...>… </Representation>
<Representation id="2" …>… </Representation>
</AdaptationSet>
<!-- Panorama view (Pyramid Projection)-->
<AdaptationSet …>
<SupplementalProperty schemeldUri ="urn:mpeg:dash:VR:2016" HFOV="360"/>
<SegmentTemplate media="seg2_$Number$.m4s" startNumber="1" initialization="seg2_init.mp4" …/>
<Representation Id="3’ …>… </Representation>
</AdaptationSet>
</MPD>

テーブル2:好適な視野を指定する情報を有する疑似マニフェスト
<MPD>
<Period …>
<!-- Panorama view (Pyramid Projection)-->
<AdaptationSet …>
<SupplementalProperty schemeldUri ="urn:mpeg:dash:VR:2016" preferredFOV="180"/>
<SegmentTemplate media="seg_$RepresentationId$_$Number$.m4s" startNumber="1" initialization="seg_$RepresentationId$_init.mp4"/>
<Representation id="1" ...>… </Representation>
<Representation id="2" …> … </Representation>
</AdaptationSet>
</MPD>

テーブル3:最適な視点を指定する情報を有する疑似マニフェスト
<MPD>
<Period …>
<!-- First Panorama view (Pyramid Projection)-->
<AdaptationSet …>
<SupplementalProperty schemeldUri ="urn:mpeg:dash:VR:2016" optimalViewpoint=”0,0,0,0"/>
<SegmentTemplate media="seg_$Number$.m4s" startNumber="1" initialization ="seg_init.mp4"/>
<Representation id="1" ...>… </Representation>
<Representation id="2" …> … </Representation>
<!-- Second Panorama view (Pyramid Projection)-->
<AdaptationSet …>
<SupplementalProperty schemeldUri ="urn:mpeg:dash:VR:2016" optimalViewpoint=”0,180,0,0"/>
<SegmentTemplate media="seg2_$Number$.m4s" startNumber="1" initialization ="seg2_init.mp4"/>
<Representation id="3" ...>… </Representation>
<Representation id="4" …> … </Representation>
</AdaptationSet>
</MPD>

テーブル4a:SRDディスクリプタに基づく品質ランク値に関連付けられた品質領域を指定する情報を有する疑似マニフェスト
<…>
<AdaptationSet width=1920 height=1080>
<SupplementalProperty schemeIdUri="urn:mpeg:dash:VR:2016"
<qualityRegion qRegId=”1” x=”0” y=”0” w=”1920” h=”540” />
<qualityRegion qRegId="2” x=”0” y=”540” w=”1920” h=”540" />
</SupplementalProperty>
<!-- First Panorama version -->

<Representation …>
<SupplementalProperty schemeldUri="urn:mpeg:dash:VR:2016" panorama=”0, Pyramidal, 2” >
<qualityRegionDescription qRegId=“1” quality=“0” />
<qualityRegionDescription qRegId=”2” quality= “5” />
</SupplementalProperty>

</Representation>

<!-- Second Panorama version -->

<Representation …>
<SupplementalProperty schemeldUri="urn:mpeg:dash:VR:2016" panorama=”0, Pyramidal, 2” >
<qualityRegionDescription qRegId=”1” quality =“5” />
<qualityRegionDescription qRegId=”2” quality=“0”/>
</SupplementalProperty>

</Representation>
<AdaptationSet>

テーブル4b:SRDディスクリプタに基づく品質ランク値に関連付けられた品質領域を指定する情報を有する疑似マニフェスト
<…>
<!-- First Panorama version -->

<AdaptationSet …>
<SupplementalProperty schemeIdUri="urn:mpeg:dash:srd:2014"
value="1, 0, 0, 0, 0, 1920, 1080"/>
<Representation …>
<SupplementalProperty schemeldUri="urn:mpeg:dash:VR:2016" panorama=”0, Pyramidal, 2” >
<qualityRegionDescription qRegId=”1” quality=”0” />
<qualityRegionDescription qRegId=”2” quality =”5”/>
</SupplementalProperty>

</Representation>

<!-- Second Panorama version -->

<Representation …>
<SupplementalProperty schemeldUri="urn:mpeg:dash:VR:2016" panorama=”0, Pyramidal, 2” >
<qualityRegionDescription qRegId=”1” quality=”5” />
<qualityRegionDescription qRegId =”2” quality =”0”/>
</SupplementalProperty>

</Representation>
</AdaptationSet>

<!-- First quality region-->
<AdaptationSet…>

<EssentialProperty schemeIdUri="urn:mpeg:dash:srd:2014"
value="1, 0, 0, 1920, 540, 1920, 1080, 1"/>

</AdaptationSet>

<!-- Second quality region2-->
<AdaptationSet>

< EssentialProperty schemeIdUri="urn:mpeg:dash:srd:2014"
value="1, 0, 540, 1920, 540, 1920, 1080, 2"/>

</AdaptationSet>
<…>

テーブル4c:品質ランク値に関連付けられた品質領域を指定する情報を有する疑似マニフェスト
<!-- First Panorama view 1-->

<Representation …>
<SupplementalProperty schemeldUri="urn:mpeg:dash:VR:2016" panorama=”0, Pyramidal, 2” qualityRegionDescription=”0, 0, 0, 120, 90, r0, front”/>

</Representation>

<!-- Second Panorama view 2-->
<Representation>
<SupplementalProperty schemeldUri="urn:mpeg:dash:VR:2016" panorama=”0,Pyramidal,2” qualityRegionDescription=”180,0,0,120,90,r0,front”/>

</Representation>
<…>

テーブル5:品質ランク値に関連付けられた品質領域を指定する情報を有する疑似マニフェスト
<…>
<!-- Quality Region descriptions -->
<SupplementalProperty schemeldUri="urn:mpeg:dash:VR:2016">
<qualityRegion value=”0, 0, 0, 0, 120, 90”/>
<qualityRegion value=”1, 10, 0, 0, 120, 90”/>
<qualityRegion value=”2, 20, 0, 0, 120, 90”/>
<qualityRegion value=”3, 30, 0, 0, 120, 90”/>
<…>
<qualityRegion value=”n,320, 0, 0, 120,9 0”/>
</SupplementalProperty>
<…>
<!-- First Panorama view 1-->
<Representation>
<SupplementalProperty schemeldUri="urn:mpeg:dash:VR:2016" panorama=”0, Pyramidal, 2” >
<qualityRegionDescription qRegId=”default” quality=”5” />
<qualityRegionDescription qRegId=”0” quality=”0”/>
</SupplementalProperty>

</Representation>
<…>
<!-- Second Panorama view 2-->
<Representation>
<SupplementalProperty schemeldUri="urn:mpeg:dash:VR:2016" panorama=”0, Pyramidal, 2” >
<qualityRegionDescription qRegId=”default” quality=”5” /> <qualityRegionDescription qRegId =”1” quality=”0”/>
</SupplementalProperty>

</Representation>
<…>

Claims (17)

  1. 全方向メディアフォーマットに準拠したメディアデータを受信するための方法であって、
    MPEG-DASH規格に準拠し、かつ複数の領域のメディアデータのURI(uniform resource identifier)と、前記複数の領域のそれぞれのメディアデータを記述するメディア情報と、前記複数の領域の少なくとも1つの品質ンクを示す品質情報であって前記品質ランクに対応する所定の整数値と、を含むメディアプレゼンテーションディスクリプションをサーバから受信するステップと、
    前記品質ランクに応じて1以上の領域を選択するステップと、
    前記メディアプレゼンテーションディスクリプションの少なくとも1つのURIを用いて前記1以上の領域に対応するメディアデータを要求する少なくとも1つの要求メッセージを前記サーバに送信するステップと、
    前記サーバから、前記少なくとも1つの要求メッセージに従って前記1以上の領域に対応する前記メディアデータを受信するステップと、
    を有することを特徴とする方法。
  2. 前記品質情報は、アダプテーションセットレベル、またはリプレゼンテーションレベルにおいて存在することを特徴とする請求項1に記載の方法。
  3. 前記メディアプレゼンテーションディスクリプションは、さらに視野情報のフィールドを含むことを特徴とする請求項1または2に記載の方法。
  4. 全方向メディアフォーマットに準拠したメディアデータを提供する方法であって、
    MPEG-DASH規格に準拠し、かつ複数の領域のメディアデータのURI(uniform resource identifier)と、前記複数の領域のそれぞれのメディアデータを記述するメディア情報と、前記複数の領域の少なくとも1つの品質ランクを示す品質情報であって前記品質ランクに対応する所定の整数値とを含むメディアプレゼンテーションディスクリプションをクライアントデバイスに送信するステップと、
    前記クライアントデバイスから、前記メディアプレゼンテーションディスクリプションの少なくとも1つのURIを用いて、前記品質ランクに応じて選択された1以上の領域に対応するメディアデータを要求する少なくとも1つの要求メッセージを受信するステップと、
    前記クライアントデバイスに、前記少なくとも1つの要求メッセージに従って前記1以上の領域に対応する前記メディアデータを提供するステップと、
    を有することを特徴とする方法。
  5. 前記品質情報は、特定の@schemeldURIを用いてSupplementalProperty要素に記述されることを特徴とする請求項1から4のいずれか1項に記載の方法。
  6. 前記領域は、2次元領域であることを特徴とする請求項1から5のいずれか1項に記載の方法。
  7. 前記領域は、3次元幾何学的表示面における前記メディアデータの幾何学的投影を表すことを特徴とする請求項1から5のいずれか1項に記載の方法。
  8. 前記領域は、球体の少なくとも一部への前記メディアデータの幾何学的投影を表すこと特徴とする請求項7に記載の方法。
  9. 前記球体の少なくとも一部は、pitch値、yaw値、roll値、水平視野角および垂直視野角によって特徴づけられることを特徴とする請求項8に記載の方法。
  10. 全方向メディアフォーマットに準拠したメディアデータを受信するクライアントデバイスであって、
    MPEG-DASH規格に準拠し、かつ複数の領域のメディアデータのURI(uniform resource identifier)と、前記複数の領域のそれぞれのメディアデータを記述するメディア情報と、前記複数の領域の少なくとも1つの品質ンクを示す品質情報であって前記品質ランクに対応する所定の整数値と、を含むメディアプレゼンテーションディスクリプションをサーバから受信する第1の受信手段と、
    前記品質ランクに応じて1以上の領域を選択する選択手段と、
    前記第1の受信手段によって受信した前記メディアプレゼンテーションディスクリプションの少なくとも1つのURIを用いて前記1以上の領域に対応するメディアデータを要求する少なくとも1つの要求メッセージを前記サーバに送信する送信手段と、
    前記サーバから、前記送信手段によって送信した前記少なくとも1つの要求メッセージに従って前記1以上の領域に対応する前記メディアデータを受信する第2の受信手段と、
    を有することを特徴とするクライアントデバイス。
  11. 前記品質情報は、特定の@schemeldURIを用いてSupplementalProperty要素に記述されることを特徴とする請求項10に記載のクライアントデバイス。
  12. 前記領域は、2次元領域であることを特徴とする請求項10または11に記載のクライアントデバイス。
  13. 全方向メディアフォーマットに準拠したメディアデータを提供するサーバであって、
    MPEG-DASH規格に準拠し、かつ複数の領域のメディアデータのURI(uniform resource identifier)と、前記複数の領域のそれぞれのメディアデータを記述するメディア情報と、前記複数の領域の少なくとも1つの品質ランクを示す品質情報であって前記品質ランクに対応する所定の整数値とを含むメディアプレゼンテーションディスクリプションをクライアントデバイスに送信する送信手段と、
    前記クライアントデバイスから、前記メディアプレゼンテーションディスクリプションの少なくとも1つのURIを用いて、前記品質ランクに応じて選択された1以上の領域に対応するメディアデータを要求する少なくとも1つの要求メッセージを受信する受信手段と、
    前記クライアントデバイスに、前記少なくとも1つの要求メッセージに従って前記1以上の領域に対応する前記メディアデータを提供する提供手段と、
    を有することを特徴とするサーバ。
  14. 前記品質情報は、特定の@schemeldURIを用いてSupplementalProperty要素に記述されることを特徴とする請求項13に記載のサーバ。
  15. 前記領域は、2次元領域であることを特徴とする請求項13または14に記載のサーバ
  16. プログラム可能な装置のためのコンピュータプログラムであって、前記コンピュータプログラムは、前記プログラムが読み込まれ、プログラム可能な装置によって実行されると請求項1から9のいずれか1項に記載の方法の各ステップを実行するための命令を備える、コンピュータプログラム。
  17. 請求項1から9のいずれか1項に記載の方法を実現するコンピュータプログラムの命令を記憶するコンピュータ可読記憶媒体。
JP2018560004A 2016-05-23 2017-05-18 仮想現実メディアコンテンツのストリーミングを向上させる方法、デバイス及びコンピュータプログラム Active JP6979035B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1609058.1A GB2550589B (en) 2016-05-23 2016-05-23 Method, device, and computer program for improving streaming of virtual reality media content
GB1609058.1 2016-05-23
PCT/EP2017/062051 WO2017202700A1 (en) 2016-05-23 2017-05-18 Method, device, and computer program for improving streaming of virtual reality media content

Publications (3)

Publication Number Publication Date
JP2019524004A JP2019524004A (ja) 2019-08-29
JP2019524004A5 JP2019524004A5 (ja) 2020-06-25
JP6979035B2 true JP6979035B2 (ja) 2021-12-08

Family

ID=56369831

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018560004A Active JP6979035B2 (ja) 2016-05-23 2017-05-18 仮想現実メディアコンテンツのストリーミングを向上させる方法、デバイス及びコンピュータプログラム

Country Status (7)

Country Link
US (1) US20190158933A1 (ja)
EP (1) EP3466091B1 (ja)
JP (1) JP6979035B2 (ja)
KR (1) KR102246002B1 (ja)
CN (1) CN109155873B (ja)
GB (1) GB2550589B (ja)
WO (1) WO2017202700A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6485865B2 (ja) * 2015-05-15 2019-03-20 日本電気株式会社 配信制御装置、中継装置、配信システム、配信制御方法、及びプログラム
KR102170550B1 (ko) * 2016-05-24 2020-10-29 노키아 테크놀로지스 오와이 미디어 콘텐츠를 인코딩하는 방법, 장치 및 컴퓨터 프로그램
US10587934B2 (en) * 2016-05-24 2020-03-10 Qualcomm Incorporated Virtual reality video signaling in dynamic adaptive streaming over HTTP
MX2022004787A (es) * 2016-10-12 2022-12-01 Fraunhofer Ges Forschung Transmisión continua espacialmente desigual.
KR102633595B1 (ko) 2016-11-21 2024-02-05 삼성전자주식회사 디스플레이장치 및 그 제어방법
US10560660B2 (en) * 2017-01-04 2020-02-11 Intel Corporation Rectilinear viewport extraction from a region of a wide field of view using messaging in video transmission
US20190104326A1 (en) * 2017-10-03 2019-04-04 Qualcomm Incorporated Content source description for immersive media data
JP2019118026A (ja) * 2017-12-27 2019-07-18 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
WO2019162567A1 (en) 2018-02-23 2019-08-29 Nokia Technologies Oy Encoding and decoding of volumetric video
CN111869221B (zh) * 2018-04-05 2021-07-20 华为技术有限公司 Dash对象之间的有效关联
CN110519652B (zh) * 2018-05-22 2021-05-18 华为软件技术有限公司 Vr视频播放方法、终端及服务器
US10779014B2 (en) 2018-10-18 2020-09-15 At&T Intellectual Property I, L.P. Tile scheduler for viewport-adaptive panoramic video streaming
CN113170235A (zh) * 2018-12-03 2021-07-23 索尼集团公司 信息处理装置和方法
WO2020190270A1 (en) * 2019-03-15 2020-09-24 STX Financing, LLC Systems and methods for compressing and decompressing a sequence of images
EP3949422A1 (en) 2019-03-26 2022-02-09 PCMS Holdings, Inc. System and method for multiplexed rendering of light fields
CN112150603B (zh) * 2019-06-28 2023-03-28 上海交通大学 基于三维点云的初始视角控制和呈现方法及系统
CN110619669B (zh) * 2019-09-19 2023-03-28 深圳市富视康智能股份有限公司 一种支持多种图形样式的鱼眼图像渲染系统及方法
CN116347183A (zh) * 2020-06-04 2023-06-27 腾讯科技(深圳)有限公司 一种沉浸媒体的数据处理方法及相关装置
CN115004716A (zh) * 2020-06-24 2022-09-02 中兴通讯股份有限公司 容积媒体处理方法和装置
US20220103655A1 (en) * 2020-09-29 2022-03-31 International Business Machines Corporation Proactively selecting virtual reality content contexts
US11922561B2 (en) * 2020-10-06 2024-03-05 Mediatek Singapore Pte. Ltd. Methods and systems for implementing scene descriptions using derived visual tracks

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001285832A (ja) * 2000-01-24 2001-10-12 Matsushita Electric Ind Co Ltd データ受信装置,データ受信方法,データ伝送方法,およびデータ記憶媒体
CN102056015B (zh) * 2009-11-04 2012-12-05 沈阳迅景科技有限公司 一种全景虚拟现实漫游中的流媒体应用方法
PL2719190T3 (pl) * 2011-06-08 2018-02-28 Koninklijke Kpn N.V. Dostarczanie treści segmentowanej przestrzennie
EP2824885B1 (en) * 2013-07-12 2019-01-23 Provenance Asset Group LLC A manifest file format supporting panoramic video
US10447746B2 (en) * 2013-07-26 2019-10-15 Futurewei Technologies, Inc. System and method for spatial adaptation in adaptive streaming
US20150130814A1 (en) * 2013-11-11 2015-05-14 Amazon Technologies, Inc. Data collection for multiple view generation
US10694192B2 (en) * 2014-06-27 2020-06-23 Koninklijke Kpn N.V. HEVC-tiled video streaming
JP6440747B2 (ja) * 2014-06-27 2018-12-19 コニンクリーケ・ケイピーエヌ・ナムローゼ・フェンノートシャップ Hevcでタイル化されたビデオ・ストリームに基づく関心領域の決定

Also Published As

Publication number Publication date
GB201609058D0 (en) 2016-07-06
GB2550589B (en) 2019-12-04
EP3466091B1 (en) 2022-05-04
KR102246002B1 (ko) 2021-04-29
CN109155873A (zh) 2019-01-04
JP2019524004A (ja) 2019-08-29
US20190158933A1 (en) 2019-05-23
GB2550589A (en) 2017-11-29
CN109155873B (zh) 2021-09-17
EP3466091A1 (en) 2019-04-10
WO2017202700A1 (en) 2017-11-30
KR20190008901A (ko) 2019-01-25

Similar Documents

Publication Publication Date Title
JP6979035B2 (ja) 仮想現実メディアコンテンツのストリーミングを向上させる方法、デバイス及びコンピュータプログラム
JP7223106B2 (ja) 仮想現実メディアコンテンツを適応ストリーミングする方法、デバイス及びコンピュータプログラム
JP6735415B2 (ja) オーディオビジュアルコンテンツの観察点および観察向きの制御された選択のための方法および装置
KR102261559B1 (ko) 정보 처리 방법 및 장치
JP7399224B2 (ja) メディアコンテンツを送信するための方法、装置及びコンピュータプログラム
WO2019202207A1 (en) Processing video patches for three-dimensional content
JP2019526178A (ja) 空間的にタイリングされた全方位ビデオのストリーミング
WO2018068213A1 (zh) 一种视频数据的处理方法及装置
JP7035088B2 (ja) 魚眼ビデオデータのための高レベルシグナリング
KR20210016530A (ko) 미디어 콘텐츠 전송을 위한 방법, 디바이스, 및 컴퓨터 프로그램
JP7177034B2 (ja) レガシー及び没入型レンダリングデバイスのために没入型ビデオをフォーマットする方法、装置、及びストリーム
TWI786572B (zh) 沉浸式媒體提供方法、獲取方法、裝置、設備及存儲介質
KR20210019017A (ko) 컨텐츠의 처리 방법 및 장치
JP2022524871A (ja) メディアコンテンツにおけるレイトバインディングのための方法および装置
CN107438203B (zh) 用于建立和接收清单的方法、网络设备及终端
KR20200020913A (ko) 미디어 정보를 처리하는 방법 및 장치
US20240080501A1 (en) Processing of multi-view video
JP2021064822A (ja) 通信装置、通信装置の制御方法およびプログラム
Kammachi‐Sreedhar et al. Omnidirectional video delivery with decoder instance reduction

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200518

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210708

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210906

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211014

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211112

R151 Written notification of patent or utility model registration

Ref document number: 6979035

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151