JP7133038B2 - メディアコンテンツを送信する方法、装置及びコンピュータプログラム - Google Patents

メディアコンテンツを送信する方法、装置及びコンピュータプログラム Download PDF

Info

Publication number
JP7133038B2
JP7133038B2 JP2020562626A JP2020562626A JP7133038B2 JP 7133038 B2 JP7133038 B2 JP 7133038B2 JP 2020562626 A JP2020562626 A JP 2020562626A JP 2020562626 A JP2020562626 A JP 2020562626A JP 7133038 B2 JP7133038 B2 JP 7133038B2
Authority
JP
Japan
Prior art keywords
track
picture
tracks
group
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020562626A
Other languages
English (en)
Other versions
JP2021525470A (ja
Inventor
フレデリック マゼ,
フランク ドゥヌアル,
ナエル ウエドラオゴ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of JP2021525470A publication Critical patent/JP2021525470A/ja
Application granted granted Critical
Publication of JP7133038B2 publication Critical patent/JP7133038B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/243Image signal generators using stereoscopic image cameras using three or more 2D image sensors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234327Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into layers, e.g. base layer and one or more enhancement layers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234345Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements the reformatting operation being performed only on part of the stream, e.g. a region of the image or a time segment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • H04N21/2353Processing of additional data, e.g. scrambling of additional data or processing content descriptors specifically adapted to content descriptors, e.g. coding, compressing or processing of metadata
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440227Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by decomposing into layers, e.g. base layer and one or more enhancement layers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440245Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display the reformatting operation being performed only on part of the stream, e.g. a region of the image or a time segment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/174Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a slice, e.g. a line of blocks or a group of blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/188Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a video data packet, e.g. a network abstraction layer [NAL] unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本発明はメディアデータをカプセル化し、送信するための方法及び装置に関する。
本発明は仮想現実メディアコンテンツの相互交換、管理、編集、及びプレゼンテーションを容易にする柔軟で拡張可能なフォーマットを提供するため、及び、適応httpストリーミング・プロトコルを使用して例えばインターネットのようなIPネットワーク上でその配信を改善するために、例えばMPEG標準化団体によって定義された通り、ISOベース・メディアファイル・フォーマットによる仮想現実メディアコンテンツのカプセル化、解析及びストリーミングに関連する。
国際標準化機構ベース・メディアファイル・フォーマット(ISO BMFF、ISO/IEC 14496-12)は、ローカル記憶又は、ネットワークを介するか別のビットストリーム送信メカニズムを介する送信のいずれかのための符号化された時限メディアデータ・ビットストリームを記述する周知の柔軟で、かつ、拡張可能なフォーマットである。そのような符号化フォーマットの例は、AVC(Advanced Video Coding)、SVC(Scalable Video Coding)、HEVC(High Efficiency Video Coding)、及びL-HEVC(Layered HEVC)である。ファイル・フォーマット拡張の別の例は、HEVC静止画のような静止画像又は静止画像のシーケンスのためのカプセル化ツールを記述するISO/IEC 23008-12である。このファイル・フォーマットはオブジェクト指向である。それは、逐次的又は階層的に編成され、タイミング及び構造パラメータのような符号化された時限メディアデータ・ビットストリームのパラメータを定義するボックスと呼ばれる構築ブロック(又は4文字コードによって特徴づけられるデータ構造)から構成される。
ファイル・フォーマットでは、全体的なプレゼンテーションは動画と呼ばれる。動画は、メディア又はプレゼンテーションファイルの最上位階層に動画ボックス(4文字コード‘moov’)により記述される。この動画ボックスは、プレゼンテーションを記述する様々なボックスの設定を含む初期化情報コンテナを表す。それは論理的にトラックボックス(4文字コード‘trak’と共に)により表されるトラックに分割される。各トラックは(トラック識別子(track_ID)によって一意に識別される)、プレゼンテーション(例えば、ビデオのフレーム)に属するメディアデータの時限シーケンスを表す。各トラックは(トラック識別子(track_ID)によって一意に識別される)、プレゼンテーション(例えば、ビデオのフレーム)に属するメディアデータの時限シーケンスを表す。各トラック内で、データの各時限単位はサンプルと呼ばれ、これは、ビデオ、オーディオ、又は時限メタデータのフレームであってよい。サンプルは、黙示的に順次番号付けられる。実際のサンプルデータは、動画ボックスと同じ階層でメディアデータボックス(4文字コード‘mdat’と共に)と呼ばれるボックスに保存される。
動画は、全体プレゼンテーションのための情報に続く、結合動画フラグメント及びメディアデータボックスのリストを含む動画ボックスとして、一時的に編成されてよい。動画フラグメント(4文字コード‘moof’のボックス)内には、動画フラグメントごとに0個以上のトラックフラグメントのセット(4文字コード‘traf’のボックス)がある。トラックフラグメントは順次、0個以上のトラック・ラン・ボックス(‘trun’)を含み、各トラック・ラン・ボックスは、そのトラックフラグメントに対するサンプルの連続したランを文書化する。
ファイル・フォーマットでは、メディア又はプレゼンテーションファイルが動画ボックスと同じ階層のメタボックス(‘meta’)内に記述された1つ以上の静的な項目(例えば、1つ以上の静止画像)を含むこともできる。このメタボックスは、静的な項目を記述する記述的情報を含んでよく、この記述的情報は複数のボックスに編成されており(例えば、項目情報ボックス(‘iinf’)内の項目のリストや、項目の場所ボックス(‘iloc’)内のデータ項目の場所(データボックス内)など)、各項目は項目識別子(item_ID)によって一意に識別される。実際の項目データは、メタボックスの項目データボックス(‘idat’)又はファイル最上位階層のメディアデータボックス(‘mdat’)のいずれかに保存される。
ISOBMFFファイルは、複数のトラック(映像コンテンツのためのサブピクチャトラックも注記される)及び/又は複数の静的な項目を形成する、複数の符号化された時限メディアデータ・ビットストリーム又は符号化された時限メディアデータ・ビットストリームのサブ部を含んでよい。ISOBMFF及びその拡張は、トラック、静的な項目、又はサンプルを一緒にグループ化するためのいくつかのグループ化機構を含む。グループは一般的に、共通のセマンティック及び/又は特徴を共有する。
例えば、ISOBMFFは、エンティティグループ機構、トラックグループ機構、及びサンプルグループ機構を備える。エンティティグループ機構は、トラック及び/又は静的な項目が示されたグループ化タイプ又はセマンティックに従ってグループ化されることを示すために使用され得る。トラックグループ機構は、示されたグループタイプ又はセマンティックに従ってトラックがグループ化されていることを示すために使用され得る。サンプルグループ機構は、示されたグループタイプ又はセマンティックに関連付けられた特定のプロパティが、トラック内のサンプルの示されたグループに適用することを示すために使用され得る。
ユーザ体験を改善し、特に没入型体験を提供するために、時限メディアデータ・ビットストリーム(ビデオ及びオーディオ)は、全方向(又は多方向性又は多数方向性)であってよい。360°パノラマビデオとしても知られるビデオに適用されると、ユーザは、表示されるシーン内に位置するように感じる。全方向ビデオは、360°カメラから及び/又は、例えば、全てのカメラが共通の節点を有するように特別なリグに搭載されたいくつかのカメラから得られたビデオストリームの画像を組み合わせることによって、得られてよい。このような画像の組合せは、画像スティッチング又はカメラスティッチングとして知られている。
このような全方向ビデオは、ユーザの視認方向に従ってヘッドマウントディスプレイを介して、又はユーザを取り囲む湾曲した画面上への投影を介してレンダリングされてよい。それは、全方向ビデオのユーザの所望の部分(ビューポートとしても知られる)に従って全方向ビデオにパンするための、ナビゲーション・ユーザ・インターフェースを有する従来の2D画面上に表示されてもよい。それはよく、ユーザが仮想世界にいるように感じるので、仮想現実(VR)と呼ばれる。仮想オブジェクトが全方位ビデオに追加される場合、それは拡張現実(AR)と呼ばれる。
発明者は特に、全方向メディアコンテンツが複数のトラックによって搬送されるいくつかのサブ部に分割される場合に、送信するためのメディアデータに関する情報を記述し、及び信号伝達するときに、いくつかの問題に気付いた。例は、クライアントから特定の解析プロセスを要求するトラックの信号を含み、これはオーバーヘッドを生成し、複雑である。別の例は、トラックのグループの信号と、特にオリジナルの全方向メディアコンテンツと、複数のサブピクチャトラックに埋め込まれた2次元(2D)メディアコンテンツ(投影された、パックされた、又は魚眼コード化されたかのいずれか)との間のマッピングに関連する。
別の例は、表示の準備ができた全方向メディアコンテンツを再構築するために、組み合わされることが許可されるか、又は許可されないサブピクチャトラックの信号を含む。既存ソリューションは、複雑であるか、又は十分に定義されておらず、2次元マルチトラックカプセル化プロセスのための既存の機構に完全に準拠していないかのいずれかである。
本発明は、前述の関連の1つ以上に処理するように考案された。この文脈において、例えば、httpプロトコルを使用するインターネットのようなIPネットワーク上で、メディアコンテンツ(例えば、全方向メディアコンテンツ)をストリーミングするためのソリューションが提供される。
本発明の第1の態様によれば、シーンのワイドビューに対応する符号化メディアデータをカプセル化する方法が提供される。前記シーンの前記ワイドビューから投影ピクチャを得ることと、得られた前記投影ピクチャを少なくとも1つのパック化ピクチャにパッキングすることと、前記少なくとも1つのパック化ピクチャを少なくとも1つのサブピクチャに分割することと、前記少なくとも1つのサブピクチャを複数のトラックに符号化することと、前記符号化トラックに関連付けられた記述メタデータを生成することを有し、前記記述メタデータは、前記トラックにおいて符号化された前記少なくとも1つのサブピクチャと前記少なくとも1つの投影ピクチャとの間の空間関係を示す、各トラックに関連付けられた情報の項目を含む、ことを特徴とする方法。
本発明の別の態様によれば、シーンのワイドビューに対応する符号化メディアデータをカプセル化する方法が提供される。前記シーンの前記ワイドビューから投影ピクチャを得ることと、投影ピクチャを少なくとも1つのサブピクチャに分割することと、前記少なくとも1つのサブピクチャを複数のトラックに符号化することと、前記符号化トラックに関連付けられた記述メタデータを生成することを有し、前記記述メタデータは、前記少なくとも1つの前記トラックにおいて符号化された前記少なくとも1つのサブピクチャと参照ピクチャとの間の空間関係を示す、各トラックに関連付けられた第1の情報項目を含む、前記記述メタデータは、更に、前記参照ピクチャを示す第2の情報項目を含む、ことを特徴とする方法。
実施形態によれば、前記投影ピクチャを複数のサブピクチャに分割することは、前記投影ピクチャをパック化ピクチャにパッキングすることと、前記パック化ピクチャを複数のサブピクチャに分割することを含む。
実施形態によれば、前記第2の情報項目は、前記参照ピクチャが前記投影ピクチャであることを示すブランド値である。
実施形態によれば、前記第2の情報項目は、前記参照ピクチャが前記パック化ピクチャであることを示すブランド値である。
前記第2の情報項目は、各トラックに関連付けられた前記第1の情報項目に含まれる。
実施形態によれば、前記第2の情報項目は、前記第1の情報項目のパラメータとして定義される。
実施形態によれば、前記パラメータの存在は、前記第1の情報項目に提供されるフラグによって示される。
実施形態によれば、前記第2の情報項目は、前記第1の情報項目に提供されるフラグとして定義される。
実施形態によれば、前記第2の情報項目は、サブピクチャに対応するトラックのグループのプロパティを記述するために使用される特定のタイプのグループ情報として定義される。
本発明の別の態様によれば、複数の符号化トラック及び関連する記述メタデータを含むメディアファイルから少なくとも1つの画像を生成する方法が提供される。前記複数の符号化トラックが、シーンのワイドビューの投影ピクチャをパッキングすることによって得られるパック化ピクチャの分割から生じる少なくとも1つのサブピクチャを符号化するトラックのグループを有することを判定することと、前記トラックのグループに関連付けられた記述メタデータを解析することを有し、前記トラックのグループに関連付けられた記述メタデータを解析することは、前記トラックに符号化された前記少なくとも1つのサブピクチャと前記少なくとも1つの投影ピクチャとの間の空間関係を示す各トラックに関連付けられた情報項目を解釈することを含む、ことを特徴とする方法。
本発明の別の態様によれば、複数の符号化トラック及び関連する記述メタデータを含むメディアファイルから少なくとも1つの画像を生成するための方法が提供される。前記複数の符号化トラックが、シーンのワイドビューの投影ピクチャの分割から生じる少なくとも1つのサブピクチャを符号化するトラックのグループを含むことを判定することと、前記トラックのグループに関連付けられた記述メタデータを解析することを有し、前記トラックのグループに関連付けられた記述メタデータを解析することは、前記トラックにおいて符号化された前記少なくとも1つのサブピクチャと前記少なくとも1つの参照ピクチャとの間の空間関係を示す、各トラックに関連付けられた第1の情報項目を解釈することと、参照ピクチャを示す第2の情報項目を解釈することを含む、ことを特徴とする方法。
実施形態によれば、前記シーンのワイドビューの投影ピクチャの分割は、前記投影画像をパッキングすることによって得られるパック化ピクチャを分割することによって得られる。
実施形態によれば、前記第2の情報項目は、前記参照ピクチャが前記投影ピクチャであることを示すブランド値である。
実施形態によれば、前記第2の情報項目は、前記参照ピクチャが前記パック化ピクチャであることを示すブランド値である。
実施形態によれば、前記第2の情報項目は、各トラックに関連付けられた前記第1の情報項目に含まれる。
実施形態によれば、前記第2の情報項目は、前記第1の情報項目のパラメータとして定義される。
実施形態によれば、前記パラメータの存在は、前記第1の情報項目に提供されるフラグによって示される。
実施形態によれば、前記第2の情報項目は、前記第1の情報項目に提供されるフラグとして定義される。
実施形態によれば、前記第2の情報項目は、サブピクチャに対応するトラックのグループのプロパティを記述するために使用される特定のタイプのグループ情報として定義される。
本発明の別の態様によれば、シーンのワイドビューに対応する符号化されたメディアデータをカプセル化するコンピューティングデバイスが提供される。前記シーンの前記ワイドビューから投影ピクチャを得ることと、得られた投影ピクチャを少なくとも1つのパック化ピクチャにパッキングすることと、前記少なくとも1つのパック化ピクチャを少なくとも1つのサブピクチャに分割することと、前記少なくとも1つのサブピクチャを複数のトラックに符号化することと、前記符号化トラックに関連付けられた記述メタデータを生成するように構成され、前記記述メタデータは、前記トラックにおいて符号化された前記少なくとも1つのサブピクチャと前記少なくとも1つの投影ピクチャとの間の空間関係を示す、各トラックに関連付けられた情報項目を含む、ことを特徴とするコンピューティングデバイス。
本発明の別の態様によれば、シーンのワイドビューに対応する符号化されたメディアデータをカプセル化するためのコンピューティングデバイスが提供される。前記シーンの前記ワイドビューから投影ピクチャを得ることと、前記投影ピクチャを少なくとも1つのサブピクチャに分割することと、前記少なくとも1つのサブピクチャを複数のトラックに符号化することと、前記符号化トラックに関連付けられた記述メタデータを生成するように構成され、前記記述メタデータは前記トラック内で符号化された少なくとも1つのサブピクチャと参照ピクチャとの間の空間関係を示す、各トラックに関連する第1の情報項目を含み、前記記述メタデータは前記参照ピクチャを示す第2の情報項目をさらに含む、ことを特徴とするコンピューティングデバイス。
本発明の別の態様によれば、複数の符号化トラック及び関連する記述メタデータを含むメディアファイルから少なくとも1つの画像を生成するためのコンピューティングデバイスが提供される。複数の符号化トラックがシーンのワイドビューの投影ピクチャをパッキングすることによって得られるパック化ピクチャの分割から生じる少なくとも1つのサブピクチャを符号化するトラックのグループを含むことを判定することと、前記トラックのグループに関連付けられた記述メタデータを解析するように構成され、前記トラックのグループに関連付けられた記述メタデータを解析することは、前記トラックに符号化された前記少なくとも1つのサブピクチャと前記少なくとも1つの投影ピクチャとの間の空間関係を示す各トラックに関連付けられた情報項目を解釈することを含む、ことを特徴とするコンピューティングデバイス。
本発明の別の態様によれば、複数の符号化トラック及び関連する記述メタデータを含むメディアファイルから少なくとも1つの画像を生成するためのコンピューティングデバイスが提供される。複数の符号化トラックがシーンのワイドビューの投影ピクチャの分割から生じる少なくとも1つのサブピクチャを符号化するトラックのグループを含むことを判定することと、前記トラックのグループに関連付けられた記述メタデータを解析するように構成され、前記トラックのグループに関連付けられた記述メタデータを解析することは、前記トラック内に符号化された前記少なくとも1つのサブピクチャと前記少なくとも1つの参照ピクチャとの間の空間関係を示す、各トラックに関連付けられた第1の情報項目を解釈することと、前記参照画像を示す第2の情報項目を解釈することを含む、ことを特徴とするコンピューティングデバイス。
本発明の別の態様によれば、プログラム可能な装置のためのコンピュータプログラム製品が提供される。プログラマブル装置のコンピュータプログラム製品であって、前記プログラマブル装置にロードされ、実行されるときに、請求項1から20のいずれか1項に記載の方法を実施するための一連の命令を含む、ことを特徴とするコンピュータプログラム製品。
本発明の別の態様によれば、請求項1から20のいずれか1項に記載の方法を実施するためのコンピュータプログラムの命令を記憶するコンピュータ可読記憶媒体が提供される。
本発明の別の態様によれば、実行時に、請求項1から20のいずれか1項に記載の方法を実行させるコンピュータプログラムが提供される。
本発明のさらなる利点は図面及び詳細な説明を考察することにより、当業者に明らかになるであろう。任意の追加の利点は、本明細書に組み込まれることが意図される。本発明の実施形態は、単なる例として、以下の図面を参照して以下に記載される。
図1は、サーバからクライアントへの全方向ビデオをキャプチャ、処理、カプセル化、送信、及びレンダリングするためのデータフローの例を示している。 図2は、本発明の実施形態によるカプセル化の一例を示すブロック図を示している。 図3は、本発明の1つ以上の実施形態の実施のためのコンピューティングデバイスの概略ブロック図である。 図4は、いくつかのトラック及びグループ内の異なるメディアソースからのメディアデータを含むサブピクチャを符号化する例を示す。 図5は、本発明の実施形態によるSpatialRelationship2DdescriptionBox及びsource_idの使用例を示す。 図6は、本発明の実施形態によるSpatialRelationship2DdescriptionBox及びsource_idの第2の使用例を示す。 図7は、本発明の実施形態によるサブピクチャカプセル化を示す。 図8は、本発明の実施形態による解析プロセスを示す。 図9は、本発明の実施形態によるシステムを示す。 図10aは、本発明の実施形態による投影、オプションのパック及びサブピクチャトラックへの分割の全体プロセスのいくつかの例を示す。 図10bは、本発明の実施形態による投影、オプションのパック及びサブピクチャトラックへの分割の全体プロセスのいくつかの例を示す。 図10cは、本発明の実施形態による投影、オプションのパック及びサブピクチャトラックへの分割の全体プロセスのいくつかの例を示す 図10dは、本発明の実施形態による投影、オプションのパック及びサブピクチャトラックへの分割の全体プロセスのいくつかの例を示す
図1は、サーバ装置101からクライアント装置170(170’としても示される)への全方向メディアをキャプチャ、送信、及びレンダリングするためのデータフローの例を示す。示される通り、このメディアは、カメラシステム100から取得され、ヘッドマウントディスプレイ(HMD)170及び170’に配信されるビデオコンテンツを有する。カメラシステム100は、広角レンズ又は一緒に組み立てられた複数のカメラのセット(例えば、仮想現実用のカメラリグ)を備えた1つのカメラを含むことができる。配信160は例えば、ストリーミングサーバ161及びストリーミングクライアント162を介して、適応httpストリーミング・プロトコルを使用して、インターネットのようなIPネットワーク163を介して実行されてよい。
図示のために、使用されるカメラシステム100は、立方体の各面に関連付けられた6つの標準カメラのセットに基づいている。それは、カメラシステムを取り囲むリアルシーンを表す画像をキャプチャするために使用される(ステップ110)。この構成によれば、1つのカメラは前方の画像を提供し、1つのカメラは後方の画像を提供し、1つのカメラは左側の画像を提供し、1つのカメラは右側の画像を提供し、1つのカメラは下方の画像を提供し、1つのカメラは上方の画像を提供する。カメラシステム100から得られた画像は、360ビデオストリーム又は仮想現実メディアデータストリームとも呼ばれる全方向ビデオストリームを形成する360画像を生成するために、サーバ101において処理される(ステップ120)。
処理ステップ120は、同時インスタンスのキャプチャされた画像をスティッチングすること及び投影することからなる。画像は、最初に水平及び垂直の寸法の両方で360°ビューを形成する球体121を表す三次元投影構造上にスティッチングされ、投影される。投影構造上の360画像データは、例えば正距円筒図法(https://en.wikipedia.org/wiki/equirectangular_projection))を使用して、2次元投影画像122(キャプチャ投影とも示される)にさらに変換される。投影画像は球全体をカバーする。あるいは、全方向メディアが立体視360度ビデオである場合、カメラシステム100は、三次元360度のシーンをレンダリングするために、クライアントにより後で使用され得る左ビュー及び右ビューを表す画像シーケンスをステップ110でキャプチャする複数のカメラで構成されてよい。このような場合、上述の処理ステップ120は、左ビューと右ビュー画像シーケンスの両方に別々に適用される。
オプションとして、ステップ125で、フレームパックは、同時インスタンスの左側のビュー画像及び右ビューの画像のそれぞれを、1つの単一の左+右投影画像シーケンスに生じる同じ投影画像上にパックするように、適用されてよい。いくつかの立体視フレームパック構成は、例えば、並行、上下、列ベースのインターリービング、行ベースのインターリービング、左右のビューを交互にする時間的インターリービングが可能である。あるいは、立体視フレームパック構成は、符号化ステップ140の後に独立したビデオビットストリームを生じる、別々で独立した投影画像シーケンスに左及び右ビューを保持することからなってもよい。たとえば、1つのビデオビットストリームは左側のビューイメージを表し、別の1つは右側のビューイメージを表す。
オプションとして、領域的パック130は次に、パックされた画像131上に投影画像122をマッピングするために適用される。領域的パックは、例えば、ユーザに対して最も有用な球の部分上に信号情報を最大化するために、順番に変換(例えば、画素ブロックの回転、ミラーリング、コピー又は移動等)、投影画像の領域のサイズ変更及び再配置を適用することからなる。パックされた画像は、球全体の一部のみをカバーすることができることに留意されたい。領域的パックが適用されない場合、パックされた画像131は、投影画像122と同一である。立体視全方向メディアの場合、領域的パックは、ステップ125で選択されたフレームパック配置に依存する、左+右投影画像シーケンス上、又は左ビュー及び右ビュー投影画像シーケンスの別々、のいずれかに適用する。
投影画像122又はパックされた画像131は、ステップ140において、1つ又は複数のビデオビットストリームに符号化される。立体視全方向メディアの場合、符号化ステップは、ステップ125で選択されたフレームパック配置に依存する、左+右パック画像シーケンス、又は左ビュー及び右ビュー投影画像シーケンスの別々、のいずれかに適用する。あるいは、マルチビュー符号化は、左ビュー及び右ビューのパックされた画像シーケンス上で使用され得る。符号化フォーマットの例は、AVC(Advanced Video Coding)、SVC(Scalable Video Coding)、HEVC(High Efficiency Video Coding)、又はL-HEVC(Layered HEVC)がある。
以下では、HEVCはHEVC及びそれの拡張階層化(L-HEVC)の両方を参照するために使用される。HEVC及び同様のビデオ符号化フォーマットは、サンプルの異なる空間的細分化、例えば、ピクチャ、タイル、スライス、及びスライスセグメントを定義する。タイルは、水平及び垂直の境界(すなわち、行及び列)によって定義され、符号化ツリーユニット(CTU)又は符号化ブロックの整数を含むピクチャの矩形領域を定義し、以降全ては符号化ユニットと呼ばれる。そのように、タイルはピクチャの空間的サブ部を表すための良い候補である。しかしながら、シンタックス及びNALユニット(又はNALUs)へのそれのカプセル化に関して、符号化ビデオデータ(ビットストリーム)編成は、(AVCのように)むしろスライス及びスライスセグメントに基づいている。
HEVC内のスライスは、スライスセグメントのセットであり、少なくとも第1のスライスセグメントは独立したスライスセグメントであり、もしあれば、他は従属したスライスセグメントである。スライスセグメントは、連続する整数の(ラスタースキャン順で)CTUsを含む。スライスは、必ずしも矩形を有している必要はない(したがって、それは空間のサブ部表現のためのタイルよりあまり適切ではない)。スライスセグメントは、slice_segment_headerの後にslice_segment_dataが続くように、HEVCビットストリームに符号化される。独立スライスセグメント(ISS)及び従属スライスセグメント(DSS)は、それらのヘッダによって異なり、従属スライスセグメントは、独立スライスセグメントのヘッダからの情報を再利用するため、より短いヘッダを有する。独立スライスセグメントと従属スライスセグメントの両方は、ビットストリーム内のエントリポイントのリストを含む。
ビデオビットストリームがタイルで符号化されるとき、タイルは、同じピクチャ内の近傍タイル(空間依存性)及び先行参照ピクチャ内の近傍タイル(時間依存性)からタイルが依存しないことを保証するために、動き制限され得る。このように、動き制限されたタイルは、独立して復号可能である。あるいは、投影画像122又はパック画像131は、符号化前にいくつかの空間サブピクチャに分割されてよく、各サブピクチャは独立して、例えば、独立した符号化HEVCビットストリームを形成しながら符号化される。あるいは、領域的パックステップ130及びいくつかの空間サブピクチャへの分割ステップは、メモリ内に完全な中間パック画像131を生成することなく、同時に実行されてよい。投影画像122は(又はオプションステップ125の後に生じる立体投影画像)、サブ部に分割されてよく、各サブ部は、ステップ140で符号化されるよう空間的サブピクチャに直接パックされてよい。
図10a、10b、10c及び10dは、本発明の実施形態によれば、投影、オプションのパック及びサブピクチャトラックへの分割の全体プロセスの幾つかの例を示している。投影ピクチャ1001からの1つ以上の領域(1、2、3及び4と記す)は、いくつかの変換演算(アイデンティティ、上又は下のスケーリング、回転、ミラーリング、再配置等)を適用することによって、パック領域1002(1’、2’、3’及び4’と記す)に再配置され、次に、1つ以上のサブピクチャトラック1003に分割及び再編成される。分割はまた、パック領域(1’、2’、3’又は4’)当たり1つのサブピクチャトラックをもたらすことができる。また、パック及び分割操作は、投影ピクチャ1011から1つ以上のサブピクチャトラック1012へ直接的に、一度に実行されてよい。図10c及び10dは、全方向コンテンツがステレオコンテンツである場合の異なる可能なカプセル化の例を提供する。このような場合、キャプチャステップ110は、立体視記録、通常、目ごとに1つのビデオを可能にするカメラリグを使用する。
図10cは、フレームパックがない立体全方位性コンテンツの例を示している(図1のオプションステップ125)。次に、各投影ビュー1021は、領域的パックが各ビューに適用されるとき(1022において)、できる限り1023のような複数のサブピクチャトラックに独立してカプセル化される。この例では、各ビューの領域毎に1つのサブピクチャトラックがある。一つは、同じサブピクチャトラック内の同じ領域の両方のビューをカプセル化することであっても判定できる。次に、サブピクチャトラックは、使用されるフレームパックを示すサンプル記述的階層のステレオビデオボックスを含むであろう。
図10dは、2つの投影ビュー1031を単一のフレームパック画像1032にパックするために適用されるフレームパック(図1のステップ125)がある、立体全方位性コンテンツの例を示す。次に、生じるフレームパック画像1032は、1033内のように、おそらく複数のサブピクチャトラックにカプセル化される。この例では、各サブピクチャトラックが所定の空間領域に対する両方のビューを記述する。パックが続く投影に関しては、1つのサブピクチャトラックが(図10に示される通り)1つの領域又は多くの領域をカプセル化することができる。カプセル化モジュールは例えば、コンテンツを複数のパックされた領域を含むサブピクチャトラックにカプセル化するために、記述コスト対アクセス粒度のトレードオフを判定することができる。これは、パックされた領域の逆投影を計算することによるカプセル化が、パックされたフレーム内の連続する領域の逆投影にギャップがないことを見出す時の場合であってよい。
これは、パック化ピクチャからのこれらの領域を単一のサブピクチャトラックにグループ化するための判定基準になり得る。図10a、10b、10c及び10dは、同じサブピクチャトラックにおけるいくつかの領域のそのような集合を示す。カプセル化モジュールが投影ピクチャ内にギャップ、ホール又はカバーされていない画素を生成するサブピクチャトラック内の複数の領域を集める場合には、それは、サブピクチャトラックの位置及びサイズを、これらの複数の領域のバウンディングボックスの位置及びサイズと等しく設定することができる。したがって、符号化ステップ140の結果として、投影画像122又はパック画像131は、1つ以上が独立して符号化されたビットストリームによって、又は1つ以上が独立して符号化されたサブビットストリームで構成される少なくとも1つの符号化されたビットストリームによって表され得る。
それらの符号化されたビットストリーム及びサブビットストリームは、次に、ステップ150において、例えばMPEG標準化機構によって定義されたISOベース・メディアファイル・フォーマット及び全方向メディアフォーマット(OMAF-ISO/IEC 23090-2)によれば、カプセル化ファイル・フォーマットに従って、ファイル又は小さい時間セグメントファイル165にカプセル化される。生じるファイル又はセグメントファイルは、mp4ファイル又はmp4セグメントであってよい。カプセル化の間、オーディオストリームはビデオ上又はオーディオストリーム上の情報を提供するメタデータトラックと共に、ビデオビットストリームに追加されてよい。
次に、カプセル化されたファイル又はセグメントファイルは例えば、http(ハイパーテキスト・トランスファー・プロトコル)プロトコルを使用してインターネット上で、又は例えばディスクのような取り外し可能なデジタルメディア上で、配信メカニズム160を介してクライアント170に配信される。説明のために、配信160は、MPEG標準化委員会(「ISO/IEC 23009-1、HTTPを介したダイナミックアダプティブストリーミング(DASH)、第1部、メディアプレゼンテーション記述及びセグメントフォーマット」)からのDASH(HTTPを介したダイナミックアダプティブストリーミング)のようなHTTPを介したダイナミックアダプティブストリーミングを使用して実行される。この規格は、メディアプレゼンテーションのメディアコンテンツのコンパクトな記述とHTTPユニフォームリソースロケーションズ(URLs)との関連付けを可能にする。このような関連付けは、典型的にはマニフェストファイル又は記述ファイル164と呼ばれるファイルに記述される。DASHの文脈では、このマニフェストファイルはMPDファイル(メディアプレゼンテーション記述)とも呼ばれるXMLファイルである。
MPDファイルを受信することにより、クライアント装置170は、各メディア・コンテンツ・コンポーネントの記述を取得する。したがって、それは、メディアプレゼンテーションで提案されるメディアコンテンツ構成要素の種類を認識し、ストリーミングクライアント162を介して、ストリーミングサーバ161からの関連付けられたメディアセグメント165をダウンロードするために使用されるようHTTP URLsを知得する。したがって、クライアント170は、(HTTP要求を介して)ダウンロードし、再生する(すなわち、復号し、メディアセグメントの受信後に再生するために)ために、どのメディア・コンテンツ・コンポーネントかを判定することができる。クライアント装置は、ユーザのビューポート(すなわち、ユーザによって現在表示され、視聴されている球面ビデオの一部)に依存する、シーンのワイドビューを表すフルパック画像の空間部分に対応するメディアセグメントのみを取得することができることに留意されたい。シーンのワイドビューは、フルパック画像によって表されるフルビューを表すことができる。
受信すると、ステップ171の間に、カプセル化された仮想現実メディアファイル又はメディアセグメントは、ステップ172で復号される1つ以上のデータストリームを抽出するために、解析される。ステップ171で受信されたISOBMFFファイル又はセグメントの場合、解析は、典型的には記述メタデータからカプセル化されたビデオビットストリーム及び/又はビデオサブビットストリームを抽出できるmp4リーダ又はmp4パーサによって処理される。次に、オプションとしてステップ173で、復号ステップ172から生じるパックされた画像又はパックされたサブ画像は、次にビデオレンダリングのために処理され(ステップ174)、表示される(ステップ175)投影画像を得るために、アンパックされる。あるいは、パックされたサブ画像は、投影ピクチャにアンパックされる前に、中間フルパック画像を合成するように再配置されてもよい。
ビデオレンダリングは、ユーザのビュー、視点及び投影画像を生成するために使用される投影の中から、いくつかのパラメータに依存することに留意されたい。示される通り、ビデオをレンダリングすることは、復号された投影画像を球上に再投影するステップを含む。このような再投影から得られた画像は、ヘッドマウントディスプレイ170’に表示される。立体ビューを処理するために、図1を参照することにより記述されるプロセスは、複製されてよく又は部分的に複製されてよい。UHD(超高解像度)ビデオストリームのいくつかの画像を仮想現実メディアデータストリームのパノラマ画像にスティッチングすることは、非常に高いビットレート及び非常に高解像度の仮想現実メディアデータストリームをもたらすことが観察される。したがって、システムの観点から、及び帯域幅の消耗を回避するために、及びクライアントプレーヤの処理能力に準拠したままにするために、仮想現実メディアデータへのアクセスを最適化するためのニーズがある。
このようなニーズは、仮想現実メディアデータストリームが図1を参照することにより記述されたものより、他の目的のために使用され得ることがより一層重要である。特に、仮想現実メディアデータストリームは、360°のプロジェクタアレイのような特定のディスプレイを有する360°画像を表示するために使用され得る。それはまた、特定の視野を表示し、及び/又は視点、視野及び視点を変更するために使用され得る。特定の実施形態によれば、パック画像131の符号化(図1のステップ140)から生じる符号化ビットストリーム及びサブビットストリームは、カプセル化ファイル・フォーマット、例えば、ISOベース・メディアファイル・フォーマット(ISO/IEC 14496-12及びISO/IEC 14496-15)、全方向メディアフォーマット(OMAF)(ISO/IEC 23090-2)及びMPEG標準化機構によって定義される通りの関連付け仕様に従って、ファイル又は小さい時間セグメントファイルにカプセル化される。
符号化されたビットストリーム(例えば、HEVC)及びおそらくそれのサブビットストリーム(例えば、タイル化されたHEVC、MV-HEVC、スケーラブルHEVC)は、1つの単一トラックとしてカプセル化され得る。あるいは、空間的に関連する(すなわち、投影画像のサブ空間部である)複数の符号化されたビットストリームは、いくつかのサブピクチャトラックとしてカプセル化され得る。あるいは、いくつかのサブビットストリーム(タイル、ビュー、レイヤ)を含む符号化されたビットストリーム(例えば、タイル化されたHEVC、MV-HEVC、スケーラブルHEVC)は、複数のサブピクチャトラックとしてカプセル化され得る。サブピクチャトラックは、ピクチャ又は画像のサブ部、典型的には空間部又は矩形領域のための、データを埋め込むトラックである。サブピクチャトラックは、他のサブピクチャトラック又はサブピクチャを抽出するフルピクチャを記述するトラックに関連付けられてもよい。例えば、サブピクチャトラックは、タイルトラックとなることができる。それは、AVCトラック、HEVCトラック、HEVCタイルトラック、又はサンプルのシーケンスとしてカプセル化された任意の圧縮ビデオビットストリームによって表され得る。
タイルトラックは、画像の空間部又は画像のサブピクチャ又はピクチャに対応する時限ビデオサンプルのシーケンスである。それは、例えば、画像内の関心領域又は画像内の任意領域になることができる。タイルトラックに対応するデータは、ビデオビットストリームから入手することができ、又はビデオビットストリームのサブ部から入手することができる。例えば、タイルトラックはAVC又はHEVCに準拠したビットストリームであってよく、又はAVC又はHEVCのサブ部又は例えばHEVCタイルのような任意の符号化されたビットストリームであってよい。好ましい実施形態では、タイルトラックは独立して復号可能である(エンコーダが「動き制限された」タイルを生成することによって他のタイルから動き予測を除去するように注意した)。タイルトラックは、タイルを有するHEVCで符号化されたビデオビットストリームに対応する場合、それはISO/IEC 14496-15第4版に記載されているように、‘hvt1’トラックとして示されるHEVCタイルトラックにカプセル化され得る。次に、それは、パラメータセット、ビデオデコーダをセットアップするための高階層情報を取得するために、タイルベーストラックを参照することができる。それはまた、HEVCトラック‘hvc1’又は‘hev1’トラックにカプセル化され得る。タイルトラックは、サブピクチャをより大きな画像又はピクチャに空間的に合成するために使用され得る。
タイルベーストラックは、これらの1つ以上のトラック間で共有されるデータ又はメタデータを含む、1つ以上のタイルトラックに共通するトラックである。タイルベーストラックは、1つ以上のタイルトラックから画像を合成するための命令を含んでよい。タイルトラックは、完了した復号又はレンダリングのために、タイルベーストラックに従属してよい。タイルベーストラックが、タイルを有するHEVCで符号化されたビデオビットストリームから得られるとき、それは、‘hvc2’又は‘hev2’トラックとして示されるHEVCトラックにカプセル化される。さらに、それはトラック参照‘tbas’を介して、HEVCタイルトラックによって参照され、それはISO/IEC 14496-15第4版に記載されているように、HEVCタイルトラックへの‘sabt’トラック参照を使用して、タイル順序を示す。
合成トラック(参照トラックとも呼ばれる)は、画像を合成するために他のトラックを参照するトラックである。合成トラックの一例は、ビデオトラックの場合、サブピクチャトラックをより大きな画像に合成するトラックである。これは、例えば、各ビデオトラックからの画像をより大きな画像に合成するための変換及び変換パラメータを提供するビデオトラックから導出するトラックにおいて、復号後の動作によって行われ得る。合成トラックは、サブビットストリーム連結から生じるビットストリームを復号する前に形成するために、他のビデオトラック又はタイルトラックからNALユニットを抽出するための命令を提供する抽出手段NALユニットを有するトラックであってもよい。合成トラックは、例えば、他のトラックへの参照トラックを介して、合成命令を黙示的に提供するトラックであってもよい。
ISO/IEC 14496-12は、各グループが特定の特性を共有するか、又はグループ内のトラックが特定の関係を持つ、トラックのグループを記述するために、トラック階層(すなわち、ISOBMFFボックス階層における‘trak’ボックス内)に位置する‘trgr’と示されるボックスを提供する。このトラックグループボックスは、以下のように定義された空のコンテナである。
ボックスタイプ: ‘trgr’
コンテナ: TrackBox(‘trak’)
必須: No
数量: 0又は1
aligned(8) class TrackGroupBox extends Box(‘trgr’) {
}
このトラックグループボックスは、以下のように定義されたトラックグループタイプボックスのセットを含むことができる:
aligned(8) class TrackGroupTypeBox(unsigned int(32) track_group_type)
extends FullBox(track_group_type, version = 0, flags = 0)
{
unsigned int(32) track_group_id;
// 残りのデータは特定のtrack_group_typeに指定されてよい
track_group_type
}
このトラックグループタイプボックスのインスタンスによって宣言された特定の特性又は関係は、ボックスタイプ(track_group_type)によって示される。このボックスは、同じトラックグループに属するトラックを判定するために使用され得る、識別情報(track_group_id)も含む。同じtrack_group_type及びtrack_group_id値を有するトラックグループタイプボックスと共にトラックグループボックスを有する全てのトラックは、同じトラックグループの一部である。ボックスは、特定のトラックグループタイプのためのトラックに関連付けられる特定のパラメータの宣言も可能にする。MPEG ISOBMFF規格は(ISO/IEC 14496-12 第7版 補正1-5月 2018)、2次元空間関係のための特定のトラックグループSpatialRelationship2DDDescriptionBoxを、タイプ‘2dcc’のTrackGroupTypeBoxとして提案している。
‘2dcc’に等しいtrack_group_typeを有するSpatialRelationship2DDescriptionBox TrackGroupTypeBoxは、このトラックが2D空間関係(例えば、ビデオソースの平面空間部に対応する)を有するトラックのグループに属することを示す。所定のtrack_group_idを有するSpatialRelationship2DDescriptionBox TrackGroupTypeBoxは、任意の原点(0、0)及びtotal_widthとtotal_heightにより定義される最大サイズを有する座標系を黙示的に定義し、x軸は左から右に、及びy軸は上から下に向けられる。SpatialRelationship2DDescriptionBox TrackGroupTypeBox内のsource_idの同じ値を有するトラックは、同じソースから生じるものとしてマッピングされ、それらの関連付けられた座標系は、同じ原点(0、0)及びそれらの軸の向きを共有する。ソース又はビデオソースは、全方向コンテンツのためにカメラ又はカメラのセットによってキャプチャされているコンテンツに対応する。
例えば、非常に高解像度のビデオは、サブピクチャトラックに分割され得る。次に、各サブピクチャトラックは、ソースビデオにおけるそれの位置及びサイズを搬送する。同じsource_IDを持つ同じトラックグループ内のトラックは、同じoutput_width及びoutput_heightを宣言する。タイプ‘2dcc’の2次元空間関係トラックグループは、以下のように定義される。
aligned(8) class SpatialRelationship2DSourceBox
extends FullBox(‘2dsr’, 0, 0) {
unsigned int(32) total_width;
unsigned int(32) total_height;
unsigned int(32) source_id;


aligned(8) class SubPictureRegionBox extends FullBox(‘sprg’,0,0) {
unsigned int(16) object_x;
unsigned int(16) object_y;
unsigned int(16) object_width;
unsigned int(16) object_height;

aligned(8) class SpatialRelationship2DDescriptionBox extends TrackGroupTypeBox(‘2dcc’)
{
//track_group_idは、TrackGroupTypeBoxから引き継がれる;
SpatialRelationship2DSourceBox(); // 必須、最初でなければならない
SubPictureRegionBox (); // オプション

ここで、object_xは、トラックグループを囲むことにより、指定された領域内のトラックの左上角の水平位置を指定する。
位置値は、トラックの幅と高さによって引き起こされる黙示的なリサンプリングを適用する前の値であり、0からtotal_width-1の範囲内にあれば、total_widthは、収容トラックグループによって定義され、object_yは収容トラックグループによって指定された領域内のトラックの左上角の垂直位置を指定することを含める。位置値は、トラックの幅と高さによって引き起こされる黙示的なリサンプリングを適用する前の値であり、0からtotal_height-1の範囲内にあれば、total_heightは収容トラックグループによって定義され、object_widthは収容トラックグループによって指定された領域内のトラックの幅を指定することを含める。位置値は、トラック幅及び高さによって引き起こされる黙示的なリサンプリングを適用する前の値であり、1からtotal_widthの範囲内にあれば、total_widthは収容トラックグループによって定義され、object_heightは収容トラックグループによって指定された領域内のトラック高さを指定することを含める。位置値は、トラック幅及び高さによって引き起こされる黙示的なリサンプリングを適用する前の値であり、1からtotal_heightまでの範囲内にあれば、total_heightは収容トラックグループによって定義され、total_widthは、画素部で、「srd」トラックグループの座標系における最大幅を指定することを含める。
total_widthの値は、track_group_idの同じ値を有するSpatialRelationshipDescriptionBoxの全てのインスタンスで同じであり、total_heightが画素部で、‘srd’トラックグループの座標系における最大高さを指定する。total_heightの値は、track_group_idの同じ値を有するSpatialRelationshipDescriptionBoxの全てのインスタンスで同じであり、source_idパラメータは、ソースのための一意の識別子を提供する。それは、このソースに関連付けられた座標系を黙示的に定義する。SubPictureRegionBox()は、収容トラックグループにより指定された領域内のトラックの停止位置及びサイズを提供するオプションのボックスである。
SubPictureRegionBox()がSpatialRelationship2DDescriptionBox内に存在する場合、次に、関連付けられたトラック内(このトラックは、定数、停止、サイズ及び位置を有する)に関連付けられたSpatialRelationship2DGroupEntryはない。SubPictureRegionBox()がSpatialRelationship2DDescriptionBox内に存在しない場合、次に、関連付けられたトラック内(このトラックは、おそらく動的なサイズ及び/又は位置を有する)に1つ以上の関連付けられたSpatialRelationship2DGroupEntryがある。
「2dcc」サンプルグループを定義するSpatialRelationship2DGroupEntry()は、2次元空間関係トラックグループ内のサブピクチャトラックからのサンプルの位置及びサイズを宣言することを可能にする。grouping_typeが‘2dcc’に等しい場合、SampleToGroupBoxのバージョン1が使用される。grouping_type_parameterの値は、対応する空間関係トラックグループのtrack_group_idと等しい。
SpatialRelationship2DGroupEntry()は、以下のとおり定義される。
class SpatialRelationship2DGroupEntry () extends VisualSampleGroupEntry (‘2dcc’) {
unsigned int(16) object_x;
unsigned int(16) object_y;
unsigned int(16) object_width;
unsigned int(16) object_height;
ここで、object_xは、対応する空間関係トラックグループによって指定される座標系内のこのグループ内のサンプルの左上角の水平位置を指定する。
位置値は、トラック幅及び高さによって引き起こされる黙示的なリサンプリングを適用する前の値であり、0からtotal_width-1の範囲にあれば、total_widthは対応するSpatialRelationship2DDescriptionBoxに含まれ、object_yは対応する空間関係トラックグループによって指定された座標系のこのグループ内のサンプルの左上角の垂直位置を指定することを含める。位置値は、トラック幅及び高さによって引き起こされる黙示的なリサンプリングを適用する前の値であり、0からtotal_height-1の範囲にあれば、total_heightは対応するSpatialRelationship2DDescriptionBoxに含まれ、object_widthは対応する空間関係トラックグループによって指定された座標系のこのグループ内のサンプルの幅を指定することを含める。位置値は、トラック幅及び高さによって引き起こされる黙示的なリサンプリングを適用する前の値であり、1からtotal_widthの範囲にあれば、object_heightは、対応する空間関係トラックグループによって指定される座標系のこのグループ内のサンプルの高さを指定することを含める。位置値は、トラック幅及び高さによって引き起こされる黙示的なリサンプリングを適用する前の値であり、1からtotal_heightの範囲にある場合を含める。
‘2dcc’トラックグループ内の各トラックのサンプルは、より大きな画像を生成するために、この同じグループ内の他のトラックからのサンプルで(同じ合成又は復号化時間で)空間的に合成され得る。パックされた画像131の符号化(図1のステップ140)から生じる符号化されたビットストリーム及びサブビットストリームへの依存により、ファイル・フォーマットにおけるカプセル化のいくつかの変形が可能である。
図2は、本発明の実施形態によるファイル/セグメントカプセル化(図1のステップ150)の一例を示すブロック図である。ステップ200で、サーバはいくつかの空間的に関連付けられたビデオビットストリーム(すなわち、パックされた画像の空間的サブ部を表し、空間的合成がより大きな画像を生成する可能性がある)がある場合、又は複数のサブピクチャトラックとしてクライアントに公開され得る、動き制限されたタイル又は複数のビューのいずれかを表すビデオサブビットストリームを含むビデオビットストリームがある場合を判定する。それは、クリエータがパックされた符号化されたパック画像を複数のトラックとして公開したくない単一のビデオビットストリーム又はコンテンツとして符号化されるので、符号化されたパック画像が複数のトラックとして公開されない場合、ビデオビットストリーム又はビデオサブビットストリームは、次に1つの単一のトラックにカプセル化される(ステップ210)。
そうでない場合、それはステップ220において、カプセル化されるメディアコンテンツが、動き制限されたタイルを表すビデオサブビットストリームから合成される場合、判定される。yesの場合、複数のタイルトラックの少なくとも1つの合成を表すために、少なくとも1つの合成トラックが提供される必要がある。合成は、完全にパックされた画像又は完全にパックされた画像のサブ部のみを表すことができる。タイルトラックで合成トラックを使用することは、クライアント側で別のレンダリング及びストリームの復号を要求することを防ぐ。クライアントに公開される可能な組み合わせの数は、コンテンツクリエータの選択に依存する。例えば、コンテンツクリエータは、現在のユーザのビューポートに応じて、異なる視覚的品質を持つタイルを組み合わせたい場合がある。これに対して、それは異なる視覚的品質を有するパック画像を数回符号化でき、視覚的品質に関してタイルの異なる組合せを備えるフルパック画像を表すいくつかの合成トラックを提案することができる。ユーザのビューポートに応じて異なる品質でタイルを結合することにより、コンテンツクリエータは、ネットワークリソースの消費を低減できる。
ステップ220において、合成トラックが提供されなければならないと判定される場合、次に合成トラックに対して黙示的な再構成が使用されるか否かが判定される(ステップ240)。黙示的な再構成とは、例えばISO/IEC 14496-15第4版で定義されるように、タイルベース及びタイルトラックからのビットストリーム再構成を指す。タイルトラックのサンプル中でそれらが参照するデータにより、合成トラックのサンプルの抽出手段を置き換えることにより、タイルトラックのサンプルから合成トラックのサンプルを再構成するための抽出手段のようなインストリーム構造を使用するのではなく、黙示的な再構成は、参照トラックの順序(例えば、HEVCの黙示的な再構成における‘sabt’参照トラック)における合成トラック及びタイルトラックのサンプルを連結することにより、合成トラックのサンプルを再構成することを可能にする。
黙示的な再構成の使用は、使用のシナリオに依存する。いくつかのタイルトラックの合成が、符号化でタイルの順序と比較して、復号化でタイルの再構成を必要とする場合、いくつかのスライスアドレスは、書き換えられなければならない。このような場合、黙示的な再構成は可能ではなく、抽出手段を備える明示的な再構成が選択されなければならない。黙示的な再構成が可能である場合、タイルベーストラックが生成され(ステップ241)、ビデオサブビットストリームは独立して復号可能ではないタイルトラックとして(例えば、HEVC‘hvt1’トラックとして)カプセル化される。そうでない場合、抽出手段トラックが生成され(ステップ242)、ビデオサブビットストリームは独立して復号可能なタイルトラックとして(例えば、HEVC‘hvc1’又は‘hev1’トラックとして)カプセル化される。
ステップ220に戻ると、メディアコンテンツは、コンテンツクリエータが合成トラックを作成及び公開したくないタイルサブビットストリーム又はコンテンツを含まない場合、次に空間的に関連付けられたビデオビットストリーム又はビデオサブビットストリーム(例えばタイル又は複数ビュー)が別のサブピクチャトラックにカプセル化される(ステップ230)。このような特定の場合では、タイルサブビットストリームがHEVCタイルである場合、それらはHEVCトラック‘hvc1’又は‘hev1’トラックとしてカプセル化される。ステップ250では、空間合成のための信号が空間的に関連付けられたビデオビットストリーム又はビデオサブビットストリームを一緒にグループ化するように追加される。空間合成信号は、例えば前述のように、MPEG ISOBMFF(ISO/IEC 14496-12 第7版 補正1)で定義されるように、同じグループに関連する全てのトラックに対して、同じtrack_group_idを有するタイプ‘2dcc’のトラックグループなど、グループを合成する各トラック(サブピクチャトラック、タイルトラック、合成トラック)内に固有のTrackGroupTypeBoxを定義することによって提供されてよい。
このトラックグループボックス‘2dcc’は、合成内のトラックの相対的な2次元座標及び合成によって形成される画像の全体サイズを提供する。合成は、パックされた全体画像又はパックされた画像のサブ部のみを表すことができる。例えば、コンテンツクリエータは、パックされた全体画像又はパックされた画像のサブ部のみを構成することを可能にしながら、複数の合成トラックを公開したい場合がある。あるいは、合成は、全体投影画像又は投影画像のサブ部のみを表すことができる。‘2dcc’トラックグループ(track_group_id、source_id、total_width、total_height、object_x、object_y、object_width、object_height)からのパラメータは、それらのトラックを表す適応セットの空間関係を記述するために、DASHマニフェストで使用され得るDASH Spatial-Relationship Description(SRD)記述子(ISO/IEC 23009-1 第3版で定義される)のパラメータと直接一致する。
track_group_idはDASH SRD spatial_set_idパラメータに一致し、source_idはDASH SRD source_idパラメータに一致し、object_x、object_y、object_width、object_heightはDASH SRDパラメータobject_x、object_y、object_width、object_heightパラメータにそれぞれ一致し、関連付けられたトラックグループ(track_group_idを介して)からのtrack_grtotal_width及びtotal_heightはDASH SRD total_width、total_heightパラメータに一致する。
代替として、合成トラックがある場合、空間合成信号は、この合成トラックによって黙示的に提供されてよい。実際、合成トラックがタイルベーストラックである場合、タイルベーストラックは、タイプ‘sabt’の参照トラックを介してタイルトラックのセットを参照する。このタイルベーストラック及びタイルトラックのセットは、合成グループを形成する。同様に、合成トラックが抽出手段トラックである場合、抽出手段トラックは、タイプ‘scal’の参照トラックを介して、タイルトラックのセットを参照する。この抽出手段トラック及びタイルトラックのセットは、合成グループも形成する。両方の場合で、合成の各タイルトラックの相対的な2次元座標は、ISO/IEC 14496-15 第4版で定義されるように、タイプ‘trif’のサンプルグループ又は既定のサンプルグループを定義することにより提供され得る。
別の代替として、新しいエンティティグループを定義することによって、空間合成信号が提供され得る。エンティティグループは、項目又はトラックのグループである。エンティティグループは、MetaBox内のGroupsListBox内に示される。トラックを参照するエンティティグループは、ファイルレベルMetaBoxのGroupsListBox又はムービーレベルMetaBoxのGroupsListBox内で指定され得る。GroupListBox (‘grpl’)は、定義されたグループタイプを示す4文字のコードが関連付けられた、それぞれEntityToGroupBoxと呼ばれるフルボックスのセットを含む。EntityToGroupBoxは次のように定義される。
aligned(8) class EntityToGroupBox(grouping_type, version, flags) extends FullBox(grouping_type, version, flags) {
unsigned int(32) group_id;
unsigned int(32) num_entities_in_group;
for(i=0; i<num_entities_in_group; i++)
unsigned int(32) entity_id;
// 残りのデータは特定のgrouping_typeに対して指定され得る
通常、group_idはグループのidを備え、entity_idのセットはエンティティグループに関連するトラックのtrack_idを備える。entity_idの設定に続いて、それは、特定のgrouping_typeに対して追加データを定義することにより、EntityToGroupBoxの定義を拡張することができる。実施形態によれば、(エンティティグループ合成のため)‘egco’に等しい、例えばgrouping_typeを有する新しいEntityToGroupBoxは、2次元空間関連ビデオビットストリーム又はビデオサブビットストリームの合成を記述するように定義され得る。entity_idのセットは、グループを合成するトラック(サブピクチャ、タイルトラック、合成トラック)のtrack_IDのセットを含む。合成により形成される全体的な画像サイズは、この新しいgrouping_type ‘egco’に関連付けられた追加データの一部として提供され得る。
EntityToGroupBox(‘egco’)は以下のとおり定義される。
aligned(8) class EntityToGroupBox(‘egco', version, flags)
extends FullBox(‘egco', version, flags) {
unsigned int(32) group_id;
unsigned int(32) num_entities_in_group;
for(i=0; i<num_entities_in_group; i++)
unsigned int(32) entity_id;
unsigned int(16) total_width;
unsigned int(16) total_height;
unsigned int(32) source_id;

ここで、total_width及びtotal_heightは、合成サイズを備え、source_idはソースに対する一意の識別子を備え、ソースに関連付けられた座標系(つまり、原点(0,0)及びそれらの軸の方向) を黙示的に定義する。
DASHと比較すると、group_idはDASH SRD spatial_set_idパラメータと一致し、source_idはDASH SRD source_idパラメータと一致し、及びtotal_width とtotal_heightはDASH SRD total_widthとtotal_heightのパラメータとそれぞれ一致する。タイプ‘egco’のエンティティグループ化によって定義される合成内の各トラックの相対的な2次元座標は、以下に定義されるように、タイプ(‘egco’)のトラックグループを定義することによって提供され得る。
aligned(8) class SubPictureRegionBox extends FullBox(‘sprg',0,0) {
unsigned int(16) object_x;
unsigned int(16) object_y;
unsigned int(16) object_width;
unsigned int(16) object_height;

aligned(8) class SpatialRelationship2DDescriptionBox extends TrackGroupTypeBox(‘2dcc')

// track_group_idはTrackGroupTypeBoxから引き継がれる;
SubPictureRegionBox ();

ここで、object_x、object_y、object_width、object_heightは、合成内の各トラックの相対的な2次元座標を備える。
タイプ‘egco’の所定のEntityToGroupBoxは、group_idがtrack_group_idと等しいように定義することで、対応するSpatialRelationship2DDescriptionBoxに関連付けられる。あるいは、‘egco’タイプのエンティティグループによって定義される合成内の各トラックの相対的な2次元座標は、ISO/IEC 14496-15 第4版で定義されるように、各タイルトラックに‘trif’タイプのサンプルグループ又は既定のサンプルグループを定義することによって、提供され得る。代替として、相対的な2次元座標は、グループに関連する各タイルトラック内のVisualSampleEntry内に位置する新しい汎用フルボックス2DCoordinateForEntityGroupBox(‘2dco’)として定義され得る。
aligned(8) class 2DCoordinateForEntityGroupBox extends FullBox(‘2dco', version, flags)

unsigned int(32) entity_group_id;
unsigned int(16) object_x;
unsigned int(16) object_y;
unsigned int(16) object_width;
unsigned int(16) object_height;
ここで、entity_group_idはグループを定義する関連付けられたEntityToGroupBox(‘egco’)の識別子を備え、object_x及びobject_yは合成内のこのトラックのサンプルの左上角の水平位置及び垂直位置を提供し、object_width及びobject_heightは合成内のこのトラックのサンプルの幅と高さを提供する。別の方法として、この新しい汎用ボックス2DCoordinateForEntityGroupBox(‘2dco’)は、以下のとおり新しいサンプルグループとして定義され得る。
class 2DCoordinateForEntityGroupBox extends VisualSampleGroupEntry('2dco')

unsigned int(32) entity_group_id;
unsigned int(16) object_x;
unsigned int(16) object_y;
unsigned int(16) object_width;
unsigned int(16) object_height;
図2に戻って、ステップ260で、トラックに対する領域的パック情報が、ビデオビットストリーム又はビデオサブビットストリームのカプセル化を記述するメタデータに追加される。領域的パックは、パックされた領域内のルマサンプル位置を、対応する投影された領域のルマサンプル位置に再マッピングするための情報を提供する。MPEG OMAFでは、領域的パックが以下のデータ構造に従って記述されてよい。
aligned(8) class RegionWisePackingStruct() {
unsigned int(1) constituent_picture_matching_flag;
bit(7) reserved = 0;
unsigned int(8) num_regions;
unsigned int(32) proj_picture_width;
unsigned int(32) proj_picture_height;
unsigned int(16) packed_picture_width;
unsigned int(16) packed_picture_height;
for (i = 0; i < num_regions; i++) {
bit(3) reserved = 0;
unsigned int(1) guard_band_flag[i];
unsigned int(4) packing_type[i];
if (packing_type[i] == 0) {
RectRegionPacking(i);
if (guard_band_flag[i])
GuardBand(i);



ここで、proj_picture_width及びproj_picture_heightは、相対的投影ピクチャサンプルユニットにおける投影ピクチャの幅及び高さをそれぞれ指定し、packed_picture_width及びpacked_picture_heightは、相対的パック化ピクチャサンプルユニットにおけるパック化ピクチャの幅及び高さをそれぞれ指定し、num_regionは、constituent_picture_matching_flagが0に等しい場合のパックされた領域の数を指定する。
constituent_picture_matching_flagが1に等しい場合、パック領域の全体数は、2* num_regionに等しく、RectRegionPacking(i)及びGuardBand(i)内の情報は、投影ピクチャ及びパック化ピクチャの各立体構成ピクチャに適用し、RectRegionPacking(i)は、i番目のパック領域とi番目の投影領域との間の領域的パックを指定し(すなわち、x、y、幅、高さ座標を、パック領域から任意の変換(回転、ミラーリング)を伴う投影領域に変換する)、及びGuardBand(i)は、もしあれば、i番目のパック領域について、ガードバンドを指定する。本発明の実施形態によれば、領域的パック情報がサブピクチャトラック内で定義されるとき、この構造は、完全投影ピクチャの参照によってサブピクチャトラックのパックのみを記述する。このように、packed_picture_width及びpacked_picture_heightは、サブピクチャトラックの幅及び高さに等しい。
ステップ270で、トラック及びトラックの合成のためのコンテンツカバレッジ情報が、ビデオビットストリーム又はビデオサブビットストリームのカプセル化を記述するメタデータに追加される。このステップはオプションである。トラックカバレッジ情報は、このトラックにより表されるコンテンツでカバーされる球上の領域の情報を備える。合成カバレッジ情報は、1つ以上のトラックの組合せに関連付けられる球面上の領域の情報を備える。例えば、ムービーファイルが空間関係を有する複数のビデオトラックを含む場合、合成カバレッジ情報は、これらの複数のビデオトラックの空間的合成によってカバーされる球面上の領域である。別の例では、メディアファイルは、複数のビデオトラック及びこのトラックのセットをレンダリングする方法を示す変換マトリクスを含み、合成カバレッジ情報は次に、組み立てられたトラックのセットによってカバーされる領域に対応する。「合成カバレッジ情報」は、「グローバルカバレッジ情報」又は「トラックグループ合成情報」と表すこともできる。合成又はグローバルカバレッジ情報はまた、これらの複数のビデオトラックのサブセットの合成から生じる球面上の領域を記述することができる。
第1の実施形態として、トラックカバレッジ情報及び合成カバレッジ情報は、追加の信号なしに、単一の共通カバレッジ情報ボックスを使用して、信号伝達され得る。そのような場合、CoverageInformationBoxの範囲は、ボックス階層内のこのボックスの定義の位置に依存する。クライアントは、カバレッジ情報が宣言されることを考慮することによって、トラックコンテンツ又はコンテンツ全体に関連するかどうかを判断することができる。この実施形態によれば、CoverageInformationBoxは、以下のように定義される。
ボックスタイプ: ‘covi’
コンテナ: 投影全方向ビデオボックス(‘povd’)又はSpatialRelationship2DDescriptionBox(‘2dcc’)
必須: No
数量: 0又は1
aligned(8) class CoverageInformationBox extends FullBox(‘covi', 0, 0) {
ContentCoverageStruct()

ここで、ContentCoverageStructは、SphereRegionStruct()で記述されるカバー領域の数を以下の通り指定する。
aligned(8) SphereRegionStruct(range_included_flag) {
signed int(32) centre_azimuth;
signed int(32) centre_elevation;
signed int(32) centre_tilt;
if (range_included_flag) {
unsigned int(32) azimuth_range;
unsigned int(32) elevation_range;

unsigned int(1) interpolate;
bit(7) reserved = 0;

aligned(8) class ContentCoverageStruct() {
unsigned int(8) coverage_shape_type;
unsigned int(8) num_regions;
unsigned int(1) view_idc_presence_flag;
if (view_idc_presence_flag == 0) {
unsigned int(2) default_view_idc;
bit(5) reserved = 0;
} else
bit(7) reserved = 0;
for ( i = 0; i < num_regions; i++) {
if (view_idc_presence_flag == 1) {
unsigned int(2) view_idc[i];
bit(6) reserved = 0;

SphereRegionStruct(1);

ここで、coverage_shape_typeはコンテンツカバレッジを表す球体領域の形状を指定し、num_regionsは球体領域の数を指定し、view_idc_presence_flag、default_view_idc及びview_idc[i]は、i番目の球体領域が立体視コンテンツの左側、右側、又は両方のビューにある場合を示すために使用されるプロパティであり、center_azimuth、center_elvetion、center_tiltは世界座標軸、azimuth_range、及びelevation_rangeに対して相対的なカバー領域のビューポート方向を指定し、存在する場合、カバーされた球体領域の方位角と仰角の範囲をそれぞれ指定し、補間は現在使用されていない。したがって、CoverageInformationBoxは、コンテンツによってカバーされる球体上の領域の情報を備える。コンテンツの特性は、このボックスのコンテナに依存する。SpatialRelationship2DDescriptionBox‘2dcc’に存在する場合、コンテンツは同じサブピクチャ合成トラックグループに属する全てのトラックによって表されるコンテンツ全体を指し、これらのトラックから合成される合成ピクチャは、コンテンツ全体のパック化ピクチャと呼ばれる。トラックのサンプルエントリ内に存在する場合、コンテンツはこのトラック自体によって表されるコンテンツを参照し、及びこのトラック内のサンプルピクチャは、コンテンツ全体のパック化ピクチャと呼ばれる。トラックに対してCoverageInformation Boxが存在しない場合、それは、コンテンツが球全体をカバーすることを示す。
投影全方向ビデオボックス(‘povd’)は、MPEG OMAFによって定義され、トラック内のVisualSampleEntry内に位置する中間ボックスであることに留意されたい。さらに、SpatialRelationship2DDescriptionBoxトラックグループボックス(‘2dcc’)は、以下のように修正される。
aligned(8) class SpatialRelationship2DDescriptionBox extends TrackGroupTypeBox(‘2dcc')

// track_group_idは、TrackGroupTypeBoxから引き継がれる;
SpatialRelationship2DSourceBox(); // 必須、最初でなければならない
SubPictureRegionBox (); // オプション
CoverageInformationBox(); // オプション
第2の実施形態として、トラックカバレッジ情報及び合成カバレッジ情報は、ローカル及びグローバル指示を区別するためにフラグ値を有する単一の共通カバレッジ情報ボックスを使用して信号伝達され得る。CoverageInformationBoxはISOBMFF FullBoxであるため、トラックとグローバルカバレッジとの間の区別は、ボックスのフラグパラメータを介して表され得る。この第2の実施形態によれば、CoverageInformation Boxは、以下のように定義される。
ボックスタイプ: ‘covi’
コンテナ : 投影全方向ビデオボックス(‘povd’)
必須 : No
数量 : 0又は1
aligned(8) class CoverageInformationBox extends FullBox(‘covi', 0, 0) {
ContentCoverageStruct()
ボックスの構造は、ボックスの複数のインスタンスが、ローカル及び合成の場合に定義されてよく、カバレッジ情報が同じトラックに定義されなければならないことを除いて、前の実施形態とほぼ同じである。次に、CoverageInformationBoxは、コンテンツによってカバーされる球上の領域の提供情報として定義される。コンテンツの特性は、フラグパラメータで与えられる。カバレッジ情報フラグの既定値は0で、このボックスはコンテンツ全体のカバレッジを記述することを意味する。このトラックが2次元空間関係トラックグループに属する場合、コンテンツ全体は同じ2次元空間関係トラックグループに属する全てのトラックによって表されるコンテンツを指し、これらのトラックから合成される合成ピクチャは、コンテンツ全体のパック又は投影ピクチャと呼ばれる。そうでない場合、コンテンツ全体はこのトラック自身によって表されるコンテンツを参照し、このトラック内のサンプルのピクチャは、コンテンツ全体のパック又は投影ピクチャと呼ばれる。
カバレッジ情報フラグの値が1である場合、このボックスは、このトラックによって表されるコンテンツのパック又は投影ピクチャによってカバーされる球状領域を記述する。このボックスが存在しないことは、コンテンツが球全体をカバーすることを示す。さらに、新たなフラグ値は、以下のように定義される。coverage_local:は、カバレッジ情報がボックスを含むトラックにローカルであることを示す。フラグ値は0x000001である。既定により、この値はセットではない。図2に戻って、ステップ280で、仮想現実メディアコンテンツが実際に立体仮想現実メディアコンテンツであるかどうか、すなわち、左及び右ビューを含むかどうかがチェックされる。コンテンツが平面視のみである場合、処理は直接ステップ290に進む。コンテンツが立体視である場合、ステップ285で、立体視信号がカプセル化に追加される。
立体視コンテンツについて、従来、左及び右ビューシーケンスの両方は立体視カメラから取得され、合成タイプによるビデオシーケンス又は2つのビデオシーケンスに合成される。立体視コンテンツの2つの異なるビューを表す2つのフレームを1つの単一フレームに結合するための処理は、フレームパックと呼ばれる(図1のステップ125参照)。フレームパックは、立体ペアを形成する2つのビューを単一のフレームにパッキングすることからなる。いくつかのよく知られ、使用されているフレームパック方法が存在する、並行、上下、フレーム順、垂直ライン仕切りタイプなど。例えば、MPEGアプリケーションフォーマットISO/IEC 23000-11 第1版(「立体視ビデオアプリケーションフォーマット」)又はISO/IEC 23001-8 第2版(「コーデック非依存コードポイント(CICP)」)はこれらの方式のいくつかを定義する。フレームパックは例えば、ISO/IEC 23001-8 第2版(「CICP」)で定義された値6を有するVideoFramePackingTypeのような、それぞれのビューを別々のフレームに保持することからなることもできる。
例えば、さらに本明細書によれば、値3は各復号化フレームが2つの構成ビューの対応するフレームの並列パッキング構成を含むことを信号伝達し、値4は、各復号化フレームが2つの構成ビューの対応するフレームの上下パック構成を含むことを信号伝達する。トラックが立体視メディアデータを含むかどうかを信号伝達するために、StereoVideoBoxがトラック内のVisualSampleEntryに定義される。図2のステップ250に戻ると、SpatialRelationship2DDescriptionBoxは、以下の表に提供されるように、ビデオトラック間の空間関係を表すために、Dynamic Adaptive Streaming over HTTP(DASH)プロトコル(ISO/IEC 23009-1 第3版)で定義されているように、空間関係記述子‘SRD’の定義と一致するように定義される。
Figure 0007133038000001
‘2dcc’track_grouping_typeを有するTrackGroupTypeBoxは、トラックがビデオの空間部分に対応するトラックのグループに属していることを示す。track_group_type‘2dcc’のTrackGroupTypeBox内でsource_idの同じ値をもつトラックは、同じソース(つまり、同じ原点(0、0)及びそれらの軸の同じ方向)から生じるものとしてマッピングされる。より正確には、同じsource_idを有する2つのトラックグループからの完了合成ピクチャ(size total_width及びtotal_heightを有する)が知覚的又は視覚的に等価である(例えば、2つの異なる解像度又は2つの異なる品質で同じ視覚コンテンツを表す2つの合成ピクチャ)。‘2dcc’ track_grouping_type及び同じtrack_group_idを有するTrackGroupTypeBoxに属する全てのサブピクチャトラックは、同じsource_idを有する。
‘2dcc’track_grouping_type及び異なるtrack_group_idを有するTrackGroupTypeBoxに属するトラックは、互換性があり、それらが同じsource_idを有する場合、一緒に組み合わせられ得る。そうでない場合、サブピクチャトラックは、同じソースのサブ部を表さない、及び/又は、それらは‘2dcc’track_grouping_type及び異なるsource_idに、別のTrackGroupTypeBoxからのサブピクチャトラックが組み合わされることは意図されていない。例えば、2つのサブピクチャトラックは、このソースを表す2次元投影ピクチャが視覚的に等価でない場合(例えば、それらが異なる投影フォーマット又は異なるビューポート方向を有する場合)、同じソースのサブ部を表さない。代替として、この後のルールは、異なるsource_idを有する‘2dcc’トラックグループからのサブピクチャトラックをグループ化する代替グループが存在する場合であっても適用する。それは、それらのサブピクチャトラックが代替である(例えば、それらは異なる符号化フォーマット、例えば、AVC及びHEVCなどを有する)、しかし、それらは異なる符号化フォーマットを有するサブピクチャトラックと組み合わされることが意図されていない。
図4は、上記のルールの例を示す。トラック#1から#4は、track_group_idが10に等しく、かつ、source_idが1に等しい、タイプ‘2dcc’のトラックグループ41に属する。トラック#5から#8は、track_group_idは20に等しいが、同じsource_id 400は1に等しい、タイプ‘2dcc’の異なるトラックグループ42に属する。track_group_idが30に等しく、異なるsource_id 401が2に等しい、タイプ‘2dcc’の3番目のトラックグループ43もある。さらに、いくつかの交互のグループ44から47がある。同じ代替グループに属する全てのトラック(つまり、それらのトラックヘッダボックス‘tkhd’内に同じalternate_group識別子を有する)は、代替データを含むトラックのグループ又はコレクションを指定する。代替データは、代替ビットレート、コーデック、言語、パケットサイズなどに対応してもよい。代替グループ内の1つのトラックのみが、いつでも再生され又はストリーミングされるべきである。
この例では、トラック#1、#5及び#9は100に等しい識別子を有する同一の代替グループ44に属する。例えば、トラック#1及びトラック#5は、異なる品質の交互のトラックであり、トラック#9はコーデックに関してトラック#1及びトラック#5への交互のトラックである。トラック#2、#6及び#10は、識別子が200に等しい同じ代替グループ45に属し、例えば、トラック#2及びトラック#6は、解像度が異なる代替トラックであり、トラック#10はフレームレートなどに関して、トラック#2及びトラック#6への代替トラックである。トラックグループ41及び42は、同一のsource_id 400を有し、トラックグループ43は、トラックグループ41及び42に属するサブピクチャトラックが(他の制約、すなわち、代替グループ毎にほぼ1つのサブピクチャトラックに関して)一緒に組み合わせられ得ることを意味する、異なるsource_id 401を有する。反対に、トラックグループ43からのサブピクチャトラックは、それらが同じsource_idを有していないので、それらが同じ代替グループに属することができるにもかかわらず、トラックグループ41及び42からの任意のサブピクチャトラックと結合されることが意図されていない。
次に、source_idパラメータは、同じ空間合成の一部となり得るサブピクチャトラック上のプレーヤに表示を提供する。所定の空間位置に対して、一つのサブピクチャトラックは同じ所定の空間位置で他のサブピクチャトラックと視覚的に等価であると見なされ得る。これは、メディアコンテンツが複数のトラックに提供される場合、(サブピクチャ)トラック選択にとって有用である。さらに、それは選択されたサブピクチャトラックに依存して、動的適応(品質/ビットレート又は解像度において)が同じ空間合成を表示することを可能にする。いくつかの使用例は、図5及び6に従って説明される。
図5は、本発明の実施形態によるSpatialRelationship2DdescriptionBox及びsource_idの使用例を示す。同じビデオソース(例えば、同じ投影ビデオソース)は、品質(@quality1及び@quality2)に関して、2つの代替版を生成するために使用される。各代替版は、8つのサブピクチャトラック(投影領域又はパック領域を含む)に分割される。サブピクチャトラックの第1のセットは、低品質で利用可能である。サブピクチャトラックの第2のセットは、より高品質で利用可能である。品質レベル毎に1つで、2つのトラックグループが定義される。対応するサブピクチャトラックは、図5の右側部分(‘trak’ボックス階層において)のように記載され得る。両方のトラックグループは、同一のsource_id、total_width及びtotal_heightを有する。サブピクチャトラック座標(object_x、object_y、object_width、object_height)は、サブピクチャトラックの空間関係又はそれぞれのトラックグループ合成内の位置を記述する。両方のトラックグループは同じsource_idを有するため、それらが1番目のトラックグループ(track_group_idが10に等しい)からの同じソーストラック及びサブピクチャトラックを表す、この手段は、合成におけるそれらのそれぞれの位置に関して、同じトラックグループからのサブピクチャトラックと組み合わせられてよく、2番目のトラックグループ(track_group_idが20に等しい)からのサブピクチャトラックと組み合わせられてもよい。
図6は、本発明の実施形態によるSpatialRelationship2DdescriptionBox及びsource_idの第2の使用例を示す。同じビデオソース(例えば、同じ投影ビデオソース)が、解像度(@resolution1及び@resolution2)に関して、2つの代替版を生成するために、使用される。サブピクチャトラックには2つのセットがあり、1つは高解像度用及び1つは低解像度用である。対応するサブピクチャトラックは、図6の右側部分(‘trak’ボックス階層において)のように記述され得る。両方のトラックグループは、同じsource_idを有するが、それぞれのサブピクチャトラックの解像度に対応する、異なるtotal_widthとtotal_heightを有する。サブピクチャトラック座標(object_x、object_y、object_width、object_height)は、サブピクチャトラックの空間関係又はそれらのそれぞれのトラックグループ合成内の位置を記述する。再び、両方のトラックグループが同じsource_idを有するので、1番目のトラックグループ(track_group_idが10に等しい)からの同じソーストラックとサブピクチャトラックを表すこの手段は、それらの合成におけるそれらのそれぞれの位置に関して、同じトラックグループのサブピクチャトラックと組み合わせられてよく、2番目のトラックグループ(track_group_idが20に等しい)からのサブピクチャトラックと組み合わせられてもよい。この場合、スケーリングは、それらが一緒に合成される場合、異なるトラックグループからのサブピクチャトラックに適用される。スケーリングファクタは、各トラックグループからのtotal_heightとtotal_widthとの間の比(例えば、H1/H2及びW1/W2)から推定され得る。
この例によれば、track_group_idが10に等しいトラックグループによって表される合成ピクチャは、各代替グループから1つのサブピクチャを選択することによって合成され得る。2次元(2D)ビデオコンテンツとは反対に、OMAFメディアコンテンツは、球の内側表面に向かって外向きに見た球の中心からのユーザの視点を示す全方向メディアコンテンツを表す。次に、この360°メディアコンテンツは、ビデオ投影フォーマットを適用することによって2次元平面に投影される。次に、オプションで、領域的パックは、投影ピクチャからパック領域の中へ領域を再編成するよう適用される。360°メディアコンテンツは、魚眼レンズ(広角カメラレンズ)を用いてキャプチャされたいくつかの円形画像によって表わされてもよい。このように、OMAFの文脈において、2Dピクチャは投影ピクチャ又はパック化ピクチャのいずれかであってよく、サブピクチャトラックは異なる種類のコンテンツを含んでもよい。投影ピクチャのサブ部(パックなし)、フレームパック化ピクチャのサブ部、例えば、コンテンツが立体視、投影及びパック化ピクチャのサブ部、又は魚眼符号化ピクチャのサブ部である場合。
本発明の実施形態によれば、SpatialRelationship2DdescriptionBoxの定義は、OMAFメディアコンテンツを含むサブピクチャトラックのサイズ及び位置座標が投影ピクチャに、パック化ピクチャに、又は別のピクチャに対して相対的であるかどうかを示すために改善される。一実施形態では、SpatialRelationship2DdescriptionBoxは、OMAFメディアコンテンツを含むサブピクチャトラックのサイズ及び位置座標が常にパック化ピクチャに対して相対的であるように定義される。パックがない場合、パック化ピクチャは投影ピクチャに等しい。別の実施形態では、SpatialRelationship2DdescriptionBoxは、OMAFメディアコンテンツを含むサブピクチャトラックのサイズ及び位置座標がキャプチャステップ110と符号化ステップ140との間の処理ステップにおいて、投影ピクチャ又はパック化ピクチャ又は任意の中間ピクチャに対して相対的であるように定義される。特に、全方向性メディア(OMAF)用のアプリケーションフォーマットの場合、2D空間関係で表現される位置及びサイズが、投影又はパック化ピクチャを参照するかどうかは明確ではない。
一実施形態では、SpatialRelationship2DdescriptionBoxが常にパック化ピクチャに対して相対的である。パックがない場合、パック化ピクチャは投影ピクチャと同じである。別の実施形態では、好ましいアプローチはSpatialRelationship2DdescriptionBoxが常に投影ピクチャに対して相対的であることを定義することである。シーンのワイドビューに対応する符号化メディアデータをカプセル化するための方法は、いくつかの実施形態では以下のステップを含むことができる。シーンの広いビューからの投影ピクチャを得ること、得られた投影ピクチャを少なくとも1つのパック化ピクチャにパッキングすること、少なくとも1つのパック化ピクチャを少なくとも1つのサブピクチャに分割すること、少なくとも1つのサブピクチャを複数のトラックに符号化すること、符号化トラックに関連付けられた記述メタデータを生成することであって、記述メタデータは、トラックにおいて符号化された少なくとも1つのサブピクチャと少なくとも1つの投影ピクチャとの間の空間関係を示す、各トラックに関連付けられた情報の項目を含む。
したがって、参照ピクチャの特定の信号は必要とされない。参照ピクチャは、サブピクチャがパック化ピクチャを分割することにより得られる場合であっても、投影ピクチャとなるように定義される。シーンのワイドビューに対応する符号化メディアデータをカプセル化するための方法は、いくつかの実施形態では以下のステップを含むことができる。シーンの広いビューからの投影ピクチャを得ること、投影ピクチャを少なくとも1つのサブピクチャに分割すること、少なくとも1つのサブピクチャを複数のトラックに符号化すること、符号化トラックに関連付けられた記述メタデータを生成すること、記述メタデータは、トラック内で符号化された少なくとも1つのサブピクチャと参照ピクチャとの間の空間関係を示す、各トラックに関連付けられた第1の情報項目を含み、記述メタデータは、参照画像を示す第2の情報項目をさらに含む。したがって、メタデータ内の参照ピクチャを指定することにより、分割操作とは独立して、投影ピクチャ、パック化ピクチャ、又は他の参照ピクチャのいずれかに関連付けられたサブピクチャデータを生成することが可能である。
以下の表は、投影、例えば正距円筒図法(ERP)又はキューブマップ投影、パック又は魚眼コンテンツを使用することのいずれかを含むサブピクチャトラック用のOMAFの文脈において、投影ピクチャに対して相対的である、SpatialRelationship2DdescriptionBoxトラックグループサイズ及び座標プロパティの実用的なマップを提案する。以下の表において、‘rwpk’は領域的パック構造用のショートカット、すなわち、パック領域とそれぞれの投影領域との間のマップを指定する構造であり、もしあれば、ガードバンドの位置及びサイズを指定する。なお、‘fovi’は、OMAFプレーヤで魚眼画像のスティッチング及びレンダリングを可能にするためのパラメータを記述する構造で、FisheyeVideoEssentialInfoStructのためのショートカットである。
Figure 0007133038000002
Figure 0007133038000003
SpatialRelationship2DdescriptionBoxプロパティを投影ピクチャに対して定義することは、それらをパック化ピクチャに対して定義することと比較して、アプリケーションに利点を提供する。実際、ビューポート依存ストリーミングの場合、アプリケーションは現在のユーザのビューポートに対応する(すなわち、ユーザの視野と方向に対応する)サブピクチャトラックのみをダウンロードしたい場合がある。SpatialRelationship2DdescriptionBoxプロパティが投影ピクチャに対して定義される場合、アプリケーションは、それが投影ピクチャ内で動いている間に、適切なサブピクチャトラックを選択するために、SpatialRelationship2DdescriptionBoxトラックグループからこの情報を直接使用できる。そうでない場合、アプリケーションは適切なサブピクチャトラックを選択することができる前に、サブピクチャパックコンテンツを投影ピクチャに変換するために、トラックグループ情報に加えて、VisualSampleEntry内に位置する領域的パック情報を解析する必要がある。
オプションで、空間関係を記述するトラックグループ(例えば、‘2dcc’トラックグループ)は、所定のサブピクチャトラックについて、360°球へのそれのマップを提供する追加の記述子を含むことができる。この追加の記述子は、所定のユーザの視線方向に対応するトラックの関連するトラック又はセットのプレーヤによる選択がより容易になるように、メディアプレーヤのためのいかなる計算もなしに、2Dビデオサブピクチャトラックと3Dビューポートとの間のマップを提供する。次に、空間関係を記述するトラックグループは、以下のように書き換える。
aligned(8) class SpatialRelationship2DDescriptionBox extends TrackGroupTypeBox(‘2dcc’) {
// track_group_idはTrackGroupTypeBoxから引き継がれる;
SpatialRelationship2DSourceBox(); // 必須、最初でなければならない
SubPictureRegionBox (); // オプション
SphericalRegionBox (); // オプション
ここで、SpatialRelationship2DSourceBox及びSubPictureRegionBoxは、トラックグループに関連するサブピクチャトラックの2D座標系及びそれらの位置及びサイズをそれぞれ記述する。SphericalRegionBoxは以下のように定義される新しいボックスである(4文字コードは単なる一例であり、任意の4文字コードは、それが球領域の表示のために確保されている場合、使用されてよい)。
aligned(8) class SphericalRegionBox extends FullBox('sspr', 0, 0) {
SphereRegionStruct(1);

ここで、SphereRegionStructは、方位角(垂直)及び仰角(水平)次元についての範囲を有する三重項(centre_azimuth、center_elevation、center_pitch)又は(ヨー、ピッチ、ロール)として球領域を指定する。
図7は、本発明の実施形態によるサブピクチャカプセル化を示す。それは、オプションのステップ260、280、285を有する、図1のステップ250に対応する。ステップ701において、ユーザはカプセル化モジュール(例えば、図1のステップ150を担当するISOBMFFライタ又はmp4パッケージャ又はライタ)を構成する。これは、カプセル化ソフトウェアを制御するグラフィカル・ユーザー・インターフェースを介して実行され得る。これは、カプセル化するためのソースの指定情報又はサブピクチャトラックへの分解、例えば1つの単一のメディアファイル又は多くのセグメントファイルの生成のようなカプセル化のためのパラメータからなる。あるいは、これはシーンをキャプチャする記録装置(カメラ、ネットワークカメラ、スマートフォン等)に設定として予め登録されてよい。
次に、カプセル化モジュールは、ステップ702において、参照ピクチャをキャプチャ画像として初期化する。これは、カプセル化モジュールを実行しているデバイスのRAMに、キャプチャ画像のサイズを格納することからなる。次に、ステップ703で、カプセル化モジュールは、カプセル化構成が投影ステップを含むかどうかをチェックする。偽の場合、次のステップは706である。例えば、キャプチャコンテンツが360°コンテンツである場合、それは、投影ピクチャと呼ばれる2D画像上に投影され得る。投影が使用されている場合(テスト703 真)、次にカプセル化モジュールは、メディアファイル(又はメディアセグメント)の記述メタデータで使用されている投影の記述を挿入する(ステップ704)。これは、例えば、OMAF仕様による投影全方向ビデオボックス‘povd’になり得る。次に(ステップ705)、参照ピクチャが投影ピクチャに設定される。これは例えば、この投影ピクチャのサイズがメモリに記憶されることを意味する。ステップ706は、キャプチャソースが立体視であるかどうか、及びビューが単一のフレームにパックされるかどうかをチェックすることからなる。テスト706が真である場合、カプセル化モジュールは、立体視コンテンツのための記述子をメディアファイルに挿入する(ステップ707)。OMAF又はISOBMFFの場合、それはStereoVideoBoxである。テスト706が偽である場合、次のステップは709である。
ステップ707に続いて、フレームパック化ピクチャは、参照ピクチャにおいてメモリに記憶される。テスト709は、カプセル化構成が投影及びオプションでフレームパック化ピクチャがさらにパック領域に再配置される必要があることを示すかどうかをチェックすることからなる。テスト709が真である場合、カプセル化モジュールは、このパックの記述を領域(図1のオプションのステップ260に相当する)に挿入する(ステップ710)。OMAFの場合、それは、‘rwpk’ボックスタイプによって識別されるRegionWisePackingBoxとなることができる。次に、711において、参照ピクチャがパック化ピクチャに設定される。テスト709が偽である場合、次のステップは712である。ステップ712におけるテストは、カプセル化構成、すなわち、サブピクチャトラックのための黙示的な信号又は明示的な信号が、ユーザ又はアプリケーションによって選択又は設定されるかどうかをチェックすることからなる。黙示的な信号がオフである場合、次にステップ713で、カプセル化モジュールはどの参照ピクチャがサブピクチャトラック生成に使用されるか(すなわち、それぞれサブピクチャトラックにカプセル化された空間部に分割されたピクチャ)を提供する記述メタデータを挿入する。
黙示的な信号がオンである場合、次のステップは714である。ステップ714において、カプセル化モジュールは、分割ピクチャの異なる空間部分の中で空間関係を記述するトラックグループを挿入する。特に、サブピクチャトラックの生じる合成のサイズは、メモリ(702、705、708、又は711において)に格納された参照ピクチャのサイズに設定される。たとえば、これはSpatialRelationship2DSourceBoxのtotal_width及びtotal_heightパラメータであってよい。最後に、ステップ715で、カプセル化モジュールは、参照ピクチャ内の位置及びサイズに関して各サブピクチャトラックを記述する。これは例えば、これらのパラメータが静的又は空間関係記述のためのサンプルグループ記述ボックス(例えば、SpatialRelationship2DGroupEntryボックス)である場合、SubPictureRegionBoxのパラメータの中に分割から生じる値を入れるためのOMAF又はISOBMFFからなる。ステップ713の明示的信号は、図8に示される通り解析プロセスの説明と共に説明される通り、様々な方法で実行され得る。
いくつかの実施形態では、複数の符号化トラック及び関連付けられた記述メタデータを含むメディアファイルから少なくとも1つの画像を生成する方法であって、前記複数の符号化トラックが、シーンのワイドビューの投影ピクチャをパッキングすることによって得られるパック化ピクチャの分割から生じる少なくとも1つのサブピクチャを符号化するトラックのグループを有することを判定することと、前記トラックのグループに関連付けられた記述メタデータを解析することを有し、前記トラックのグループに関連付けられた記述メタデータを解析することは、前記トラックに符号化された前記少なくとも1つのサブピクチャと前記少なくとも1つの投影ピクチャとの間の空間関係を示す各トラックに関連付けられた情報項目を解釈することを含む、ことを特徴とする方法。
いくつかの実施形態では、複数の符号化トラック及び関連付けられた記述メタデータを含むメディアファイルから少なくとも1つの画像を生成する方法であって、前記複数の符号化トラックが、シーンのワイドビューの投影ピクチャの分割から生じる少なくとも1つのサブピクチャを符号化するトラックのグループを含むことを判定することと、前記トラックのグループに関連付けられた記述メタデータを解析することを有し、前記トラックのグループに関連付けられた記述メタデータを解析することは、前記トラックにおいて符号化された前記少なくとも1つのサブピクチャと前記少なくとも1つの参照ピクチャとの間の空間関係を示す、各トラックに関連付けられた第1の情報項目を解釈することと、参照ピクチャを示す第2の情報項目を解釈することを含む、ことを特徴とする方法。
メディアプレーヤは、ISOBMFFパーサを使用して、801でOMAFファイルを受信する。それは、メディアファイルに存在する異なるトラック及び、特にビデオトラックを識別する。それらのビデオトラックについて、パーサはこれらが、2Dピクチャ上に投影された全方向性メディアのための古典的な2Dビデオ又はビデオトラックであるかどうかをチェックする。これは、ステップ802の‘ftyp’ボックス内の主要ブランド又は互換ブランドのリストを見ることによって判定される。例えば、‘ovdp’へのブランドセットは、メディアファイルがOMAFビューポート依存ベースラインプレゼンテーションプロファイルのための技術を使用するVR体験を含むことを示す。本発明は、一実施形態において、OMAFビューポート依存プロファイルによるVR体験がサブピクチャトラックをさらに使用することを示す明示的なブランド(主要ブランド値として、又は互換ブランドのリストに入れられること)を定義することを提案する。ブランド(主要ブランド又は互換ブランド)について、少なくとも2つの特定の値が定義され得る。
第1の値は、全方向依存プロファイルに対して、例えば‘odpr’と名付けられて定義されてもよい。この値は、全方向性メディアが投影画像を参照するサブピクチャトラックに分割されることを示す。このブランドに準拠する任意のISOBMFFパーサ又はOMAFプレーヤは、サブピクチャトラックの位置を投影ピクチャ内の位置として解釈するものとする。なお、total_width及びtotal_heightは、それぞれ投影画像の幅及び高さとして解釈されるものとする。第2の値は、全方向依存プロファイルに対して、例えば‘odpa’と名付けられて定義されてもよい。この値は、全方向性メディアがパック化ピクチャを参照するサブピクチャトラックに分割されることを示す。このブランドに準拠する任意のISOBMFFパーサ又はOMAFプレーヤは、サブピクチャトラックの位置をパック化ピクチャ内の位置として解釈するものとする。なお、total_width及びtotal_heightは、それぞれパック化ピクチャの幅及び高さとして解釈されるものとする。
このブランドの1つが存在する場合、OMAFプレーヤ又はメディアプレーヤは、直ぐに参照ピクチャ情報を取得するための方法を識別する。次に、それは、参照ピクチャの指示を含む空間関係記述について明示的トラックグループを解析する。これはステップ803で行われる。これらのブランドのいずれも‘ftyp’ボックスに存在しない場合、メディアファイルパーサ又はメディアプレーヤはサブピクチャトラックの存在、及びそれらが投影ピクチャ又はパック化ピクチャを参照するかどうかを判定するために、メディアファイルをさらに解析しなければならない(テスト802のオブジェクト)。本発明の実施形態によれば、空間関係を記述するトラックグループが明示的なトラックグループである場合、パーサは、803において、これらの明示的なトラックグループを解析する。ステップ804で、それは所定のトラックグループ(例えば、track_group_idを介して識別される)内のサブピクチャトラックを記述するために使用される参照ピクチャを判定する。
これは、選択のためにサブピクチャトラックをユーザに提示するとき、又はサブピクチャトラックをレンダリングするときに考慮されなければならない。参照ピクチャで表現されたサブピクチャトラックからキャプチャピクチャへの画像を生成するために、追加の変換が必要とされてよい。例えば、参照ピクチャがパック化ピクチャである場合、投影ピクチャで表現するために、サブピクチャトラックの位置とサイズは、アンパックされなければならない。この処理はステップ812の対象である。ここで、我々はステップ803においてパーサによって使用されるよう、カプセル化ステップ713の間に明示的信号がどのように実行されるかを説明する。新しいブランドの別の実施形態では、それはトラック又はトラックグループレベルで明示的な信号を追加するように提案される。これは、ISOBMFFにおける2D空間関係記述のための‘2dcc’トラックグループを使用して行われてよい。この追加の信号は、特にそれらが投影ピクチャ又はパック化ピクチャのための位置及びサイズを表すかどうかを判定するために、パーサ又はプレーヤがサブピクチャトラックを処理するのに役立つことができる。
そのような信号の一実施形態は、空間関係記述のための特定のトラックグループタイプボックス内に新しいパラメータを定義することであってもよい。好ましくは、それは、パーサが情報を得ることができるように、トラックグループボックスの必須部分、すなわち、空間関係記述のためのSpatialRelationship2DSourceBoxにおいて定義される。この実施形態の一例は、以下であってよい。
aligned(8) class SpatialRelationship2DDescriptionBox extends TrackGroupTypeBox(‘2dcc')

// track_group_id はTrackGroupTypeBox から引き継がれる;
SpatialRelationship2DSourceBox(); // 必須、最初でなければならない
SubPictureRegionBox (); // オプション

aligned(8) class SpatialRelationship2DSourceBox extends
FullBox(‘2dsr', 0, 0)
unsigned int(32) total_width;
unsigned int(32) total_height;
unsigned int(32) source_id;
unsigned int(1) reference_picture;
unsigned int(31) reserved
ここで、「reference_picture」は、値「0」を取ることが、このグループ内のサブピクチャトラックのための位置が投影ピクチャ座標系で表現されることを示す場合の新しいパラメータである。値「1」を取るときに、それはこのグループ内のサブピクチャトラックがパック化ピクチャで表現されることを示す。このパラメータに付与された名前は一例である。なお、total_width及びtotal_heightは、それぞれ投影ピクチャの幅及び高さを示す。投影又はパック化ピクチャとの間の参照ピクチャの選択を単にサポートするよりも汎用であるために、reference_pictureは、キャプチャとエンコードとの間の参照として使用するための中間ピクチャに対応する値、いくつかの値をとることができる。例えば、値0は投影が存在しない場合にキャプチャされた画像のために使用されてよく(ステップ702)、値1は投影のみ、フレームパック化ピクチャのための値2(ステップ708)及びパックフレームのための値3(711)が存在する場合に使用されてよい(ステップ705)。この指示は、投影及びパックされたフレームのみをサポートする先の実施形態と比較して、2ビットを必要とする。
より明示的な信号である別の実施形態は、(整数値の代わりに)参照ピクチャを記述するための4ccコードを提供することからなる。これは、記述(サブピクチャトラックあたり4バイト)に関して、よりコストがかかる。例えば、参照ピクチャが投影ピクチャであることを示すために、参照ピクチャ値を‘povd’に設定され得る。パック化ピクチャについて、それは‘rwpk’に設定されてよく、フレームパック化ピクチャについて、それは‘stvi’になり得る。キャプチャ画像について、既定の場合は、キャプチャ画像を意味する「default」のために割当てられた4文字コード‘dflt’に設定され得る。好ましくは、中間画像と整数コードとの間のマップは定義され、例えば、参照画像値のための相互運用可能なコードを有するよう、mp4登録権限により登録される。代替として、追加のreference_pictureパラメータは、SpatialRelationship2DDescriptionBoxのオプションの部分、すなわちSubPictureRegionBoxにおいて宣言されてもよい。ステップ712において、それは明示的な信号が判定されるとき、必須部分にそれを有することが好ましい。これは、パーサ又はプレーヤがその情報を見つけることができることを確認することである。
別の代替実施形態では、空間関係記述のための特定のトラックグループタイプボックス内の追加の信号は、ISOBMFF又はOMAF内の空間関係記述のより古いバージョンを有する下位互換性を保存する方法で定義される。そのために、例えば、version = 1又は同じversion = 0だが、フラグ値を有する、TrackGroupTypeBoxの新しいバージョンが定義される。なお、従来技術におけるTrackGroupTypeBoxは、フラグ値を許容しないことを留意されるべきである。TrackGroupTypeBoxにフラグ値を提供することは、本発明のこの実施形態の一部である。例えば、値0x01に設定されたフラグ値「reference_info_is_present」は、このトラックグループが空間関係情報の位置及びサイズについて考慮するために、参照画像上の情報を含むことを示すよう定義されてもよい。次に、2dccトラックグループは、以下のように表され得る。
aligned(8) class SpatialRelationship2DDescriptionBox extends TrackGroupTypeBox(‘2dcc', 0, flags)

// track_group_id はTrackGroupTypeBox から引き継がれる
SpatialRelationship2DSourceBox(flags); // 必須、最初でなければならない
SubPictureRegionBox (); // オプション

aligned(8) class SpatialRelationship2DSourceBox extends
FullBox('2dsr', 0, flags) {
unsigned int(32) total_width;
unsigned int(32) total_height;
unsigned int(32) source_id;
if ( (flags & 0x01) == 1) {
unsigned int(1) reference_picture;
unsigned int(31) reserved


ここで、reference_pictureは、値「0」を取る場合、このグループ内のサブピクチャトラックのための位置が投影ピクチャ座標系で表されることを示す、新しいパラメータである。例として、パラメータの名前が付与される。なお、total_width及びtotal_heightは、それぞれ投影画像の幅及び高さを示す。
フラグを使用することは、例えば2Dクラシックビデオに対して、参照ピクチャに曖昧性がない場合、各サブピクチャトラックの記述コストを低減する。参照ピクチャの有無を示すためにフラグを使用することは、2dccトラックグループタイプの再使用が、全方向コンテンツをサブピクチャトラックに分割する両方の場合、すなわち、領域的パックステップを有するか又は有することなしに、処理することを可能にする。さらに別の実施形態では、TrackGroupingTypeBoxの、又はSpatialRelationship2DDescriptionBoxのようなそれの引継ぎボックスのうちの1つのフラグパラメータは、参照ピクチャをフラグ値に直接提供するよう使用される。例えば、フラグパラメータが0に設定された最下位ビットを有するとき、これは参照ピクチャが全方向ビデオの場合、投影ピクチャであることを意味する。フラグパラメータが1に設定された最下位ビットを有するとき、それは参照ピクチャが全方向ビデオの場合、パック化ピクチャであることを意味する。既定値は、0に設定されたフラグ パラメータの最下位ビットである。この実施形態で、ファイル記述をよりコンパクトにする(サブピクチャトラックあたり4バイト節約)、SpatialRelationship2DSourceBox内に追加のパラメータはない。
代替実施形態では、黙示的又は明示的サブピクチャトラック信号との間の区別が、2つの異なるトラックグループ化タイプの使用によって行われる。現在のグループ化タイプは、黙示的な信号のために使用され、新しいトラックグループ化タイプは明示的な空間関係トラックグループのために定義される。例えば、4つの文字コード‘edcc’が使用され、新しいTrackGroupingTypeBoxが以下のように作成される。
aligned(8) class ExplicitSpatialRelationship2DDescriptionBox extends TrackGroupTypeBox(‘edcc', 0, flags)

// track_group_id はTrackGroupTypeBoxから引き継がれる;
ExplicitSpatialRelationship2DSourceBox(flags); // 必須、最初でなければならない
SubPictureRegionBox (); // オプション
aligned(8) class ExplicitSpatialRelationship2DSourceBox extends
FullBox(‘edsr', 0, flags) {
unsigned int(32) total_width;
unsigned int(32) total_height;
unsigned int(32) source_id;
unsigned int(8) reference_picture;
カプセル化構成が、「黙示的」であると判定された場合(テスト801及び802 偽)、特定の信号が使用されないことを意味し、パーサが参照ピクチャの黙示的な判定に入る。それは、変換又はデコード後の操作が実行され、潜在的に参照画像が提供されなければならない、制限情報ボックス‘rinf’で宣言された方式を解析することにより構成する。OMAFに対するほとんどの時間で、それはパック化ピクチャか、又は投影ピクチャであってよい。立体視コンテンツについて、それはフレームパック化ピクチャであってもよい。次に、パーサは、候補参照ピクチャを判定するためにOMAF記述子の存在をチェックする。パーサは、メディアファイル内に領域的パック指示がない場合、空間関係記述のための位置及びサイズパラメータが投影画像に関して表現されると仮定する(テスト810 偽)。領域的パックボックスが存在する場合、空間関係記述のための位置及びサイズパラメータは、パック化ピクチャに関して表現される(ステップ811)。オプションで、パーサは、空間関係を記述するトラックグループのサブピクチャトラック内のstviボックスの存在についてテストすることによって、フレームパック化ピクチャの有無を検討することができる(ステップ808)。存在する場合、パーサは、フレームパック化ピクチャを候補参照ピクチャとして記録する。より一般的に黙示的な信号について、サブピクチャトラックの位置及びサイズはキャプチャ110とエンコード140との間の異なる処理ステップから生じる最後のピクチャにおいて表現されると考えられる。
これらの異なる処理は、制限スキーム情報ボックス‘rinf’に反映される。例えば、コンテンツ準備が投影120、フレームパック125、及び領域的パック130を含む場合、RestrictedSchemeInfoBox‘rinf’ボックスは、それのSchemeTypeBox内に、投影が適用されたことを示す‘povd’ボックスを含む。この‘povd’ボックスは、それ自体、例えばRegionWisePackingBox‘rwpk’として、130で行われる領域的パックを記述する構造を含むことができる。なお、ステレオビデオボックスはステップ125で使用されるフレームパックを示すために、例えば、CompatibleSchemeTypeBoxに存在する。最適化黙示モードについて及びクローズドシステムにおいては、カプセル化とパーサは構成情報を交換することができ、サブピクチャトラック記述のために、予め定義されたデフォルトモードを宣言するための設定を定義することができる。例えば、それらは、メディアが全方向性コンテンツを含む場合、サブピクチャトラックが常に投影画像を参照することを同意することができる。
本願発明の一実施形態によれば、図9は、システム991 995がエンコーダ950又はデコーダ900及び通信ネットワーク999の少なくとも1つを有することを示す。一実施形態によれば、システム995は例えば、デコーダ900を含むユーザ端末のユーザインターフェース又はデコーダ900と通信可能なユーザ端末を介して、デコーダ900にアクセスを有するユーザにコンテンツ(例えば、ビデオ/オーディオコンテンツを表示/出力又はストリーミングするためのビデオ及びオーディオコンテンツ)を処理し、提供するためのものである。このようなユーザ端末は、コンピュータ、携帯電話、タブレット、又は(提供/ストリーミングされた)コンテンツをユーザに提供/表示することができる任意の他のタイプの装置であってもよい。システム995は、通信ネットワーク999を介して(連続ストリーム又は単一のフォーマットで例えば、先のビデオ/オーディオが表示/出力されている間に)ビットストリーム901を取得/受信する。一実施形態によれば、システム991はコンテンツを処理し、処理されたコンテンツ、例えば、後の時間で表示/出力/ストリーミングするために処理されたビデオ及びオーディオコンテンツを記憶するためのものである。システム991は例えば、エンコーダ950によって受信され、処理される、本発明の実施形態におけるワイドビューシーンに対応する画像951のオリジナルシーケンスを含むコンテンツを取得/受信し、エンコーダ950は通信ネットワーク991を介してデコーダ900に通信されるビットストリーム901を生成する。
次に、ビットストリーム901はいくつかの方法でデコーダ900に通信され、例えば、データが記憶装置からデコーダ900に通信/ストリーミングされる時点で、それはエンコーダ950によって事前に生成されてよく、ユーザが記憶装置からコンテンツ(すなわち、ビットストリームデータ)を要求するまで、通信ネットワーク999内の記憶装置(例えば、サーバ又はクラウドストレージ上)にデータとして記憶装置に記憶される。また、システム991はユーザに(例えば、ユーザ端末上に表示されるユーザインターフェースのためのデータを通信することによって)、記憶装置に記憶されたコンテンツのコンテンツ情報(例えば、コンテンツのタイトルや、コンテンツを識別、選択、要求するための他のメタ/記憶位置データ)を提供/ストリーミングし、要求されたコンテンツが記憶装置からユーザ端末に配信/ストリーミングされ得るように、コンテンツに対するユーザ要求を受信して処理するためのコンテンツ提供装置を備えてもよい。好ましくは、本発明の実施形態ではユーザ端末はヘッドマウントディスプレイである。あるいは、エンコーダ950は、ユーザがコンテンツを要求するときに、ビットストリーム901を生成し、それをデコーダ900に直接通信/ストリーミングする。次に、デコーダ900は、ビットストリーム901(又は信号)を受信し、次に要求されたコンテンツをユーザに提供するためのユーザ端末により使用される、ビデオ信号909及び/又はオーディオ信号を取得/生成するために、本発明によるサブピクチャトラックのデコードを実行する。
図3は、本発明の1つ以上の実施形態を実施するためのコンピューティングデバイス300の概略ブロック図である。コンピューティングデバイス300は、例えばマイクロコンピュータ、ワークステーション、又はライトポータブルデバイスなどのデバイスであってよい。コンピューティングデバイス300は、以下に接続されよう通信バスを備える。マイクロプロセッサのような中央演算処理装置(CPU)301と、本発明の実施形態の方法を実行可能なコードを記憶するためのランダムアクセスメモリ(RAM)302、及び所定のファイル・フォーマットでマニフェストの読取り及び書込みのため及び又はビデオを符号化するため及び/又はデータを読み出し又は生成するための方法を実施するために必要な変数及びパラメータを記録するように適合されたレジスタと、それのメモリ容量は例えば拡張ポートに接続されたオプションのRAMにより拡張され得る、すなわち、本発明の実施形態を実現するためのコンピュータプログラムを記憶するための読み出し専用メモリ303(ROM)と、ネットワークインターフェース304は、すなわち順次、処理されるデジタルデータが送信され又は受信されるコミュニケーションネットワークを介して通常接続される。
ネットワークインターフェース304は、単一のネットワークインターフェースであってもよく、又は異なるネットワークインターフェースのセット(例えば、有線及び無線インターフェース、又は異なる種類の有線又は無線インターフェース)で構成されてもよい。データは、送信のためにネットワークインターフェースに書き込まれるか、又はCPU301内で実行するソフトウェアアプリケーションの制御の下で受信のためにネットワークインターフェースから読み出される。ユーザからの入力を受け取るため、又はユーザに情報を表示するためのユーザインターフェース(UI)305。ハードディスク(HD)306。例えば、ビデオソース又はディスプレイのような外部装置から/まで、データを受信/送信するためのI/Oモジュール307。実行可能コードは、読み出し専用メモリ303、ハードディスク306、又は例えばディスクのようなリムーバブルデジタル媒体のいずれかに格納されてよい。変形例によれば、プログラムの実行可能コードは、実行される前にハードディスク306等の通信装置300の記憶手段の1つに記憶されるように、ネットワークインターフェース304を介して、通信ネットワークの手段によって受信され得る。
中央演算処理装置301は、本発明の実施形態によるプログラムの命令又はソフトウェアコードの一部又はプログラムの実行を制御及び指向するように適合され、命令は前述の記憶手段のうちの1つに記憶される。電源オン後、CPU301は例えば、それらの命令がプログラムROM303又はハードディスク(HD)306からロードされた後に、ソフトウェアアプリケーションに関するメインRAMメモリ302からの命令を実行することができる。このようなソフトウェアアプリケーションは、CPU301によって実行されると、前の図に示されたフローチャートのステップが実行されるようにする。この実施形態では、装置は本発明を実施するためにソフトウェアを使用するプログラマブル装置である。しかしながら、代替的に、本発明はハードウェア(例えば、特定用途向け集積回路又はASICの形態で)で実施されてもよい。上述の通り、本発明は特定の実施形態を参照して説明されたが、本発明は特定の実施形態に限定されるものではなく、及び変形例は本発明の範囲内にある技術における当業者にとって明らかである。
例えば、本発明はカメラ、スマートフォン、ヘッドマウントディスプレイ、又は例えば特定の対象領域に対しズームインするためのTV又はマルチメディアディスプレイ用のリモートコントローラとして動作するタブレットのようなデバイスに組み込まれてもよい。また、それは特定の対象領域を選択することによって、マルチメディアプレゼンテーションの個人化ブラウジング体験を有するように、同じデバイスから使用されてもよい。ユーザによるこれらのデバイス及び方法からの別の使用は、他の接続デバイスと、ユーザの好ましいビデオのいくつかの選択サブ部を共有することである。それは、監視カメラが本発明によるデータを提供する方法をサポートする場合、監視下に置かれた建物の特定領域で発生することを監視するために、スマートフォン又はタブレットと共に使用されてもよい。
多くのさらなる変更及び変形例は、単に例示的な方法で与えられ、本発明の範囲を限定することは意図されておらず、範囲は専ら添付の特許請求の範囲によって判定される、前述の例示的な実施形態を参照することにより、当業者に示唆されるであろう。特に、様々な実施形態からの異なる特徴は、必要に応じて入れ替えられてよい。

Claims (9)

  1. ISOBMFFと互換性があるファイルフォーマットにおける符号化メディアデータをカプセル化する方法であって、
    前記符号化メディアデータはシーンのワイドビューに対応し、前記ワイドビューは球面の少なくとも一部前記シーンの画像投影したものであり
    前記方法は、
    前記シーンの前記ワイドビューを平面上に投影した投影ピクチャを得ることと、
    前記投影ピクチャを複数のサブピクチャに分割することと、
    少なくとも1つのサブピクチャを符号化したデータを複数のトラックに格納することと、
    前記複数のトラックが属するトラックグループに関連付けられた記述メタデータを生成することと、
    を有し、
    前記記述メタデータは、
    符号化された前記少なくとも1つのサブピクチャと前記複数のトラックのサブピクチャを合成した合成ピクチャとの間の空間関係を示す各トラックに関連付けられた第1の情報
    前記合成ピクチャが領域的パックされているか否かを4文字コードによって示す第2の情報と、
    有する
    ことを特徴とする方法。
  2. 前記領域的パックは、前記投影ピクチャをマッピングするために適用される、
    ことを特徴とする請求項1に記載の方法。
  3. ISOBMFFと互換性があるファイルフォーマットにおける符号化メディアデータを処理する方法であって、
    前記符号化メディアデータはシーンのワイドビューに対応し、前記ワイドビューは球面の少なくとも一部に前記シーンの画像を投影したものであり、
    前記方法は、
    前記シーンの前記ワイドビューを平面上に投影した投影ピクチャの分割から生じる少なくとも1つのサブピクチャを符号化したデータが格納された複数のトラックが属するトラックグループを識別することと、
    前記トラックグループに関連付けられた記述メタデータを識別することと、を有し、
    記述メタデータは、
    符号化された前記少なくとも1つのサブピクチャと前記複数のトラックのサブピクチャを合成した合成ピクチャとの間の空間関係を示す各トラックに関連付けられた第1の情報と、
    前記合成ピクチャが領域的パックされているか否かを4文字コードによって示す第2の情報と、
    を有する、
    ことを特徴とする方法。
  4. 前記領域的パックは、前記投ピクチャをマッピングするために適用される
    ことを特徴とする請求項に記載の方法。
  5. ISOBMFFと互換性があるファイルフォーマットにおける符号化メディアデータをカプセル化するデバイスであって、
    前記符号化メディアデータはシーンのワイドビューに対応し、前記ワイドビューは球面の少なくとも一部前記シーンの画像投影したものであ
    前記デバイスは、
    前記シーンの前記ワイドビューを平面上に投影した投影ピクチャを取得する手段と
    前記投影ピクチャを複数のサブピクチャに分割する手段と
    少なくとも1つのサブピクチャを符号化したデータを複数のトラックに格納する手段と
    前記複数のトラックが属するトラックグループに関連付けられた記述メタデータを生成する手段と
    を有し、
    前記記述メタデータは、
    符号化された前記少なくとも1つのサブピクチャと前記複数のトラックのサブピクチャを合成した合成ピクチャとの間の空間関係を示す各トラックに関連付けられた第1の情報
    前記合成ピクチャが領域的パックされているか否かを4文字コードによって示す第2の情報と、
    有する
    ことを特徴とするデバイス。
  6. ISOBMFFと互換性があるファイルフォーマットにおける符号化メディアデータを処理するデバイスであって、
    前記符号化メディアデータはシーンのワイドビューに対応し、前記ワイドビューは球面の少なくとも一部前記シーンの画像投影したものであ
    前記デバイスは、
    前記シーンの前記ワイドビューを平面上に投影した投影ピクチャの分割から生じる少なくとも1つのサブピクチャを符号化したデータが格納された複数のトラックが属するトラックグループを識別する手段と
    前記トラックグループに関連付けられた記述メタデータを識別する手段と、を有し、
    前記記述メタデータは、
    符号化された前記少なくとも1つのサブピクチャと前記複数のトラックのサブピクチャを合成した合成ピクチャとの間の空間関係を示す各トラックに関連付けられた第1の情報と、
    前記合成ピクチャが領域的パックされているか否かを4文字コードによって示す第2の情報と、
    を有する、
    ことを特徴とするデバイス。
  7. 前記領域的パックは、前記投影ピクチャをマッピングするために適用されることを特徴とする、
    請求項5又は6に記載のデバイス。
  8. コンピュータに、請求項1から4のいずれか一項に記載の方法を実行させるためのプログラム。
  9. 請求項に記載のプログラムを記憶したコンピュータで読み取り可能な記憶媒体。
JP2020562626A 2018-06-06 2019-06-05 メディアコンテンツを送信する方法、装置及びコンピュータプログラム Active JP7133038B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1809331.0 2018-06-06
GB1809331.0A GB2574445A (en) 2018-06-06 2018-06-06 Method, device, and computer program for transmitting media content
PCT/EP2019/064691 WO2019234116A1 (en) 2018-06-06 2019-06-05 Method, device, and computer program for transmitting media content

Publications (2)

Publication Number Publication Date
JP2021525470A JP2021525470A (ja) 2021-09-24
JP7133038B2 true JP7133038B2 (ja) 2022-09-07

Family

ID=62975672

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020562626A Active JP7133038B2 (ja) 2018-06-06 2019-06-05 メディアコンテンツを送信する方法、装置及びコンピュータプログラム

Country Status (7)

Country Link
US (1) US20210176509A1 (ja)
EP (1) EP3804342A1 (ja)
JP (1) JP7133038B2 (ja)
KR (1) KR102559862B1 (ja)
CN (1) CN112534825B (ja)
GB (2) GB2585760B (ja)
WO (1) WO2019234116A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11457231B2 (en) * 2019-03-15 2022-09-27 Mediatek Singapore Pte. Ltd. Methods and apparatus for signaling spatial relationships for point cloud multimedia data tracks
US11245926B2 (en) * 2019-03-19 2022-02-08 Mediatek Singapore Pte. Ltd. Methods and apparatus for track derivation for immersive media data tracks
CN113923459A (zh) * 2019-07-03 2022-01-11 北京小米移动软件有限公司 视频的编码、解码的方法及装置、存储介质
EP4085645A4 (en) * 2019-12-31 2023-12-27 Nokia Technologies Oy METHOD, APPARATUS AND COMPUTER PROGRAM PRODUCT FOR VIDEO CODING AND VIDEO CODING
CN112804256B (zh) * 2021-02-09 2022-05-24 腾讯科技(深圳)有限公司 多媒体文件中轨道数据的处理方法、装置、介质及设备
EP4324210A1 (en) * 2021-04-16 2024-02-21 Nokia Technologies Oy A method, an apparatus and a computer program product for video encoding and video decoding
CN115618027A (zh) * 2021-07-12 2023-01-17 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机及可读存储介质
CN113949829B (zh) * 2021-10-15 2022-09-20 腾讯科技(深圳)有限公司 媒体文件封装及解封装方法、装置、设备及存储介质
CN116781968A (zh) * 2022-03-11 2023-09-19 华为技术有限公司 投屏方法、终端设备及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017200721A1 (en) 2016-05-20 2017-11-23 Qualcomm Incorporated Circular fisheye video in virtual reality
WO2018038523A1 (ko) 2016-08-25 2018-03-01 엘지전자 주식회사 전방향 비디오를 전송하는 방법, 전방향 비디오를 수신하는 방법, 전방향 비디오 전송 장치, 전방향 비디오 수신 장치
WO2018045108A1 (en) 2016-09-02 2018-03-08 Vid Scale, Inc. Method and system for signaling of 360-degree video information

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8930562B2 (en) * 2010-07-20 2015-01-06 Qualcomm Incorporated Arranging sub-track fragments for streaming video data
US9398330B2 (en) * 2014-08-22 2016-07-19 Sony Corporation Information processing device, information recording medium, information processing method, and program
GB2539461B (en) * 2015-06-16 2020-01-08 Canon Kk Image data encapsulation
WO2018182144A1 (ko) * 2017-03-29 2018-10-04 엘지전자 주식회사 360 비디오를 전송하는 방법, 360 비디오를 수신하는 방법, 360 비디오 전송 장치, 360 비디오 수신 장치
US11146802B2 (en) * 2018-04-12 2021-10-12 Mediatek Singapore Pte. Ltd. Methods and apparatus for providing two-dimensional spatial relationships

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017200721A1 (en) 2016-05-20 2017-11-23 Qualcomm Incorporated Circular fisheye video in virtual reality
WO2018038523A1 (ko) 2016-08-25 2018-03-01 엘지전자 주식회사 전방향 비디오를 전송하는 방법, 전방향 비디오를 수신하는 방법, 전방향 비디오 전송 장치, 전방향 비디오 수신 장치
WO2018045108A1 (en) 2016-09-02 2018-03-08 Vid Scale, Inc. Method and system for signaling of 360-degree video information

Also Published As

Publication number Publication date
GB2585760B (en) 2022-04-20
GB2585760A (en) 2021-01-20
GB2574445A (en) 2019-12-11
GB202008520D0 (en) 2020-07-22
JP2021525470A (ja) 2021-09-24
CN112534825A (zh) 2021-03-19
KR102559862B1 (ko) 2023-07-27
GB201809331D0 (en) 2018-07-25
EP3804342A1 (en) 2021-04-14
US20210176509A1 (en) 2021-06-10
WO2019234116A1 (en) 2019-12-12
CN112534825B (zh) 2023-12-12
KR20210016530A (ko) 2021-02-16

Similar Documents

Publication Publication Date Title
JP7154314B2 (ja) メディアコンテンツを送信する方法、装置及びコンピュータプログラム
JP7133038B2 (ja) メディアコンテンツを送信する方法、装置及びコンピュータプログラム
JP6960528B2 (ja) メディアコンテンツを生成および処理するための方法、装置、およびコンピュータプログラム
KR102208129B1 (ko) 360 비디오 시스템에서 오버레이 처리 방법 및 그 장치
KR102329474B1 (ko) 미디어 데이터를 생성하기 위한 방법
JP7399224B2 (ja) メディアコンテンツを送信するための方法、装置及びコンピュータプログラム
US10991066B2 (en) Method of transmitting omnidirectional video, method of receiving omnidirectional video, device for transmitting omnidirectional video, and device for receiving omnidirectional video

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201217

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210113

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201217

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20210103

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220316

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220729

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220826

R151 Written notification of patent or utility model registration

Ref document number: 7133038

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151