JP2020503792A - 情報処理方法および装置 - Google Patents

情報処理方法および装置 Download PDF

Info

Publication number
JP2020503792A
JP2020503792A JP2019535932A JP2019535932A JP2020503792A JP 2020503792 A JP2020503792 A JP 2020503792A JP 2019535932 A JP2019535932 A JP 2019535932A JP 2019535932 A JP2019535932 A JP 2019535932A JP 2020503792 A JP2020503792 A JP 2020503792A
Authority
JP
Japan
Prior art keywords
information
spatial
target
spatial information
target space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019535932A
Other languages
English (en)
Other versions
JP7058273B2 (ja
Inventor
ディー,ペイユイン
シエ,チーンプオン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority claimed from PCT/CN2017/078585 external-priority patent/WO2018120474A1/zh
Publication of JP2020503792A publication Critical patent/JP2020503792A/ja
Application granted granted Critical
Publication of JP7058273B2 publication Critical patent/JP7058273B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/003Navigation within 3D models or images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/55Motion estimation with spatial constraints, e.g. at image or region borders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/239Interfacing the upstream path of the transmission network, e.g. prioritizing client content requests
    • H04N21/2393Interfacing the upstream path of the transmission network, e.g. prioritizing client content requests involving handling client requests
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4825End-user interface for program selection using a list of items to be played back in a given order, e.g. playlists
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/643Communication protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/643Communication protocols
    • H04N21/64322IP
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Transfer Between Computers (AREA)
  • Image Processing (AREA)

Abstract

ストリーミング・メディア情報処理方法および装置が開示される。ストリーミング・メディア情報処理方法は:目標空間オブジェクトの目標空間情報を取得する段階であって、前記目標空間オブジェクトは目標ビデオ・データ内の二つの画像のデータに関連付けられている二つの空間オブジェクトの一方であり、前記二つの画像のデータは二つの画像のデータであり、前記目標空間情報は同属性空間情報を含み、該同属性空間情報は前記二つの空間オブジェクトのそれぞれの空間情報の間の同じ情報を含み、前記二つの空間オブジェクトにおける前記目標空間オブジェクト以外の空間オブジェクトの空間情報は、前記同属性空間情報を含む、段階と;前記目標空間情報に基づいて、再生される必要のあるビデオ・データを決定する段階とを含む。前記二つの空間オブジェクトのそれぞれの空間情報の間の繰り返される部分が、空間情報の冗長性を減らすために、同属性空間情報の群で置換され、それにより空間情報のデータ・ボリュームを減らす。

Description

本発明はストリーミング・メディア処理の分野に関し、詳細には情報処理方法および装置に関する。
I.MPEG-DASH技術の紹介
2011年11月、MPEG機関はDASH規格を承認した。DASH規格(下記では略してDASH技術仕様書と称される)は、HTTPプロトコルに従ってメディア・ストリームを伝送するための技術仕様書である。DASH技術仕様書は、主としてメディア呈示記述(英文:Media Presentation Description、MPD)およびメディア・ファイル・フォーマット(英文:file format)の二つの部分を含む。
1.メディア・ファイル・フォーマット
メディア・ファイル・フォーマットはファイル・フォーマットのタイプである。DASHでは、サーバーが同じビデオ・コンテンツのビットストリームの複数のバージョンを用意し、ビデオストリームの各バージョンはDASH規格では表現(英文:representation)と称される。表現は、伝送フォーマットにおける一つまたは複数のビットストリームのセットおよびカプセル化であり、一つの表現は一つまたは複数のセグメントを含む。ビットストリームの異なるバージョンは、ビットレートおよび解像度のような異なる符号化パラメータをもつことがある。各ビットストリームは複数の小さなファイルに分割され、それぞれの小さなファイルがセグメントと称される(あるいは区分と称される、英文:segment)。クライアントは、メディア・セグメント・データを要求するプロセスにおいて、異なるメディア表現の間で切り換えてもよい。セグメントは、ISO/IEC14496-12規格におけるフォーマット(ISO BMFF(Base Media File Format))に基づいてカプセル化されてもよく、あるいはISO/IEC13818-1.におけるフォーマット(MPEG-2 TS)に基づいてカプセル化されてもよい。
2.メディア呈示記述
DASH規格では、メディア呈示記述はMPDと称され、MPDはxmlファイルであってもよい。ファイル内の情報は階層式に記述される。図1に示されるように、現在レベルにおけるすべての情報は次のレベルにおいて継承される。いくらかのメディア・メタデータがファイル中に記述される。メタデータは、クライアントがサーバーにおけるメディア・コンテンツ情報を理解できるようにでき、クライアントはその情報を使って、セグメントを要求するためのhttp-URLを構築する。
DASH規格では、メディア呈示(英文:media presentation)は、メディア・コンテンツを呈示する構造化されたデータのセットである。メディア呈示記述(英文:media presentation description)は、メディア呈示を規範的に記述するファイルであり、ストリーミング・メディア・サービスを提供するために使われる。期間(英文:period)および連続する期間の群がメディア呈示全体を形成し、期間は連続的で、重なりのない特徴をもつ。MPDでは、表現(英文:representation)は、伝送フォーマットにおける一つまたは複数のビットストリームの記述情報のセットおよびカプセル化であり、一つの表現は一つまたは複数のセグメントを含む。適応セット(英文:Adaptation Set)は同じメディア・コンテンツ・コンポーネントの複数の互いに置換可能な符号化バージョンのセットを表わし、一つの適応セットは一つまたは複数の表現を含む。サブセット(英文:subset)は適応セットの組み合わせである。組み合わせ内のすべての適応セットを再生するとき、プレーヤーは対応するメディア・コンテンツを取得してもよい。セグメント情報は、メディア呈示記述におけるHTTP一様資源位置指定子によって参照されるメディア単位である。セグメント情報は、メディア・データのセグメントを記述する。メディア・データのセグメントは、ファイルに記憶されていてもよく、あるいは別個に記憶されていてもよい。ある可能な様式では、MPDはメディア・データのセグメントを格納する。
本発明におけるMPEG-DASH技術の関連する技術的概念については、ISO/IEC 23009-1: Information technology--Dynamic adaptive streaming over HTTP (DASH)--Part 1: Media presentation description and segment formatsにおける関連する規定を参照されたい;あるいはISO/IEC 23009-1:2013またはISO/IEC 23009-1:2012のような履歴規格バージョンにおける関連する規定を参照されたい。
II.仮想現実感(virtual reality、VR)技術の紹介
仮想現実感技術は、仮想的な世界を作り出し、仮想的な世界を体験させることのできるコンピュータ・シミュレーション・システムである。仮想現実感技術は、コンピュータを使うことによって、シミュレートされた環境を生成し、対話的な三次元の動的な視覚および身体挙動の複数源情報融合システム・シミュレーションである。この技術は、ユーザーが環境中に没入することを可能にできる。VRは主として、シミュレートされた環境、知覚、自然なスキルおよび感知デバイスといった諸側面を含む。シミュレートされた環境は、コンピュータ生成される、リアルタイムの、動的な三次元のリアルな画像である。知覚は、理想的なVRはあらゆる種類の人間知覚をもつべきであることを意味する。コンピュータ・グラフィック技術によって生成される視覚的な知覚に加えて、聴覚的な感覚、触覚的な感覚、力の感覚および動きといった知覚も含められ、嗅覚的な感覚、味の感覚などさえも含まれる。これはマルチ知覚とも称される。自然なスキルは、人の頭や目の動き、ジェスチャーまたは他の人間の挙動もしくは行動をいう。コンピュータは、参加者の行動に好適なデータを処理し、リアルタイムでユーザーの入力に対応する応答を作成し、該応答をユーザーの五感の器官に別個にフィードバックする。感知デバイスは、三次元対話デバイスである。VRビデオ(または360度ビデオまたは全方向ビデオ(英文:Omnidirectional video))が頭部装着デバイスおよびハンドヘルド・デバイス上で呈示されるときは、ユーザーの頭の配向に対応するビデオ画像および関連するオーディオの一部のみが呈示される。
VRビデオと通常のビデオ(英文:normal video)との間の相違は、通常のビデオにおけるビデオ・コンテンツ全体がユーザーに対して呈示されるが、VRビデオは、ビデオ全体のサブセットのみがユーザーに呈示されるというものである(英文:in VR typically only a subset of the entire video region represented by the video pictures)。
II.空間情報の紹介
既存の規格では、空間情報の記述は次のようになっている:"The SRD scheme allows Media Presentation authors to express spatial relationships between Spatial Objects. A Spatial Object is defined as a spatial part of a content component (e.g. a region of interest, or a tile) and represented by either an Adaptation Set or a Sub-Representation."
[翻訳]空間情報は、空間オブジェクト(すなわちspatial object)の間の空間的関係(すなわちspatial relationship)である。空間オブジェクトは、コンテンツ・コンポーネントの部分的な空間、たとえば既存の関心領域(英文:region of interest、ROI)およびタイルとして定義される。空間的関係は、適応セット(adaptation set)および部分表現(sub-representation)において記述される。既存の規格では、空間オブジェクトの空間情報は、MPDにおいて記述されてもよい。
ISO/IEC 14496-12 (2012)規格文書では、ファイルは多くのボックス(box)およびフルボックス(FullBox)を含む。各ボックスはヘッダ(Header)およびデータ(Data)を含む。フルボックスはボックスの拡張である。ヘッダは、ボックス全体の長さ(size)およびタイプ(type)を含む。size=0のとき、そのことは、そのボックスがファイル中の最後のボックスであることを意味する。size=1のとき、そのことは、ボックス長を記述するためにさらなるビットが必要とされることを意味する。データはボックス中の実際のデータであり、純粋なデータまたはさらなるサブボックスであってもよい。
ISO/IEC 14496-12 (2012)規格文書では、トラック(track)間の関係を記述するために"tref box"が使われる。たとえば、一つのMP4ファイルは、それぞれIDが2、3、4である三つのビデオ(video)トラックおよびそれぞれIDが6、7、8である三つのオーディオ・トラックを含む。トラック2およびトラック6のそれぞれについてのtrefボックスにおいて、トラック2とトラック6が再生のために束縛されていることが指定されてもよい。
現在の規格、たとえばISO/IEC 23000-20の規定では、メディア・コンテンツ・トラックとメタデータ・トラックとの間の参照のために使われる参照タイプ(reference_type)は'cdsc'である。たとえば、ビデオ・トラックにおいてパースを通じて、参照されるトラックが得られ、参照タイプが'cdsc'であるとすると、それは、その参照されるトラックが、そのビデオ・トラックを記述するために使われるメタデータ・トラックであることを示す。しかしながら、実際の応用では、メディア・コンテンツを記述するメタデータの多くのタイプがあり、異なるタイプのメタデータはユーザーにとっての異なる使用方法を提供する。既存の方法を使うとき、クライアントは、ファイルに含まれるすべてのトラックをパースし、次いで、メディア・コンテンツ・トラックのメタデータ・トラックとの間の参照のために使われる参照タイプに基づいて、メディア・コンテンツに関連付けられたトラックの属性を決定する必要がある。それにより、ビデオ・トラックに含まれる異なる属性を判別し、異なる属性を使うことによってユーザーのために経験が提供される。換言すれば、既存の方法では、メディア・トラックが呈示されるときにクライアントによって実行されることのできる動作を決定することが要求される場合、該動作は、ファイル内の全トラックのパースが完了されることに依存して、決定されることができる。結果として、クライアントの実装手順の複雑さが増す。
仮想現実感(英文:virtual reality、VR)技術のますますの発展に伴い、360度の視野などでVRビデオを見るためのますます多くのアプリケーションがユーザーのために呈示される。VRビデオを見るプロセスにおいて、ユーザーは任意の時点において視野(英文:field of view、FOV)を変えてもよく、それぞれ視野は一つの空間オブジェクト(これはVRビデオにおけるある領域として理解されうる)のビデオ・データに対応する。視野が切り換えられるにつれて、ユーザーの視野において呈示されるVRビデオ画像も切り換えられるべきである。
従来技術では、VRビデオが呈示されるとき、人間の目の視野をカバーできる空間オブジェクトのビデオ・データが呈示される。ユーザーが見る空間オブジェクトは、大半のユーザーによって選択される関心領域であってもよく、あるいはビデオ制作者によって指定された領域であってもよく、該領域は時間とともに絶えず変化する。VRビデオにおける、画像データに関連付けられた空間オブジェクトの位置を同定するために、VRビデオにおける空間オブジェクトの位置を記述するために使われる空間情報が、対応するファイルにカプセル化される必要がある。ビデオ・データにおける画像データは大量の画像に対応するので、該大量の画像の大量の位置情報は、過度に大きなデータ・ボリュームを生じさせる。
本発明の実施形態は、空間情報のデータ・ボリュームを減らすための、ストリーミング・メディア情報処理方法および装置を提供する。
上記の目的および他の目的は、独立請求項における特徴を使って達成される。さらなる実装は従属請求項、明細書および付属の図面において反映される。
第一の側面は、ストリーミング・メディア情報処理方法を提供し、該方法は:
目標空間オブジェクトの目標空間情報を取得する段階であって、前記目標空間オブジェクトは二つの空間オブジェクトの一方であり、前記二つの空間オブジェクトは目標ビデオ・データに含まれる二つの画像のデータに関連付けられており、前記目標空間情報は同属性空間情報を含み、該同属性空間情報は前記二つの空間オブジェクトのそれぞれの空間情報の間の同じ情報を含み、前記二つの空間オブジェクトにおける前記目標空間オブジェクト以外の空間オブジェクトの空間情報は、前記同属性空間情報を含む、段階と;
前記目標空間情報に基づいて、再生される必要のあるビデオ・データを決定する段階とを含む。
前記目標ビデオ・データは、ビットストリーム、すなわち目標ビデオ・ビットストリームであってもよく;あるいはエンコードされていないもとのデータまたは再構成を通じて得られる再構成されたデータ、すなわち目標ビデオ・シーケンスであってもよい。目標ビデオ・データが目標ビデオ・ビットストリームであるときは、前記二つの画像のデータは前記二つの画像のエンコードされたデータであってもよい。目標ビデオ・データが目標ビデオ・シーケンスであるときは、前記二つの画像のデータは前記二つの画像のもとのデータまたは再構成されたデータであってもよい。
前記二つの画像は前記二つの空間オブジェクトと一対一対応にあってもよい。
前記同属性空間情報は、情報の群であり、前記二つの空間オブジェクトのそれぞれの空間情報は該情報の群を共有する。
目標空間オブジェクトの目標空間情報を取得することは:目標空間オブジェクトの目標空間情報をサーバーから受信することを含んでいてもよい。
前記二つの画像はビデオ・シーケンスにおける二つのフレームであってもよい。具体的には、前記二つの画像は異なる瞬間に対応する;または前記二つの画像はビデオ・シーケンスにおける同じフレームの部分画像であってもよい、すなわち、前記二つの画像は同じ瞬間に対応する;または前記二つの画像はビデオ・シーケンスにおける異なるフレームの部分画像であってもよい。
前記二つの空間オブジェクトのそれぞれの空間情報の間の繰り返される部分は、空間情報の冗長性を減らすために、同属性空間情報の群によって表現され、それにより空間情報のデータ・ボリュームを減らす。
前記目標空間情報に基づいて、再生される必要のあるビデオ・データを決定することは:前記目標空間情報に基づいて、前記目標空間オブジェクトが、再生される必要のあるピクチャーに対応する空間オブジェクトのすべてまたは一部を含むかどうかを判別し;前記目標空間オブジェクトが、再生される必要のあるピクチャーに対応する空間オブジェクトのすべてまたは一部を含むときに、前記目標ビデオ・データを、再生される必要のあるビデオ・データとして決定することを含んでいてもよい。
前記目標空間情報に基づいて、再生される必要のあるビデオ・データを決定することは:前記目標空間情報および前記目標空間オブジェクトと再生される必要のあるピクチャーに対応する空間オブジェクトとの間の空間的関係(または視野の切り換えの追跡)に基づいて、再生される必要のあるピクチャーに対応する空間オブジェクト(または視野が切り換えられた後に得られた空間オブジェクト)の空間情報を決定し、それによりさらに、再生される必要のある前記ビデオ・データを決定することを含んでいてもよい。具体的には、再生される必要のあるビデオ・データは再生される必要のあるビデオ・ビットストリームであってもよい。目標空間オブジェクトの目標空間情報が得られた後、パノラマ空間における目標空間オブジェクト(あるいはパノラマ空間オブジェクトと称される)の相対位置が決定されてもよく、次いで、視野が切り換えられた後に得られる空間オブジェクトの位置が、目標空間オブジェクトの目標空間情報および視野の切り換えの追跡に基づいて、ビデオ再生プロセスにおいて決定されてもよい。さらに、再生される必要のあるピクチャーに対応する空間オブジェクトに対応する、再生される必要のあるビデオ・ビットストリームが、サーバーに要求される。具体的実装では、再生される必要のあるビデオ・ビットストリームを取得するための要求が、記述される各空間オブジェクトのビットストリームの、MPDにおいて記述されている、URLのような情報に基づいてサーバーに送られてもよい。それにより、再生される必要のあるビデオ・ビットストリームが取得され、再生される必要のあるビデオ・ビットストリームがデコードされて再生される。
第一の側面によれば、第一の側面の第一の可能な実装において、目標空間情報はさらに、前記目標空間オブジェクトの異属性空間情報を含み、他方の空間オブジェクトの空間情報はさらに、該他方の空間オブジェクトの異属性空間情報を含み、前記目標空間オブジェクトの異属性空間情報は前記他方の空間オブジェクトの異属性情報とは異なる。
前記目標空間オブジェクトの異属性空間情報が前記他方の空間オブジェクトの異属性情報とは異なるとは、それら二つの異属性空間情報が異なることを意味しうる。
第一の側面または第一の側面の第一の実装によれば、第一の側面の第二の可能な実装において、前記目標空間情報は前記目標空間オブジェクトの中心点の位置情報または前記目標空間オブジェクトの左上点の位置情報を含み、前記目標空間情報はさらに、前記目標空間オブジェクトの幅および前記目標空間オブジェクトの高さを含む。
前記目標空間情報は、前記目標空間オブジェクトの中心点の位置情報または前記目標空間オブジェクトの左上点の位置情報の代わりに、前記目標空間オブジェクト内の別の位置の点(左下点、右上点、右下点または事前設定された点)の位置情報を含んでいてもよい。
左上点は、水平座標値および垂直座標値がそれぞれ前記目標空間オブジェクトにおいて最小である点である。
前記目標空間情報に対応する座標系が角座標系であるときは、中心点の位置情報または左上点の位置情報はピッチ角θ(pitch)およびヨー角ψ(yaw)であってもよく、あるいはピッチ角θ(pitch)、ヨー角ψ(yaw)およびロール角Φ(roll)であってもよい。あるいはまた、前記目標空間情報に対応する座標系がピクセル座標系であるときは、中心点の位置情報または左上点の位置情報は、ピクセル単位での水平座標およびピクセル単位での垂直座標であってもよい。
第一の側面または第一の側面の第一の実装によれば、第一の側面の第三の可能な実装において、前記目標空間情報は、前記目標空間オブジェクトの左上点の位置情報および前記目標空間オブジェクトの右下点の位置情報を含む。
前記目標空間情報は、前記目標空間オブジェクトの右上点の位置情報および前記目標空間オブジェクトの左下点の位置情報を含んでいてもよい。
第一の側面または第一の側面の第一の実装ないし第一の側面の第三の実装のいずれかによれば、第一の側面の第四の可能な実装において、前記目標空間情報は前記目標空間オブジェクトの空間回転情報を含む。
前記目標空間オブジェクトの空間回転情報は、前記目標空間オブジェクトがパノラマ空間オブジェクトの水平座標軸または垂直座標軸に対して回転する度合いを示すために使われてもよく、前記目標空間オブジェクトは前記パノラマ空間オブジェクト内にある。
前記目標空間情報に対応する座標系が角座標系であるときは、前記空間回転情報はロール角Φ(roll)であってもよい。あるいはまた、前記目標空間情報に対応する座標系がピクセル座標系であるときは、前記空間回転情報は、前記目標空間オブジェクトにおけるある位置点の、前記ロール角を使うことによる変換を通じて得られる動きベクトルを使って表現されてもよい。前記動きベクトルはピクセル単位である。
第一の側面または第一の側面の第一の実装ないし第一の側面の第四の実装のいずれかによれば、第一の側面の第五の可能な実装において、前記目標空間情報は空間情報データまたは空間情報トラック(track)においてカプセル化される。前記空間情報データは前記目標ビデオ・データのビットストリーム、前記目標ビデオ・データのメタデータまたは前記目標ビデオ・データとは独立なファイルであり、前記空間情報トラックは前記目標ビデオ・データとは独立なトラックである。
前記目標ビデオ・データとは独立なファイルは、空間情報を記述するために使われる空間情報ファイルであってもよい。前記目標ビデオ・データとは独立なトラックは、空間情報を記述するために使われる空間情報トラックであってもよい。
前記目標空間情報が前記目標ビデオ・データのビットストリームにおいてカプセル化されるとき、前記目標空間情報は前記目標ビデオ・データのビットストリームにおける補助向上情報単位またはパラメータ・セット単位においてカプセル化されてもよく、あるいは前記目標空間情報は前記目標ビデオ・データが位置する空間的表現のセグメントにおいてカプセル化されてもよい。具体的には、前記目標空間情報はボックス(たとえばtrunボックスまたはtfhdボックス)においてカプセル化されてもよい。
前記目標空間オブジェクトの同属性空間情報および異属性空間情報は同じボックスにおいてカプセル化されてもよく、あるいは異なるボックスにおいてカプセル化されてもよい。具体的には、同属性空間情報は3dscボックスにおいてカプセル化されてもよく、前記目標空間オブジェクトの異属性空間情報はmdatボックスにおいてカプセル化されてもよい。
第一の側面の第五の実装によれば、第一の側面の第六の可能な実装において、前記空間情報データまたは前記空間情報トラックはさらに、同属性空間情報のタイプを示すために使われる空間情報タイプ識別子を含み、前記空間情報タイプ識別子は、前記目標空間情報内にあり、同属性空間情報に属する情報を示すために使われる。
定義から、前記目標空間オブジェクトの同属性空間情報および異属性空間情報が相補的であることがわかりうる。よって、前記空間情報タイプ識別子が、前記目標空間情報内にあり、同属性空間情報に属する情報を示すために使われるとき、該空間情報タイプ識別子は、前記目標空間情報内にあり、前記目標空間オブジェクトの異属性空間情報に属する情報を示すためにも使用されうる。
空間情報タイプ識別子は、前記目標空間オブジェクトの同属性空間情報または異属性空間情報の空間情報タイプを示すためにも使われてもよい。任意的な空間情報タイプは、空間オブジェクトの位置情報を含むが空間オブジェクトの幅および高さ情報は含まない空間情報、空間オブジェクトの幅および高さ情報を含むが空間オブジェクトの位置情報は含まない空間情報、および空間オブジェクトの幅および高さ情報および空間オブジェクトの位置情報を含む空間情報を含みうるが、それに限られない。
空間情報タイプ識別子は、前記二つの空間オブジェクトの空間オブジェクト・タイプを示すために使われてもよい。任意的な空間オブジェクト・タイプは、位置、幅および高さが変わらないままである空間オブジェクト、位置が変化し幅および高さが変わらないままである空間オブジェクト、位置が変わらないままであり幅および高さが変化する空間オブジェクトおよび位置、幅および高さがみな変化する空間オブジェクトを含むがそれに限られない。
第一の側面の前記第二の実装について、空間情報タイプ識別子が第一の事前設定された値であるとき、空間情報タイプ識別子は、前記目標空間情報内にあり、同属性空間情報に属する情報が前記目標空間オブジェクトの中心点の位置情報または前記目標空間オブジェクトの左上点の位置情報、前記目標空間オブジェクトの幅および前記目標空間オブジェクトの高さであることを示すために使われる。空間情報タイプ識別子が第二の事前設定された値であるとき、空間情報タイプ識別子は、前記目標空間情報内にあり、同属性空間情報に属する情報が前記目標空間オブジェクトの幅および前記目標空間オブジェクトの高さであることを示すために使われる。空間情報タイプ識別子が第三の事前設定された値であるとき、空間情報タイプ識別子は、前記目標空間情報が同属性空間情報に属する情報をもたないことを示すために使われる。
対応して、第一の側面の前記第二の実装について、空間情報タイプ識別子が前記第一の事前設定された値であるとき、空間情報タイプ識別子はさらに、異属性空間情報が存在しないことを示す。空間情報タイプ識別子が前記第二の事前設定された値であるとき、空間情報タイプ識別子はさらに、前記目標空間オブジェクトの異属性空間情報が前記目標空間オブジェクトの中心点の位置情報または前記目標空間オブジェクトの左上点の位置情報であることを示す。空間情報タイプ識別子が前記第三の事前設定された値であるとき、空間情報タイプ識別子はさらに、前記目標空間オブジェクトの異属性空間情報が、前記目標空間オブジェクトの中心点の位置情報または前記目標空間オブジェクトの左上点の位置情報、前記目標空間オブジェクトの幅および前記目標空間オブジェクトの高さであることを示す。
第一の側面の前記第三の実装について、空間情報タイプ識別子が第四の事前設定された値であるとき、空間情報タイプ識別子は、前記目標空間情報内にあり、同属性空間情報に属する情報が前記目標空間オブジェクトの左上点の位置情報および前記目標空間オブジェクトの右下点の位置情報であることを示すために使われる。空間情報タイプ識別子が第五の事前設定された値であるとき、空間情報タイプ識別子は、前記目標空間情報内にあり、同属性空間情報に属する情報が前記目標空間オブジェクトの右下点の位置情報であることを示すために使われる。空間情報タイプ識別子が第六の事前設定された値であるとき、空間情報タイプ識別子は、前記目標空間情報が同属性空間情報に属する情報をもたないことを示すために使われる。前記目標空間オブジェクトの左上点の位置情報または前記目標空間オブジェクトの右下点の位置情報が、前記目標空間オブジェクトの幅および前記目標空間オブジェクトの高さで置き換えられてもよいことを注意しておくべきである。
対応して、第一の側面の前記第三の実装について、空間情報タイプ識別子が前記第四の事前設定された値であるとき、空間情報タイプ識別子はさらに、異属性空間情報が存在しないことを示す。空間情報タイプ識別子が前記第五の事前設定された値であるとき、空間情報タイプ識別子はさらに、前記目標空間オブジェクトの異属性空間情報が前記目標空間オブジェクトの中心点の位置情報または前記目標空間オブジェクトの左上点の位置情報であることを示す。空間情報タイプ識別子が前記第六の事前設定された値であるとき、空間情報タイプ識別子はさらに、前記目標空間オブジェクトの異属性空間情報が前記目標空間オブジェクトの左上点の位置情報および前記目標空間オブジェクトの右下点の位置情報であることを示す。前記目標空間オブジェクトの左上点の位置情報または前記目標空間オブジェクトの右下点の位置情報が、前記目標空間オブジェクトの幅および前記目標空間オブジェクトの高さで置き換えられてもよいことを注意しておくべきである。
第一の側面の第六の実装によれば、第一の側面の第七の可能な実装において、空間情報タイプ識別子が、前記目標空間情報が同属性空間情報に属する情報をもたないことを示すとき、同属性空間情報は、前記目標空間オブジェクトの幅の最小値、前記目標空間オブジェクトの高さの最小値、前記目標空間オブジェクトの幅の最大値および前記目標空間オブジェクトの高さの最大値を含む。
第一の側面の第六の実装または第一の側面の第七の実装によれば、第一の側面の第八の可能な実装において、空間情報タイプ識別子および同属性空間情報は同じボックスにおいてカプセル化される。
第一の側面の第五の実装ないし第一の側面の第八の実装のいずれかによれば、第一の側面の第九の可能な実装において、前記空間情報データまたは前記空間情報トラックはさらに、前記目標空間情報に対応する座標系を示すために使われる座標系識別子を含み、前記座標系はピクセル座標系または角座標系である。
座標系がピクセル座標系であるとき、位置情報はピクセル単位の座標によって表わされ、幅および高さもピクセル単位で表わされる。座標系が角座標系であるとき、位置情報は角度で表わされる。たとえば、位置情報はピッチ角θ(pitch)およびヨー角ψ(yaw)であってもよく、あるいはピッチ角θ(pitch)、ヨー角ψ(yaw)およびロール角Φ(roll)であってもよい。幅および高さはそれぞれ、角度を使って角度範囲を表わすために使われる。
第一の側面の第九の実装によれば、第一の側面の第十の可能な実装において、座標系識別子および同属性空間情報は同じボックスにおいてカプセル化される。
第一の側面の第五の実装ないし第一の側面の第十の実装のいずれかによれば、第一の側面の第十一の可能な実装において、前記空間情報データまたは前記空間情報トラックはさらに空間回転情報識別子を含み、空間回転情報識別子は、前記目標空間情報が前記目標空間オブジェクトの空間回転情報を含むかどうかを示すために使われる。
空間回転情報識別子および同属性空間情報は同じボックスにおいてカプセル化されてもよく、あるいは空間回転情報識別子および前記目標空間オブジェクトの異属性空間情報が同じボックスにおいてカプセル化されてもよい。具体的には、空間回転情報識別子および前記目標空間オブジェクトの異属性空間情報が同じボックスにカプセル化される場合、空間回転情報識別子が前記目標空間情報が前記目標空間オブジェクトの空間回転情報を示すことを示すとき、前記目標空間オブジェクトの異属性空間情報は空間回転情報を含む。
空間回転情報識別子が前記目標空間情報が前記目標空間オブジェクトの空間回転情報を含むことを示すとき、そのことは、前記目標空間オブジェクトが回転することを示す。空間回転情報識別子が前記目標空間情報が前記目標空間オブジェクトの空間回転情報を含まないことを示すとき、そのことは、前記目標空間オブジェクトが回転しないことを示す。
第二の側面は、ストリーミング・メディア情報処理方法を提供し、該方法は:
目標ビデオ・データ内の二つの画像のデータに関連付けられている二つの空間オブジェクトのそれぞれの空間情報を取得する段階と;
前記二つの空間オブジェクトのそれぞれの空間情報に基づいて目標空間オブジェクトの目標空間情報を決定する段階とを含み、前記目標空間オブジェクトは二つの空間オブジェクトの一方であり、前記目標空間情報は同属性空間情報を含み、該同属性空間情報は前記二つの空間オブジェクトのそれぞれの空間情報の間の同じ情報を含み、前記二つの空間オブジェクトにおける前記目標空間オブジェクト以外の空間オブジェクトの空間情報は、前記同属性空間情報を含み、
当該方法はさらに、前記目標空間情報をクライアントに送ることを含んでいてもよい。
第二の側面によれば、第二の側面の第一の可能な実装において、目標空間情報はさらに、前記目標空間オブジェクトの異属性空間情報を含んでいてもよく、他方の空間オブジェクトの空間情報はさらに、該他方の空間オブジェクトの異属性空間情報を含んでいてもよく、前記目標空間オブジェクトの異属性空間情報は前記他方の空間オブジェクトの異属性空間情報とは異なる。
第二の側面または第二の側面の第一の実装によれば、第二の側面の第二の可能な実装において、前記目標空間情報は前記目標空間オブジェクトの中心点の位置情報または前記目標空間オブジェクトの左上点の位置情報を含んでいてもよく、前記目標空間情報はさらに、前記目標空間オブジェクトの幅および前記目標空間オブジェクトの高さを含んでいてもよい。
対応して、前記二つの空間オブジェクトのそれぞれの空間情報は、前記二つの空間オブジェクトのそれぞれの中心点の位置情報または前記二つの空間オブジェクトのそれぞれの左上点の位置情報を含んでいてもよく、前記二つの空間オブジェクトのそれぞれの空間情報はさらに、前記二つの空間オブジェクトのそれぞれの幅および前記二つの空間オブジェクトのそれぞれの高さを含んでいてもよい。
第二の側面または第二の側面の第一の実装によれば、第二の側面の第三の可能な実装において、前記目標空間情報は、前記目標空間オブジェクトの左上点の位置情報および前記目標空間オブジェクトの右上点の位置情報を含んでいてもよい。
対応して、前記二つの空間オブジェクトのそれぞれの空間情報は、前記二つの空間オブジェクトのそれぞれの左上点の位置情報および前記二つの空間オブジェクトのそれぞれの右下点の位置情報を含んでいてもよい。
第二の側面または第二の側面の第一の実装ないし第二の側面の第三の実装のいずれかによれば、第二の側面の第四の可能な実装において、前記目標空間情報は前記目標空間オブジェクトの空間回転情報を含んでいてもよい。
対応して、前記二つの空間オブジェクトのそれぞれの空間情報は、前記二つの空間オブジェクトのそれぞれの空間回転情報を含んでいてもよい。
第二の側面または第二の側面の第一の実装ないし第二の側面の第四の実装のいずれかによれば、第二の側面の第五の可能な実装において、前記目標空間情報は空間情報データまたは空間情報トラック(track)においてカプセル化されてもよい。前記空間情報データは前記目標ビデオ・データのビットストリーム、前記目標ビデオ・データのメタデータまたは前記目標ビデオ・データとは独立なファイルであってもよく、前記空間情報トラックは前記目標ビデオ・データとは独立なトラックであってもよい。
第二の側面の第五の実装によれば、第二の側面の第六の可能な実装において、前記空間情報データまたは前記空間情報トラックはさらに、同属性空間情報のタイプを示すために使われる空間情報タイプ識別子を含み、前記空間情報タイプ識別子は、前記目標空間情報内にあり、同属性空間情報に属する情報を示すために使われる。
第二の側面の第六の実装によれば、第二の側面の第七の可能な実装において、空間情報タイプ識別子が、前記目標空間情報が同属性空間情報に属する情報をもたないことを示すとき、同属性空間情報は、前記目標空間オブジェクトの幅の最小値、前記目標空間オブジェクトの高さの最小値、前記目標空間オブジェクトの幅の最大値および前記目標空間オブジェクトの高さの最大値を含んでいてもよい。
第二の側面の第六の実装または第二の側面の第七の実装によれば、第二の側面の第八の可能な実装において、空間情報タイプ識別子および同属性空間情報は同じボックスにおいてカプセル化されてもよい。
第二の側面の第五の実装ないし第二の側面の第八の実装のいずれかによれば、第二の側面の第九の可能な実装において、前記空間情報データまたは前記空間情報トラックはさらに、前記目標空間情報に対応する座標系を示すために使われる座標系識別子を含んでいてもよく、前記座標系はピクセル座標系または角座標系である。
第二の側面の第九の実装によれば、第二の側面の第十の可能な実装において、座標系識別子および同属性空間情報は同じボックスにおいてカプセル化されてもよい。
第二の側面の第五の実装ないし第二の側面の第十の実装のいずれかによれば、第二の側面の第十一の可能な実装において、前記空間情報データまたは前記空間情報トラックはさらに空間回転情報識別子を含んでいてもよく、空間回転情報識別子は、前記目標空間情報が前記目標空間オブジェクトの空間回転情報を含むかどうかを示すために使われる。
第三の側面は、ストリーミング・メディア情報処理装置を提供し、該装置は:
目標空間オブジェクトの目標空間情報を取得するよう構成された取得モジュールであって、前記目標空間オブジェクトは二つの空間オブジェクトの一方であり、前記二つの空間オブジェクトは目標ビデオ・データに含まれる二つの画像のデータに関連付けられており、前記目標空間情報は同属性空間情報を含み、該同属性空間情報は前記二つの空間オブジェクトのそれぞれの空間情報の間の同じ情報を含み、前記二つの空間オブジェクトにおける前記目標空間オブジェクト以外の空間オブジェクトの空間情報は、前記同属性空間情報を含む、取得モジュールと;
前記取得モジュールによって得られた前記目標空間情報に基づいて、再生される必要のあるビデオ・データを決定するよう構成された決定モジュールとを有し、
前記取得モジュールは、前記目標空間情報をサーバーから受領するよう構成されていてもよい。
第三の側面によれば、第三の側面の第一の可能な実装において、目標空間情報はさらに、前記目標空間オブジェクトの異属性空間情報を含み、他方の空間オブジェクトの空間情報はさらに、該他方の空間オブジェクトの異属性空間情報を含み、前記目標空間オブジェクトの異属性空間情報は前記他方の空間オブジェクトの異属性情報とは異なる。
第三の側面または第三の側面の第一の実装によれば、前記目標空間情報は前記目標空間オブジェクトの中心点の位置情報または前記目標空間オブジェクトの左上点の位置情報を含み、前記目標空間情報はさらに、前記目標空間オブジェクトの幅および前記目標空間オブジェクトの高さを含む。
第三の側面または第三の側面の第一の実装によれば、第三の側面の第三の可能な実装において、前記目標空間情報は、前記目標空間オブジェクトの左上点の位置情報および前記目標空間オブジェクトの右下点の位置情報を含む。
第三の側面または第三の側面の第一の実装ないし第三の側面の第三の実装のいずれかによれば、第三の側面の第四の可能な実装において、前記目標空間情報は前記目標空間オブジェクトの空間回転情報を含む。
第三の側面または第三の側面の第一の実装ないし第三の側面の第四の実装のいずれかによれば、第三の側面の第五の可能な実装において、前記目標空間情報は空間情報データまたは空間情報トラック(track)においてカプセル化される。前記空間情報データは前記目標ビデオ・データのビットストリーム、前記目標ビデオ・データのメタデータまたは前記目標ビデオ・データとは独立なファイルであり、前記空間情報トラックは前記目標ビデオ・データとは独立なトラックである。
第三の側面の第五の実装によれば、第三の側面の第六の可能な実装において、前記空間情報データまたは前記空間情報トラックはさらに、同属性空間情報のタイプを示すために使われる空間情報タイプ識別子を含み、前記空間情報タイプ識別子は、前記目標空間情報内にあり、同属性空間情報に属する情報を示すために使われる。
第三の側面の第六の実装によれば、第三の側面の第七の可能な実装において、空間情報タイプ識別子が、前記目標空間情報が同属性空間情報に属する情報をもたないことを示すとき、同属性空間情報は、前記目標空間オブジェクトの幅の最小値、前記目標空間オブジェクトの高さの最小値、前記目標空間オブジェクトの幅の最大値および前記目標空間オブジェクトの高さの最大値を含む。
第三の側面の第六の実装または第三の側面の第七の実装によれば、第三の側面の第八の可能な実装において、空間情報タイプ識別子および同属性空間情報は同じボックスにおいてカプセル化される。
第三の側面の第五の実装ないし第三の側面の第八の実装のいずれかによれば、第三の側面の第九の可能な実装において、前記空間情報データまたは前記空間情報トラックはさらに、前記目標空間情報に対応する座標系を示すために使われる座標系識別子を含み、前記座標系はピクセル座標系または角座標系である。
第三の側面の第九の実装によれば、第三の側面の第十の可能な実装において、座標系識別子および同属性空間情報は同じボックスにおいてカプセル化される。
第三の側面の第五の実装ないし第三の側面の第十の実装のいずれかによれば、第三の側面の第十一の可能な実装において、前記空間情報データまたは前記空間情報トラックはさらに空間回転情報識別子を含み、空間回転情報識別子は、前記目標空間情報が前記目標空間オブジェクトの空間回転情報を含むかどうかを示すために使われる。
第四の側面は、ストリーミング・メディア情報処理装置を提供し、該装置は:
目標ビデオ・データ内の二つの画像のデータに関連付けられている二つの空間オブジェクトのそれぞれの空間情報を取得するよう構成された取得モジュールと;
前記二つの空間オブジェクトのそれぞれの空間情報に基づいて目標空間オブジェクトの目標空間情報を決定するよう構成された決定モジュールとを含み、前記目標空間オブジェクトは二つの空間オブジェクトの一方であり、前記目標空間情報は同属性空間情報を含み、該同属性空間情報は前記二つの空間オブジェクトのそれぞれの空間情報の間の同じ情報を含み、前記二つの空間オブジェクトにおける前記目標空間オブジェクト以外の空間オブジェクトの空間情報は、前記同属性空間情報を含み、
当該装置はさらに、前記決定モジュールによって決定された前記目標空間情報をクライアントに送るよう構成された送信モジュールを含んでいてもよい。
第四の側面によれば、第四の側面の第一の可能な実装において、目標空間情報はさらに、前記目標空間オブジェクトの異属性空間情報を含んでいてもよく、他方の空間オブジェクトの空間情報はさらに、該他方の空間オブジェクトの異属性空間情報を含んでいてもよく、前記目標空間オブジェクトの異属性空間情報は前記他方の空間オブジェクトの異属性情報とは異なる。
第四の側面または第四の側面の第一の実装によれば、第四の側面の第二の可能な実装において、前記目標空間情報は前記目標空間オブジェクトの中心点の位置情報または前記目標空間オブジェクトの左上点の位置情報を含んでいてもよく、前記目標空間情報はさらに、前記目標空間オブジェクトの幅および前記目標空間オブジェクトの高さを含んでいてもよい。
対応して、前記二つの空間オブジェクトのそれぞれの空間情報は、前記二つの空間オブジェクトのそれぞれの中心点の位置情報または前記二つの空間オブジェクトのそれぞれの左上点の位置情報を含んでいてもよく、前記二つの空間オブジェクトのそれぞれの空間情報はさらに、前記二つの空間オブジェクトのそれぞれの幅および前記二つの空間オブジェクトのそれぞれの高さを含んでいてもよい。
第四の側面または第四の側面の第一の実装によれば、第四の側面の第三の可能な実装において、前記目標空間情報は、前記目標空間オブジェクトの左上点の位置情報および前記目標空間オブジェクトの右上点の位置情報を含んでいてもよい。
対応して、前記二つの空間オブジェクトのそれぞれの空間情報は、前記二つの空間オブジェクトのそれぞれの左上点の位置情報および前記二つの空間オブジェクトのそれぞれの右下点の位置情報を含んでいてもよい。
第四の側面または第四の側面の第一の実装ないし第四の側面の第三の実装のいずれかによれば、第四の側面の第四の可能な実装において、前記目標空間情報は前記目標空間オブジェクトの空間回転情報を含んでいてもよい。
対応して、前記二つの空間オブジェクトのそれぞれの空間情報は、前記二つの空間オブジェクトのそれぞれの空間回転情報を含んでいてもよい。
第四の側面または第四の側面の第一の実装ないし第四の側面の第四の実装のいずれかによれば、第四の側面の第五の可能な実装において、前記目標空間情報は空間情報データまたは空間情報トラック(track)においてカプセル化されてもよい。前記空間情報データは前記目標ビデオ・データのビットストリーム、前記目標ビデオ・データのメタデータまたは前記目標ビデオ・データとは独立なファイルであってもよく、前記空間情報トラックは前記目標ビデオ・データとは独立なトラックであってもよい。
第四の側面の第五の実装によれば、第四の側面の第六の可能な実装において、前記空間情報データまたは前記空間情報トラックはさらに、同属性空間情報のタイプを示すために使われる空間情報タイプ識別子を含み、前記空間情報タイプ識別子は、前記目標空間情報内にあり、同属性空間情報に属する情報を示すために使われる。
第四の側面の第六の実装によれば、第四の側面の第七の可能な実装において、空間情報タイプ識別子が、前記目標空間情報が同属性空間情報に属する情報をもたないことを示すとき、同属性空間情報は、前記目標空間オブジェクトの幅の最小値、前記目標空間オブジェクトの高さの最小値、前記目標空間オブジェクトの幅の最大値および前記目標空間オブジェクトの高さの最大値を含んでいてもよい。
第四の側面の第六の実装または第四の側面の第七の実装によれば、第四の側面の第八の可能な実装において、空間情報タイプ識別子および同属性空間情報は同じボックスにおいてカプセル化されてもよい。
第四の側面の第五の実装ないし第四の側面の第八の実装のいずれかによれば、第四の側面の第九の可能な実装において、前記空間情報データまたは前記空間情報トラックはさらに、前記目標空間情報に対応する座標系を示すために使われる座標系識別子を含んでいてもよく、前記座標系はピクセル座標系または角座標系である。
第四の側面の第九の実装によれば、第四の側面の第十の可能な実装において、座標系識別子および同属性空間情報は同じボックスにおいてカプセル化される。
第四の側面の第五の実装ないし第四の側面の第十の実装のいずれかによれば、第四の側面の第十一の可能な実装において、前記空間情報データまたは前記空間情報トラックはさらに空間回転情報識別子を含んでいてもよく、空間回転情報識別子は、前記目標空間情報が前記目標空間オブジェクトの空間回転情報を含むかどうかを示すために使われる。
第五の側面は、ストリーミング・メディア情報処理装置を提供し、該装置はプロセッサおよびメモリを含む。メモリはコードを記憶するよう構成され、プロセッサはメモリに記憶されたコードを読んで、第一の側面において提供される方法を実行する。
第六の側面はコンピュータ記憶媒体を提供し、該コンピュータ記憶媒体は、第五の側面におけるプロセッサによって実行されて第一の側面において提供される方法を実行するコンピュータ・ソフトウェア命令を記憶するよう構成される。
第七の側面は、ストリーミング・メディア情報処理装置を提供し、該装置はプロセッサおよびメモリを含む。メモリはコードを記憶するよう構成され、プロセッサはメモリに記憶されたコードを読んで、第二の側面において提供される方法を実行する。
第八の側面はコンピュータ記憶媒体を提供し、該コンピュータ記憶媒体は、第七の側面におけるプロセッサによって実行されて第二の側面において提供される方法を実行するコンピュータ・ソフトウェア命令を記憶するよう構成される。
本発明の実施形態のある可能な実装において、メディア・データとメタデータとの間の参照の参照タイプ(reference type)の記述様式が開示される。既存のドラフト規格において規定されている参照タイプに基づいて、異なる方法のために異なる参照タイプがメタデータを使って定義され、参照タイプに基づいてクライアントが対応する処理を実行するのを助ける。
本発明の実施形態のある可能な実装において、メディア・データとメタデータとの間の参照の参照タイプはメディア・データ・トラック(track)またはメタデータ・トラックに格納される。ある可能な実装では、メディア・データとメタデータとの間の参照の参照タイプはボックス(box)の形で伝送される。トラックおよびボックスの関係した定義については、既存のMPEG-DASH規格およびISO/IEC 14496-12における関係した規定を参照されたい。詳細をここで再び述べることはしない。一例では、参照タイプについての情報は'tref'ボックスに格納されてもよい。
本発明の実施形態のある可能な実装では、メディア・データはビデオ・データであり、メディア・データとメタデータとの間の参照の参照タイプはビデオ・トラックに格納される。たとえば、trefボックスはビデオ・トラックを記述するメタデータに格納される。
一例では、trefボックスを含むトラックは参照されるビデオ・トラック(the referenced video track)であり、メディア・データとメタデータとの間の参照の、trefボックス内にある参照タイプを使うことによってメタデータ・トラックと関連付けられる。参照されるメタデータ・トラックは、トラックIDを使って決定されてもよい。
本発明の実施形態のある可能な実装では、参照タイプは次の情報のうちの一つまたは複数を記述するために使われてもよい:
メディア・データにおける関心領域(region of interest、ROI)、メディア・データによってカバーされる空間領域、メディア・データ中のROIに関連付けられた品質情報およびメディア・データによってカバーされる空間領域に関連付けられた品質情報。
本発明の実施形態の一例では、参照タイプは次の情報のうちの一つまたは複数を記述するために使われてもよい:
メディア・データに対応する空間オブジェクトにおけるROIの、球上である、2D平面上である、またはマッピングされた画像内である空間位置情報;または
メディア・データによってカバーされる領域の、球上である、2D平面上である、またはマッピングされた画像内である空間位置情報;または
前記ROIまたは前記カバーされる領域の空間的品質情報。
上記のROI情報はROIの時間付きメタデータ・トラックに含まれ、品質情報は品質の時間付きメタデータ・トラックに含まれる。
本発明の実施形態の一例では、メディア・データ・トラックの'tref'ボックスは、メディア・データとメタデータとの間の参照を表わす参照タイプを含む。参照タイプは次の情報のうちの一つまたは複数を記述するために使われてもよい:
メディア・データに対応する空間オブジェクトにおける関心領域(region of interest、ROI)の2D空間位置情報、メディア・データに対応する空間オブジェクトにおけるROIの、球上である空間位置情報、メディア・データに対応する空間オブジェクトにおけるROIの、マッピングされた画像内である空間位置情報、メディア・データに対応する空間オブジェクトの2D空間位置情報、メディア・データに対応する空間オブジェクトの、球上である空間位置情報、メディア・データに対応する空間オブジェクトの、マッピングされた画像内である空間位置情報、メディア・データに対応する空間オブジェクトにおけるROIの2D空間位置の品質情報、メディア・データに対応する空間オブジェクトにおけるROIの、球上である空間位置の品質情報、メディア・データに対応する空間オブジェクトにおけるROIの、マッピングされた画像内である空間位置の品質情報、メディア・データに対応する空間オブジェクトの2D空間位置の品質情報、メディア・データに対応する空間オブジェクトの、球上である空間位置の品質情報、またはメディア・データに対応する空間オブジェクトの、マッピングされた画像内である空間位置の品質情報。
本発明の実施形態の一例では、参照タイプの値はroisであり、参照されるトラックが球上のROIの領域情報を含む(this track contains the region information of the ROI on the sphere)ことを示す。ROIの領域情報は参照されるビデオ・トラックにおけるサンプルに対応する画像を記述する空間領域である。クライアントは、ROIの時間付きメタデータ・トラックにおけるサンプルをパースすることによって、ROIの領域情報を得て、該ROI情報を使って、参照されるビデオ・トラックにおける前記サンプルに対応する画像のROIを呈示してもよい(The client can use the sample in this track to render the ROI on the sphere)。
本発明の実施形態の一例では、参照タイプの値はroiqであり、参照されるトラックが、参照されるビデオ・トラックにおけるサンプルに対応する画像の、球上のROIの品質情報を含む(this track contains the quality information of the ROI on the sphere for the referenced video track)ことを示す。クライアントは、品質の時間付きメタデータ・トラックにおけるサンプルをパースすることによって、参照されるビデオ・データのROIの品質を得てもよい(the client can use the sample in this track to know the quality of the ROI object on the sphere)。
本発明の実施形態の一例では、参照タイプの値はconqであり、参照されるトラックが、ビデオ・トラックにおけるサンプルに対応する画像の、球上のカバレッジ情報を含む(this track provides information on the area on the spherical surface for the referenced video track)ことを示す。参照されるメタデータ・トラックは、推奨されるビューポイント時間付きメタデータ・トラックであってもよく(this track may be a recommended viewport timed metadata track)、参照されるビデオ・トラックはディレクターの視野内のビデオ・トラックであってもよい(the referenced video track may be a director's cut video track)。
本発明の実施形態の一例では、参照タイプ(reference_type)の値および記述される情報の間の対応は、次の示される。
Figure 2020503792
本発明の実施形態において、サーバー側では、メディア・データが'tref'ボックスのシンタックスをカプセル化するとき、メディア・データと、該メディア・データとの参照をもつメタデータとの間の参照の参照タイプがカプセル化される。クライアントが、メディア・データとメタデータとの間の参照の参照タイプにおいて記述される情報を使ってメディア・トラックのデータをパースした後、クライアントは、ビデオ・データに対してどんな処理が実行されることができるかを知りうる。この方法では、諸トラックのパースは互いから分離されることができ、クライアントの実装手順における複雑さが軽減される。クライアントは、種々の処理要件に従って対応するトラック・データを要求しうる。
本発明の実施形態におけるROIは、視野であってもよく、あるいは推奨される視野、たとえば作者の視野であってもよい。
本発明のある実施形態では、視野または推奨される視野はカバレッジ・エリアであってもよく、カバレッジ・エリアはメディア・データに対応する空間オブジェクトの空間領域である。
本発明の実施形態のある実装では、メディア・データのトラックは、メディア・データと、該メディア・データと参照関係をもつメタデータとの間の参照の参照タイプを含む。参照タイプは、メディア・データに対応する空間オブジェクトにおけるROIの2D空間位置、メディア・データに対応する空間オブジェクトにおけるROIの、球上での空間位置、またはメディア・データに対応する空間オブジェクトにおけるROIの、マッピングされた画像内での空間位置を記述しうる。
ある具体例では、メディア・データ・トラックは'tref'ボックスを含む。
'tref'ボックスにおけるreference_typeの値はri2dであり、この値は、メディア・データがROIの時間付きメタデータ・トラックと関連付けられていることを示す。ROIにおけるトラックにおけるサンプル(sample)は、メディア・データに対応する空間オブジェクトにおけるROIの2D空間位置情報であり、該2D空間位置情報は既存のISO/IEC 23001-10規格において定義される位置であってもよい。
あるいはまた、reference_typeの値はroisであり、ROIにおけるトラックにおけるサンプル(sample)は、メディア・データに対応する空間オブジェクトにおけるROIの、球上での空間位置情報である。該球上での空間位置情報は、球上の時間付きメタデータ・トラックにある、既存のISO/IEC 23000-20規格において定義されているサンプルであってもよい。
あるいはまた、reference_typeの値はri2pであり、この値は、メディア・データがROIの時間付きメタデータ・トラックと関連付けられていることを示す。ROIにおけるトラックにおけるサンプル(sample)は、メディア・データに対応する空間オブジェクトにおけるROIの、マッピングされた画像内での空間位置情報である。
ある対応する例において、クライアントの次のような処理様式があってもよい。
1.クライアントは、メディア・データのトラックをパースして、トラック内の'tref'ボックスを得る。ここで、メディア・データ・トラックのトラックID(これは任意の0でない整数でありうる)は1である。クライアントは該'tref'ボックスから、reference_type値が'ri2d'、'rois'または'ri2p'である参照されるトラックを取得し、ここで、参照されるトラックのトラックID(これは任意の0でない整数でありうる)は2である。
2.クライアントは、'ri2d'に基づいて、トラックIDが2であるトラックが、メディア・データに対応する空間オブジェクトにおけるROIの2D空間位置情報を記述していることを判別する;または、
'rois'に基づいて、トラックIDが2であるトラックが、メディア・データに対応する空間オブジェクトにおけるROIの、球上での空間位置情報を記述していることを判別する;または、
'ri2p'に基づいて、トラックIDが2であるトラックが、メディア・データに対応する空間オブジェクトにおけるROIの、マッピングされた画像内での空間位置情報を記述していることを判別する。
3.クライアントは、ユーザー・インターフェース上でROIオプションを提供してもよく、ユーザーがROI内のコンテンツを見るかどうかを選ぶ。ユーザーがROI内のコンテンツを見ることを選ぶ場合、クランアントはROI内のコンテンツを呈示する。あるいはクライアントはROI内のコンテンツを直接呈示する。
4.クライアントがROI内のコンテンツを呈示する必要がある前に、クライアントはトラックID=2である時間付きメタデータ・トラックをパースして、トラックからROIの空間位置情報を得て、該空間位置情報に基づいて、ビデオ・コンテンツからのROI内のコンテンツをインターセプトし、ROI内のコンテンツを呈示する。トラックによって参照されるメタデータのタイプは、トラック内のtrefメタデータにおいて明確に記述されており、クライアントによって実行される諸トラックのパースは互いから分離され、クライアントの実装手順における複雑さが軽減される。
本発明の実施形態のある可能な実装では、図17に示されるように、カバレッジ情報が、源ビデオ・コンテンツ全体において現在のトラックのメディア・コンテンツが捕捉される領域を記述する。領域は、VR球における領域であってもよく、2D画像における領域であってもよく、あるいは球が2D画像にマッピングされた後に捕捉された領域であってもよい。図17に記載されるように、図17(a)の右の小さな図式における空間位置情報は、左の大きな図式における該小さな図式のカバレッジ情報である。球状図式(図17(a))では、灰色の領域について球上で捕捉された領域が、該灰色の領域のカバレッジ・エリアである。カバレッジ・エリアにおけるメディア・トラックにおける参照タイプの記述が'tref'ボックスに追加される。記述情報は、メタデータが、メディア・データに対応する空間オブジェクトの2D空間位置情報、またはメディア・データに対応する空間オブジェクトの、球上での空間位置情報、またはメディア・データに対応する空間オブジェクトの、マッピングされた画像における空間位置情報であることを示す。
本発明の実施形態のある可能な様式では、カバレッジ情報はボックスを使って記述される。具体例が下記に示される:
カバレッジ情報ボックス
ボックス・タイプ:'covi'
コンテナ:Projected omnidirectional video box[投影された全方向ビデオ・ボックス] ('povd')
必須:No
数:ゼロまたは一
一例では、このボックスは、コンテナProjctedOmnidirectionalVideoBoxに関連付けられた投影されたフレームによって表わされる球上の領域内の情報を提供する。(This box provides information on the area on the spherical surface that is represented by the projected frame associated with the container ProjctedOmnidirectionalVideoBox)。データがカバレッジ情報を表わすボックスをもたない場合、そのことは、投影されたフレームが全球に対応する表現であることを示す(The absence of this box indicates that the projected frame is a representation of the full sphere)。
投影フォーマットが等角投影であるとき、投影されたフレームによって表わされる球状領域は、図10に示されるように、二つのヨー円および二つのピッチ円によって指定される領域である(When the projection format is the equirectangular projection, the spherical region represented by the projected frame is the region specified by two yaw circles and two pitch circles, as illustrated fig 10)。
本発明の実施形態の一例では、カバレッジ情報は次の仕方で記述される:
aligned(8) class CoverageInformationBox extends FullBox('covi', version = 0, flags) {
unsigned int(1) dynamic_range_flag;
if (dynamic_range_flag == 0) {
unsigned int(8) shape_type;
bit(7) reserved = 0;
unsigned int(16) static_hor_range;
unsigned int(16) static_ver_range;
}
}
}
要素hor_rangeおよび要素ver_rangeは、ビデオ・トラックにおけるサンプル(sample)に対応する、球上での、水平方向および垂直方向の範囲を表わし、0.01度単位であってもよい。
一例では、hor_rangeおよびver_rangeは領域の中心点の範囲を指定する。hor_rangeの範囲は1から36000であるべきであり、ver_rangeの範囲は1から36000であるべきである。center_pitch+ver_range÷2は18000より大きくなく、center_pitch−ver_range÷2は−18000より小さくない(hor_range and ver_range specify the range through the central point of the region. hor_range shall be in the range of 1 to 36000, inclusive. ver_range shall be in the range of 1 to 36000, inclusive. center_pitch+ver_range÷2 shall not be greater than 18000. center_pitch-ver_range÷2 shall not be less than −18000)。
本発明の実施形態の一例では、dynamic_range_flagの値が0に等しいとき、そのことはサンプル・エントリーにおけるすべてのサンプルに対応する水平方向および垂直方向の範囲が不変のままであることを示す(dynamic_range_flag equal to 0 specifies that the horizontal and vertical ranges of the region remain unchanged in all samples referring to this sample entry)。この場合、これらのサンプルに対応し、球上にある水平方向および垂直方向の範囲は、当該サンプル・エントリーのデータにおいて記述されてもよい。
本発明の実施形態の一例では、dynamic_range_flagの値が1に等しいとき、そのことはサンプルに対応する水平方向および垂直方向の範囲がサンプル・フォーマットにおいて記述されていることを示す(dynamic_range_flag equal to 1 specifies that the horizontal and vertical ranges of the region are indicated in the sample format)。
本発明の実施形態の一例では、ビデオ・トラック内のサンプルに対応する画像の、球上にあるカバレッジ・エリアを記述するためにカバレッジ情報トラックが使われる。
一例では、球上のビデオ・コンテンツのカバレッジ・エリアを示すためにカバレッジ時間付きメタデータ・トラック(coverage timed metadata track)が使われる。
一例では、coverage timed metadata trackにおけるサンプルのエントリー・タイプは'covg'である。
一例では、coverage timed metadata trackにおけるサンプル・シンタックスを記述するために要素RegionOnSphereSampleが使われてもよい。要素RegionOnSphereSampleの具体例については、既存の規格における関係する規定を参照されたい。たとえばISO/IEC 23000-20における関係した例を参照されたい。
一例では、サンプル・エントリーにおけるRegionOnSphereConfigBoxの値は0である。
一例では、対応する水平方向ビューポイントのカバレッジ・エリアおよび対応する垂直方向ビューポイントのカバレッジ・エリアを指示するために、それぞれ要素static_hor_rangeおよび要素static_ver_rangeまたは要素hor_rangeおよび要素ver_rangeが使われる。該カバレッジ・エリアの中心点を示すために、要素center_yawおよび要素center_pitchが使われる。
一例では、'tref'ボックスにおけるreference_typeの値はcv2dであり、内容的な意味は、カバレッジ・エリアのtimed metadata trackにメディア・データが関連付けられていることを示す。カバレッジ・エリア内のトラックにおけるサンプル(sample)はメディア・データに対応する空間オブジェクトの2D空間位置情報であり、該2D位置情報は既存のISO/IEC 23001-10規格において定義されている位置情報であってもよい。
あるいはまた、reference_typeの値はcvspであり、内容的な意味は、カバレッジ・エリアのtimed metadata trackにメディア・データが関連付けられていることを示す。カバレッジ・エリア内のトラックにおけるサンプル(sample)はメディア・データに対応する空間オブジェクトの、球上での空間位置情報であり、該球上での情報は、球上でのtimed metadata trackにおける、既存のISO/IEC 23001-20規格において定義されているサンプル(sample)であってもよい。
あるいはまた、reference_typeの値はcv2pであり、内容的な意味は、カバレッジ・エリアのtimed metadata trackにメディア・データが関連付けられていることを示す。カバレッジ・エリア内のトラックにおけるサンプル(sample)はメディア・データに対応する空間オブジェクトの、マッピングされた画像における空間位置情報である。
対応する例において、クライアントの以下の処理様式がありうる。
1.クライアントは、メディア・データのトラックをパースして、メディア・トラックにおける'tref'ボックスを取得する段階であって、メディア・データ・トラックのトラックID(これは任意の0でない整数でありうる)は1である、段階と;'tref'ボックスから、reference_type値が'cv2d'、 'cvsp'または'cv2p'である参照されるトラックを取得する段階であって、トラックのトラックID(これは任意の0でない整数でありうる)は2である、段階とを実行する。
2.クライアントは、'cv2d'に基づいて、トラックIDが2であるトラックはメディア・データに対応する空間オブジェクトの2D空間位置情報を記述することを判別する;または'cvsp'に基づいて、トラックIDが2であるトラックはメディア・データに対応する空間オブジェクトの、球上での空間位置情報を記述することを判別する;または'cv2p'に基づいて、トラックIDが2であるトラックはメディア・データに対応する空間オブジェクトの、マッピングされた画像における空間位置情報を記述することを判別する。
3.クライアントは、カバレッジ情報およびデバイスの呈示機能に基づいて、すべてのメディア・コンテンツが呈示されるか、あるいはメディア・コンテンツの一部が呈示のために捕捉されるかを決定してもよく、あるいはユーザーの視野が変化するとき、どのようにしてユーザーが視野外のデータを取得するかを決定してもよい。
一例では、トラックIDが2であるトラックは、カバレッジ・エリアにおける空間情報記述トラックであり、トラックのサンプル・エントリー・タイプは、現在のtimed metadata trackがカバレッジ・エリアにおける空間情報記述トラックであることを示し、サンプル・エントリー・タイプの値は"cvvp"(coverage viewport)であってもよい。
一例では、メディア・カバレッジ情報は、独立したトラックを使って記述されてもよく、たとえば、サンプル・エントリー・タイプ値が'cvvp'であるtimed metadata trackを使って記述されてもよい。しかしながら、メディア・カバレッジ情報が静的である(ビデオにおけるすべてのフレームが同じカバレッジ情報をもつ)場合、カバレッジ・エリアに関連付けられたメタデータ・トラックは必要ない。この場合、メディア・カバレッジ情報はメディア・トラック(トラックID=1)のメタデータにおいて記述されてもよい。具体的な記述情報はISO/IEC 23000-20における'covi'(カバレッジ情報ボックス)にあり、該ボックスは球または2D平面上のカバレッジ・エリアの形を記述する。
本発明の実施形態のある可能な実装では、参照タイプの値は、品質情報である、メディア・トラックとメディア・データ・トラックとの間の参照関係の記述様式を記述する。
一例では、具体的な対応は次の表に示される。
Figure 2020503792
対応する例において、クライアントは、メディア・データのトラックをパースしてreference_type値を取得し、ここで、トラックID=1であり、'tref'ボックスにおけるreference_type値は'r2dq'、'risq'、'ri2p'、'c2dq'、'cspq'または'c2pq'であり、すると、クライアントは、ROIの空間領域の品質情報のメタデータ・トラックが存在するまたはメディア・コンテンツ・カバレッジ・エリアにおけるビデオのメタデータ・トラック記述品質が存在することを知ることができる。クライアントが現在のビデオの品質情報を取得する必要がある場合、クランアントは品質情報に対応するトラックをパースすることができる。
トラックによって参照されるメタデータのタイプは、トラック内のメタデータにおいて明確に記述される。よって、クライアントによって実行される諸トラックのパースは互いから分離され、クライアントの実装手順における複雑さが軽減される。
本発明の実施形態における技術的解決策をより明確に記述するために、下記は実施形態を記述するために要求される付属の図面を手短かに記述する。明らかに、下記の記述における付属の図面は単に本発明のいくつかの実施形態であり、当業者は創造的な努力なしにこれらの付属の図面から他の図面を導出しうる。
システム層ビデオ・ストリーミング・メディア伝送のために使われるDASH規格のMPDの概略的な構造図である。
システム層ビデオ・ストリーミング・メディア伝送のために使われるDASH規格伝送のフレームワーク事例の概略図である。
本発明のある実施形態に基づく、ビットストリーム・セグメント切り換えの概略図である。
ビットストリーム・データにおけるセグメントの記憶様式の概略図である。
ビットストリーム・データにおけるセグメントの記憶様式のもう一つの概略図である。
視野変化に対応する視野の概略図である。
空間オブジェクトの間の空間的関係のもう一つの概略図である。
本発明のある実施形態に基づくストリーミング・メディア情報処理方法の概略的なフローチャートである。
パノラマ空間における目標空間オブジェクトの相対位置の概略図である。
本発明のある実施形態に基づく座標系の概略図である。
本発明のある実施形態に基づくもう一つの座標系の概略図である。
本発明のある実施形態に基づくもう一つの座標系の概略図である。
本発明のある実施形態に基づくストリーミング・メディア情報処理方法の概略的なフローチャートである。
本発明のある実施形態に基づくストリーミング・メディア情報処理装置の論理的な構造の概略図である。
本発明のある実施形態に基づくストリーミング・メディア情報処理装置の論理的な構造の概略図である。
本発明のある実施形態に基づくコンピュータ装置のハードウェア構造の概略図である。
本発明のある実施形態に基づくカバレッジ・エリアの概略図である。
下記は、本発明の実施形態における付属の図面を参照して、本発明の実施形態における技術的解決策を明瞭かつ完全に記述する。
現在、クライアント指向のシステム層ビデオ・ストリーミング・メディア伝送解決策において、DASH規格フレームワークが使われることがある。図2は、システム層ビデオ・ストリーミング・メディア伝送のために使われるDASH規格伝送のフレームワーク事例の概略図である。システム層ビデオ・ストリーミング・メディア伝送解決策のデータ伝送プロセスは二つのプロセスを含む:サーバー端(たとえば、HTTPサーバーまたはメディア・コンテンツ準備サーバーで、これは略して下記ではサーバーと称される)がビデオ・コンテンツのためのメディア・データを生成し、クライアントの要求に応答するプロセスと、クライアント(たとえばHTTPストリーミング・メディア・クライアント)がサーバーからのメディア・データを要求し、取得するプロセスである。メディア・データはメディア呈示記述(英文:Media Presentation Description、MPD)およびメディア・ビットストリーム(たとえば再生される必要のあるビデオ・ビットストリーム)を含む。サーバー上のMPDは複数の表現(表現とも称される、英文representation)を含み、各表現は複数のセグメントを記述する。クライアントのHTTPストリーミング・メディア要求制御モジュールがサーバーによって送られたMPDを取得し、該MPDを解析して、ビデオ・ビットストリームの各セグメントについての、MPDにおいて記述されている情報を判別し、さらに、要求される必要のあるセグメントを判別し;対応するセグメントHTTP要求をサーバーに送り;メディア・プレーヤーを使うことによって該セグメントをデコードし、再生する。
(1)サーバーがビデオ・コンテンツのためのメディア・データを生成するプロセスにおいて、ビデオ・コンテンツのためにサーバーによって生成されるメディア・データは、同じビデオ・コンテンツに対応するビデオ・ビットストリームの異なるバージョンおよびそれらのビットストリームのMPDを含む。たとえば、サーバーは、TVシリーズの同じエピソードについて、低解像度、低ビットレートおよび低フレームレートのビットストリーム(たとえば360pの解像度、300kbpsのビットレートおよび15fpsのフレームレート)、中程度の解像度、中程度のビットレートおよび高いフレームレートのビットストリーム(たとえば720pの解像度、1200kbpsのビットレートおよび25fpsのフレームレート)、高解像度、高ビットレートおよび高フレームレートのビットストリーム(たとえば1080pの解像度、3000kbpsのビットレートおよび25fpsのフレームレート)などを生成する。
加えて、サーバーはさらに、TVシリーズのエピソードのビデオ・コンテンツについてMPDを生成してもよい。図1は、システム伝送解決策におけるDASH規格のMPDの概略的な構造図である。ビットストリームのMPDは複数の期間(Period)を含む。たとえば、図1におけるMPDにおける期間開始が100sに等しい部分は、複数の適応セット(英文:adaptation set)を含んでいてもよく、各適応セットは表現1、表現2、…といった複数の表現を含んでいてもよい。各表現はビットストリームの一つまたは複数のセグメントを記述する。
本発明のある実施形態では、各表現は時間シーケンスにおけるいくつかのセグメント(英文:Segment)、たとえば初期化セグメント(英文:Initialization segment)、メディア・セグメント(Media Segment)1,メディア・セグメント2、…およびメディア・セグメント20、についての情報を記述する。表現は、再生開始時点、再生継続時間およびネットワーク記憶アドレス(たとえば一様資源位置指定子(英文:Universal Resource Locator、URL)の形で表わされるネットワーク記憶アドレス)のようなセグメント情報を含んでいてもよい。
(2)クライアントがサーバーからのメディア・データを要求し、取得するプロセスでは、ユーザーがあるビデオを再生することを選ぶとき、クライアントは、オンデマンドでユーザーによって再生されるビデオ・コンテンツに基づいて対応するMPDをサーバーから取得する。クライアントは、MPDに記述されているビットストリーム・セグメントのネットワーク記憶アドレスに基づいて、該ネットワーク記憶アドレスに対応するビットストリーム・セグメントをダウンロードする要求をサーバーに送り、サーバーは、受信された要求に基づいて、該ビットストリーム・セグメントをクライアントに送る。サーバーによって送られたビットストリーム・セグメントを取得した後、クライアントは、ビットストリーム・セグメントをデコードし、再生するといった、メディア・プレーヤーを使うことによる動作を実行してもよい。
図3は、本発明のある実施形態に基づくビットストリーム・セグメント切り換えの概略図である。サーバーは、同じビデオ・コンテンツ(たとえば映画)についての異なるバージョンのビットストリーム・データを三片、用意してもよく、異なるバージョンのビットストリーム・データの三片を記述するためにMPD内の三つの表現を使ってもよい。これら三つの表現(表現は下記では略してrepと称される)はrep1、rep2、rep3などであってもよいことが想定される。rep1はビットレート4mbps(メガビット毎秒)のビットレートの高精細度ビデオであり、rep2はビットレート2mbpsの標準精細度ビデオであり、rep3はビットレート1mbpsの通常ビデオである。各repにおけるセグメントはある時間期間のビデオ・ビットストリームを含み、異なるrepに含まれるセグメントは同じ時間期間において互いと整列される。具体的には、各repは、時間シーケンスにおける諸時間期間内の諸セグメントを記述し、同じ時間期間内の諸セグメントは同じ長さをもち、よって、異なるrepのセグメントのコンテンツ間で切り換えが実行できる。図に示されるように、図において影でマークされているセグメントはクライアントによって再生するよう要求されたセグメント・データであり、クライアントによって要求された最初の三つのセグメントはrep3のセグメントである。第四のセグメントを要求するとき、クライアントはrep2の第四のセグメントを要求してもよく、その後、rep3の第三のセグメントが再生された後、再生のためにrep2の第四のセグメントに切り換えてもよい。rep3の第三のセグメントの再生終了点(これは時間的な再生終了の瞬間に対応してもよい)は、第四のセグメントの再生開始点(これは時間的な再生開始の瞬間に対応してもよい)であり、rep2またはrep1の第四のセグメントの再生開始点でもある。よって、異なるrepにおけるセグメントは互いに整列されている。rep2の第四のセグメントを要求した後、クライアントはrep1の第五のセグメント、第六のセグメントなどを要求するためにrep1に切り換える。その後、クライアントはrep3の第七のセグメントを要求するためにrep3に切り換え、次いでrep1の第八のセグメントを要求するためにrep1に切り換えてもよい。各repにおけるセグメントは、最初から最後までつながった仕方で一つのファイルに格納されていてもよく、あるいは小さなファイルとして独立して記憶されていてもよい。セグメントは、ISO/IEC 14496-12規格におけるフォーマット(ISO BMFF(Base Media File Format))に基づいてカプセル化されてもよく、あるいはISO/IEC 13818-1におけるフォーマット(MPEG-2 TS)に基づいてカプセル化されてもよい。これは実際の適用シナリオ要件に基づいて個別に決定されてもよく、本願では限定されない。
先述したように、DASHメディア・ファイル・フォーマットでは、セグメントは二つの様式で記憶されうる:一方は、各セグメントは別個に独立して記憶されるというものである。図4は、ビットストリーム・データにおけるセグメントの記憶様式の概略図である。他方は、同じrepのすべてのセグメントが一つのファイルに格納されるというものである。図5は、ビットストリーム・データにおけるセグメントの記憶様式のもう一つの概略図である。図4に示されるように、rep Aにおける各セグメントが一つのファイルとして別個に記憶され、rep Bにおける各セグメントも一つのファイルとして別個に記憶される。対応して、図4に示される記憶様式では、サーバーは、ビットストリームのMPDにおける各セグメントのURLなどの情報を記述するためにテンプレートの形またはリストの形を使ってもよい。図5に示されるように、rep1におけるすべてのセグメントは一つのファイルとして記憶され、rep2におけるすべてのセグメントは一つのファイルとして記憶される。対応して、図5に示される記憶方法では、サーバーは、各セグメントの関係した情報を記述するためにビットストリームのMPDにおけるインデックス・セグメント(英文:index segment、すなわち図5におけるsidx)を使ってもよい。インデックス・セグメントは、そのセグメントを格納しているファイルにおける各セグメントのバイト・オフセット、各セグメントのサイズおよび各セグメントの継続時間(duration、各セグメントの持続時間とも称される)のような情報を記述する。
現在、360度ビデオのようなVRビデオを見るアプリケーションの人気が増すにつれて、ますます多くのユーザーが大きな視野でのVRビデオ閲覧を経験するチームに加わっている。この新たなビデオ閲覧アプリケーションは新たなビデオ閲覧モードおよび視覚的経験をユーザーのためにもたらし、新たな技術的課題をももたらす。360度のような大きな視野でビデオを見るプロセスにおいては(360度は本発明のこの実施形態における記述のための例として使われている)、VRビデオの空間領域(空間領域は空間オブジェクトと称されてもよい)は360度のパノラマ空間(あるいは全方向空間と称され、あるいはパノラマ空間オブジェクトと称される)であり、これは人間の目の通常の視覚範囲を超える。よって、ビデオを閲覧するプロセスにおいて、ユーザーは任意の時点において視角(すなわち、視野、FOV)を変更する。異なる視野を見るとき、ユーザーは異なるビデオ画像を見る。よって、このビデオにおいて呈示されるコンテンツは、ユーザーの視野の変化とともに変化する必要がある。図6は、視野変化に対応する視野の概略図である。ブロック1およびブロック2はそれぞれユーザーの二つの異なる視野である。ビデオを閲覧するプロセスにおいて、ユーザーは、目の動き、頭の動きまたはビデオ閲覧装置のスクリーン切り換えといった操作を使うことによって、ビデオを閲覧するための視野をブロック1からブロック2に切り換えてもよい。視野がブロック1であるときにユーザーによって閲覧されるビデオ画像は、その視野に対応する一つまたは複数の空間オブジェクトによって現時点で呈示されるビデオ画像である。次の瞬間、ユーザーの視野はブロック2に切り換えられる。この場合、ユーザーによって閲覧されるビデオ画像も、ブロック2に対応する空間オブジェクトによってこの時点で呈示されるビデオ画像に切り換えられるべきである。
いくつかの実現可能な実装では、大きな360度視野でのビデオ画像の出力のために、サーバーは、360度視野範囲のパノラマ空間(あるいはパノラマ空間オブジェクトと称される)を分割して、複数の空間オブジェクトを得てもよい。各空間オブジェクトは、ユーザーの一つのサブ視野に対応し、複数のサブ視野がはぎあわされて、完全な人間の目の観察視野をなす。換言すれば、人間の目の視野(下記では略して視野と称される)は、分割を通じて得られる一つまたは複数の空間オブジェクトに対応していてもよい。視野に対応する空間オブジェクトは、人間の目の視野範囲におけるコンテンツ・オブジェクトに対応するすべての空間オブジェクトである。人間の目の観察視野は動的に変化することがあるが、視野範囲は通例120度×120度でありうる。120度×120度の人間の目の視野範囲におけるコンテンツ・オブジェクトに対応する空間オブジェクトは、分割を通じて得られた一つまたは複数の空間オブジェクト、たとえば図6のブロック1に対応する視野1およびブロック2に対応する視野2を含んでいてもよい。さらに、クライアントは、MPDを使うことによって、各空間オブジェクトのためにサーバーによって用意されたビデオ・ビットストリームの空間情報を得てもよく;次いで、視野要件に従ってサーバーから、ある時間期間において一つまたは複数の空間オブジェクトに対応するビデオ・ビットストリーム・セグメントを要求し、前記視野要件に従って対応する空間オブジェクトを出力してもよい。クライアントは、同じ時間期間において、360度視野範囲におけるすべての空間オブジェクトに対応するビデオ・ビットストリーム・セグメントを出力し、それによりその時間期間において、360度のパノラマ空間全体における完全なビデオ画像を出力および表示する。
具体的実装では、360度空間オブジェクト分割の間、サーバーはまず、球を平面にマッピングし、該平面上で空間オブジェクトを分割してもよい。具体的には、サーバーは、経緯度マッピング方式で、球を経緯度平面図にマッピングしてもよい。図7は、本発明のある実施形態に基づく空間オブジェクトの概略図である。サーバーは、球を経緯度平面図にマッピングしてもよく、経緯度平面図を複数の空間オブジェクト、たとえば空間オブジェクトAないしIに分割してもよい。さらに、サーバーは球を立方体にマッピングしてもよく、次いで、立方体の複数の面を展開して平面図を得てもよく;あるいは球を別の多面体にマッピングして、多面体の複数の面を展開して平面図を得てもよい。サーバーは球をより多くのマッピング様式で平面図にマッピングしてもよい。これは、具体的には、実際の適用シナリオ要件に従って決定されてもよく、本願において限定されない。下記では経緯度マッピング様式を例として使うことによって、図7を参照して記述が提供される。図7に示されるように、球のパノラマ空間を空間オブジェクトAないしIのような複数の空間オブジェクトに分割した後、サーバーは各空間オブジェクトについてDASHビデオ・ビットストリームの群を用意してもよい。各空間オブジェクトがDASHビデオ・ビットストリームの一つの群に対応する。クライアント・ユーザーがビデオを見るための視野を切り換えるとき、クライアントは、ユーザーによって選択された新たな視野に基づいて、新たな空間オブジェクトに対応するビットストリームを得てもよく、新たな視野内の新たな空間オブジェクトのビットストリームのビデオ・コンテンツを呈示してもよい。本発明の実施形態において提供される情報処理方法および装置は下記で図8ないし図10を参照して記述される。
DASH規格は、システム層ビデオ・ストリーミング・メディア伝送解決策において使われる。具体的には、クライアントはMPDを解析し、ビデオ・データをサーバーにオンデマンドで要求し、サーバーによって送られたデータを受信することによって、ビデオ・データ伝送を実装する。
いくつかの実装では、ビデオを制作するとき、ビデオ制作者(略して下記では作者と称される)は、ビデオのストーリー・プロットの要件に従って、ビデオ再生のためのメイン・プロットをデザインしてもよい。ビデオ再生プロセスでは、ユーザーは、メイン・プロット・ラインに対応するビデオ画像のみを見ることによってストーリー・プロットを知ることができ、別のビデオ画像を見ても見なくてもよい。よって、ビデオ再生プロセスにおいて、クライアントはストーリー・プロットに対応するビデオ画像を選択的に再生してもよく、ビデオ・データ伝送資源および記憶スペース資源を節約し、ビデオ・データ処理効率を改善するよう、別のビデオ画像を呈示しなくてもよいことがわかる。メイン・ストーリー・プロットをデザインした後、作者は、メイン・プロット・ラインに基づいて、ビデオ再生中の各再生時点においてユーザーに呈示される必要のあるビデオ画像をデザインしてもよく、すべての再生時点におけるビデオ画像が時間シーケンスにおいて連結されたときにメイン・プロット・ラインのストーリー・プロットが得られてもよい。各再生時点においてユーザーに呈示される必要のあるビデオ画像は、その再生時点に対応する空間オブジェクトにおいて提示されるビデオ画像、すなわち、その時点でその空間オブジェクトによって呈示される必要のあるビデオ画像である。具体的実装では、各再生時点において呈示される必要のあるビデオ画像に対応する視野は、作者の視野に設定されてもよく、作者の視野におけるビデオ画像を呈示する空間オブジェクトが作者の空間オブジェクトに設定されてもよい。作者の視野内のオブジェクトに対応するビットストリームが作者の視野のビットストリームに設定されてもよい。作者の視野のビットストリームは、複数のビデオ・フレームのビデオ・フレーム・データ(該複数のビデオ・フレームのエンコードされたデータ)を含む。各ビデオ・フレームが呈示されるとき、ビデオ・フレームは画像であってもよく、すなわち、作者の視野のビットストリームは複数の画像に対応していてもよい。ビデオ再生プロセスにおいて、作者の視野における各再生時点において呈示される画像は、ビデオ全体において呈示される必要のあるパノラマ画像(あるいはVR画像または全方向画像と称される)の一部のみである。種々の再生時点において、作者のビデオ・ビットストリームに対応する画像に関連付けられた空間オブジェクトの空間情報は、異なっていてもよく、あるいは同じであってもよい。すなわち、作者の視野のビットストリームにおけるビデオ・データに関連付けられている空間オブジェクトの空間情報は異なる。
いくつかの実現可能な実装では、各再生時点における作者の視野をデザインした後、作者は、サーバーを使って、各時点における作者の視野のための対応するビットストリームを用意してもよい。作者の視野に対応するビットストリームは、作者の視野のビットストリームに設定されてもよい。サーバーは、作者の視野のビットストリームをエンコードして、エンコードされたビットストリームをクライアントに送信してもよい。作者の視野のビットストリームをデコードした後、クライアントはユーザーに対して、作者の視野のビットストリームに対応するストーリー・プロット・ピクチャーを呈示してもよい。サーバーは、作者の視野以外の視野のビットストリーム(これは非作者視野、すなわち静的な視野のビットストリームに設定される)をクライアントに送信する必要がない。それによりビデオ・データ伝送帯域幅のような資源が節約される。
いくつかの実現可能な実装では、事前設定された空間オブジェクトの画像が、そのビデオのための作者によってデザインされたストーリー・プロットに基づいて作者の視野において提示され、異なる再生時点における作者の空間オブジェクトは異なっていてもよく、あるいは同じであってもよい。よって、作者の視野が再生時点とともに絶えず変化する視野であり、作者の空間オブジェクトが、その位置が絶えず変化する動的な空間オブジェクトである、すなわちすべての再生時点に対応する作者の空間オブジェクトのすべての位置がパノラマ空間において同じなのではないことがわかる。図7に示される各空間オブジェクトは事前設定された規則に従って分割を通じて得られた空間オブジェクトであり、パノラマ空間において相対位置が固定されている空間オブジェクトである。任意の再生時点に対応する作者の空間オブジェクトは必ずしも図7に示される固定した空間オブジェクトの一つではなく、グローバル空間において相対位置が絶えず変化する空間オブジェクトである。サーバーからクライアントによって得られる、ビデオにおいて呈示されるコンテンツは、作者の視野の連結であり、非作者視野に対応する空間オブジェクトは含まない。作者の視野のビットストリームは作者の空間オブジェクトのコンテンツのみを含み、サーバーから得られたMPDは作者の視野内の作者の空間オブジェクトの空間情報を含まない。この場合、クライアントは、作者の視野のビットストリームのみをデコードして呈示することができる。ユーザーがビデオ閲覧プロセスにおいてビデオを見るための視野を非作者視野に切り換える場合、クライアントは、対応するビデオ・コンテンツをユーザーに対して呈示することができない。
いくつかの実施形態では、メディア呈示記述を生成するとき、サーバーはメディア呈示記述に識別情報を追加してもよい。そのビデオの、その作者のその視野内のビットストリーム、すなわちその作者のその視野のビットストリームを同定するためである。具体的実装では、識別情報はメディア呈示記述において担持される、作者の視野のビットストリームが位置するビットストリーム・セットの、属性情報において担持されてもよい。具体的には、識別情報はメディア呈示記述における適応セットについての情報において担持されてもよく、あるいは識別情報はメディア呈示記述に含まれる表現についての情報において担持されてもよい。さらに、識別情報はメディア呈示記述における記述子についての情報において担持されてもよい。クライアントは、作者の視野のビットストリームおよび非作者視野のビットストリームを、MPDをパースしてMPD内の追加されたシンタックス要素を得ることによって迅速に識別することができる。作者の視野のビットストリームに関係した空間情報が独立メタデータ・ファイルにおいてカプセル化される場合、クライアントは、MPDをパースすることによって、コーデック識別子に基づく空間情報のメタデータを取得して、空間情報をパースし出してもよい。
いくつかの実施形態では、サーバーはさらに、作者の視野のビットストリームに作者の一つまたは複数の空間オブジェクトの空間情報を加えてもよい。作者の各空間オブジェクトは一つまたは複数の画像に対応する、すなわち、一つまたは複数の画像が同じ空間オブジェクトに関連付けられていてもよく、あるいは各画像は一つの空間オブジェクトに関連付けられていてもよい。サーバーは、作者の視野のビットストリームに作者の各空間オブジェクトの空間情報を加えてもよく、それによりサーバーは該空間情報をサンプルとして使って、該空間情報をトラックまたはファイルにおいて別個にカプセル化してもよい。作者の空間オブジェクトの空間情報は、作者の空間オブジェクトと作者の空間オブジェクトに関連付けられたコンテンツ・コンポーネントとの間の空間的関係、すなわち、作者の空間オブジェクトとパノラマ空間との間の空間的関係である。具体的には、作者の空間オブジェクトの空間情報によって記述される空間は、具体的には、パノラマ空間の一部であってもよく、たとえば、図7における任意の空間オブジェクトであってもよい。具体的実装では、DASHビットストリームについて、作者の視野のビットストリームにおけるビデオ・フレーム・データに対応する画像の各フレームに関連付けられた空間オブジェクトの空間情報を記述するよう、サーバーは空間情報を、作者の視野のビットストリームのセグメントに含まれている、既存のファイル・フォーマットであるtrunボックスまたはtfhdボックスに加えてもよい。
さらに、すべての画像フレームに関連付けられた空間オブジェクトの空間情報の間には同じ情報がありうるので、作者の複数の空間オブジェクトの空間情報には反復および冗長性が存在する。よってデータ伝送効率が影響を受ける。
本発明の実施形態において、作者の複数の空間オブジェクトの空間情報において存在する反復および冗長性を低減するよう、DASH規格において提供されるビデオ・ファイル・フォーマット(英文:file format)が修正される。
本発明において提供されるファイル・フォーマット修正は、ISOBMFFまたはMPEG2-TSのファイル・フォーマットに適用されてもよい。これは、実際の適用シナリオ要件に従って個別に決定されてもよく、本願では限定されない。
図8は、本発明のある実施形態に基づくストリーミング・メディア情報処理方法の概略的なフローチャートである。本発明のこの実施形態において提供されるストリーミング・メディア情報処理方法はDASHフィールドに適用されてもよく、別のストリーミング・メディア・フィールド、たとえば、RTPプロトコル・ベースのストリーミング・メディア伝送に適用されてもよい。本方法の実行主体はクライアントであってもよく、具体的には端末、ユーザー装置またはコンピュータ装置であってもよく、あるいはネットワーク装置、たとえばゲートウェイまたはプロキシ・サーバーであってもよい。図8に示されるように、本方法は以下の段階を含んでいてもよい。
S801。目標空間オブジェクトの目標空間情報を取得する。前記目標空間オブジェクトは二つの空間オブジェクトの一方であり、前記二つの空間オブジェクトは目標ビデオ・データに含まれる二つの画像のデータに関連付けられており、前記目標空間情報は同属性空間情報を含み、該同属性空間情報は前記二つの空間オブジェクトのそれぞれの空間情報の間の同じ情報を含み、前記二つの空間オブジェクトにおける前記目標空間オブジェクト以外の空間オブジェクトの空間情報は、前記同属性空間情報を含む。
前記目標ビデオ・データは、目標ビデオ・ビットストリームであってもよく、あるいはエンコードされていないビデオ・データであってもよい。目標ビデオ・データが目標ビデオ・ビットストリームであるときは、前記二つの画像のデータは前記二つの画像のエンコードされたデータであってもよい。さらに、目標ビデオ・ビットストリームは作者の視野のビットストリームであってもよく、あるいは非作者視野のビットストリームであってもよい。
目標空間オブジェクトの目標空間情報を取得することは、該目標空間情報をサーバーから受信することであってもよい。
前記二つの画像は前記二つの空間オブジェクトと一対一対応にあってもよく、あるいは一つの空間オブジェクトが二つの画像に対応していてもよい。
目標空間オブジェクトの空間情報は、目標空間オブジェクトと目標空間オブジェクトに関連付けられたコンテンツ・コンポーネントとの間の空間的関係、すなわち目標空間オブジェクトとパノラマ空間との間の空間的関係である。具体的には、目標空間オブジェクトの目標空間情報によって記述される空間は、具体的には、パノラマ空間の一部であってもよい。目標ビデオ・データは作者の視野のビットストリームであってもよく、あるいは非作者視野のビットストリームであってもよい。目標空間オブジェクトは作者の空間オブジェクトであってもなくてもよい。
S802。前記目標空間情報に基づいて、再生される必要のあるビデオ・データを決定する。
さらに、再生される必要のあるビデオ・データが決定された後、再生される必要のあるビデオ・データがさらに再生されてもよい。
いくつかの実施形態では、目標空間情報はさらに、前記目標空間オブジェクトの異属性空間情報を含み、他方の空間オブジェクトの空間情報はさらに、該他方の空間オブジェクトの異属性空間情報を含み、前記目標空間オブジェクトの異属性空間情報は前記他方の空間オブジェクトの異属性情報とは異なる。
目標空間情報のある可能な実装では、前記目標空間情報は前記目標空間オブジェクトの中心点の位置情報または前記目標空間オブジェクトの左上点の位置情報を含んでいてもよく、前記目標空間情報はさらに、前記目標空間オブジェクトの幅および前記目標空間オブジェクトの高さを含んでいてもよい。
前記目標空間情報に対応する座標系が角座標系であるときは、目標空間情報はヨー角を使って記述されてもよく、前記目標空間情報に対応する座標系がピクセル座標系であるときは、目標空間情報は経緯度図式における空間位置を使って、あるいは別の幾何学的な立体図式を使って記述されてもよい。これは本願において限定されない。目標空間情報はヨー角、たとえばピッチ角θ(pitch)、ヨー角ψ(yaw)、ロール角Φ(roll)、角度範囲を表わすために使われる幅および角度範囲を表わすために使われる高さによって記述される。図9は、パノラマ空間における目標空間オブジェクトの中心点の相対位置の概略図である。図9では、Oは360度VRパノラマ・ビデオの球面画像に対応する球中心であり、VRパノラマ画像の閲覧中の人間の目の位置と考えられてもよい。点Aは目標空間オブジェクトの中心点Aであり、CおよびFは、目標空間オブジェクトの点Aを通る目標空間オブジェクトの水平座標軸に沿った境界点であり、EおよびDは、目標空間オブジェクトの点Aを通る目標空間オブジェクトの垂直座標軸に沿った境界点であり、Bは、赤道線上の、点Aから球面子午線に沿って投影された点であり、Iは赤道線上の水平方向の開始座標点である。要素の意味は以下で説明する。
ピッチ角は、パノラマ球面(すなわちグローバル空間)画像上の、目標空間オブジェクトの画像の中心位置がマッピングされる点の、垂直方向の偏向角であり、たとえば図9における∠AOBである。
ヨー角は、パノラマ球面画像上の、目標空間オブジェクトの画像の中心位置がマッピングされる点の、水平方向の偏向角であり、たとえば図9における∠IOBである。
ロール角は、球の中心が、パノラマ球面画像上の、空間オブジェクトの画像の中心位置 点に接続される方向における回転角であり、たとえば図9における∠DOBである。
角度範囲を表わすために使われる高さ(角座標系における目標空間オブジェクトの高さ)は、目標空間オブジェクトの、パノラマ球面座像における画像の視野の高さであり、垂直方向における該視野の最大角度によって表わされ、たとえば図9における∠DOEである。角度範囲を表わすために使われる幅(角座標系における目標空間オブジェクトの幅)は、目標空間オブジェクトの、パノラマ球面座像における画像の視野の幅であり、水平方向における該視野の最大角度によって表わされ、たとえば図9における∠COFである。
目標空間情報のもう一つの可能な実装では、前記目標空間情報は、前記目標空間オブジェクトの左上点の位置情報および前記目標空間オブジェクトの右下点の位置情報を含んでいてもよい。
目標空間情報のもう一つの可能な実装では、目標空間オブジェクトが長方形でないとき、目標空間情報は、目標空間オブジェクトの形状タイプ、半径および周のうちの少なくとも一つを含んでいてもよい。
いくつかの実施形態では、前記目標空間情報は、前記目標空間オブジェクトの空間回転情報を含んでいてもよい。
いくつかの実施形態では、前記目標空間情報は、空間情報データまたは空間情報トラック(track)にカプセル化されてもよく、空間情報データは目標ビデオ・データのビットストリーム、目標ビデオ・データのメタデータまたは目標ビデオ・データとは独立なファイルであってもよく、空間情報トラックは目標ビデオ・データとは独立なトラックであってもよい。
前記空間情報データまたは前記空間情報トラックはさらに、同属性空間情報のタイプを示すために使われる空間情報タイプ識別子を含んでいてもよく、前記空間情報タイプ識別子は、前記目標空間情報内にあり、同属性空間情報に属する情報を示すために使われる。
前記空間情報タイプ識別子が、前記目標空間情報が同属性空間情報に属する情報をもたないことを示すとき、同属性空間情報は、前記目標空間オブジェクトの幅の最小値、前記目標空間オブジェクトの高さの最小値、前記目標空間オブジェクトの幅の最大値および前記目標空間オブジェクトの高さの最大値を含んでいてもよい。
前記空間情報タイプ識別子および同属性空間情報は同じボックスにおいてカプセル化されてもよい。
具体的実装では、目標空間情報が目標ビデオ・データとは独立したファイル(空間情報ファイル)または目標ビデオ・データとは独立したトラック(空間情報トラック)においてカプセル化されるとき、サーバーは既存のファイル・フォーマットにおける3dscボックスに同属性空間情報を加え、既存のファイル・フォーマットにおけるmdatボックスに目標空間オブジェクトの異属性空間情報を加えてもよい。
空間情報を加える例(例1):
aligned(8) class 3DSphericalCoordinatesSampleEntry//同属性空間情報
extends MetadataSampleEntry ('3dsc') {
unsigned int(2) regionType; //空間情報タイプ識別子
if (regionType ==0) { //空間情報タイプ識別子が0
unsigned int(16) yaw; //ヨー角
unsigned int(16) pitch; //ピッチ角
unsigned int(16) roll; //ロール角
unsigned int(16) reference_width;//目標空間オブジェクトの幅
unsigned int(16) reference_height;//目標空間オブジェクトの高さ
}
If (regionType ==1) { //空間情報タイプ識別子が1
unsigned int(16) reference_width; //目標空間オブジェクトの幅
unsigned int(16) reference_height; //目標空間オブジェクトの高さ
}
If (regionType ==2){ //空間情報タイプ識別子が2
unsigned int(16) min_reference_width;//目標空間オブジェクトの幅の最小値
unsigned int(16) min_reference_height;//目標空間オブジェクトの高さの最小値
unsigned int(16) max_reference_width;//目標空間オブジェクトの幅の最大値
unsigned int(16) max_reference_height;//目標空間オブジェクトの高さの最大値
}
}
aligned(8) class SphericalCoordinatesSample(){ //目標空間オブジェクトの異属性空間情報
if ((regionType ==1) {
unsigned int(16) yaw;
unsigned int(16) pitch;
unsigned int(16) roll;
}
if ((regionType ==2) {
unsigned int(16) yaw;
unsigned int(16) pitch;
unsigned int(16) roll;
unsigned int(16) reference_width;
unsigned int(16) reference_height;
}
}
この例において、同属性空間情報は、yaw、pitch、roll、reference_widthおよびreference_heightの全部ではなく一部であってもよく、たとえば同属性空間情報はrollをもたなくてもよい。rollは目標空間オブジェクトの異属性空間情報に属してもよく、目標空間情報に含まれなくてもよい。空間情報タイプ識別子regionTypeがさらに3dscボックスに加えられてもよい。この例は角座標系の場合の例である。空間情報タイプ識別子が0であるとき、空間情報タイプ識別子は、目標空間情報内の、同属性空間情報に属する情報が、目標空間オブジェクトの中心点の位置情報または目標空間オブジェクトの左上点の位置情報、目標空間オブジェクトの幅および目標空間オブジェクトの高さであることを示すために使われる。この例において、位置情報は、ピッチ角θ(pitch)、ヨー角ψ(yaw)およびロール角Φ(roll)によって表わされ、幅および高さはそれぞれ角度によって表わされてもよい。換言すれば、空間情報タイプ識別子が0であるときは、前記二つの空間オブジェクトはいずれも同じ位置および同じサイズ(幅および高さを含むがそれに限られない)をもつことが理解される。
空間情報タイプ識別子が1であるとき、空間情報タイプ識別子は、目標空間情報内の、同属性空間情報に属する情報が、目標空間オブジェクトの幅および目標空間オブジェクトの高さであることを示すために使われる。換言すれば、空間情報タイプ識別子が1であるときは、前記二つの空間オブジェクトは同じサイズ(幅および高さを含むがそれに限られない)をもつことが理解される。
空間情報タイプ識別子が2であるとき、空間情報タイプ識別子は、目標空間情報が同属性空間情報に属する情報をもたないことを示すために使われる。換言すれば、空間情報タイプ識別子が2であるときは、前記二つの空間オブジェクトは異なるサイズおよび位置をもつことが理解される。
対応して、空間情報タイプ識別子が0であるとき、異属性空間情報が存在しないことが示されうる。空間情報タイプ識別子が1であるとき、空間情報タイプ識別子はさらに、目標空間オブジェクトの異属性空間情報が目標空間オブジェクトの中心点の位置情報または目標空間オブジェクトの左上点の位置情報であることを示す。空間情報タイプ識別子が2であるとき、空間情報タイプ識別子はさらに、目標空間オブジェクトの異属性空間情報が、目標空間オブジェクトの中心点の位置情報または目標空間オブジェクトの左上点の位置情報、目標空間オブジェクトの幅および目標空間オブジェクトの高さであることを示す。
空間情報を加える例(例2):
aligned(8) class 3DSphericalCoordinatesSampleEntry//同属性空間情報
extends MetadataSampleEntry ('3dsc') {
unsigned int(2) regionType; //空間情報タイプ識別子
if (regionType ==0){//空間情報タイプ識別子が0
unsigned int(16) top_left_x;//左上点の水平座標
unsigned int(16) top_left_y;//左上点の垂直座標
unsigned int(16) reference_width;//目標空間オブジェクトの幅
unsigned int(16) reference_height;//目標空間オブジェクトの高さ
}
If (regionType ==1) {//空間情報タイプ識別子が1
unsigned int(16) reference_width;//目標空間オブジェクトの幅
unsigned int(16) reference_height;//目標空間オブジェクトの高さ
}
If (regionType ==2) {//空間情報タイプ識別子が2
unsigned int(16) min_reference_width;//目標空間オブジェクトの幅の最小値
unsigned int(16) min_reference_height;//目標空間オブジェクトの高さの最小値
unsigned int(16) max_reference_width;//目標空間オブジェクトの幅の最大値
unsigned int(16) max_reference_height;//目標空間オブジェクトの高さの最大値
}
}
aligned(8) class SphericalCoordinatesSample(){//目標空間オブジェクトの異属性空間情報
if ((regionType ==1) {
unsigned int(16) top_left_x; //左上点の水平座標
unsigned int(16) top_left_y; //左上点の垂直座標
}
if ((regionType ==2) {
unsigned int(16) top_left_x; //左上点の水平座標
unsigned int(16) top_left_y; //左上点の垂直座標
unsigned int(16) reference_width;//目標空間オブジェクトの幅
unsigned int(16) reference_height;//目標空間オブジェクトの高さ
}
}
この例は、ピクセル座標系の場合の例である。空間情報タイプ識別子が0であるとき、空間情報タイプ識別子は、目標空間情報内の、同属性空間情報に属する情報が、目標空間オブジェクトの左上点の位置情報、目標空間オブジェクトの幅および目標空間オブジェクトの高さであることを示すために使われる。この例において、位置情報は、ピクセル単位での水平座標およびピクセル単位での垂直座標によって表わされ、幅および高さもそれぞれピクセル単位で表わされる。水平座標および垂直座標は図7の経緯度平面図における位置点の座標であってもよく、あるいはパノラマ空間(またはパノラマ空間オブジェクト)における位置点の座標であってもよい。換言すれば、空間情報タイプ識別子が0であるときは、前記二つの空間オブジェクトはいずれも同じ位置および同じサイズをもつことが理解される。目標空間オブジェクトの左上点の位置情報が、目標空間オブジェクトの中心点の位置情報で置き換えられてもよいことを注意しておくべきである。
空間情報タイプ識別子が1であるとき、空間情報タイプ識別子は、目標空間情報内の、同属性空間情報に属する情報が、目標空間オブジェクトの幅および目標空間オブジェクトの高さであることを示すために使われる。換言すれば、空間情報タイプ識別子が1であるときは、前記二つの空間オブジェクトは同じサイズをもつが異なる位置をもつことが理解される。
空間情報タイプ識別子が2であるとき、空間情報タイプ識別子は、目標空間情報が同属性空間情報に属する情報をもたないことを示すために使われる。換言すれば、空間情報タイプ識別子が2であるときは、前記二つの空間オブジェクトは異なるサイズおよび位置をもつことが理解される。
対応して、空間情報タイプ識別子が0であるとき、異属性空間情報が存在しないことが示されうる。空間情報タイプ識別子が1であるとき、空間情報タイプ識別子はさらに、目標空間オブジェクトの異属性空間情報が目標空間オブジェクトの左上点の位置情報であることを示す。空間情報タイプ識別子が2であるとき、空間情報タイプ識別子はさらに、目標空間オブジェクトの異属性空間情報が、目標空間オブジェクトの左上点の位置情報、目標空間オブジェクトの幅および目標空間オブジェクトの高さであることを示す。目標空間オブジェクトの左上点の位置情報が、目標空間オブジェクトの中心点の位置情報で置き換えられてもよいことを注意しておくべきである。
空間情報を加える例(例3):
aligned(8) class 3DSphericalCoordinatesSampleEntry//同属性空間情報
extends MetadataSampleEntry ('3dsc') {
unsigned int(2) regionType; //空間情報タイプ識別子
if (regionType ==0){//空間情報タイプ識別子が0
unsigned int(16) top_left_x;//左上点の水平座標
unsigned int(16) top_left_y;//左上点の垂直座標
unsigned int(16) down_right_x;//右下点の水平座標
unsigned int(16) down_right_y;//右下点の垂直座標
}
If (regionType ==1) {//空間情報タイプ識別子が1
unsigned int(16) down_right_x;//右下点の水平座標
unsigned int(16) down_right_y;//右下点の垂直座標
}
If (regionType ==2) {//空間情報タイプ識別子が2
unsigned int(16) min_reference_width;//目標空間オブジェクトの幅の最小値
unsigned int(16) min_reference_height;//目標空間オブジェクトの高さの最小値
unsigned int(16) max_reference_width;//目標空間オブジェクトの幅の最大値
unsigned int(16) max_reference_height;//目標空間オブジェクトの高さの最大値
}
}
aligned(8) class SphericalCoordinatesSample(){//目標空間オブジェクトの異属性空間情報
if ((regionType ==1) {
unsigned int(16) top_left_x; /左上点の水平座標
unsigned int(16) top_left_y; //左上点の垂直座標
}
if ((regionType ==2) {
unsigned int(16) top_left_x; //左上点の水平座標
unsigned int(16) top_left_y; //左上点の垂直座標
unsigned int(16) down_right_x;//右下点の水平座標
unsigned int(16) down_right_y;//右下点の垂直座標
}
}
この例は、ピクセル座標系の場合の例である。空間情報タイプ識別子が0であるとき、空間情報タイプ識別子は、目標空間情報内の、同属性空間情報に属する情報が、目標空間オブジェクトの左上点の位置情報および目標空間オブジェクトの右下点の位置情報であることを示すために使われる。この例において、位置情報は、ピクセル単位での水平座標およびピクセル単位での垂直座標によって表わされる。水平座標および垂直座標は図7の経緯度平面図における位置点の座標であってもよく、あるいはパノラマ空間(またはパノラマ空間オブジェクト)における位置点の座標であってもよい。換言すれば、空間情報タイプ識別子が0であるときは、前記二つの空間オブジェクトはいずれも同じ位置および同じサイズをもつことが理解される。目標空間オブジェクトの右下点の位置情報が、目標空間オブジェクトの高さおよび幅で置き換えられてもよいことを注意しておくべきである。
空間情報タイプ識別子が1であるとき、空間情報タイプ識別子は、目標空間情報内の、同属性空間情報に属する情報が、目標空間オブジェクトの右下点の位置情報であることを示すために使われる。換言すれば、空間情報タイプ識別子が1であるときは、前記二つの空間オブジェクトは同じサイズをもつが異なる位置をもつことが理解される。目標空間オブジェクトの右下点の位置情報が、目標空間オブジェクトの高さおよび幅で置き換えられてもよいことを注意しておくべきである。
空間情報タイプ識別子が2であるとき、空間情報タイプ識別子は、目標空間情報が同属性空間情報に属する情報をもたないことを示すために使われる。換言すれば、空間情報タイプ識別子が2であるときは、前記二つの空間オブジェクトは異なるサイズおよび位置をもつことが理解される。
対応して、空間情報タイプ識別子が0であるとき、異属性空間情報が存在しないことが示されうる。空間情報タイプ識別子が1であるとき、空間情報タイプ識別子はさらに、目標空間オブジェクトの異属性空間情報が目標空間オブジェクトの左上点の位置情報であることを示す。空間情報タイプ識別子が2であるとき、空間情報タイプ識別子はさらに、目標空間オブジェクトの異属性空間情報が、目標空間オブジェクトの左上点の位置情報および目標空間オブジェクトの右下点の位置情報であることを示す。目標空間オブジェクトの右下点の位置情報が、目標空間オブジェクトの高さおよび幅で置き換えられてもよいことを注意しておくべきである。
いくつかの実施形態において、空間情報データまたは空間情報トラックはさらに、目標空間情報に対応する座標系を示すために使われる座標系識別子を含んでいてもよく、座標系はピクセル座標系または角座標系である。
座標系識別子および同属性空間情報は同じボックスにカプセル化されてもよい。
具体的実装において、目標空間情報が目標ビデオ・データとは独立なファイル(空間情報ファイル)または目標ビデオ・データとは独立なトラック(空間情報トラック)にカプセル化されるとき、サーバーは、座標系識別子を既存のファイル・フォーマットにおける3dscボックスに加えてもよい。
座標系識別子を加える例(例1):
aligned(8) class 3DSphericalCoordinatesSampleEntry//同属性空間情報
extends MetadataSampleEntry ('3dsc') {
……
unsigned int(2) Coordinate_ system;//座標系識別子
……
}
この例では、座標系識別子coordinate_systemが0であるとき、座標系は角座標系である。座標系識別子が1であるとき、座標系はピクセル座標系である。
いくつかの実施形態では、空間情報データまたは空間情報トラックはさらに、空間回転情報識別子を含んでいてもよく、空間回転情報識別子は、目標空間情報が目標空間オブジェクトの空間回転情報を含むかどうかを示すために使われる。
空間回転情報識別子および同属性空間情報は同じボックス(たとえば3dscボックス)にカプセル化されてもよく、あるいは目標空間オブジェクトの空間回転情報識別子および異属性空間情報が同じボックス(たとえばmdatボックス)にカプセル化されてもよい。具体的には、目標空間オブジェクトの空間回転情報識別子および異属性空間情報が同じボックスにカプセル化される場合、空間回転情報識別子が、目標空間情報が目標空間オブジェクトの空間回転情報を含むことを示すとき、目標空間オブジェクトの異属性空間情報が該空間回転情報を含む。
具体的実装において、サーバーは、目標空間オブジェクトの空間回転情報識別子および異属性空間情報を同じボックス(たとえばmdatボックス)においてカプセル化してもよい。さらに、サーバーは、目標空間オブジェクトの空間回転情報識別子および異属性空間情報を同じボックスの同じサンプルにおいてカプセル化してもよい。一つのサンプルは一つの空間オブジェクトに対応する異属性空間情報をカプセル化できる。
空間回転情報識別子を加える例(例1):
aligned(8) class SphericalCoordinatesSample(){
……
unsigned int(1) rotation_flag;//空間回転情報識別子、ここで、0は回転がないことを示し、1は回転が存在することを示す
if(rotation_flag == 1)
{
unsigned int(16) rotation_degree;//目標空間オブジェクトの空間回転情報
}
……
}
いくつかの実施形態では、目標空間オブジェクトの同属性空間情報および異属性空間情報がビデオの空間情報のトラック・メタデータ(track metadata)においてカプセル化されてもよく、たとえばtrunボックス、tfhdボックスまたは新規ボックスのような同じボックスにおいてカプセル化されてもよい。
空間情報を加える例(例4):
trun box、tfhd boxまたは新規boxのシンタックス(syntax)
unsigned int(2) regionType; //空間情報タイプ識別子
if (regionType==0){ //空間情報タイプ識別子が0
……//同属性空間情報は、上記の実施形態において空間情報タイプ識別子が0であるときに存在する同属性空間情報と同じ
}
If (regionType ==1) {//空間情報タイプ識別子が1
……//同属性空間情報は、上記の実施形態において空間情報タイプ識別子が1であるときに存在する同属性空間情報と同じ
}
If (regionType ==2) {//空間情報タイプ識別子が2
……//同属性空間情報は、上記の実施形態において空間情報タイプ識別子が2であるときに存在する同属性空間情報と同じ
}
unsigned int(32) samplecount;//サンプル数
for (i=1;i<= samplecount;i++)
If (regionType ==1) {//空間情報タイプ識別子が1
……//異属性空間情報は、上記の実施形態において空間情報タイプ識別子が1であるときに存在する、目標空間オブジェクトの異属性空間情報と同じ
}
If (regionType ==2) {//空間情報タイプ識別子が2
……//異属性空間情報は、上記の実施形態において空間情報タイプ識別子が2であるときに存在する、目標空間オブジェクトの異属性空間情報と同じ
}
}
一つの空間オブジェクトの空間情報の一片は一つのサンプルであり、上記のサンプル数は空間オブジェクトの数を示すために使われ、各空間オブジェクトは異属性空間情報の一つの群に対応する。本発明のこの実施形態において提供されるストリーミング・メディア情報処理方法の実装は以下の段階を含む。
1.空間情報ファイル、空間情報トラック(空間情報はtimed metadataと称されることがある)またはビデオの空間情報メタデータ(あるいは目標ビデオ・データのメタデータと称される)が得られる。
2.空間情報ファイルまたは空間情報トラックがパースされる。
3.パースを通じてタグが3dscであるボックス(空間情報記述ボックス)が得られ、空間情報タイプ識別子がパースされる。空間情報タイプ識別子は、前記二つの空間オブジェクトの空間オブジェクト・タイプを示すために使われてもよい。任意的な空間オブジェクト・タイプは:位置およびサイズが不変のままである空間オブジェクト、位置が変化しサイズは不変のままである空間オブジェクト、位置が不変のままでありサイズが変化する空間オブジェクトおよび位置およびサイズの両方が変化する空間オブジェクトを含んでいてもよいが、これらに限られない。
4.パースを通じて得られた空間オブジェクト・タイプが、位置およびサイズが不変のままである空間オブジェクトである場合、3dscボックスにおけるパースを通じて得られた同属性空間情報は目標空間情報として使われてもよく、ここで、位置およびサイズが不変のままである空間オブジェクトはその空間オブジェクトの空間位置およびその空間オブジェクトの空間的サイズが不変のままであることを意味する。前記空間オブジェクト・タイプは、前記二つの空間オブジェクトのすべての空間情報が同じであり、該空間情報の値がパースを通じて得られた同属性空間情報のものと同一であることを示す。同属性空間情報がこのタイプの同属性空間情報である場合、その後のパースにおいて、目標空間オブジェクトの異属性空間情報が位置するボックスはパースされる必要がない。
5.パースを通じて得られた空間オブジェクト・タイプが、位置が変化し、サイズが不変のままである空間オブジェクトである場合、3dscボックスにおける同属性空間情報は空間オブジェクトのサイズ情報、たとえば空間オブジェクトの高さおよび幅を担持する。この場合、目標空間オブジェクトの、その後のパースを通じて得られる異属性空間情報において担持される情報は、各空間オブジェクトの位置情報である。
6.パースを通じて得られた空間オブジェクト・タイプが、位置およびサイズの両方が変化する空間オブジェクトである場合、目標空間オブジェクトの、その後のパースを通じて得られる異属性空間情報において担持される情報は、各空間オブジェクトの位置情報(たとえば中心点の位置情報)および空間オブジェクトのサイズ情報、たとえば空間オブジェクトの高さおよび幅である。
7.パースを通じて目標空間情報が得られた後、呈示される必要のあるコンテンツ・オブジェクトが、得られたVRビデオから、目標空間情報において記述される空間オブジェクト(前記目標空間オブジェクト)に基づいて選択される;または目標空間情報において記述されている空間オブジェクトに対応するビデオ・データがデコードおよび呈示のために要求される;またはVRビデオ空間(あるいはパノラマ空間と称される)における現在閲覧されているビデオ・コンテンツの位置が目標空間情報に基づいて決定される。
いくつかの実施形態では、空間情報を担持する仕方は、担持様式識別子(carryType)をMPDに加えることによって記述されてもよい。たとえば、担持様式は:空間情報が空間情報ファイル、空間情報トラックまたは目標ビデオ・データのメタデータに担持される、というものであってもよい。
MPDの本質的属性(EssentialProperty)記述子または補足的属性(SupplementalProperty)記述子が例として使われる:
Figure 2020503792
または
Figure 2020503792
具体的なMPD例を下記に示す。
例1:空間情報は目標ビデオ・データのメタデータにおいて担持される
<?xml version="1.0" encoding="UTF-8"?>
<MPD
xmlns="urn:mpeg:dash:schema:mpd:2011"
type="static"
mediaPresentationDuration="PT10S"
minBufferTime="PT1S"
profiles="urn:mpeg:dash:profile:isoff-on-demand:2011">
<Period>
<!-空間情報は目標ビデオ・データのメタデータにおいて担持される-->
<AdaptationSet segmentAlignment="true" subsegmentAlignment="true" subsegmentStartsWithSAP="1">
<EssentialProperty schemeIdUri="urn:mpeg:dash:xxx:2016"
value="1, 0"/>
<Representation id="zoomed" mimeType="video/mp4" codecs="avc1.42c01e" bandwidth="5000000" width="1920" height="1080">
<BaseURL>video.mp4</BaseURL>
</Representation>
</AdaptationSet>
</Period>
</MPD>
この例では、値="1, 0"であり、1はソース識別子であり、0は空間情報が目標ビデオ・データのトラックにおけるメタデータ(目標ビデオ・データのメタデータと称される)において担持されることを示す。
例2:空間情報が空間情報トラックにおいて担持される
<?xml version="1.0" encoding="UTF-8"?>
<MPD
xmlns="urn:mpeg:dash:schema:mpd:2011"
type="static"
mediaPresentationDuration="PT10S"
minBufferTime="PT1S"
profiles="urn:mpeg:dash:profile:isoff-on-demand:2011">
<Period>
<!-空間情報が空間情報トラックにおいて担持され、空間情報トラックおよび目標ビデオ・データが同じファイルにある-->
<AdaptationSet segmentAlignment="true" subsegmentAlignment="true" subsegmentStartsWithSAP="1">
<EssentialProperty schemeIdUri="urn:mpeg:dash:xxx:2016"
value="1, 1"/>
<Representation id="zoomed" mimeType="video/mp4" codecs="avc1.42c01e" bandwidth="5000000" width="1920" height="1080">
<BaseURL>video.mp4</BaseURL>
</Representation>
</AdaptationSet>
</Period>
</MPD>
この例において、値="1, 1"であり、ここで、1はソース識別子であり、1は空間情報が独立した空間情報トラックにおいて担持されることを示す。
例3:空間情報が独立した空間情報ファイルにおいて担持される
<?xml version="1.0" encoding="UTF-8"?>
<MPD
xmlns="urn:mpeg:dash:schema:mpd:2011"
type="static"
mediaPresentationDuration="PT10S"
minBufferTime="PT1S"
profiles="urn:mpeg:dash:profile:isoff-on-demand:2011">
<Period>
<!-空間情報が独立した空間情報ファイルにおいて担持される-->
<AdaptationSet segmentAlignment="true" subsegmentAlignment="true" subsegmentStartsWithSAP="1">
<EssentialProperty schemeIdUri="urn:mpeg:dash:xxx:2016"
value="1, 2"/>
<Representation id="zoomed" mimeType="video/mp4" codecs="avc1.42c01e" bandwidth="5000000" width="1920" height="1080">
<BaseURL>video.mp4</BaseURL>
</Representation>
</AdaptationSet>
<!-空間情報ファイル-->
<AdaptationSet segmentAlignment="true" subsegmentAlignment="true" subsegmentStartsWithSAP="1">
<Representation id="roi-coordinates" associationId="zoomed" associationType="cdsc" codecs="2dcc" bandwidth="100">
<BaseURL>roi_coordinates.mp4</BaseURL>
</Representation>
</AdaptationSet>
</Period>
</MPD>
この例では、値="1, 2"であり、ここで、1はソース識別子であり、2は、空間情報が独立した空間情報ファイルにおいて担持されることを示す。空間情報ファイルに関連付けられた目標ビデオ表現(または目標ビデオ・ビットストリームと称される)がassociationId="zoomed"によって表わされており、空間情報ファイルは表現IDが"zoomed"である目標ビデオ表現と関連付けられる。
クライアントは、MPDをパースすることによって、空間情報を担持する仕方を得て、その担持様式に基づいて空間情報を得ることができる。
いくつかの実施形態では、空間情報データまたは空間情報トラックはさらに、目標空間オブジェクトを示すために使われる幅および高さタイプ識別子を含んでいてもよい。幅および高さタイプ識別子は、目標空間オブジェクトの幅および高さを記述するために使われる座標系を示すために使われてもよく、あるいは幅および高さタイプ識別子は、目標空間オブジェクトの境界を記述するために使われる座標系を示すために使われてもよい。幅および高さタイプ識別子は一つの識別子であってもよく、あるいは幅タイプ識別子および高さタイプ識別子を含んでいてもよい。
幅および高さタイプ識別子および同属性空間情報は、同じボックス(たとえば3dscボックス)にカプセル化されてもよく、あるいは目標空間オブジェクトの幅および高さタイプ識別子および異属性空間情報が同じボックス(たとえばmdatボックス)においてカプセル化されてもよい。
具体的実装では、サーバーは、幅および高さタイプ識別子および同属性空間情報を同じボックス(たとえば3dscボックス)においてカプセル化してもよい。さらに、目標空間情報が目標ビデオ・データとは独立したファイル(空間情報ファイル)または目標ビデオ・データとは独立したトラック(空間情報トラック)においてカプセル化されるとき、サーバーは幅および高さタイプ識別子を3dscボックスに加えてもよい。
幅および高さタイプ識別子を加える例(例1):
aligned(8) class 3DSphericalCoordinatesSampleEntry//同属性空間情報
extends MetadataSampleEntry ('3dsc') {
……
unsigned int(2) edge_type;//幅および高さタイプ識別子
……
}
いくつかの実施形態では、目標空間オブジェクトの同属性空間情報および異属性空間情報は、たとえばビデオの空間情報のトラック・メタデータ(track metadata)においてカプセル化されてもよく、同じボックス、たとえばtrun box、tfhd boxまたは新規boxにおいてカプセル化されてもよい。
空間情報を加える例(例2):
trun box、tfhd boxまたは新規boxのシンタックス(syntax){

unsigned int(2) edge_type;//幅および高さタイプ識別子
}
この例において、幅および高さタイプ識別子が0であるとき、目標空間オブジェクトの幅および高さを記述するために使われる座標系は図10に示されている。球面の影付きの部分が目標空間オブジェクトであり、目標空間オブジェクトの四隅の頂点はそれぞれB、E、G、Iである。図10では、Oは360度VRパノラマ・ビデオの球面画像に対応する球中心であり、頂点B、E、G、Iは別個に、球の中心を通る円(球の中心Oが該円の中心として使われ、該円の半径は360度VRパノラマ・ビデオの球面画像に対応する球の半径であり、該円はz軸を通る。そのような円は二つあり、一方は点B、A、I、Oを通り、他方は点E、F、G、Oを通る)がx軸およびy軸に平行な円(球の中心Oは該円の中心としては使われない。そのような円は二つあり、一方はB、D、Eを通り、他方はI、H、Gを通り、それら二つの円は互いに平行)と交わる球上の点である。Cは目標空間オブジェクトの中心点であり、エッジDHに対応する角度は目標空間オブジェクトの高さを表わし、エッジAFに対応する角度は目標空間オブジェクトの幅を表わし、エッジDHおよびエッジAFは点Cを通る。エッジBI、エッジEGおよびエッジDHは同じ角度に対応する;エッジBE、エッジIGおよびエッジAFは同じ角度に対応する。エッジBEに対応する角の頂点はJであり、Jはz軸が、前記した円のうちの、点B、D、Eが位置しているほうの円と交わる点である。対応して、エッジIGに対応する角の頂点は、z軸が、前記した円のうちの、点I、H、Gが位置しているほうの円と交わる点である。エッジAFに対応する角度の頂点は点Oであり、エッジBI、エッジEG、エッジDHに対応する角度の各頂点も点Oである。
上記が単に例であることを注意しておくべきである。目標空間オブジェクトは、x軸を通る二つの円がy軸およびz軸に平行な、球の中心を通らない二つの円と交わるときに得られてもよく、あるいは目標空間オブジェクトは、y軸を通る二つの円がx軸およびz軸に平行な、球の中心を通らない二つの円と交わるときに得られてもよい。
幅および高さタイプ識別子が1であるとき、目標空間オブジェクトの幅および高さを記述するために使われる座標系は図11に示されている。球面の影付きの部分が目標空間オブジェクトであり、目標空間オブジェクトの四隅の頂点はそれぞれB、E、G、Iである。図11では、Oは360度VRパノラマ・ビデオの球面画像に対応する球中心であり、頂点B、E、G、Iは別個に、z軸を通る円(球の中心Oが該円の中心として使われ、該円の半径は360度VRパノラマ・ビデオの球面画像に対応する球の半径であり、そのような円は二つあり、一方は点B、A、Iを通り、他方は点E、F、Gを通る)がy軸を通る円(球の中心Oが該円の中心として使われ、該円の半径は360度VRパノラマ・ビデオの球面画像に対応する球の半径であり、そのような円は二つあり、一方は点B、D、Eを通り、他方は点I、H、Gを通る)と交わる球上の点である。Cは目標空間オブジェクトの中心点であり、エッジDHに対応する角度は目標空間オブジェクトの高さを表わし、エッジAFに対応する角度は目標空間オブジェクトの幅を表わし、エッジDHおよびエッジAFは点Cを通る。エッジBI、エッジEGおよびエッジDHは同じ角度に対応する;エッジBE、エッジIGおよびエッジAFは同じ角度に対応する。エッジBEに対応する角の頂点は点Jであり、点Jはz軸が、点B、Eを通りx軸およびy軸に平行な円と交わる点である。エッジIGに対応する角の頂点は、z軸が点I、Gを通りx軸およびy軸に平行な円と交わる点である。エッジAFに対応する角度の頂点は点Oである。エッジBIに対応する角の頂点は点Lであり、点Lはy軸が、点B、Iを通りz軸およびx軸に平行な円と交わる点である。エッジEGに対応する角度の頂点は、y軸が、点E、Gを通りz軸およびx軸に平行な円と交わる点である。エッジDHに対応する角の頂点も点Oである。
上記が単に例であることを注意しておくべきである。目標空間オブジェクトは、x軸を通る二つの円がz軸を通る二つの円と交わるときに得られてもよく、あるいは目標空間オブジェクトは、x軸を通る二つの円がy軸を通る二つの円と交わるときに得られてもよい。
幅および高さタイプ識別子が2であるとき、目標空間オブジェクトの幅および高さを記述するために使われる座標系は図12に示されている。球面の影付きの部分が目標空間オブジェクトであり、目標空間オブジェクトの四隅の頂点はそれぞれB、E、G、Iである。図12では、Oは360度VRパノラマ・ビデオの球面画像に対応する球中心であり、頂点B、E、G、Iは別個に、x軸およびz軸に平行な円(球の中心Oは該円の中心としては使われない。そのような円は二つあり、一方はB、A、Iを通り、他方はE、F、Gを通り、それら二つの円は互いに平行)がx軸およびy軸に平行な円(球の中心Oは該円の中心としては使われない。そのような円は二つあり、一方はB、D、Eを通り、他方はI、H、Gを通り、それら二つの円は互いに平行)と交わる球上の点である。Cは目標空間オブジェクトの中心点であり、エッジDHに対応する角度は目標空間オブジェクトの高さを表わし、エッジAFに対応する角度は目標空間オブジェクトの幅を表わし、エッジDHおよびエッジAFは点Cを通る。エッジBI、エッジEGおよびエッジDHは同じ角度に対応する;エッジBE、エッジIGおよびエッジAFは同じ角度に対応する。エッジBE、エッジIGおよびエッジAFに対応する角の各頂点は点Oであり、エッジBI、エッジEGおよびエッジDHに対応する角の各頂点も点Oである。
上記が単に例であることを注意しておくべきである。目標空間オブジェクトは、y軸およびz軸に平行であり球の中心を通らない二つの円がy軸およびx軸に平行であり球の中心を通らない二つの円と交わるときに得られてもよく、あるいは目標空間オブジェクトは、y軸およびz軸に平行であり球の中心を通らない二つの円がz軸およびx軸に平行であり球の中心を通らない二つの円と交わるときに得られてもよい。
図11における点Jおよび点Lを得る仕方は図10における点Jを得る仕方と同じである。エッジBEに対応する角の頂点は点Jであり、エッジBIに対応する角の頂点は点Lである。図12において、エッジBEおよびエッジBIに対応する頂点のそれぞれは点Oである。
いくつかの実施形態では、目標空間オブジェクトの同属性空間情報および異属性空間情報は目標空間オブジェクトの記述情報をも含んでいてもよい。たとえば、記述情報は、目標空間オブジェクトを視野領域または関心領域として記述するために使われる(たとえば、目標空間オブジェクトは視野のビットストリームに対応する空間オブジェクトであってもよい);あるいは記述情報は目標空間オブジェクトの品質情報を記述するために使われる。記述情報は上記の実施形態における3dscボックス、trunボックスまたはtfhdボックスにおけるシンタックス(syntax)として加えられてもよく、あるいは記述情報(content_type)はSphericalCoordinatesSampleに加えられてもく、それにより次の機能の一つまたは複数を実装してもよい:目標空間オブジェクトを視野領域として記述する、目標空間オブジェクトを関心領域として記述するおよび目標空間オブジェクトの品質情報を記述する。
図13は、本発明のある実施形態に基づくストリーミング・メディア情報処理方法の概略的なフローチャートである。本方法の実行主体はサーバーであってもよく、具体的にはコンピュータ装置であってもよい。図13に示されるように、本方法は以下の段階を含んでいてもよい。
S1001。目標ビデオ・データ内の二つの画像のデータに関連付けられている二つの空間オブジェクトのそれぞれの空間情報を取得する。
S1002。前記二つの空間オブジェクトのそれぞれの空間情報に基づいて目標空間オブジェクトの目標空間情報を決定する。前記目標空間オブジェクトは二つの空間オブジェクトの一方であり、前記目標空間情報は同属性空間情報を含み、該同属性空間情報は前記二つの空間オブジェクトのそれぞれの空間情報の間の同じ情報を含み、前記二つの空間オブジェクトにおける前記目標空間オブジェクト以外の空間オブジェクトの空間情報は、前記同属性空間情報を含む。
いくつかの実施形態では、本方法はさらに:前記目標空間情報をクライアントに送ることを含んでいてもよい。
いくつかの実施形態では、前記目標空間情報はさらに、前記目標空間オブジェクトの異属性空間情報を含んでいてもよく、他方の空間オブジェクトの空間情報はさらに、該他方の空間オブジェクトの異属性空間情報を含んでいてもよく、前記目標空間オブジェクトの異属性空間情報は前記他方の空間オブジェクトの異属性情報とは異なる。
いくつかの実施形態では、前記目標空間情報は前記目標空間オブジェクトの中心点の位置情報または前記目標空間オブジェクトの左上点の位置情報を含んでいてもよく、前記目標空間情報はさらに、前記目標空間オブジェクトの幅および前記目標空間オブジェクトの高さを含んでいてもよい。
対応して、前記二つの空間オブジェクトのそれぞれの空間情報は、前記二つの空間オブジェクトのそれぞれの中心点の位置情報または前記二つの空間オブジェクトのそれぞれの左上点の位置情報を含んでいてもよく、前記二つの空間オブジェクトのそれぞれの空間情報はさらに、前記二つの空間オブジェクトのそれぞれの幅および前記二つの空間オブジェクトのそれぞれの高さを含んでいてもよい。
いくつかの実施形態では、前記目標空間情報は、前記目標空間オブジェクトの左上点の位置情報および前記目標空間オブジェクトの右下点の位置情報を含んでいてもよい。
対応して、前記二つの空間オブジェクトのそれぞれの空間情報は、前記二つの空間オブジェクトのそれぞれの左上点の位置情報および前記二つの空間オブジェクトのそれぞれの右下点の位置情報を含んでいてもよい。
いくつかの実施形態では、前記目標空間情報は前記目標空間オブジェクトの空間回転情報を含んでいてもよい。
対応して、前記二つの空間オブジェクトのそれぞれの空間情報は、前記二つの空間オブジェクトのそれぞれの空間回転情報を含んでいてもよい。
いくつかの実施形態では、前記目標空間情報は空間情報データまたは空間情報トラック(track)においてカプセル化されてもよい。前記空間情報データは前記目標ビデオ・データのビットストリーム、前記目標ビデオ・データのメタデータまたは前記目標ビデオ・データとは独立なファイルであってもよく、前記空間情報トラックは前記目標ビデオ・データとは独立なトラックであってもよい。
前記空間情報データまたは前記空間情報トラックはさらに、同属性空間情報のタイプを示すために使われる空間情報タイプ識別子を含んでいてもよく、前記空間情報タイプ識別子は、前記目標空間情報内にあり、同属性空間情報に属する情報を示すために使われる。
空間情報タイプ識別子が、前記目標空間情報が同属性空間情報に属する情報をもたないことを示すとき、同属性空間情報は、前記目標空間オブジェクトの幅の最小値、前記目標空間オブジェクトの高さの最小値、前記目標空間オブジェクトの幅の最大値および前記目標空間オブジェクトの高さの最大値を含んでいてもよい。
空間情報タイプ識別子および同属性空間情報は同じボックスにおいてカプセル化されてもよい。
前記空間情報データまたは前記空間情報トラックはさらに、前記目標空間情報に対応する座標系を示すために使われる座標系識別子を含んでいてもよく、前記座標系はピクセル座標系または角座標系である。
座標系識別子および同属性空間情報は同じボックスにおいてカプセル化されてもよい。
前記空間情報データまたは前記空間情報トラックはさらに空間回転情報識別子を含んでいてもよく、空間回転情報識別子は、前記目標空間情報が前記目標空間オブジェクトの空間回転情報を含むかどうかを示すために使われる。
この実施形態のストリーミング・メディア情報処理方法の具体的な実装プロセスまたは実装解決策については、図8に対応する方法実施形態の関係した記述を参照されたい。詳細をここで再び述べることはしない。
図14は、本発明のある実施形態に基づくストリーミング・メディア情報処理装置1100を示している。情報処理装置1100はサーバーであってもよく、具体的にはコンピュータ装置であってもよい。装置1100は取得モジュール1101および決定モジュール1102を含む。
取得モジュール1101は、目標空間オブジェクトの目標空間情報を取得するよう構成される。前記目標空間オブジェクトは二つの空間オブジェクトの一方であり、前記二つの空間オブジェクトは目標ビデオ・データに含まれる二つの画像のデータに関連付けられており、前記目標空間情報は同属性空間情報を含み、該同属性空間情報は前記二つの空間オブジェクトのそれぞれの空間情報の間の同じ情報を含み、前記二つの空間オブジェクトにおける前記目標空間オブジェクト以外の空間オブジェクトの空間情報は、前記同属性空間情報を含む。
決定モジュール1102は、取得モジュールによって取得された前記目標空間情報に基づいて、再生される必要のあるビデオ・データを決定するよう構成される。
いくつかの実施形態では、情報処理装置1100はさらに、表示される必要のあるビデオ・データを表示するよう構成された表示モジュール(あるいはディスプレイと称される)を含んでいてもよい。
いくつかの実施形態では、取得モジュール1101は、前記目標空間情報をサーバーから受領するよう構成される。取得モジュール1101が前記目標空間情報をサーバーから受領するよう構成されるとき、取得モジュール1101は受信モジュール(あるいは受信器またはトランシーバと称される)でありうる。
いくつかの実施形態では、前記目標空間情報はさらに、前記目標空間オブジェクトの異属性空間情報を含み、他方の空間オブジェクトの空間情報はさらに、該他方の空間オブジェクトの異属性空間情報を含み、前記目標空間オブジェクトの異属性空間情報は前記他方の空間オブジェクトの異属性情報とは異なる。
いくつかの実施形態では、前記目標空間情報は前記目標空間オブジェクトの中心点の位置情報または前記目標空間オブジェクトの左上点の位置情報を含み、前記目標空間情報はさらに、前記目標空間オブジェクトの幅および前記目標空間オブジェクトの高さを含む。
対応して、前記二つの空間オブジェクトのそれぞれの空間情報は、前記二つの空間オブジェクトのそれぞれの中心点の位置情報または前記二つの空間オブジェクトのそれぞれの左上点の位置情報を含んでいてもよく、前記二つの空間オブジェクトのそれぞれの空間情報はさらに、前記二つの空間オブジェクトのそれぞれの幅および前記二つの空間オブジェクトのそれぞれの高さを含んでいてもよい。
いくつかの実施形態では、前記目標空間情報は、前記目標空間オブジェクトの左上点の位置情報および前記目標空間オブジェクトの右下点の位置情報を含んでいてもよい。
対応して、前記二つの空間オブジェクトのそれぞれの空間情報は、前記二つの空間オブジェクトのそれぞれの左上点の位置情報および前記二つの空間オブジェクトのそれぞれの右下点の位置情報を含んでいてもよい。
いくつかの実施形態では、前記目標空間情報は前記目標空間オブジェクトの空間回転情報を含んでいてもよい。
対応して、前記二つの空間オブジェクトのそれぞれの空間情報は、前記二つの空間オブジェクトのそれぞれの空間回転情報を含んでいてもよい。
いくつかの実施形態では、前記目標空間情報は空間情報データまたは空間情報トラック(track)においてカプセル化されてもよい。前記空間情報データは前記目標ビデオ・データのビットストリーム、前記目標ビデオ・データのメタデータまたは前記目標ビデオ・データとは独立なファイルであってもよく、前記空間情報トラックは前記目標ビデオ・データとは独立なトラックであってもよい。
前記空間情報データまたは前記空間情報トラックはさらに、同属性空間情報のタイプを示すために使われる空間情報タイプ識別子を含んでいてもよく、前記空間情報タイプ識別子は、前記目標空間情報内にあり、同属性空間情報に属する情報を示すために使われる。
空間情報タイプ識別子が、前記目標空間情報が同属性空間情報に属する情報をもたないことを示すとき、同属性空間情報は、前記目標空間オブジェクトの幅の最小値、前記目標空間オブジェクトの高さの最小値、前記目標空間オブジェクトの幅の最大値および前記目標空間オブジェクトの高さの最大値を含んでいてもよい。
空間情報タイプ識別子および同属性空間情報は同じボックスにおいてカプセル化されてもよい。
前記空間情報データまたは前記空間情報トラックはさらに、前記目標空間情報に対応する座標系を示すために使われる座標系識別子を含んでいてもよく、前記座標系はピクセル座標系または角座標系である。
座標系識別子および同属性空間情報は同じボックスにおいてカプセル化されてもよい。
前記空間情報データまたは前記空間情報トラックはさらに空間回転情報識別子を含んでいてもよく、空間回転情報識別子は、前記目標空間情報が前記目標空間オブジェクトの空間回転情報を含むかどうかを示すために使われる。
取得モジュール1101および決定モジュール1102の機能はソフトウェア・プログラミングを通じて実装されてもよく、ハードウェア・プログラミングを通じて実装されてもよく、あるいは回路を通じて実装されてもよいことが理解されうる。これは本願では限定されない。
この実施形態におけるストリーミング・メディア情報処理装置1100のモジュールの機能は具体的には上記の方法実施形態における方法に基づいて実装されてもよいことが理解されうる。その具体的な実装プロセスについては、上記の方法実施形態における関係した記述を参照されたい。ここで詳細を再び述べることはしない。
図15は、本発明のある実施形態に基づくストリーミング・メディア情報処理装置1200を示している。本装置は取得モジュール1201および決定モジュール1202を含む。
取得モジュール1201は、目標ビデオ・データ内の二つの画像のデータに関連付けられている二つの空間オブジェクトのそれぞれの空間情報を取得するよう構成される。
決定モジュール1202は、取得モジュールによって取得される前記二つの空間オブジェクトのそれぞれの空間情報に基づいて目標空間オブジェクトの目標空間情報を決定するよう構成される。前記目標空間オブジェクトは二つの空間オブジェクトの一方であり、前記目標空間情報は同属性空間情報を含み、該同属性空間情報は前記二つの空間オブジェクトのそれぞれの空間情報の間の同じ情報を含み、前記二つの空間オブジェクトにおける前記目標空間オブジェクト以外の空間オブジェクトの空間情報は、前記同属性空間情報を含む。
いくつかの実施形態では、装置1200はさらに、前記決定モジュールによって決定された前記目標空間情報をクライアントに送るよう構成された送信モジュール(あるいは送信器またはトランシーバと称される)を含んでいてもよい。
いくつかの実施形態では、目標空間情報はさらに、前記目標空間オブジェクトの異属性空間情報を含んでいてもよく、他方の空間オブジェクトの空間情報はさらに、該他方の空間オブジェクトの異属性空間情報を含み、前記目標空間オブジェクトの異属性空間情報は前記他方の空間オブジェクトの異属性情報とは異なる。
いくつかの実施形態では、前記目標空間情報は前記目標空間オブジェクトの中心点の位置情報または前記目標空間オブジェクトの左上点の位置情報を含んでいてもよく、前記目標空間情報はさらに、前記目標空間オブジェクトの幅および前記目標空間オブジェクトの高さを含んでいてもよい。
対応して、前記二つの空間オブジェクトのそれぞれの空間情報は、前記二つの空間オブジェクトのそれぞれの中心点の位置情報または前記二つの空間オブジェクトのそれぞれの左上点の位置情報を含んでいてもよく、前記二つの空間オブジェクトのそれぞれの空間情報はさらに、前記二つの空間オブジェクトのそれぞれの幅および前記二つの空間オブジェクトのそれぞれの高さを含んでいてもよい。
いくつかの実施形態では、前記目標空間情報は、前記目標空間オブジェクトの左上点の位置情報および前記目標空間オブジェクトの右下点の位置情報を含んでいてもよい。
対応して、前記二つの空間オブジェクトのそれぞれの空間情報は、前記二つの空間オブジェクトのそれぞれの左上点の位置情報および前記二つの空間オブジェクトのそれぞれの右下点の位置情報を含んでいてもよい。
いくつかの実施形態では、前記目標空間情報は前記目標空間オブジェクトの空間回転情報を含んでいてもよい。
対応して、前記二つの空間オブジェクトのそれぞれの空間情報は、前記二つの空間オブジェクトのそれぞれの空間回転情報を含んでいてもよい。
いくつかの実施形態では、前記目標空間情報は空間情報データまたは空間情報トラック(track)においてカプセル化されてもよい。前記空間情報データは前記目標ビデオ・データのビットストリーム、前記目標ビデオ・データのメタデータまたは前記目標ビデオ・データとは独立なファイルであってもよく、前記空間情報トラックは前記目標ビデオ・データとは独立なトラックであってもよい。
前記空間情報データまたは前記空間情報トラックはさらに、同属性空間情報のタイプを示すために使われる空間情報タイプ識別子を含んでいてもよく、前記空間情報タイプ識別子は、前記目標空間情報内にあり、同属性空間情報に属する情報を示すために使われる。
空間情報タイプ識別子が、前記目標空間情報が同属性空間情報に属する情報をもたないことを示すとき、同属性空間情報は、前記目標空間オブジェクトの幅の最小値、前記目標空間オブジェクトの高さの最小値、前記目標空間オブジェクトの幅の最大値および前記目標空間オブジェクトの高さの最大値を含んでいてもよい。
空間情報タイプ識別子および同属性空間情報は同じボックスにおいてカプセル化されてもよい。
前記空間情報データまたは前記空間情報トラックはさらに、前記目標空間情報に対応する座標系を示すために使われる座標系識別子を含んでいてもよく、前記座標系はピクセル座標系または角座標系である。
座標系識別子および同属性空間情報は同じボックスにおいてカプセル化されてもよい。
前記空間情報データまたは前記空間情報トラックはさらに空間回転情報識別子を含んでいてもよく、空間回転情報識別子は、前記目標空間情報が前記目標空間オブジェクトの空間回転情報を含むかどうかを示すために使われる。
取得モジュール1201および決定モジュール1202の機能はソフトウェア・プログラミングを通じて実装されてもよく、ハードウェア・プログラミングを通じて実装されてもよく、あるいは回路を通じて実装されてもよいことが理解されうる。これは本願では限定されない。
この実施形態におけるストリーミング・メディア情報処理装置1200のモジュールの機能は具体的には上記の方法実施形態における方法に基づいて実装されてもよいことが理解されうる。その具体的な実装プロセスについては、上記の方法実施形態における関係した記述を参照されたい。ここで詳細を再び述べることはしない。
図16は、本発明のある実施形態に基づくコンピュータ装置1300のハードウェア構造の概略図である。図16に示されるように、コンピュータ装置1300は、ストリーミング・メディア情報処理装置1100の実装として使用されてもよく、ストリーミング・メディア情報処理装置1200の実装として使用されてもよい。コンピュータ装置1300は、プロセッサ1302、メモリ1304、入出力インターフェース1306、通信インターフェース1308およびバス1310を含む。プロセッサ1302、メモリ1304、入出力インターフェース1306および通信インターフェース1308はバス1310と通信し、バス1310を使って互いに接続される。
プロセッサ1302は、汎用の中央処理装置(Central Processing Unit、CPU)、マイクロプロセッサ、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)または一つまたは複数の集積回路であってもよく、本発明の実施形態において提供されるストリーミング・メディア情報処理装置1100またはストリーミング・メディア情報処理装置1200に含まれるモジュールによって実行される必要がある機能を実装するよう、または本発明の方法実施形態において提供される図8または図13に対応するストリーミング・メディア情報処理方法を実行するよう、関係したプログラムを実行するように構成される。プロセッサ1302は集積回路チップであってもよく、信号処理機能をもつ。ある実装プロセスでは、前述の方法におけるステップは、プロセッサ1302内のハードウェア集積論理回路を使って、あるいはソフトウェアの形の命令を使って実装できる。プロセッサ1302は、汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)または他のプログラマブル論理デバイス、離散ゲートまたはトランジスタ論理デバイスまたは離散的なハードウェア・コンポーネントでありうる。プロセッサ1302は、本発明の実施形態において開示されている方法、ステップ、および論理ブロック図を実装または実行してもよい。汎用プロセッサはマイクロプロセッサであってもよく、またはプロセッサは任意の従来のプロセッサなどであってもよい。本発明の実施形態を参照して開示された方法のステップは、ハードウェア復号プロセッサを使って直接実行および完了されてもよく、または復号プロセッサ内のハードウェアおよびソフトウェア・モジュールの組み合わせを使って実行および完了されてもよい。ソフトウェア・モジュールは、ランダムアクセスメモリ、フラッシュメモリ、読み出し専用メモリ、プログラマブル読み出し専用メモリ、電気的に消去可能なプログラマブルメモリ、レジスタなどの当技術分野における成熟した記憶媒体に位置されてもよい。記憶媒体はメモリ1304に位置される。プロセッサ1302はメモリ1304内の情報を読み取り、プロセッサ1302のハードウェアを参照して、本発明の実施形態において提供されるストリーミング・メディア情報処理装置1100またはストリーミング・メディア情報処理装置1200に含まれるモジュールによって実行される必要がある機能を完了する、あるいは本発明の方法実施形態において提供される図8または図13に対応するストリーミング・メディア情報処理方法を実行する。
メモリ1304は、読み出し専用メモリ(Read Only Memory、ROM)、静的記憶装置、動的記憶装置、またはランダムアクセスメモリ(Random Access Memory、RAM)でありうる。メモリ1304は、オペレーティング・システムおよび他のアプリケーション・プログラムを記憶してもよい。本発明の実施形態において提供されるストリーミング・メディア情報処理装置1100またはストリーミング・メディア情報処理装置1200に含まれるモジュールによって実行される必要がある機能を実装する、あるいは本発明の方法実施形態において提供される図8または図13に対応するストリーミング・メディア情報処理方法を実行するためにソフトウェアまたはファームウェアが使われるときは、本発明の実施形態において提供される技術的解決策を実装するために使われるプログラム・コードはメモリ1304に記憶される。プロセッサ1302は、本発明の実施形態において提供されるストリーミング・メディア情報処理装置1100またはストリーミング・メディア情報処理装置1200に含まれるモジュールによって実行される必要がある動作を実行する、あるいは本発明の方法実施形態において提供される、キーパフォーマンス指標を予測するために使われる回帰モデルを生成するための方法を実行する。
入出力インターフェース1306は、入力されたデータや情報を受け取り、演算結果などのデータを出力するよう構成される。入出力インターフェース1306は、装置1100内の取得モジュール1101または装置1200内の取得モジュール1201もしくは送信モジュールとして機能することができる。
通信インターフェース1308は、トランシーバを含むがこれに限定されないトランシーバ装置を使って、コンピュータ装置1300と他の装置または通信ネットワークとの間の通信を実装する。通信インターフェース1308は、装置1100内の取得モジュール1101または装置1200内の取得モジュール1201もしくは送信モジュールとして機能することができる。
バス1310は、コンピュータ装置1300の構成要素(プロセッサ1302、メモリ1304、入出力インターフェース1306および通信インターフェース1308など)の間で情報を転送するために使用されるチャネルを含みうる。
図16に示されるコンピュータ装置1300について、単にプロセッサ1302、メモリ1304、入出力インターフェース1306、通信インターフェース1308およびバス1310が示されているが、具体的な実装プロセスにおいて、当業者はコンピュータ装置1300がさらに、通常の実行のために必要とされる他のコンポーネントを含むことを理解するはずである。たとえば、コンピュータ装置1300がストリーミング・メディア情報処理装置1100の実装として使用されるとき、ストリーミング・メディア情報処理装置1100は、再生される必要があるビデオ・データを表示するように構成されたディスプレイをさらに含んでいてもよい。さらに、当業者であれば、具体的な要件に応じて、コンピュータ装置1300が他の追加的な機能を実装するハードウェア構成要素をさらに含んでいてもよいことを理解するはずである。さらに、当業者は、コンピュータ装置1300が本発明のこの実施形態を実装するのに必要な構成要素のみを含んでいてもよく、図16に示されるすべての構成要素を含む必要がないことを理解するはずである。
説明の簡単のため、前述の方法の実施形態は一連の動作として表現されていることを注意しておく。しかしながら、本発明によれば、いくつかのステップが他のシーケンスで実行されてもよく、あるいは同時に実行されてもよいので、当業者は、本発明が記載される動作シーケンスに限定されないことを理解するはずである。さらに、当業者は、本明細書に記載されているすべての実施形態が例示的実施形態であり、関連する動作およびモジュールは必ずしも本発明にとって必須ではないことも理解しておくべきである。当業者は、実施形態における方法のプロセスの全部または一部が関連するハードウェアに命令するコンピュータ・プログラムによって実装されうることを理解しうる。プログラムはコンピュータ可読記憶媒体に格納されてもよい。プログラムが実行されると、実施形態における方法のプロセスが実行される。上記記憶媒体は、磁気ディスク、光ディスク、読み出し専用メモリ(ROM:Read-Only Memory)またはランダムアクセスメモリ(RAM:Random Access Memory)を含みうる。
本発明は、実施形態を参照して記述されているが、保護を請求する本発明を実装するプロセスにおいて、当業者は、付属の図面、開示された内容および付属の請求項を見ることによって、開示された実施形態の別の変形を理解し実装することができる。請求項において、「有する」(comprising)は、他の構成要素または他のステップを排除するものではなく、「ある」または「一つの」は「複数」の場合を排除するものではない。単一のプロセッサまたは別のユニットが特許請求の範囲に列挙されているいくつかの機能を実装してもよい。いくつかの措置は互いに異なる従属請求項に記録されているが、これはこれらの措置を組み合わせてより良い効果を生み出すことができないことを意味するものではない。コンピュータ・プログラムは、光記憶媒体または固体媒体などの適切な媒体において格納/配布されることができ、他のハードウェアと一緒に提供されるか、あるいはハードウェアの一部として使用されるかしてもよく、あるいは別の仕方で、たとえばインターネットまたは他の有線もしくは無線の電気通信システムを使って配布されてもよい。
本明細書では、本発明の原理および実装を説明するために具体的な例が使用されている。前述の実施形態の説明は、単に本発明の方法および概念を理解するのを助けることを意図している。さらに、実装および適用範囲に関して、本発明の概念に従って当業者によって修正がなされてもよい。よって、本明細書は本発明に対する限定として解釈してはならない。
本発明はストリーミング・メディア処理の分野に関し、詳細には情報処理方法および装置に関する。
I.MPEG-DASH技術の紹介
2011年11月、MPEG機関はDASH規格を承認した。DASH規格(下記では略してDASH技術仕様書と称される)は、HTTPプロトコルに従ってメディア・ストリームを伝送するための技術仕様書である。DASH技術仕様書は、主としてメディア呈示記述(英文:Media Presentation Description、MPD)およびメディア・ファイル・フォーマット(英文:file format)の二つの部分を含む。
1.メディア・ファイル・フォーマット
メディア・ファイル・フォーマットはファイル・フォーマットのタイプである。DASHでは、サーバーが同じビデオ・コンテンツのビットストリームの複数のバージョンを用意し、ビデオストリームの各バージョンはDASH規格では表現(英文:representation)と称される。表現は、伝送フォーマットにおける一つまたは複数のビットストリームのセットおよびカプセル化であり、一つの表現は一つまたは複数のセグメントを含む。ビットストリームの異なるバージョンは、ビットレートおよび解像度のような異なる符号化パラメータをもつことがある。各ビットストリームは複数の小さなファイルに分割され、それぞれの小さなファイルがセグメントと称される(あるいは区分と称される、英文:segment)。クライアントは、メディア・セグメント・データを要求するプロセスにおいて、異なるメディア表現の間で切り換えてもよい。セグメントは、ISO/IEC14496-12規格におけるフォーマット(ISO BMFF(Base Media File Format))に基づいてカプセル化されてもよく、あるいはISO/IEC13818-1.におけるフォーマット(MPEG-2 TS)に基づいてカプセル化されてもよい。
2.メディア呈示記述
DASH規格では、メディア呈示記述はMPDと称され、MPDはxmlファイルであってもよい。ファイル内の情報は階層式に記述される。図1に示されるように、現在レベルにおけるすべての情報は次のレベルにおいて継承される。いくらかのメディア・メタデータがファイル中に記述される。メタデータは、クライアントがサーバーにおけるメディア・コンテンツ情報を理解できるようにでき、クライアントはその情報を使って、セグメントを要求するためのhttp-URLを構築する。
DASH規格では、メディア呈示(英文:media presentation)は、メディア・コンテンツを呈示する構造化されたデータのセットである。メディア呈示記述(英文:media presentation description)は、メディア呈示を規範的に記述するファイルであり、ストリーミング・メディア・サービスを提供するために使われる。期間(英文:period)および連続する期間の群がメディア呈示全体を形成し、期間は連続的で、重なりのない特徴をもつ。MPDでは、表現(英文:representation)は、伝送フォーマットにおける一つまたは複数のビットストリームの記述情報のセットおよびカプセル化であり、一つの表現は一つまたは複数のセグメントを含む。適応セット(英文:Adaptation Set)は同じメディア・コンテンツ・コンポーネントの複数の互いに置換可能な符号化バージョンのセットを表わし、一つの適応セットは一つまたは複数の表現を含む。サブセット(英文:subset)は適応セットの組み合わせである。組み合わせ内のすべての適応セットを再生するとき、プレーヤーは対応するメディア・コンテンツを取得してもよい。セグメント情報は、メディア呈示記述におけるHTTP一様資源位置指定子によって参照されるメディア単位である。セグメント情報は、メディア・データのセグメントを記述する。メディア・データのセグメントは、ファイルに記憶されていてもよく、あるいは別個に記憶されていてもよい。ある可能な様式では、MPDはメディア・データのセグメントを格納する。
本発明におけるMPEG-DASH技術の関連する技術的概念については、ISO/IEC 23009-1: Information technology--Dynamic adaptive streaming over HTTP (DASH)--Part 1: Media presentation description and segment formatsにおける関連する規定を参照されたい;あるいはISO/IEC 23009-1:2013またはISO/IEC 23009-1:2012のような履歴規格バージョンにおける関連する規定を参照されたい。
II.仮想現実感(virtual reality、VR)技術の紹介
仮想現実感技術は、仮想的な世界を作り出し、仮想的な世界を体験させることのできるコンピュータ・シミュレーション・システムである。仮想現実感技術は、コンピュータを使うことによって、シミュレートされた環境を生成し、対話的な三次元の動的な視覚および身体挙動の複数源情報融合システム・シミュレーションである。この技術は、ユーザーが環境中に没入することを可能にできる。VRは主として、シミュレートされた環境、知覚、自然なスキルおよび感知デバイスといった諸側面を含む。シミュレートされた環境は、コンピュータ生成される、リアルタイムの、動的な三次元のリアルな画像である。知覚は、理想的なVRはあらゆる種類の人間知覚をもつべきであることを意味する。コンピュータ・グラフィック技術によって生成される視覚的な知覚に加えて、聴覚的な感覚、触覚的な感覚、力の感覚および動きといった知覚も含められ、嗅覚的な感覚、味の感覚などさえも含まれる。これはマルチ知覚とも称される。自然なスキルは、人の頭や目の動き、ジェスチャーまたは他の人間の挙動もしくは行動をいう。コンピュータは、参加者の行動に好適なデータを処理し、リアルタイムでユーザーの入力に対応する応答を作成し、該応答をユーザーの五感の器官に別個にフィードバックする。感知デバイスは、三次元対話デバイスである。VRビデオ(または360度ビデオまたは全方向ビデオ(英文:Omnidirectional video))が頭部装着デバイスおよびハンドヘルド・デバイス上で呈示されるときは、ユーザーの頭の配向に対応するビデオ画像および関連するオーディオの一部のみが呈示される。
VRビデオと通常のビデオ(英文:normal video)との間の相違は、通常のビデオにおけるビデオ・コンテンツ全体がユーザーに対して呈示されるが、VRビデオは、ビデオ全体のサブセットのみがユーザーに呈示されるというものである(英文:in VR typically only a subset of the entire video region represented by the video pictures)。
II.空間情報の紹介
既存の規格では、空間情報の記述は次のようになっている:"The SRD scheme allows Media Presentation authors to express spatial relationships between Spatial Objects. A Spatial Object is defined as a spatial part of a content component (for example a region of interest, or a tile) and represented by either an Adaptation Set or a Sub-Representation."
間情報は、空間オブジェクト(すなわちspatial object)の間の空間的関係(すなわちspatial relationship)である。空間オブジェクトは、コンテンツ・コンポーネントの部分的な空間、たとえば既存の関心領域(英文:region of interest、ROI)およびタイルとして定義される。空間的関係は、適応セット(adaptation set)および部分表現(sub-representation)において記述される。既存の規格では、空間オブジェクトの空間情報は、MPDにおいて記述されてもよい。
ISO/IEC 14496-12 (2012)規格文書では、ファイルは多くのボックス(box)およびフルボックス(FullBox)を含む。各ボックスはヘッダ(Header)およびデータ(Data)を含む。フルボックスはボックスの拡張である。ヘッダは、ボックス全体の長さ(size)およびタイプ(type)を含む。size=0のとき、そのことは、そのボックスがファイル中の最後のボックスであることを意味する。size=1のとき、そのことは、ボックス長を記述するためにさらなるビットが必要とされることを意味する。データはボックス中の実際のデータであり、純粋なデータまたはさらなるサブボックスであってもよい。
ISO/IEC 14496-12 (2012)規格文書では、トラック(track)間の関係を記述するために"tref box"が使われる。たとえば、一つのMP4ファイルは、それぞれIDが2、3、4である三つのビデオ(video)トラックおよびそれぞれIDが6、7、8である三つのオーディオ・トラックを含む。トラック2およびトラック6のそれぞれについてのtrefボックスにおいて、トラック2とトラック6が再生のために束縛されていることが指定されてもよい。
現在の規格、たとえばISO/IEC 23000-20の規定では、メディア・コンテンツ・トラックとメタデータ・トラックとの間の参照のために使われる参照タイプ(reference_type)は'cdsc'である。たとえば、ビデオ・トラックにおいてパースを通じて、参照されるトラックが得られ、参照タイプが'cdsc'であるとすると、それは、その参照されるトラックが、そのビデオ・トラックを記述するために使われるメタデータ・トラックであることを示す。しかしながら、実際の応用では、メディア・コンテンツを記述するメタデータの多くのタイプがあり、異なるタイプのメタデータはユーザーにとっての異なる使用方法を提供する。既存の方法を使うとき、クライアントは、ファイルに含まれるすべてのトラックをパースし、次いで、メディア・コンテンツ・トラックのメタデータ・トラックとの間の参照のために使われる参照タイプに基づいて、メディア・コンテンツに関連付けられたトラックの属性を決定する必要がある。それにより、ビデオ・トラックに含まれる異なる属性を判別し、異なる属性を使うことによってユーザーのために経験が提供される。換言すれば、既存の方法では、メディア・トラックが呈示されるときにクライアントによって実行されることのできる動作を決定することが要求される場合、該動作は、ファイル内の全トラックのパースが完了されることに依存して、決定されることができる。結果として、クライアントの実装手順の複雑さが増す。
仮想現実感(英文:virtual reality、VR)技術のますますの発展に伴い、360度の視野などでVRビデオを見るためのますます多くのアプリケーションがユーザーのために呈示される。VRビデオを見るプロセスにおいて、ユーザーは任意の時点において視野(英文:field of view、FOV)を変えてもよく、それぞれ視野は一つの空間オブジェクト(これはVRビデオにおけるある領域として理解されうる)のビデオ・データに対応する。視野が切り換えられるにつれて、ユーザーの視野において呈示されるVRビデオ画像も切り換えられるべきである。
従来技術では、VRビデオが呈示されるとき、人間の目の視野をカバーできる空間オブジェクトのビデオ・データが呈示される。ユーザーが見る空間オブジェクトは、大半のユーザーによって選択される関心領域であってもよく、あるいはビデオ制作者によって指定された領域であってもよく、該領域は時間とともに絶えず変化する。VRビデオにおける、画像データに関連付けられた空間オブジェクトの位置を同定するために、VRビデオにおける空間オブジェクトの位置を記述するために使われる空間情報が、対応するファイルにカプセル化される必要がある。ビデオ・データにおける画像データは大量の画像に対応するので、該大量の画像の大量の位置情報は、過度に大きなデータ・ボリュームを生じさせる。
本発明の実施形態は、空間情報のデータ・ボリュームを減らすための、ストリーミング・メディア情報処理方法および装置を提供する。
上記の目的および他の目的は、独立請求項における特徴を使って達成される。さらなる実装は従属請求項、明細書および付属の図面において反映される。
第一の側面は、ストリーミング・メディア情報処理方法を提供し、該方法は:
目標空間オブジェクトの目標空間情報を取得する段階であって、前記目標空間オブジェクトは二つの空間オブジェクトの一方であり、前記二つの空間オブジェクトは目標ビデオ・データに含まれる二つの画像のデータに関連付けられており、前記目標空間情報は同属性空間情報を含み、該同属性空間情報は前記二つの空間オブジェクトのそれぞれの空間情報の間の同じ情報を含み、前記二つの空間オブジェクトにおける前記目標空間オブジェクト以外の空間オブジェクトの空間情報は、前記同属性空間情報を含む、段階と;
前記目標空間情報に基づいて、再生される必要のあるビデオ・データを決定する段階とを含む。
前記目標ビデオ・データは、ビットストリーム、すなわち目標ビデオ・ビットストリームであってもよく;あるいはエンコードされていないもとのデータまたは再構成を通じて得られる再構成されたデータ、すなわち目標ビデオ・シーケンスであってもよい。目標ビデオ・データが目標ビデオ・ビットストリームであるときは、前記二つの画像のデータは前記二つの画像のエンコードされたデータであってもよい。目標ビデオ・データが目標ビデオ・シーケンスであるときは、前記二つの画像のデータは前記二つの画像のもとのデータまたは再構成されたデータであってもよい。
前記二つの画像は前記二つの空間オブジェクトと一対一対応にあってもよい。
前記同属性空間情報は、情報の群であり、前記二つの空間オブジェクトのそれぞれの空間情報は該情報の群を共有する。
目標空間オブジェクトの目標空間情報を取得することは:目標空間オブジェクトの目標空間情報をサーバーから受信することを含んでいてもよい。
前記二つの画像はビデオ・シーケンスにおける二つのフレームであってもよい。具体的には、前記二つの画像は異なる瞬間に対応する;または前記二つの画像はビデオ・シーケンスにおける同じフレームの部分画像であってもよい、すなわち、前記二つの画像は同じ瞬間に対応する;または前記二つの画像はビデオ・シーケンスにおける異なるフレームの部分画像であってもよい。
前記二つの空間オブジェクトのそれぞれの空間情報の間の繰り返される部分は、空間情報の冗長性を減らすために、同属性空間情報の群によって表現され、それにより空間情報のデータ・ボリュームを減らす。
前記目標空間情報に基づいて、再生される必要のあるビデオ・データを決定することは:前記目標空間情報に基づいて、前記目標空間オブジェクトが、再生される必要のあるピクチャーに対応する空間オブジェクトのすべてまたは一部を含むかどうかを判別し;前記目標空間オブジェクトが、再生される必要のあるピクチャーに対応する空間オブジェクトのすべてまたは一部を含むときに、前記目標ビデオ・データを、再生される必要のあるビデオ・データとして決定することを含んでいてもよい。
前記目標空間情報に基づいて、再生される必要のあるビデオ・データを決定することは:前記目標空間情報および前記目標空間オブジェクトと再生される必要のあるピクチャーに対応する空間オブジェクトとの間の空間的関係(または視野の切り換えの追跡)に基づいて、再生される必要のあるピクチャーに対応する空間オブジェクト(または視野が切り換えられた後に得られた空間オブジェクト)の空間情報を決定し、それによりさらに、再生される必要のある前記ビデオ・データを決定することを含んでいてもよい。具体的には、再生される必要のあるビデオ・データは再生される必要のあるビデオ・ビットストリームであってもよい。目標空間オブジェクトの目標空間情報が得られた後、パノラマ空間における目標空間オブジェクト(あるいはパノラマ空間オブジェクトと称される)の相対位置が決定されてもよく、次いで、視野が切り換えられた後に得られる空間オブジェクトの位置が、目標空間オブジェクトの目標空間情報および視野の切り換えの追跡に基づいて、ビデオ再生プロセスにおいて決定されてもよい。さらに、再生される必要のあるピクチャーに対応する空間オブジェクトに対応する、再生される必要のあるビデオ・ビットストリームが、サーバーに要求される。具体的実装では、再生される必要のあるビデオ・ビットストリームを取得するための要求が、記述される各空間オブジェクトのビットストリームの、MPDにおいて記述されている、URLのような情報に基づいてサーバーに送られてもよい。それにより、再生される必要のあるビデオ・ビットストリームが取得され、再生される必要のあるビデオ・ビットストリームがデコードされて再生される。
第一の側面によれば、第一の側面の第一の可能な実装において、目標空間情報はさらに、前記目標空間オブジェクトの異属性空間情報を含み、他方の空間オブジェクトの空間情報はさらに、該他方の空間オブジェクトの異属性空間情報を含み、前記目標空間オブジェクトの異属性空間情報は前記他方の空間オブジェクトの異属性空間情報とは異なる。
前記目標空間オブジェクトの異属性空間情報が前記他方の空間オブジェクトの異属性空間情報とは異なるとは、それら二つの異属性空間情報が異なることを意味しうる。
第一の側面または第一の側面の第一の実装によれば、第一の側面の第二の可能な実装において、前記目標空間情報は前記目標空間オブジェクトの中心点の位置情報または前記目標空間オブジェクトの左上点の位置情報を含み、前記目標空間情報はさらに、前記目標空間オブジェクトの幅および前記目標空間オブジェクトの高さを含む。
前記目標空間情報は、前記目標空間オブジェクトの中心点の位置情報または前記目標空間オブジェクトの左上点の位置情報の代わりに、前記目標空間オブジェクト内の別の位置の点(左下点、右上点、右下点または事前設定された点)の位置情報を含んでいてもよい。
左上点は、水平座標値および垂直座標値がそれぞれ前記目標空間オブジェクトにおいて最小である点である。
前記目標空間情報に対応する座標系が角座標系であるときは、中心点の位置情報または左上点の位置情報はピッチ角θ(pitch)およびヨー角ψ(yaw)であってもよく、あるいはピッチ角θ(pitch)、ヨー角ψ(yaw)およびロール角Φ(roll)であってもよい。あるいはまた、前記目標空間情報に対応する座標系がピクセル座標系であるときは、中心点の位置情報または左上点の位置情報は、ピクセル単位での水平座標およびピクセル単位での垂直座標であってもよい。
第一の側面または第一の側面の第一の実装によれば、第一の側面の第三の可能な実装において、前記目標空間情報は、前記目標空間オブジェクトの左上点の位置情報および前記目標空間オブジェクトの右下点の位置情報を含む。
前記目標空間情報は、前記目標空間オブジェクトの右上点の位置情報および前記目標空間オブジェクトの左下点の位置情報を含んでいてもよい。
第一の側面または第一の側面の第一の実装ないし第一の側面の第三の実装のいずれかによれば、第一の側面の第四の可能な実装において、前記目標空間情報は前記目標空間オブジェクトの空間回転情報を含む。
前記目標空間オブジェクトの空間回転情報は、前記目標空間オブジェクトがパノラマ空間オブジェクトの水平座標軸または垂直座標軸に対して回転する度合いを示すために使われてもよく、前記目標空間オブジェクトは前記パノラマ空間オブジェクト内にある。
前記目標空間情報に対応する座標系が角座標系であるときは、前記空間回転情報はロール角Φ(roll)であってもよい。あるいはまた、前記目標空間情報に対応する座標系がピクセル座標系であるときは、前記空間回転情報は、前記目標空間オブジェクトにおけるある位置点の、前記ロール角を使うことによる変換を通じて得られる動きベクトルを使って表現されてもよい。前記動きベクトルはピクセル単位である。
第一の側面または第一の側面の第一の実装ないし第一の側面の第四の実装のいずれかによれば、第一の側面の第五の可能な実装において、前記目標空間情報は空間情報データまたは空間情報トラック(track)においてカプセル化される。前記空間情報データは前記目標ビデオ・データのビットストリーム、前記目標ビデオ・データのメタデータまたは前記目標ビデオ・データとは独立なファイルであり、前記空間情報トラックは前記目標ビデオ・データとは独立なトラックである。
前記目標ビデオ・データとは独立なファイルは、空間情報を記述するために使われる空間情報ファイルであってもよい。前記目標ビデオ・データとは独立なトラックは、空間情報を記述するために使われる空間情報トラックであってもよい。
前記目標空間情報が前記目標ビデオ・データのビットストリームにおいてカプセル化されるとき、前記目標空間情報は前記目標ビデオ・データのビットストリームにおける補助向上情報単位またはパラメータ・セット単位においてカプセル化されてもよく、あるいは前記目標空間情報は前記目標ビデオ・データが位置する空間的表現のセグメントにおいてカプセル化されてもよい。具体的には、前記目標空間情報はボックス(たとえばtrunボックスまたはtfhdボックス)においてカプセル化されてもよい。
前記目標空間オブジェクトの同属性空間情報および異属性空間情報は同じボックスにおいてカプセル化されてもよく、あるいは異なるボックスにおいてカプセル化されてもよい。具体的には、同属性空間情報は3dscボックスにおいてカプセル化されてもよく、前記目標空間オブジェクトの異属性空間情報はmdatボックスにおいてカプセル化されてもよい。
第一の側面の第五の実装によれば、第一の側面の第六の可能な実装において、前記空間情報データまたは前記空間情報トラックはさらに、同属性空間情報のタイプを示すために使われる空間情報タイプ識別子を含み、前記空間情報タイプ識別子は、前記目標空間情報内にあり、同属性空間情報に属する情報を示すために使われる。
定義から、前記目標空間オブジェクトの同属性空間情報および異属性空間情報が相補的であることがわかりうる。よって、前記空間情報タイプ識別子が、前記目標空間情報内にあり、同属性空間情報に属する情報を示すために使われるとき、該空間情報タイプ識別子は、前記目標空間情報内にあり、前記目標空間オブジェクトの異属性空間情報に属する情報を示すためにも使用されうる。
空間情報タイプ識別子は、前記目標空間オブジェクトの同属性空間情報または異属性空間情報の空間情報タイプを示すためにも使われてもよい。任意的な空間情報タイプは、空間オブジェクトの位置情報を含むが空間オブジェクトの幅および高さ情報は含まない空間情報、空間オブジェクトの幅および高さ情報を含むが空間オブジェクトの位置情報は含まない空間情報、および空間オブジェクトの幅および高さ情報および空間オブジェクトの位置情報を含む空間情報を含みうるが、それに限られない。
空間情報タイプ識別子は、前記二つの空間オブジェクトの空間オブジェクト・タイプを示すために使われてもよい。任意的な空間オブジェクト・タイプは、位置、幅および高さが変わらないままである空間オブジェクト、位置が変化し幅および高さが変わらないままである空間オブジェクト、位置が変わらないままであり幅および高さが変化する空間オブジェクトおよび位置、幅および高さがみな変化する空間オブジェクトを含むがそれに限られない。
第一の側面の前記第二の実装について、空間情報タイプ識別子が第一の事前設定された値であるとき、空間情報タイプ識別子は、前記目標空間情報内にあり、同属性空間情報に属する情報が前記目標空間オブジェクトの中心点の位置情報または前記目標空間オブジェクトの左上点の位置情報、前記目標空間オブジェクトの幅および前記目標空間オブジェクトの高さであることを示すために使われる。空間情報タイプ識別子が第二の事前設定された値であるとき、空間情報タイプ識別子は、前記目標空間情報内にあり、同属性空間情報に属する情報が前記目標空間オブジェクトの幅および前記目標空間オブジェクトの高さであることを示すために使われる。空間情報タイプ識別子が第三の事前設定された値であるとき、空間情報タイプ識別子は、前記目標空間情報が同属性空間情報に属する情報をもたないことを示すために使われる。
対応して、第一の側面の前記第二の実装について、空間情報タイプ識別子が前記第一の事前設定された値であるとき、空間情報タイプ識別子はさらに、異属性空間情報が存在しないことを示す。空間情報タイプ識別子が前記第二の事前設定された値であるとき、空間情報タイプ識別子はさらに、前記目標空間オブジェクトの異属性空間情報が前記目標空間オブジェクトの中心点の位置情報または前記目標空間オブジェクトの左上点の位置情報であることを示す。空間情報タイプ識別子が前記第三の事前設定された値であるとき、空間情報タイプ識別子はさらに、前記目標空間オブジェクトの異属性空間情報が、前記目標空間オブジェクトの中心点の位置情報または前記目標空間オブジェクトの左上点の位置情報、前記目標空間オブジェクトの幅および前記目標空間オブジェクトの高さであることを示す。
第一の側面の前記第三の実装について、空間情報タイプ識別子が第四の事前設定された値であるとき、空間情報タイプ識別子は、前記目標空間情報内にあり、同属性空間情報に属する情報が前記目標空間オブジェクトの左上点の位置情報および前記目標空間オブジェクトの右下点の位置情報であることを示すために使われる。空間情報タイプ識別子が第五の事前設定された値であるとき、空間情報タイプ識別子は、前記目標空間情報内にあり、同属性空間情報に属する情報が前記目標空間オブジェクトの右下点の位置情報であることを示すために使われる。空間情報タイプ識別子が第六の事前設定された値であるとき、空間情報タイプ識別子は、前記目標空間情報が同属性空間情報に属する情報をもたないことを示すために使われる。前記目標空間オブジェクトの左上点の位置情報または前記目標空間オブジェクトの右下点の位置情報が、前記目標空間オブジェクトの幅および前記目標空間オブジェクトの高さで置き換えられてもよいことを注意しておくべきである。
対応して、第一の側面の前記第三の実装について、空間情報タイプ識別子が前記第四の事前設定された値であるとき、空間情報タイプ識別子はさらに、異属性空間情報が存在しないことを示す。空間情報タイプ識別子が前記第五の事前設定された値であるとき、空間情報タイプ識別子はさらに、前記目標空間オブジェクトの異属性空間情報が前記目標空間オブジェクトの中心点の位置情報または前記目標空間オブジェクトの左上点の位置情報であることを示す。空間情報タイプ識別子が前記第六の事前設定された値であるとき、空間情報タイプ識別子はさらに、前記目標空間オブジェクトの異属性空間情報が前記目標空間オブジェクトの左上点の位置情報および前記目標空間オブジェクトの右下点の位置情報であることを示す。前記目標空間オブジェクトの左上点の位置情報または前記目標空間オブジェクトの右下点の位置情報が、前記目標空間オブジェクトの幅および前記目標空間オブジェクトの高さで置き換えられてもよいことを注意しておくべきである。
第一の側面の第六の実装によれば、第一の側面の第七の可能な実装において、空間情報タイプ識別子が、前記目標空間情報が同属性空間情報に属する情報をもたないことを示すとき、同属性空間情報は、前記目標空間オブジェクトの幅の最小値、前記目標空間オブジェクトの高さの最小値、前記目標空間オブジェクトの幅の最大値および前記目標空間オブジェクトの高さの最大値を含む。
第一の側面の第六の実装または第一の側面の第七の実装によれば、第一の側面の第八の可能な実装において、空間情報タイプ識別子および同属性空間情報は同じボックスにおいてカプセル化される。
第一の側面の第五の実装ないし第一の側面の第八の実装のいずれかによれば、第一の側面の第九の可能な実装において、前記空間情報データまたは前記空間情報トラックはさらに、前記目標空間情報に対応する座標系を示すために使われる座標系識別子を含み、前記座標系はピクセル座標系または角座標系である。
座標系がピクセル座標系であるとき、位置情報はピクセル単位の座標によって表わされ、幅および高さもピクセル単位で表わされる。座標系が角座標系であるとき、位置情報は角度で表わされる。たとえば、位置情報はピッチ角θ(pitch)およびヨー角ψ(yaw)であってもよく、あるいはピッチ角θ(pitch)、ヨー角ψ(yaw)およびロール角Φ(roll)であってもよい。幅および高さはそれぞれ、角度を使って角度範囲を表わすために使われる。
第一の側面の第九の実装によれば、第一の側面の第十の可能な実装において、座標系識別子および同属性空間情報は同じボックスにおいてカプセル化される。
第一の側面の第五の実装ないし第一の側面の第十の実装のいずれかによれば、第一の側面の第十一の可能な実装において、前記空間情報データまたは前記空間情報トラックはさらに空間回転情報識別子を含み、空間回転情報識別子は、前記目標空間情報が前記目標空間オブジェクトの空間回転情報を含むかどうかを示すために使われる。
空間回転情報識別子および同属性空間情報は同じボックスにおいてカプセル化されてもよく、あるいは空間回転情報識別子および前記目標空間オブジェクトの異属性空間情報が同じボックスにおいてカプセル化されてもよい。具体的には、空間回転情報識別子および前記目標空間オブジェクトの異属性空間情報が同じボックスにカプセル化される場合、空間回転情報識別子が前記目標空間情報が前記目標空間オブジェクトの空間回転情報を示すことを示すとき、前記目標空間オブジェクトの異属性空間情報は空間回転情報を含む。
空間回転情報識別子が前記目標空間情報が前記目標空間オブジェクトの空間回転情報を含むことを示すとき、そのことは、前記目標空間オブジェクトが回転することを示す。空間回転情報識別子が前記目標空間情報が前記目標空間オブジェクトの空間回転情報を含まないことを示すとき、そのことは、前記目標空間オブジェクトが回転しないことを示す。
第二の側面は、ストリーミング・メディア情報処理方法を提供し、該方法は:
目標ビデオ・データ内の二つの画像のデータに関連付けられている二つの空間オブジェクトのそれぞれの空間情報を取得する段階と;
前記二つの空間オブジェクトのそれぞれの空間情報に基づいて目標空間オブジェクトの目標空間情報を決定する段階とを含み、前記目標空間オブジェクトは二つの空間オブジェクトの一方であり、前記目標空間情報は同属性空間情報を含み、該同属性空間情報は前記二つの空間オブジェクトのそれぞれの空間情報の間の同じ情報を含み、前記二つの空間オブジェクトにおける前記目標空間オブジェクト以外の空間オブジェクトの空間情報は、前記同属性空間情報を含み、
当該方法はさらに、前記目標空間情報をクライアントに送ることを含んでいてもよい。
第二の側面によれば、第二の側面の第一の可能な実装において、目標空間情報はさらに、前記目標空間オブジェクトの異属性空間情報を含んでいてもよく、他方の空間オブジェクトの空間情報はさらに、該他方の空間オブジェクトの異属性空間情報を含んでいてもよく、前記目標空間オブジェクトの異属性空間情報は前記他方の空間オブジェクトの異属性空間情報とは異なる。
第二の側面または第二の側面の第一の実装によれば、第二の側面の第二の可能な実装において、前記目標空間情報は前記目標空間オブジェクトの中心点の位置情報または前記目標空間オブジェクトの左上点の位置情報を含んでいてもよく、前記目標空間情報はさらに、前記目標空間オブジェクトの幅および前記目標空間オブジェクトの高さを含んでいてもよい。
対応して、前記二つの空間オブジェクトのそれぞれの空間情報は、前記二つの空間オブジェクトのそれぞれの中心点の位置情報または前記二つの空間オブジェクトのそれぞれの左上点の位置情報を含んでいてもよく、前記二つの空間オブジェクトのそれぞれの空間情報はさらに、前記二つの空間オブジェクトのそれぞれの幅および前記二つの空間オブジェクトのそれぞれの高さを含んでいてもよい。
第二の側面または第二の側面の第一の実装によれば、第二の側面の第三の可能な実装において、前記目標空間情報は、前記目標空間オブジェクトの左上点の位置情報および前記目標空間オブジェクトの右下点の位置情報を含んでいてもよい。
対応して、前記二つの空間オブジェクトのそれぞれの空間情報は、前記二つの空間オブジェクトのそれぞれの左上点の位置情報および前記二つの空間オブジェクトのそれぞれの右下点の位置情報を含んでいてもよい。
第二の側面または第二の側面の第一の実装ないし第二の側面の第三の実装のいずれかによれば、第二の側面の第四の可能な実装において、前記目標空間情報は前記目標空間オブジェクトの空間回転情報を含んでいてもよい。
対応して、前記二つの空間オブジェクトのそれぞれの空間情報は、前記二つの空間オブジェクトのそれぞれの空間回転情報を含んでいてもよい。
第二の側面または第二の側面の第一の実装ないし第二の側面の第四の実装のいずれかによれば、第二の側面の第五の可能な実装において、前記目標空間情報は空間情報データまたは空間情報トラック(track)においてカプセル化されてもよい。前記空間情報データは前記目標ビデオ・データのビットストリーム、前記目標ビデオ・データのメタデータまたは前記目標ビデオ・データとは独立なファイルであってもよく、前記空間情報トラックは前記目標ビデオ・データとは独立なトラックであってもよい。
第二の側面の第五の実装によれば、第二の側面の第六の可能な実装において、前記空間情報データまたは前記空間情報トラックはさらに、同属性空間情報のタイプを示すために使われる空間情報タイプ識別子を含み、前記空間情報タイプ識別子は、前記目標空間情報内にあり、同属性空間情報に属する情報を示すために使われる。
第二の側面の第六の実装によれば、第二の側面の第七の可能な実装において、空間情報タイプ識別子が、前記目標空間情報が同属性空間情報に属する情報をもたないことを示すとき、同属性空間情報は、前記目標空間オブジェクトの幅の最小値、前記目標空間オブジェクトの高さの最小値、前記目標空間オブジェクトの幅の最大値および前記目標空間オブジェクトの高さの最大値を含んでいてもよい。
第二の側面の第六の実装または第二の側面の第七の実装によれば、第二の側面の第八の可能な実装において、空間情報タイプ識別子および同属性空間情報は同じボックスにおいてカプセル化されてもよい。
第二の側面の第五の実装ないし第二の側面の第八の実装のいずれかによれば、第二の側面の第九の可能な実装において、前記空間情報データまたは前記空間情報トラックはさらに、前記目標空間情報に対応する座標系を示すために使われる座標系識別子を含んでいてもよく、前記座標系はピクセル座標系または角座標系である。
第二の側面の第九の実装によれば、第二の側面の第十の可能な実装において、座標系識別子および同属性空間情報は同じボックスにおいてカプセル化されてもよい。
第二の側面の第五の実装ないし第二の側面の第十の実装のいずれかによれば、第二の側面の第十一の可能な実装において、前記空間情報データまたは前記空間情報トラックはさらに空間回転情報識別子を含んでいてもよく、空間回転情報識別子は、前記目標空間情報が前記目標空間オブジェクトの空間回転情報を含むかどうかを示すために使われる。
第三の側面は、ストリーミング・メディア情報処理装置を提供し、該装置は:
目標空間オブジェクトの目標空間情報を取得するよう構成された取得モジュールであって、前記目標空間オブジェクトは二つの空間オブジェクトの一方であり、前記二つの空間オブジェクトは目標ビデオ・データに含まれる二つの画像のデータに関連付けられており、前記目標空間情報は同属性空間情報を含み、該同属性空間情報は前記二つの空間オブジェクトのそれぞれの空間情報の間の同じ情報を含み、前記二つの空間オブジェクトにおける前記目標空間オブジェクト以外の空間オブジェクトの空間情報は、前記同属性空間情報を含む、取得モジュールと;
前記取得モジュールによって得られた前記目標空間情報に基づいて、再生される必要のあるビデオ・データを決定するよう構成された決定モジュールとを有し、
前記取得モジュールは、前記目標空間情報をサーバーから受領するよう構成されていてもよい。
第三の側面によれば、第三の側面の第一の可能な実装において、目標空間情報はさらに、前記目標空間オブジェクトの異属性空間情報を含み、他方の空間オブジェクトの空間情報はさらに、該他方の空間オブジェクトの異属性空間情報を含み、前記目標空間オブジェクトの異属性空間情報は前記他方の空間オブジェクトの異属性空間情報とは異なる。
第三の側面または第三の側面の第一の実装によれば、第三の側面の第二の可能な実装において、前記目標空間情報は前記目標空間オブジェクトの中心点の位置情報または前記目標空間オブジェクトの左上点の位置情報を含み、前記目標空間情報はさらに、前記目標空間オブジェクトの幅および前記目標空間オブジェクトの高さを含む。
第三の側面または第三の側面の第一の実装によれば、第三の側面の第三の可能な実装において、前記目標空間情報は、前記目標空間オブジェクトの左上点の位置情報および前記目標空間オブジェクトの右下点の位置情報を含む。
第三の側面または第三の側面の第一の実装ないし第三の側面の第三の実装のいずれかによれば、第三の側面の第四の可能な実装において、前記目標空間情報は前記目標空間オブジェクトの空間回転情報を含む。
第三の側面または第三の側面の第一の実装ないし第三の側面の第四の実装のいずれかによれば、第三の側面の第五の可能な実装において、前記目標空間情報は空間情報データまたは空間情報トラック(track)においてカプセル化される。前記空間情報データは前記目標ビデオ・データのビットストリーム、前記目標ビデオ・データのメタデータまたは前記目標ビデオ・データとは独立なファイルであり、前記空間情報トラックは前記目標ビデオ・データとは独立なトラックである。
第三の側面の第五の実装によれば、第三の側面の第六の可能な実装において、前記空間情報データまたは前記空間情報トラックはさらに、同属性空間情報のタイプを示すために使われる空間情報タイプ識別子を含み、前記空間情報タイプ識別子は、前記目標空間情報内にあり、同属性空間情報に属する情報を示すために使われる。
第三の側面の第六の実装によれば、第三の側面の第七の可能な実装において、空間情報タイプ識別子が、前記目標空間情報が同属性空間情報に属する情報をもたないことを示すとき、同属性空間情報は、前記目標空間オブジェクトの幅の最小値、前記目標空間オブジェクトの高さの最小値、前記目標空間オブジェクトの幅の最大値および前記目標空間オブジェクトの高さの最大値を含む。
第三の側面の第六の実装または第三の側面の第七の実装によれば、第三の側面の第八の可能な実装において、空間情報タイプ識別子および同属性空間情報は同じボックスにおいてカプセル化される。
第三の側面の第五の実装ないし第三の側面の第八の実装のいずれかによれば、第三の側面の第九の可能な実装において、前記空間情報データまたは前記空間情報トラックはさらに、前記目標空間情報に対応する座標系を示すために使われる座標系識別子を含み、前記座標系はピクセル座標系または角座標系である。
第三の側面の第九の実装によれば、第三の側面の第十の可能な実装において、座標系識別子および同属性空間情報は同じボックスにおいてカプセル化される。
第三の側面の第五の実装ないし第三の側面の第十の実装のいずれかによれば、第三の側面の第十一の可能な実装において、前記空間情報データまたは前記空間情報トラックはさらに空間回転情報識別子を含み、空間回転情報識別子は、前記目標空間情報が前記目標空間オブジェクトの空間回転情報を含むかどうかを示すために使われる。
第四の側面は、ストリーミング・メディア情報処理装置を提供し、該装置は:
目標ビデオ・データ内の二つの画像のデータに関連付けられている二つの空間オブジェクトのそれぞれの空間情報を取得するよう構成された取得モジュールと;
前記二つの空間オブジェクトのそれぞれの空間情報に基づいて目標空間オブジェクトの目標空間情報を決定するよう構成された決定モジュールとを含み、前記目標空間オブジェクトは二つの空間オブジェクトの一方であり、前記目標空間情報は同属性空間情報を含み、該同属性空間情報は前記二つの空間オブジェクトのそれぞれの空間情報の間の同じ情報を含み、前記二つの空間オブジェクトにおける前記目標空間オブジェクト以外の空間オブジェクトの空間情報は、前記同属性空間情報を含み、
当該装置はさらに、前記決定モジュールによって決定された前記目標空間情報をクライアントに送るよう構成された送信モジュールを含んでいてもよい。
第四の側面によれば、第四の側面の第一の可能な実装において、目標空間情報はさらに、前記目標空間オブジェクトの異属性空間情報を含んでいてもよく、他方の空間オブジェクトの空間情報はさらに、該他方の空間オブジェクトの異属性空間情報を含んでいてもよく、前記目標空間オブジェクトの異属性空間情報は前記他方の空間オブジェクトの異属性空間情報とは異なる。
第四の側面または第四の側面の第一の実装によれば、第四の側面の第二の可能な実装において、前記目標空間情報は前記目標空間オブジェクトの中心点の位置情報または前記目標空間オブジェクトの左上点の位置情報を含んでいてもよく、前記目標空間情報はさらに、前記目標空間オブジェクトの幅および前記目標空間オブジェクトの高さを含んでいてもよい。
対応して、前記二つの空間オブジェクトのそれぞれの空間情報は、前記二つの空間オブジェクトのそれぞれの中心点の位置情報または前記二つの空間オブジェクトのそれぞれの左上点の位置情報を含んでいてもよく、前記二つの空間オブジェクトのそれぞれの空間情報はさらに、前記二つの空間オブジェクトのそれぞれの幅および前記二つの空間オブジェクトのそれぞれの高さを含んでいてもよい。
第四の側面または第四の側面の第一の実装によれば、第四の側面の第三の可能な実装において、前記目標空間情報は、前記目標空間オブジェクトの左上点の位置情報および前記目標空間オブジェクトの右下点の位置情報を含んでいてもよい。
対応して、前記二つの空間オブジェクトのそれぞれの空間情報は、前記二つの空間オブジェクトのそれぞれの左上点の位置情報および前記二つの空間オブジェクトのそれぞれの右下点の位置情報を含んでいてもよい。
第四の側面または第四の側面の第一の実装ないし第四の側面の第三の実装のいずれかによれば、第四の側面の第四の可能な実装において、前記目標空間情報は前記目標空間オブジェクトの空間回転情報を含んでいてもよい。
対応して、前記二つの空間オブジェクトのそれぞれの空間情報は、前記二つの空間オブジェクトのそれぞれの空間回転情報を含んでいてもよい。
第四の側面または第四の側面の第一の実装ないし第四の側面の第四の実装のいずれかによれば、第四の側面の第五の可能な実装において、前記目標空間情報は空間情報データまたは空間情報トラック(track)においてカプセル化されてもよい。前記空間情報データは前記目標ビデオ・データのビットストリーム、前記目標ビデオ・データのメタデータまたは前記目標ビデオ・データとは独立なファイルであってもよく、前記空間情報トラックは前記目標ビデオ・データとは独立なトラックであってもよい。
第四の側面の第五の実装によれば、第四の側面の第六の可能な実装において、前記空間情報データまたは前記空間情報トラックはさらに、同属性空間情報のタイプを示すために使われる空間情報タイプ識別子を含み、前記空間情報タイプ識別子は、前記目標空間情報内にあり、同属性空間情報に属する情報を示すために使われる。
第四の側面の第六の実装によれば、第四の側面の第七の可能な実装において、空間情報タイプ識別子が、前記目標空間情報が同属性空間情報に属する情報をもたないことを示すとき、同属性空間情報は、前記目標空間オブジェクトの幅の最小値、前記目標空間オブジェクトの高さの最小値、前記目標空間オブジェクトの幅の最大値および前記目標空間オブジェクトの高さの最大値を含んでいてもよい。
第四の側面の第六の実装または第四の側面の第七の実装によれば、第四の側面の第八の可能な実装において、空間情報タイプ識別子および同属性空間情報は同じボックスにおいてカプセル化されてもよい。
第四の側面の第五の実装ないし第四の側面の第八の実装のいずれかによれば、第四の側面の第九の可能な実装において、前記空間情報データまたは前記空間情報トラックはさらに、前記目標空間情報に対応する座標系を示すために使われる座標系識別子を含んでいてもよく、前記座標系はピクセル座標系または角座標系である。
第四の側面の第九の実装によれば、第四の側面の第十の可能な実装において、座標系識別子および同属性空間情報は同じボックスにおいてカプセル化される。
第四の側面の第五の実装ないし第四の側面の第十の実装のいずれかによれば、第四の側面の第十一の可能な実装において、前記空間情報データまたは前記空間情報トラックはさらに空間回転情報識別子を含んでいてもよく、空間回転情報識別子は、前記目標空間情報が前記目標空間オブジェクトの空間回転情報を含むかどうかを示すために使われる。
第五の側面は、ストリーミング・メディア情報処理装置を提供し、該装置はプロセッサおよびメモリを含む。メモリはコードを記憶するよう構成され、プロセッサはメモリに記憶されたコードを読んで、第一の側面において提供される方法を実行する。
第六の側面はコンピュータ記憶媒体を提供し、該コンピュータ記憶媒体は、第五の側面におけるプロセッサによって実行されて第一の側面において提供される方法を実行するコンピュータ・ソフトウェア命令を記憶するよう構成される。
第七の側面は、ストリーミング・メディア情報処理装置を提供し、該装置はプロセッサおよびメモリを含む。メモリはコードを記憶するよう構成され、プロセッサはメモリに記憶されたコードを読んで、第二の側面において提供される方法を実行する。
第八の側面はコンピュータ記憶媒体を提供し、該コンピュータ記憶媒体は、第七の側面におけるプロセッサによって実行されて第二の側面において提供される方法を実行するコンピュータ・ソフトウェア命令を記憶するよう構成される。
本発明の実施形態のある可能な実装において、メディア・データとメタデータとの間の参照の参照タイプ(reference type)の記述様式が開示される。既存のドラフト規格において規定されている参照タイプに基づいて、異なる方法のために異なる参照タイプがメタデータを使って定義され、参照タイプに基づいてクライアントが対応する処理を実行するのを助ける。
本発明の実施形態のある可能な実装において、メディア・データとメタデータとの間の参照の参照タイプはメディア・データ・トラック(track)またはメタデータ・トラックに格納される。ある可能な実装では、メディア・データとメタデータとの間の参照の参照タイプはボックス(box)の形で伝送される。トラックおよびボックスの関係した定義については、既存のMPEG-DASH規格およびISO/IEC 14496-12における関係した規定を参照されたい。詳細をここで再び述べることはしない。一例では、参照タイプについての情報は'tref'ボックスに格納されてもよい。
本発明の実施形態のある可能な実装では、メディア・データはビデオ・データであり、メディア・データとメタデータとの間の参照の参照タイプはビデオ・トラックに格納される。たとえば、trefボックスはビデオ・トラックを記述するメタデータに格納される。
一例では、trefボックスを含むトラックは参照されるビデオ・トラック(the referenced video track)であり、メディア・データとメタデータとの間の参照の、trefボックス内にある参照タイプを使うことによってメタデータ・トラックと関連付けられる。参照されるメタデータ・トラックは、トラックIDを使って決定されてもよい。
本発明の実施形態のある可能な実装では、参照タイプは次の情報のうちの一つまたは複数を記述するために使われてもよい:
メディア・データにおける関心領域(region of interest、ROI)、メディア・データによってカバーされる空間領域、メディア・データ中のROIに関連付けられた品質情報およびメディア・データによってカバーされる空間領域に関連付けられた品質情報。
本発明の実施形態の一例では、参照タイプは次の情報のうちの一つまたは複数を記述するために使われてもよい:
メディア・データに対応する空間オブジェクトにおけるROIの、球上である、2D平面上である、またはマッピングされた画像内である空間位置情報;または
メディア・データによってカバーされる領域の、球上である、2D平面上である、またはマッピングされた画像内である空間位置情報;または
前記ROIまたは前記カバーされる領域の空間的品質情報。
上記のROI情報はROIの時間付きメタデータ・トラックに含まれ、品質情報は品質の時間付きメタデータ・トラックに含まれる。
本発明の実施形態の一例では、メディア・データ・トラックの'tref'ボックスは、メディア・データとメタデータとの間の参照を表わす参照タイプを含む。参照タイプは次の情報のうちの一つまたは複数を記述するために使われてもよい:
メディア・データに対応する空間オブジェクトにおける関心領域(region of interest、ROI)の2D空間位置情報、メディア・データに対応する空間オブジェクトにおけるROIの、球上である空間位置情報、メディア・データに対応する空間オブジェクトにおけるROIの、マッピングされた画像内である空間位置情報、メディア・データに対応する空間オブジェクトの2D空間位置情報、メディア・データに対応する空間オブジェクトの、球上である空間位置情報、メディア・データに対応する空間オブジェクトの、マッピングされた画像内である空間位置情報、メディア・データに対応する空間オブジェクトにおけるROIの2D空間位置の品質情報、メディア・データに対応する空間オブジェクトにおけるROIの、球上である空間位置の品質情報、メディア・データに対応する空間オブジェクトにおけるROIの、マッピングされた画像内である空間位置の品質情報、メディア・データに対応する空間オブジェクトの2D空間位置の品質情報、メディア・データに対応する空間オブジェクトの、球上である空間位置の品質情報、またはメディア・データに対応する空間オブジェクトの、マッピングされた画像内である空間位置の品質情報。
本発明の実施形態の一例では、参照タイプの値はroisであり、参照されるトラックが球上のROIの領域情報を含む(this track contains the region information of the ROI on the sphere)ことを示す。ROIの領域情報は参照されるビデオ・トラックにおけるサンプルに対応する画像を記述する空間領域である。クライアントは、ROIの時間付きメタデータ・トラックにおけるサンプルをパースすることによって、ROIの領域情報を得て、該ROI情報を使って、参照されるビデオ・トラックにおける前記サンプルに対応する画像のROIを呈示してもよい(The client can use the sample in this track to render the ROI on the sphere)。
本発明の実施形態の一例では、参照タイプの値はroiqであり、参照されるトラックが、参照されるビデオ・トラックにおけるサンプルに対応する画像の、球上のROIの品質情報を含む(this track contains the quality information of the ROI on the sphere for the referenced video track)ことを示す。クライアントは、品質の時間付きメタデータ・トラックにおけるサンプルをパースすることによって、参照されるビデオ・データのROIの品質を得てもよい(the client can use the sample in this track to know the quality of the ROI object on the sphere)。
本発明の実施形態の一例では、参照タイプの値はconqであり、参照されるトラックが、ビデオ・トラックにおけるサンプルに対応する画像の、球上のカバレッジ情報を含む(this track provides information on the area on the spherical surface for the referenced video track)ことを示す。参照されるメタデータ・トラックは、推奨されるビューポート時間付きメタデータ・トラックであってもよく(this track may be a recommended viewport timed metadata track)、参照されるビデオ・トラックはディレクターの視野内のビデオ・トラックであってもよい(the referenced video track may be a director's cut video track)。
本発明の実施形態の一例では、参照タイプ(reference_type)の値および記述される情報の間の対応は、次の示される。
Figure 2020503792
本発明の実施形態において、サーバー側では、メディア・データが'tref'ボックスのシンタックスをカプセル化するとき、メディア・データと、該メディア・データとの参照をもつメタデータとの間の参照の参照タイプがカプセル化される。クライアントが、メディア・データとメタデータとの間の参照の参照タイプにおいて記述される情報を使ってメディア・トラックのデータをパースした後、クライアントは、ビデオ・データに対してどんな処理が実行されることができるかを知りうる。この方法では、諸トラックのパースは互いから分離されることができ、クライアントの実装手順における複雑さが軽減される。クライアントは、種々の処理要件に従って対応するトラック・データを要求しうる。
本発明の実施形態におけるROIは、視野であってもよく、あるいは推奨される視野(推奨されるビューポート)、たとえば作者の視野であってもよい。
本発明のある実施形態では、視野または推奨される視野はカバレッジ・エリアであってもよく、カバレッジ・エリアはメディア・データに対応する空間オブジェクトの空間領域である。
本発明の実施形態のある実装では、メディア・データのトラックは、メディア・データと、該メディア・データと参照関係をもつメタデータとの間の参照の参照タイプを含む。参照タイプは、メディア・データに対応する空間オブジェクトにおけるROIの2D空間位置、メディア・データに対応する空間オブジェクトにおけるROIの、球上での空間位置、またはメディア・データに対応する空間オブジェクトにおけるROIの、マッピングされた画像内での空間位置を記述しうる。
ある具体例では、メディア・データ・トラックは'tref'ボックスを含む。
'tref'ボックスにおけるreference_typeの値はri2dであり、この値は、メディア・データがROIの時間付きメタデータ・トラックと関連付けられていることを示す。ROIにおけるトラックにおけるサンプル(sample)は、メディア・データに対応する空間オブジェクトにおけるROIの2D空間位置情報であり、該2D空間位置情報は既存のISO/IEC 23001-10規格において定義される位置であってもよい。
あるいはまた、reference_typeの値はroisであり、ROIにおけるトラックにおけるサンプル(sample)は、メディア・データに対応する空間オブジェクトにおけるROIの、球上での空間位置情報である。該球上での空間位置情報は、球上の時間付きメタデータ・トラックにある、既存のISO/IEC 23000-20規格において定義されているサンプルであってもよい。
あるいはまた、reference_typeの値はri2pであり、この値は、メディア・データがROIの時間付きメタデータ・トラックと関連付けられていることを示す。ROIにおけるトラックにおけるサンプル(sample)は、メディア・データに対応する空間オブジェクトにおけるROIの、マッピングされた画像内での空間位置情報である。
ある対応する例において、クライアントの次のような処理様式があってもよい。
1.クライアントは、メディア・データのトラックをパースして、トラック内の'tref'ボックスを得る。ここで、メディア・データ・トラックのトラックID(これは任意の0でない整数でありうる)は1である。クライアントは該'tref'ボックスから、reference_type値が'ri2d'、'rois'または'ri2p'である参照されるトラックを取得し、ここで、参照されるトラックのトラックID(これは任意の0でない整数でありうる)は2である。
2.クライアントは、'ri2d'に基づいて、トラックIDが2であるトラックが、メディア・データに対応する空間オブジェクトにおけるROIの2D空間位置情報を記述していることを判別する;または、
'rois'に基づいて、トラックIDが2であるトラックが、メディア・データに対応する空間オブジェクトにおけるROIの、球上での空間位置情報を記述していることを判別する;または、
'ri2p'に基づいて、トラックIDが2であるトラックが、メディア・データに対応する空間オブジェクトにおけるROIの、マッピングされた画像内での空間位置情報を記述していることを判別する。
3.クライアントは、ユーザー・インターフェース上でROIオプションを提供してもよく、ユーザーがROI内のコンテンツを見るかどうかを選ぶ。ユーザーがROI内のコンテンツを見ることを選ぶ場合、クランアントはROI内のコンテンツを呈示する。あるいはクライアントはROI内のコンテンツを直接呈示する。
4.クライアントがROI内のコンテンツを呈示する必要がある前に、クライアントはトラックID=2である時間付きメタデータ・トラックをパースして、トラックからROIの空間位置情報を得て、該空間位置情報に基づいて、ビデオ・コンテンツからのROI内のコンテンツをインターセプトし、ROI内のコンテンツを呈示する。トラックによって参照されるメタデータのタイプは、トラック内のtrefメタデータにおいて明確に記述されており、クライアントによって実行される諸トラックのパースは互いから分離され、クライアントの実装手順における複雑さが軽減される。
本発明の実施形態のある可能な実装では、図17に示されるように、カバレッジ情報が、源ビデオ・コンテンツ全体において現在のトラックのメディア・コンテンツが捕捉される領域を記述する。領域は、VR球における領域であってもよく、2D画像における領域であってもよく、あるいは球が2D画像にマッピングされた後に捕捉された領域であってもよい。図17に記載されるように、図17(a)の右の小さな図式における空間位置情報は、左の大きな図式における該小さな図式のカバレッジ情報である。球状図式(図17(a))では、灰色の領域について球上で捕捉された領域が、該灰色の領域のカバレッジ・エリアである。カバレッジ・エリアにおけるメディア・トラックにおける参照タイプの記述が'tref'ボックスに追加される。記述情報は、メタデータが、メディア・データに対応する空間オブジェクトの2D空間位置情報、またはメディア・データに対応する空間オブジェクトの、球上での空間位置情報、またはメディア・データに対応する空間オブジェクトの、マッピングされた画像における空間位置情報であることを示す。
本発明の実施形態のある可能な実装では、カバレッジ情報はボックスを使って記述される。具体例が下記に示される:
カバレッジ情報ボックス
ボックス・タイプ:'covi'
コンテナ:Projected omnidirectional video box[投影された全方向ビデオ・ボックス] ('povd')
必須:No
数:ゼロまたは一
一例では、このボックスは、コンテナProjctedOmnidirectionalVideoBoxに関連付けられた投影されたフレームによって表わされる球上の領域内の情報を提供する。(This box provides information on the area on the spherical surface that is represented by the projected frame associated with the container ProjctedOmnidirectionalVideoBox)。データがカバレッジ情報を表わすボックスをもたない場合、そのことは、投影されたフレームが全球に対応する表現であることを示す(The absence of this box indicates that the projected frame is a representation of the full sphere)。
投影フォーマットが等角投影であるとき、投影されたフレームによって表わされる球状領域は、図10に示されるように、二つのヨー円および二つのピッチ円によって指定される領域である(When the projection format is the equirectangular projection, the spherical region represented by the projected frame is the region specified by two yaw circles and two pitch circles, as illustrated fig 10)。
本発明の実施形態の一例では、カバレッジ情報は次の仕方で記述される:
aligned(8) class CoverageInformationBox extends FullBox('covi', version = 0, flags) {
unsigned int(1) dynamic_range_flag;
if (dynamic_range_flag == 0) {
unsigned int(8) shape_type;
bit(7) reserved = 0;
unsigned int(16) static_hor_range;
unsigned int(16) static_ver_range;
}
}
}
要素hor_rangeおよび要素ver_rangeは、ビデオ・トラックにおけるサンプル(sample)に対応する、球上での、水平方向および垂直方向の範囲を表わし、0.01度単位であってもよい。
一例では、hor_rangeおよびver_rangeは領域の中心点の範囲を指定する。hor_rangeの範囲は1から36000であるべきであり、ver_rangeの範囲は1から36000であるべきである。center_pitch+ver_range÷2は18000より大きくなく、center_pitch−ver_range÷2は−18000より小さくない(hor_range and ver_range specify the range through the central point of the region. hor_range shall be in the range of 1 to 36000, inclusive. ver_range shall be in the range of 1 to 36000, inclusive. center_pitch+ver_range÷2 shall not be greater than 18000. center_pitch-ver_range÷2 shall not be less than −18000)。
本発明の実施形態の一例では、dynamic_range_flagの値が0に等しいとき、そのことはサンプル・エントリーにおけるすべてのサンプルに対応する水平方向および垂直方向の範囲が不変のままであることを示す(dynamic_range_flag equal to 0 specifies that the horizontal and vertical ranges of the region remain unchanged in all samples referring to this sample entry)。この場合、これらのサンプルに対応し、球上にある水平方向および垂直方向の範囲は、当該サンプル・エントリーのデータにおいて記述されてもよい。
本発明の実施形態の一例では、dynamic_range_flagの値が1に等しいとき、そのことはサンプルに対応する水平方向および垂直方向の範囲がサンプル・フォーマットにおいて記述されていることを示す(dynamic_range_flag equal to 1 specifies that the horizontal and vertical ranges of the region are indicated in the sample format)。
本発明の実施形態の一例では、ビデオ・トラック内のサンプルに対応する画像の、球上にあるカバレッジ・エリアを記述するためにカバレッジ情報トラックが使われる。
一例では、球上のビデオ・コンテンツのカバレッジ・エリアを示すためにカバレッジ時間付きメタデータ・トラック(coverage timed metadata track)が使われる。
一例では、coverage timed metadata trackにおけるサンプルのエントリー・タイプは'covg'である。
一例では、coverage timed metadata trackにおけるサンプル・シンタックスを記述するために要素RegionOnSphereSampleが使われてもよい。要素RegionOnSphereSampleの具体例については、既存の規格における関係する規定を参照されたい。たとえばISO/IEC 23000-20における関係した例を参照されたい。
一例では、サンプル・エントリーにおけるRegionOnSphereConfigBoxの値は0である。
一例では、対応する水平方向ビューポイントのカバレッジ・エリアおよび対応する垂直方向ビューポイントのカバレッジ・エリアを指示するために、それぞれ要素static_hor_rangeおよび要素static_ver_rangeまたは要素hor_rangeおよび要素ver_rangeが使われる。該カバレッジ・エリアの中心点を示すために、要素center_yawおよび要素center_pitchが使われる。
一例では、'tref'ボックスにおけるreference_typeの値はcv2dであり、内容的な意味は、カバレッジ・エリアのtimed metadata trackにメディア・データが関連付けられていることを示す。カバレッジ・エリア内のトラックにおけるサンプル(sample)はメディア・データに対応する空間オブジェクトの2D空間位置情報であり、該2D位置情報は既存のISO/IEC 23001-10規格において定義されている位置情報であってもよい。
あるいはまた、reference_typeの値はcvspであり、内容的な意味は、カバレッジ・エリアのtimed metadata trackにメディア・データが関連付けられていることを示す。カバレッジ・エリア内のトラックにおけるサンプル(sample)はメディア・データに対応する空間オブジェクトの、球上での空間位置情報であり、該球上での情報は、球上でのtimed metadata trackにおける、既存のISO/IEC 23001-20規格において定義されているサンプル(sample)であってもよい。
あるいはまた、reference_typeの値はcv2pであり、内容的な意味は、カバレッジ・エリアのtimed metadata trackにメディア・データが関連付けられていることを示す。カバレッジ・エリア内のトラックにおけるサンプル(sample)はメディア・データに対応する空間オブジェクトの、マッピングされた画像における空間位置情報である。
対応する例において、クライアントの以下の処理様式がありうる。
1.クライアントは、メディア・データのトラックをパースして、メディア・トラックにおける'tref'ボックスを取得する段階であって、メディア・データ・トラックのトラックID(これは任意の0でない整数でありうる)は1である、段階と;'tref'ボックスから、reference_type値が'cv2d'、 'cvsp'または'cv2p'である参照されるトラックを取得する段階であって、トラックのトラックID(これは任意の0でない整数でありうる)は2である、段階とを実行する。
2.クライアントは、'cv2d'に基づいて、トラックIDが2であるトラックはメディア・データに対応する空間オブジェクトの2D空間位置情報を記述することを判別する;または'cvsp'に基づいて、トラックIDが2であるトラックはメディア・データに対応する空間オブジェクトの、球上での空間位置情報を記述することを判別する;または'cv2p'に基づいて、トラックIDが2であるトラックはメディア・データに対応する空間オブジェクトの、マッピングされた画像における空間位置情報を記述することを判別する。
3.クライアントは、カバレッジ情報およびデバイスの呈示機能に基づいて、すべてのメディア・コンテンツが呈示されるか、あるいはメディア・コンテンツの一部が呈示のために捕捉されるかを決定してもよく、あるいはユーザーの視野が変化するとき、ユーザーが視野外のデータを取得するかどうかを決定してもよい。
一例では、トラックIDが2であるトラックは、カバレッジ・エリアにおける空間情報記述トラックであり、トラックのサンプル・エントリー・タイプは、現在のtimed metadata trackがカバレッジ・エリアにおける空間情報記述トラックであることを示し、サンプル・エントリー・タイプの値は"cvvp"(coverage viewport)であってもよい。
一例では、メディア・カバレッジ情報は、独立したトラックを使って記述されてもよく、たとえば、サンプル・エントリー・タイプ値が'cvvp'であるtimed metadata trackを使って記述されてもよい。しかしながら、メディア・カバレッジ情報が静的である(ビデオにおけるすべてのフレームが同じカバレッジ情報をもつ)場合、カバレッジ・エリアに関連付けられたメタデータ・トラックは必要ない。この場合、メディア・カバレッジ情報はメディア・トラック(トラックID=1)のメタデータにおいて記述されてもよい。具体的な記述情報はISO/IEC 23000-20における'covi'(カバレッジ情報ボックス)にあり、該ボックスは球または2D平面上のカバレッジ・エリアの形を記述する。
本発明の実施形態のある可能な実装では、参照タイプの値は、品質情報である、メディア・トラックとメディア・データ・トラックとの間の参照関係の記述様式を記述する。
一例では、具体的な対応は次の表に示される。
Figure 2020503792
対応する例において、クライアントは、メディア・データのトラックをパースしてreference_type値を取得し、ここで、トラックID=1であり、'tref'ボックスにおけるreference_type値は'r2dq'、'risq'、'ri2p'、'c2dq'、'cspq'または'c2pq'であり、すると、クライアントは、ROIの空間領域の品質情報のメタデータ・トラックが存在するまたはメディア・コンテンツ・カバレッジ・エリアにおけるビデオのメタデータ・トラック記述品質が存在することを知ることができる。クライアントが現在のビデオの品質情報を取得する必要がある場合、クランアントは品質情報に対応するトラックをパースすることができる。
トラックによって参照されるメタデータのタイプは、トラック内のメタデータにおいて明確に記述される。よって、クライアントによって実行される諸トラックのパースは互いから分離され、クライアントの実装手順における複雑さが軽減される。
本発明の実施形態における技術的解決策をより明確に記述するために、下記は実施形態を記述するために要求される付属の図面を手短かに記述する。明らかに、下記の記述における付属の図面は単に本発明のいくつかの実施形態であり、当業者は創造的な努力なしにこれらの付属の図面から他の図面を導出しうる。
システム層ビデオ・ストリーミング・メディア伝送のために使われるDASH規格のMPDの概略的な構造図である。
システム層ビデオ・ストリーミング・メディア伝送のために使われるDASH規格伝送のフレームワーク事例の概略図である。
本発明のある実施形態に基づく、ビットストリーム・セグメント切り換えの概略図である。
ビットストリーム・データにおけるセグメントの記憶様式の概略図である。
ビットストリーム・データにおけるセグメントの記憶様式のもう一つの概略図である。
視野変化に対応する視野の概略図である。
空間オブジェクトの間の空間的関係のもう一つの概略図である。
本発明のある実施形態に基づくストリーミング・メディア情報処理方法の概略的なフローチャートである。
パノラマ空間における目標空間オブジェクトの相対位置の概略図である。
本発明のある実施形態に基づく座標系の概略図である。
本発明のある実施形態に基づくもう一つの座標系の概略図である。
本発明のある実施形態に基づくもう一つの座標系の概略図である。
本発明のある実施形態に基づくストリーミング・メディア情報処理方法の概略的なフローチャートである。
本発明のある実施形態に基づくストリーミング・メディア情報処理装置の論理的な構造の概略図である。
本発明のある実施形態に基づくストリーミング・メディア情報処理装置の論理的な構造の概略図である。
本発明のある実施形態に基づくコンピュータ装置のハードウェア構造の概略図である。
本発明のある実施形態に基づくカバレッジ・エリアの概略図である。
下記は、本発明の実施形態における付属の図面を参照して、本発明の実施形態における技術的解決策を明瞭かつ完全に記述する。
現在、クライアント指向のシステム層ビデオ・ストリーミング・メディア伝送解決策において、DASH規格フレームワークが使われることがある。図2は、システム層ビデオ・ストリーミング・メディア伝送のために使われるDASH規格伝送のフレームワーク事例の概略図である。システム層ビデオ・ストリーミング・メディア伝送解決策のデータ伝送プロセスは二つのプロセスを含む:サーバー端(たとえば、HTTPサーバーまたはメディア・コンテンツ準備サーバーで、これは略して下記ではサーバーと称される)がビデオ・コンテンツのためのメディア・データを生成し、クライアントの要求に応答するプロセスと、クライアント(たとえばHTTPストリーミング・メディア・クライアント)がサーバーからのメディア・データを要求し、取得するプロセスである。メディア・データはメディア呈示記述(英文:Media Presentation Description、MPD)およびメディア・ビットストリーム(たとえば再生される必要のあるビデオ・ビットストリーム)を含む。サーバー上のMPDは複数の表現(表現とも称される、英文representation)を含み、各表現は複数のセグメントを記述する。クライアントのHTTPストリーミング・メディア要求制御モジュールがサーバーによって送られたMPDを取得し、該MPDを解析して、ビデオ・ビットストリームの各セグメントについての、MPDにおいて記述されている情報を判別し、さらに、要求される必要のあるセグメントを判別し;対応するセグメントHTTP要求をサーバーに送り;メディア・プレーヤーを使うことによって該セグメントをデコードし、再生する。
(1)サーバーがビデオ・コンテンツのためのメディア・データを生成するプロセスにおいて、ビデオ・コンテンツのためにサーバーによって生成されるメディア・データは、同じビデオ・コンテンツに対応するビデオ・ビットストリームの異なるバージョンおよびそれらのビットストリームのMPDを含む。たとえば、サーバーは、TVシリーズの同じエピソードについて、低解像度、低ビットレートおよび低フレームレートのビットストリーム(たとえば360pの解像度、300kbpsのビットレートおよび15fpsのフレームレート)、中程度の解像度、中程度のビットレートおよび高いフレームレートのビットストリーム(たとえば720pの解像度、1200kbpsのビットレートおよび25fpsのフレームレート)、高解像度、高ビットレートおよび高フレームレートのビットストリーム(たとえば1080pの解像度、3000kbpsのビットレートおよび25fpsのフレームレート)などを生成する。
加えて、サーバーはさらに、TVシリーズのエピソードのビデオ・コンテンツについてMPDを生成してもよい。図1は、システム伝送解決策におけるDASH規格のMPDの概略的な構造図である。ビットストリームのMPDは複数の期間(Period)を含む。たとえば、図1におけるMPDにおける期間開始が100sに等しい部分は、複数の適応セット(英文:adaptation set)を含んでいてもよく、各適応セットは表現1、表現2、…といった複数の表現を含んでいてもよい。各表現はビットストリームの一つまたは複数のセグメントを記述する。
本発明のある実施形態では、各表現は時間シーケンスにおけるいくつかのセグメント(英文:Segment)、たとえば初期化セグメント(英文:Initialization segment)、メディア・セグメント(Media Segment)1,メディア・セグメント2、…およびメディア・セグメント20、についての情報を記述する。表現は、再生開始時点、再生継続時間およびネットワーク記憶アドレス(たとえば一様資源位置指定子(英文:Universal Resource Locator、URL)の形で表わされるネットワーク記憶アドレス)のようなセグメント情報を含んでいてもよい。
(2)クライアントがサーバーからのメディア・データを要求し、取得するプロセスでは、ユーザーがあるビデオを再生することを選ぶとき、クライアントは、オンデマンドでユーザーによって再生されるビデオ・コンテンツに基づいて対応するMPDをサーバーから取得する。クライアントは、MPDに記述されているビットストリーム・セグメントのネットワーク記憶アドレスに基づいて、該ネットワーク記憶アドレスに対応するビットストリーム・セグメントをダウンロードする要求をサーバーに送り、サーバーは、受信された要求に基づいて、該ビットストリーム・セグメントをクライアントに送る。サーバーによって送られたビットストリーム・セグメントを取得した後、クライアントは、ビットストリーム・セグメントをデコードし、再生するといった、メディア・プレーヤーを使うことによる動作を実行してもよい。
図3は、本発明のある実施形態に基づくビットストリーム・セグメント切り換えの概略図である。サーバーは、同じビデオ・コンテンツ(たとえば映画)についての異なるバージョンのビットストリーム・データを三片、用意してもよく、異なるバージョンのビットストリーム・データの三片を記述するためにMPD内の三つの表現を使ってもよい。これら三つの表現(表現は下記では略してrepと称される)はrep1、rep2、rep3などであってもよいことが想定される。rep1はビットレート4mbps(メガビット毎秒)のビットレートの高精細度ビデオであり、rep2はビットレート2mbpsの標準精細度ビデオであり、rep3はビットレート1mbpsの通常ビデオである。各repにおけるセグメントはある時間期間のビデオ・ビットストリームを含み、異なるrepに含まれるセグメントは同じ時間期間において互いと整列される。具体的には、各repは、時間シーケンスにおける諸時間期間内の諸セグメントを記述し、同じ時間期間内の諸セグメントは同じ長さをもち、よって、異なるrepのセグメントのコンテンツ間で切り換えが実行できる。図に示されるように、図において影でマークされているセグメントはクライアントによって再生するよう要求されたセグメント・データであり、クライアントによって要求された最初の三つのセグメントはrep3のセグメントである。第四のセグメントを要求するとき、クライアントはrep2の第四のセグメントを要求してもよく、その後、rep3の第三のセグメントが再生された後、再生のためにrep2の第四のセグメントに切り換えてもよい。rep3の第三のセグメントの再生終了点(これは時間的な再生終了の瞬間に対応してもよい)は、第四のセグメントの再生開始点(これは時間的な再生開始の瞬間に対応してもよい)であり、rep2またはrep1の第四のセグメントの再生開始点でもある。よって、異なるrepにおけるセグメントは互いに整列されている。rep2の第四のセグメントを要求した後、クライアントはrep1の第五のセグメント、第六のセグメントなどを要求するためにrep1に切り換える。その後、クライアントはrep3の第七のセグメントを要求するためにrep3に切り換え、次いでrep1の第八のセグメントを要求するためにrep1に切り換えてもよい。各repにおけるセグメントは、最初から最後までつながった仕方で一つのファイルに格納されていてもよく、あるいは小さなファイルとして独立して記憶されていてもよい。セグメントは、ISO/IEC 14496-12規格におけるフォーマット(ISO BMFF(Base Media File Format))に基づいてカプセル化されてもよく、あるいはISO/IEC 13818-1におけるフォーマット(MPEG-2 TS)に基づいてカプセル化されてもよい。これは実際の適用シナリオ要件に基づいて個別に決定されてもよく、本願では限定されない。
先述したように、DASHメディア・ファイル・フォーマットでは、セグメントは二つの様式で記憶されうる:一方は、各セグメントは別個に独立して記憶されるというものである。図4は、ビットストリーム・データにおけるセグメントの記憶様式の概略図である。他方は、同じrepのすべてのセグメントが一つのファイルに格納されるというものである。図5は、ビットストリーム・データにおけるセグメントの記憶様式のもう一つの概略図である。図4に示されるように、rep Aにおける各セグメントが一つのファイルとして別個に記憶され、rep Bにおける各セグメントも一つのファイルとして別個に記憶される。対応して、図4に示される記憶様式では、サーバーは、ビットストリームのMPDにおける各セグメントのURLなどの情報を記述するためにテンプレートの形またはリストの形を使ってもよい。図5に示されるように、rep1におけるすべてのセグメントは一つのファイルとして記憶され、rep2におけるすべてのセグメントは一つのファイルとして記憶される。対応して、図5に示される記憶方法では、サーバーは、各セグメントの関係した情報を記述するためにビットストリームのMPDにおけるインデックス・セグメント(英文:index segment、すなわち図5におけるsidx)を使ってもよい。インデックス・セグメントは、そのセグメントを格納しているファイルにおける各セグメントのバイト・オフセット、各セグメントのサイズおよび各セグメントの継続時間(duration、各セグメントの持続時間とも称される)のような情報を記述する。
現在、360度ビデオのようなVRビデオを見るアプリケーションの人気が増すにつれて、ますます多くのユーザーが大きな視野でのVRビデオ閲覧を経験するチームに加わっている。この新たなビデオ閲覧アプリケーションは新たなビデオ閲覧モードおよび視覚的経験をユーザーのためにもたらし、新たな技術的課題をももたらす。360度のような大きな視野でビデオを見るプロセスにおいては(360度は本発明のこの実施形態における記述のための例として使われている)、VRビデオの空間領域(空間領域は空間オブジェクトと称されてもよい)は360度のパノラマ空間(あるいは全方向空間と称され、あるいはパノラマ空間オブジェクトと称される)であり、これは人間の目の通常の視覚範囲を超える。よって、ビデオを閲覧するプロセスにおいて、ユーザーは任意の時点において視角(すなわち、視野、FOV)を変更する。異なる視野を見るとき、ユーザーは異なるビデオ画像を見る。よって、このビデオにおいて呈示されるコンテンツは、ユーザーの視野の変化とともに変化する必要がある。図6は、視野変化に対応する視野の概略図である。ブロック1およびブロック2はそれぞれユーザーの二つの異なる視野である。ビデオを閲覧するプロセスにおいて、ユーザーは、目の動き、頭の動きまたはビデオ閲覧装置のスクリーン切り換えといった操作を使うことによって、ビデオを閲覧するための視野をブロック1からブロック2に切り換えてもよい。視野がブロック1であるときにユーザーによって閲覧されるビデオ画像は、その視野に対応する一つまたは複数の空間オブジェクトによって現時点で呈示されるビデオ画像である。次の瞬間、ユーザーの視野はブロック2に切り換えられる。この場合、ユーザーによって閲覧されるビデオ画像も、ブロック2に対応する空間オブジェクトによってこの時点で呈示されるビデオ画像に切り換えられるべきである。
いくつかの実現可能な実装では、大きな360度視野でのビデオ画像の出力のために、サーバーは、360度視野範囲のパノラマ空間(あるいはパノラマ空間オブジェクトと称される)を分割して、複数の空間オブジェクトを得てもよい。各空間オブジェクトは、ユーザーの一つのサブ視野に対応し、複数のサブ視野がはぎあわされて、完全な人間の目の観察視野をなす。換言すれば、人間の目の視野(下記では略して視野と称される)は、分割を通じて得られる一つまたは複数の空間オブジェクトに対応していてもよい。視野に対応する空間オブジェクトは、人間の目の視野範囲におけるコンテンツ・オブジェクトに対応するすべての空間オブジェクトである。人間の目の観察視野は動的に変化することがあるが、視野範囲は通例120度×120度でありうる。120度×120度の人間の目の視野範囲におけるコンテンツ・オブジェクトに対応する空間オブジェクトは、分割を通じて得られた一つまたは複数の空間オブジェクト、たとえば図6のブロック1に対応する視野1およびブロック2に対応する視野2を含んでいてもよい。さらに、クライアントは、MPDを使うことによって、各空間オブジェクトのためにサーバーによって用意されたビデオ・ビットストリームの空間情報を得てもよく;次いで、視野要件に従ってサーバーから、ある時間期間において一つまたは複数の空間オブジェクトに対応するビデオ・ビットストリーム・セグメントを要求し、前記視野要件に従って対応する空間オブジェクトを出力してもよい。クライアントは、同じ時間期間において、360度視野範囲におけるすべての空間オブジェクトに対応するビデオ・ビットストリーム・セグメントを出力し、それによりその時間期間において、360度のパノラマ空間全体における完全なビデオ画像を出力および表示する。
具体的実装では、360度空間オブジェクト分割の間、サーバーはまず、球を平面にマッピングし、該平面上で空間オブジェクトを分割してもよい。具体的には、サーバーは、経緯度マッピング方式で、球を経緯度平面図にマッピングしてもよい。図7は、本発明のある実施形態に基づく空間オブジェクトの概略図である。サーバーは、球を経緯度平面図にマッピングしてもよく、経緯度平面図を複数の空間オブジェクト、たとえば空間オブジェクトAないしIに分割してもよい。さらに、サーバーは球を立方体にマッピングしてもよく、次いで、立方体の複数の面を展開して平面図を得てもよく;あるいは球を別の多面体にマッピングして、多面体の複数の面を展開して平面図を得てもよい。サーバーは球をより多くのマッピング様式で平面図にマッピングしてもよい。これは、具体的には、実際の適用シナリオ要件に従って決定されてもよく、本願において限定されない。下記では経緯度マッピング様式を例として使うことによって、図7を参照して記述が提供される。図7に示されるように、球のパノラマ空間を空間オブジェクトAないしIのような複数の空間オブジェクトに分割した後、サーバーは各空間オブジェクトについてDASHビデオ・ビットストリームの群を用意してもよい。各空間オブジェクトがDASHビデオ・ビットストリームの一つの群に対応する。クライアント・ユーザーがビデオを見るための視野を切り換えるとき、クライアントは、ユーザーによって選択された新たな視野に基づいて、新たな空間オブジェクトに対応するビットストリームを得てもよく、新たな視野内の新たな空間オブジェクトのビットストリームのビデオ・コンテンツを呈示してもよい。本発明の実施形態において提供される情報処理方法および装置は下記で図8ないし図10を参照して記述される。
DASH規格は、システム層ビデオ・ストリーミング・メディア伝送解決策において使われる。具体的には、クライアントはMPDを解析し、ビデオ・データをサーバーにオンデマンドで要求し、サーバーによって送られたデータを受信することによって、ビデオ・データ伝送を実装する。
いくつかの実装では、ビデオを制作するとき、ビデオ制作者(略して下記では作者と称される)は、ビデオのストーリー・プロットの要件に従って、ビデオ再生のためのメイン・プロットをデザインしてもよい。ビデオ再生プロセスでは、ユーザーは、メイン・プロット・ラインに対応するビデオ画像のみを見ることによってストーリー・プロットを知ることができ、別のビデオ画像を見ても見なくてもよい。よって、ビデオ再生プロセスにおいて、クライアントはストーリー・プロットに対応するビデオ画像を選択的に再生してもよく、ビデオ・データ伝送資源および記憶スペース資源を節約し、ビデオ・データ処理効率を改善するよう、別のビデオ画像を呈示しなくてもよいことがわかる。メイン・ストーリー・プロットをデザインした後、作者は、メイン・プロット・ラインに基づいて、ビデオ再生中の各再生時点においてユーザーに呈示される必要のあるビデオ画像をデザインしてもよく、すべての再生時点におけるビデオ画像が時間シーケンスにおいて連結されたときにメイン・プロット・ラインのストーリー・プロットが得られてもよい。各再生時点においてユーザーに呈示される必要のあるビデオ画像は、その再生時点に対応する空間オブジェクトにおいて提示されるビデオ画像、すなわち、その時点でその空間オブジェクトによって呈示される必要のあるビデオ画像である。具体的実装では、各再生時点において呈示される必要のあるビデオ画像に対応する視野は、作者の視野に設定されてもよく、作者の視野におけるビデオ画像を呈示する空間オブジェクトが作者の空間オブジェクトに設定されてもよい。作者の空間オブジェクトに対応するビットストリームが作者の視野のビットストリームに設定されてもよい。作者の視野のビットストリームは、複数のビデオ・フレームのビデオ・フレーム・データ(該複数のビデオ・フレームのエンコードされたデータ)を含む。各ビデオ・フレームが呈示されるとき、ビデオ・フレームは画像であってもよく、すなわち、作者の視野のビットストリームは複数の画像に対応していてもよい。ビデオ再生プロセスにおいて、作者の視野における各再生時点において呈示される画像は、ビデオ全体において呈示される必要のあるパノラマ画像(あるいはVR画像または全方向画像と称される)の一部のみである。種々の再生時点において、作者のビデオ・ビットストリームに対応する画像に関連付けられた空間オブジェクトの空間情報は、異なっていてもよく、あるいは同じであってもよい。すなわち、作者の視野のビットストリームにおけるビデオ・データに関連付けられている空間オブジェクトの空間情報は異なる。
いくつかの実現可能な実装では、各再生時点における作者の視野をデザインした後、作者は、サーバーを使って、各時点における作者の視野のための対応するビットストリームを用意してもよい。作者の視野に対応するビットストリームは、作者の視野のビットストリームに設定されてもよい。サーバーは、作者の視野のビットストリームをエンコードして、エンコードされたビットストリームをクライアントに送信してもよい。作者の視野のビットストリームをデコードした後、クライアントはユーザーに対して、作者の視野のビットストリームに対応するストーリー・プロット・ピクチャーを呈示してもよい。サーバーは、作者の視野以外の視野のビットストリーム(これは非作者視野、すなわち静的な視野のビットストリームに設定される)をクライアントに送信する必要がない。それによりビデオ・データ伝送帯域幅のような資源が節約される。
いくつかの実現可能な実装では、事前設定された空間オブジェクトの画像が、そのビデオのための作者によってデザインされたストーリー・プロットに基づいて作者の視野において提示され、異なる再生時点における作者の空間オブジェクトは異なっていてもよく、あるいは同じであってもよい。よって、作者の視野が再生時点とともに絶えず変化する視野であり、作者の空間オブジェクトが、その位置が絶えず変化する動的な空間オブジェクトである、すなわちすべての再生時点に対応する作者の空間オブジェクトのすべての位置がパノラマ空間において同じなのではないことがわかる。図7に示される各空間オブジェクトは事前設定された規則に従って分割を通じて得られた空間オブジェクトであり、パノラマ空間において相対位置が固定されている空間オブジェクトである。任意の再生時点に対応する作者の空間オブジェクトは必ずしも図7に示される固定した空間オブジェクトの一つではなく、グローバル空間において相対位置が絶えず変化する空間オブジェクトである。サーバーからクライアントによって得られる、ビデオにおいて呈示されるコンテンツは、作者の視野の連結であり、非作者視野に対応する空間オブジェクトは含まない。作者の視野のビットストリームは作者の空間オブジェクトのコンテンツのみを含み、サーバーから得られたMPDは作者の視野内の作者の空間オブジェクトの空間情報を含まない。この場合、クライアントは、作者の視野のビットストリームのみをデコードして呈示することができる。ユーザーがビデオ閲覧プロセスにおいてビデオを見るための視野を非作者視野に切り換える場合、クライアントは、対応するビデオ・コンテンツをユーザーに対して呈示することができない。
いくつかの実施形態では、メディア呈示記述を生成するとき、サーバーはメディア呈示記述に識別情報を追加してもよい。そのビデオの、その作者のその視野内のビットストリーム、すなわちその作者のその視野のビットストリームを同定するためである。具体的実装では、識別情報はメディア呈示記述において担持される、作者の視野のビットストリームが位置するビットストリーム・セットの、属性情報において担持されてもよい。具体的には、識別情報はメディア呈示記述における適応セットについての情報において担持されてもよく、あるいは識別情報はメディア呈示記述に含まれる表現についての情報において担持されてもよい。さらに、識別情報はメディア呈示記述における記述子についての情報において担持されてもよい。クライアントは、作者の視野のビットストリームおよび非作者視野のビットストリームを、MPDをパースしてMPD内の追加されたシンタックス要素を得ることによって迅速に識別することができる。作者の視野のビットストリームに関係した空間情報が独立メタデータ・ファイルにおいてカプセル化される場合、クライアントは、MPDをパースすることによって、コーデック識別子に基づく空間情報のメタデータを取得して、空間情報をパースし出してもよい。
いくつかの実施形態では、サーバーはさらに、作者の視野のビットストリームに作者の一つまたは複数の空間オブジェクトの空間情報を加えてもよい。作者の各空間オブジェクトは一つまたは複数の画像に対応する、すなわち、一つまたは複数の画像が同じ空間オブジェクトに関連付けられていてもよく、あるいは各画像は一つの空間オブジェクトに関連付けられていてもよい。サーバーは、作者の視野のビットストリームに作者の各空間オブジェクトの空間情報を加えてもよく、それによりサーバーは該空間情報をサンプルとして使って、該空間情報をトラックまたはファイルにおいて別個にカプセル化してもよい。作者の空間オブジェクトの空間情報は、作者の空間オブジェクトと作者の空間オブジェクトに関連付けられたコンテンツ・コンポーネントとの間の空間的関係、すなわち、作者の空間オブジェクトとパノラマ空間との間の空間的関係である。具体的には、作者の空間オブジェクトの空間情報によって記述される空間は、具体的には、パノラマ空間の一部であってもよく、たとえば、図7における任意の空間オブジェクトであってもよい。具体的実装では、DASHビットストリームについて、作者の視野のビットストリームにおけるビデオ・フレーム・データに対応する画像の各フレームに関連付けられた空間オブジェクトの空間情報を記述するよう、サーバーは空間情報を、作者の視野のビットストリームのセグメントに含まれている、既存のファイル・フォーマットであるtrunボックスまたはtfhdボックスに加えてもよい。
さらに、すべての画像フレームに関連付けられた空間オブジェクトの空間情報の間には同じ情報がありうるので、作者の複数の空間オブジェクトの空間情報には反復および冗長性が存在する。よってデータ伝送効率が影響を受ける。
本発明の実施形態において、作者の複数の空間オブジェクトの空間情報において存在する反復および冗長性を低減するよう、DASH規格において提供されるビデオ・ファイル・フォーマット(英文:file format)が修正される。
本発明において提供されるファイル・フォーマット修正は、ISOBMFFまたはMPEG2-TSのファイル・フォーマットに適用されてもよい。これは、実際の適用シナリオ要件に従って個別に決定されてもよく、本願では限定されない。
図8は、本発明のある実施形態に基づくストリーミング・メディア情報処理方法の概略的なフローチャートである。本発明のこの実施形態において提供されるストリーミング・メディア情報処理方法はDASHフィールドに適用されてもよく、別のストリーミング・メディア・フィールド、たとえば、RTPプロトコル・ベースのストリーミング・メディア伝送に適用されてもよい。本方法の実行主体はクライアントであってもよく、具体的には端末、ユーザー装置またはコンピュータ装置であってもよく、あるいはネットワーク装置、たとえばゲートウェイまたはプロキシ・サーバーであってもよい。図8に示されるように、本方法は以下の段階を含んでいてもよい。
S801。目標空間オブジェクトの目標空間情報を取得する。前記目標空間オブジェクトは二つの空間オブジェクトの一方であり、前記二つの空間オブジェクトは目標ビデオ・データに含まれる二つの画像のデータに関連付けられており、前記目標空間情報は同属性空間情報を含み、該同属性空間情報は前記二つの空間オブジェクトのそれぞれの空間情報の間の同じ情報を含み、前記二つの空間オブジェクトにおける前記目標空間オブジェクト以外の空間オブジェクトの空間情報は、前記同属性空間情報を含む。
前記目標ビデオ・データは、目標ビデオ・ビットストリームであってもよく、あるいはエンコードされていないビデオ・データであってもよい。目標ビデオ・データが目標ビデオ・ビットストリームであるときは、前記二つの画像のデータは前記二つの画像のエンコードされたデータであってもよい。さらに、目標ビデオ・ビットストリームは作者の視野のビットストリームであってもよく、あるいは非作者視野のビットストリームであってもよい。
目標空間オブジェクトの目標空間情報を取得することは、該目標空間情報をサーバーから受信することであってもよい。
前記二つの画像は前記二つの空間オブジェクトと一対一対応にあってもよく、あるいは一つの空間オブジェクトが二つの画像に対応していてもよい。
目標空間オブジェクトの空間情報は、目標空間オブジェクトと目標空間オブジェクトに関連付けられたコンテンツ・コンポーネントとの間の空間的関係、すなわち目標空間オブジェクトとパノラマ空間との間の空間的関係である。具体的には、目標空間オブジェクトの目標空間情報によって記述される空間は、具体的には、パノラマ空間の一部であってもよい。目標ビデオ・データは作者の視野のビットストリームであってもよく、あるいは非作者視野のビットストリームであってもよい。目標空間オブジェクトは作者の空間オブジェクトであってもなくてもよい。
S802。前記目標空間情報に基づいて、再生される必要のあるビデオ・データを決定する。
さらに、再生される必要のあるビデオ・データが決定された後、再生される必要のあるビデオ・データがさらに再生されてもよい。
いくつかの実施形態では、目標空間情報はさらに、前記目標空間オブジェクトの異属性空間情報を含み、他方の空間オブジェクトの空間情報はさらに、該他方の空間オブジェクトの異属性空間情報を含み、前記目標空間オブジェクトの異属性空間情報は前記他方の空間オブジェクトの異属性空間情報とは異なる。
目標空間情報のある可能な実装では、前記目標空間情報は前記目標空間オブジェクトの中心点の位置情報または前記目標空間オブジェクトの左上点の位置情報を含んでいてもよく、前記目標空間情報はさらに、前記目標空間オブジェクトの幅および前記目標空間オブジェクトの高さを含んでいてもよい。
前記目標空間情報に対応する座標系が角座標系であるときは、目標空間情報はヨー角を使って記述されてもよく、前記目標空間情報に対応する座標系がピクセル座標系であるときは、目標空間情報は経緯度図式における空間位置を使って、あるいは別の幾何学的な立体図式を使って記述されてもよい。これは本願において限定されない。目標空間情報はヨー角、たとえばピッチ角θ(pitch)、ヨー角ψ(yaw)、ロール角Φ(roll)、角度範囲を表わすために使われる幅および角度範囲を表わすために使われる高さによって記述される。図9は、パノラマ空間における目標空間オブジェクトの中心点の相対位置の概略図である。図9では、Oは360度VRパノラマ・ビデオの球面画像に対応する球中心であり、VRパノラマ画像の閲覧中の人間の目の位置と考えられてもよい。点Aは目標空間オブジェクトの中心点Aであり、CおよびFは、目標空間オブジェクトの点Aを通る目標空間オブジェクトの水平座標軸に沿った境界点であり、EおよびDは、目標空間オブジェクトの点Aを通る目標空間オブジェクトの垂直座標軸に沿った境界点であり、Bは、赤道線上の、点Aから球面子午線に沿って投影された点であり、Iは赤道線上の水平方向の開始座標点である。要素の意味は以下で説明する。
ピッチ角は、パノラマ球面(すなわちグローバル空間)画像上の、目標空間オブジェクトの画像の中心位置がマッピングされる点の、垂直方向の偏向角であり、たとえば図9における∠AOBである。
ヨー角は、パノラマ球面画像上の、目標空間オブジェクトの画像の中心位置がマッピングされる点の、水平方向の偏向角であり、たとえば図9における∠IOBである。
ロール角は、球の中心が、パノラマ球面画像上の、目標空間オブジェクトの画像の中心位置 点に接続される方向における回転角であり、たとえば図9における∠DOBである。
角度範囲を表わすために使われる高さ(角座標系における目標空間オブジェクトの高さ)は、目標空間オブジェクトの、パノラマ球面座像における画像の視野の高さであり、垂直方向における該視野の最大角度によって表わされ、たとえば図9における∠DOEである。角度範囲を表わすために使われる幅(角座標系における目標空間オブジェクトの幅)は、目標空間オブジェクトの、パノラマ球面座像における画像の視野の幅であり、水平方向における該視野の最大角度によって表わされ、たとえば図9における∠COFである。
目標空間情報のもう一つの可能な実装では、前記目標空間情報は、前記目標空間オブジェクトの左上点の位置情報および前記目標空間オブジェクトの右下点の位置情報を含んでいてもよい。
目標空間情報のもう一つの可能な実装では、目標空間オブジェクトが長方形でないとき、目標空間情報は、目標空間オブジェクトの形状タイプ、半径および周のうちの少なくとも一つを含んでいてもよい。
いくつかの実施形態では、前記目標空間情報は、前記目標空間オブジェクトの空間回転情報を含んでいてもよい。
いくつかの実施形態では、前記目標空間情報は、空間情報データまたは空間情報トラック(track)にカプセル化されてもよく、空間情報データは目標ビデオ・データのビットストリーム、目標ビデオ・データのメタデータまたは目標ビデオ・データとは独立なファイルであってもよく、空間情報トラックは目標ビデオ・データとは独立なトラックであってもよい。
前記空間情報データまたは前記空間情報トラックはさらに、同属性空間情報のタイプを示すために使われる空間情報タイプ識別子を含んでいてもよく、前記空間情報タイプ識別子は、前記目標空間情報内にあり、同属性空間情報に属する情報を示すために使われる。
前記空間情報タイプ識別子が、前記目標空間情報が同属性空間情報に属する情報をもたないことを示すとき、同属性空間情報は、前記目標空間オブジェクトの幅の最小値、前記目標空間オブジェクトの高さの最小値、前記目標空間オブジェクトの幅の最大値および前記目標空間オブジェクトの高さの最大値を含んでいてもよい。
前記空間情報タイプ識別子および同属性空間情報は同じボックスにおいてカプセル化されてもよい。
具体的実装では、目標空間情報が目標ビデオ・データとは独立したファイル(空間情報ファイル)または目標ビデオ・データとは独立したトラック(空間情報トラック)においてカプセル化されるとき、サーバーは既存のファイル・フォーマットにおける3dscボックスに同属性空間情報を加え、既存のファイル・フォーマットにおけるmdatボックスに目標空間オブジェクトの異属性空間情報を加えてもよい。
空間情報を加える例(例1):
aligned(8) class 3DSphericalCoordinatesSampleEntry//同属性空間情報
extends MetadataSampleEntry ('3dsc') {
unsigned int(2) regionType; //空間情報タイプ識別子
if (regionType ==0) { //空間情報タイプ識別子が0
unsigned int(16) yaw; //ヨー角
unsigned int(16) pitch; //ピッチ角
unsigned int(16) roll; //ロール角
unsigned int(16) reference_width;//目標空間オブジェクトの幅
unsigned int(16) reference_height;//目標空間オブジェクトの高さ
}
If (regionType ==1) { //空間情報タイプ識別子が1
unsigned int(16) reference_width; //目標空間オブジェクトの幅
unsigned int(16) reference_height; //目標空間オブジェクトの高さ
}
If (regionType ==2){ //空間情報タイプ識別子が2
unsigned int(16) min_reference_width;//目標空間オブジェクトの幅の最小値
unsigned int(16) min_reference_height;//目標空間オブジェクトの高さの最小値
unsigned int(16) max_reference_width;//目標空間オブジェクトの幅の最大値
unsigned int(16) max_reference_height;//目標空間オブジェクトの高さの最大値
}
}
aligned(8) class SphericalCoordinatesSample(){ //目標空間オブジェクトの異属性空間情報
if ((regionType ==1) {
unsigned int(16) yaw;
unsigned int(16) pitch;
unsigned int(16) roll;
}
if ((regionType ==2) {
unsigned int(16) yaw;
unsigned int(16) pitch;
unsigned int(16) roll;
unsigned int(16) reference_width;
unsigned int(16) reference_height;
}
}
この例において、同属性空間情報は、yaw、pitch、roll、reference_widthおよびreference_heightの全部ではなく一部であってもよく、たとえば同属性空間情報はrollをもたなくてもよい。rollは目標空間オブジェクトの異属性空間情報に属してもよく、目標空間情報に含まれなくてもよい。空間情報タイプ識別子regionTypeがさらに3dscボックスに加えられてもよい。この例は角座標系の場合の例である。空間情報タイプ識別子が0であるとき、空間情報タイプ識別子は、目標空間情報内の、同属性空間情報に属する情報が、目標空間オブジェクトの中心点の位置情報または目標空間オブジェクトの左上点の位置情報、目標空間オブジェクトの幅および目標空間オブジェクトの高さであることを示すために使われる。この例において、位置情報は、ピッチ角θ(pitch)、ヨー角ψ(yaw)およびロール角Φ(roll)によって表わされ、幅および高さはそれぞれ角度によって表わされてもよい。換言すれば、空間情報タイプ識別子が0であるときは、前記二つの空間オブジェクトはいずれも同じ位置および同じサイズ(幅および高さを含むがそれに限られない)をもつことが理解される。
空間情報タイプ識別子が1であるとき、空間情報タイプ識別子は、目標空間情報内の、同属性空間情報に属する情報が、目標空間オブジェクトの幅および目標空間オブジェクトの高さであることを示すために使われる。換言すれば、空間情報タイプ識別子が1であるときは、前記二つの空間オブジェクトは同じサイズ(幅および高さを含むがそれに限られない)をもつことが理解される。
空間情報タイプ識別子が2であるとき、空間情報タイプ識別子は、目標空間情報が同属性空間情報に属する情報をもたないことを示すために使われる。換言すれば、空間情報タイプ識別子が2であるときは、前記二つの空間オブジェクトは異なるサイズおよび位置をもつことが理解される。
対応して、空間情報タイプ識別子が0であるとき、異属性空間情報が存在しないことが示されうる。空間情報タイプ識別子が1であるとき、空間情報タイプ識別子はさらに、目標空間オブジェクトの異属性空間情報が目標空間オブジェクトの中心点の位置情報または目標空間オブジェクトの左上点の位置情報であることを示す。空間情報タイプ識別子が2であるとき、空間情報タイプ識別子はさらに、目標空間オブジェクトの異属性空間情報が、目標空間オブジェクトの中心点の位置情報または目標空間オブジェクトの左上点の位置情報、目標空間オブジェクトの幅および目標空間オブジェクトの高さであることを示す。
空間情報を加える例(例2):
aligned(8) class 3DSphericalCoordinatesSampleEntry//同属性空間情報
extends MetadataSampleEntry ('3dsc') {
unsigned int(2) regionType; //空間情報タイプ識別子
if (regionType ==0){//空間情報タイプ識別子が0
unsigned int(16) top_left_x;//左上点の水平座標
unsigned int(16) top_left_y;//左上点の垂直座標
unsigned int(16) reference_width;//目標空間オブジェクトの幅
unsigned int(16) reference_height;//目標空間オブジェクトの高さ
}
If (regionType ==1) {//空間情報タイプ識別子が1
unsigned int(16) reference_width;//目標空間オブジェクトの幅
unsigned int(16) reference_height;//目標空間オブジェクトの高さ
}
If (regionType ==2) {//空間情報タイプ識別子が2
unsigned int(16) min_reference_width;//目標空間オブジェクトの幅の最小値
unsigned int(16) min_reference_height;//目標空間オブジェクトの高さの最小値
unsigned int(16) max_reference_width;//目標空間オブジェクトの幅の最大値
unsigned int(16) max_reference_height;//目標空間オブジェクトの高さの最大値
}
}
aligned(8) class SphericalCoordinatesSample(){//目標空間オブジェクトの異属性空間情報
if ((regionType ==1) {
unsigned int(16) top_left_x; //左上点の水平座標
unsigned int(16) top_left_y; //左上点の垂直座標
}
if ((regionType ==2) {
unsigned int(16) top_left_x; //左上点の水平座標
unsigned int(16) top_left_y; //左上点の垂直座標
unsigned int(16) reference_width;//目標空間オブジェクトの幅
unsigned int(16) reference_height;//目標空間オブジェクトの高さ
}
}
この例は、ピクセル座標系の場合の例である。空間情報タイプ識別子が0であるとき、空間情報タイプ識別子は、目標空間情報内の、同属性空間情報に属する情報が、目標空間オブジェクトの左上点の位置情報、目標空間オブジェクトの幅および目標空間オブジェクトの高さであることを示すために使われる。この例において、位置情報は、ピクセル単位での水平座標およびピクセル単位での垂直座標によって表わされ、幅および高さもそれぞれピクセル単位で表わされる。水平座標および垂直座標は図7の経緯度平面図における位置点の座標であってもよく、あるいはパノラマ空間(またはパノラマ空間オブジェクト)における位置点の座標であってもよい。換言すれば、空間情報タイプ識別子が0であるときは、前記二つの空間オブジェクトはいずれも同じ位置および同じサイズをもつことが理解される。目標空間オブジェクトの左上点の位置情報が、目標空間オブジェクトの中心点の位置情報で置き換えられてもよいことを注意しておくべきである。
空間情報タイプ識別子が1であるとき、空間情報タイプ識別子は、目標空間情報内の、同属性空間情報に属する情報が、目標空間オブジェクトの幅および目標空間オブジェクトの高さであることを示すために使われる。換言すれば、空間情報タイプ識別子が1であるときは、前記二つの空間オブジェクトは同じサイズをもつが異なる位置をもつことが理解される。
空間情報タイプ識別子が2であるとき、空間情報タイプ識別子は、目標空間情報が同属性空間情報に属する情報をもたないことを示すために使われる。換言すれば、空間情報タイプ識別子が2であるときは、前記二つの空間オブジェクトは異なるサイズおよび位置をもつことが理解される。
対応して、空間情報タイプ識別子が0であるとき、異属性空間情報が存在しないことが示されうる。空間情報タイプ識別子が1であるとき、空間情報タイプ識別子はさらに、目標空間オブジェクトの異属性空間情報が目標空間オブジェクトの左上点の位置情報であることを示す。空間情報タイプ識別子が2であるとき、空間情報タイプ識別子はさらに、目標空間オブジェクトの異属性空間情報が、目標空間オブジェクトの左上点の位置情報、目標空間オブジェクトの幅および目標空間オブジェクトの高さであることを示す。目標空間オブジェクトの左上点の位置情報が、目標空間オブジェクトの中心点の位置情報で置き換えられてもよいことを注意しておくべきである。
空間情報を加える例(例3):
aligned(8) class 3DSphericalCoordinatesSampleEntry//同属性空間情報
extends MetadataSampleEntry ('3dsc') {
unsigned int(2) regionType; //空間情報タイプ識別子
if (regionType ==0){//空間情報タイプ識別子が0
unsigned int(16) top_left_x;//左上点の水平座標
unsigned int(16) top_left_y;//左上点の垂直座標
unsigned int(16) down_right_x;//右下点の水平座標
unsigned int(16) down_right_y;//右下点の垂直座標
}
If (regionType ==1) {//空間情報タイプ識別子が1
unsigned int(16) down_right_x;//右下点の水平座標
unsigned int(16) down_right_y;//右下点の垂直座標
}
If (regionType ==2) {//空間情報タイプ識別子が2
unsigned int(16) min_reference_width;//目標空間オブジェクトの幅の最小値
unsigned int(16) min_reference_height;//目標空間オブジェクトの高さの最小値
unsigned int(16) max_reference_width;//目標空間オブジェクトの幅の最大値
unsigned int(16) max_reference_height;//目標空間オブジェクトの高さの最大値
}
}
aligned(8) class SphericalCoordinatesSample(){//目標空間オブジェクトの異属性空間情報
if ((regionType ==1) {
unsigned int(16) top_left_x; /左上点の水平座標
unsigned int(16) top_left_y; //左上点の垂直座標
}
if ((regionType ==2) {
unsigned int(16) top_left_x; //左上点の水平座標
unsigned int(16) top_left_y; //左上点の垂直座標
unsigned int(16) down_right_x;//右下点の水平座標
unsigned int(16) down_right_y;//右下点の垂直座標
}
}
この例は、ピクセル座標系の場合の例である。空間情報タイプ識別子が0であるとき、空間情報タイプ識別子は、目標空間情報内の、同属性空間情報に属する情報が、目標空間オブジェクトの左上点の位置情報および目標空間オブジェクトの右下点の位置情報であることを示すために使われる。この例において、位置情報は、ピクセル単位での水平座標およびピクセル単位での垂直座標によって表わされる。水平座標および垂直座標は図7の経緯度平面図における位置点の座標であってもよく、あるいはパノラマ空間(またはパノラマ空間オブジェクト)における位置点の座標であってもよい。換言すれば、空間情報タイプ識別子が0であるときは、前記二つの空間オブジェクトはいずれも同じ位置および同じサイズをもつことが理解される。目標空間オブジェクトの右下点の位置情報が、目標空間オブジェクトの高さおよび幅で置き換えられてもよいことを注意しておくべきである。
空間情報タイプ識別子が1であるとき、空間情報タイプ識別子は、目標空間情報内の、同属性空間情報に属する情報が、目標空間オブジェクトの右下点の位置情報であることを示すために使われる。換言すれば、空間情報タイプ識別子が1であるときは、前記二つの空間オブジェクトは同じサイズをもつが異なる位置をもつことが理解される。目標空間オブジェクトの右下点の位置情報が、目標空間オブジェクトの高さおよび幅で置き換えられてもよいことを注意しておくべきである。
空間情報タイプ識別子が2であるとき、空間情報タイプ識別子は、目標空間情報が同属性空間情報に属する情報をもたないことを示すために使われる。換言すれば、空間情報タイプ識別子が2であるときは、前記二つの空間オブジェクトは異なるサイズおよび位置をもつことが理解される。
対応して、空間情報タイプ識別子が0であるとき、異属性空間情報が存在しないことが示されうる。空間情報タイプ識別子が1であるとき、空間情報タイプ識別子はさらに、目標空間オブジェクトの異属性空間情報が目標空間オブジェクトの左上点の位置情報であることを示す。空間情報タイプ識別子が2であるとき、空間情報タイプ識別子はさらに、目標空間オブジェクトの異属性空間情報が、目標空間オブジェクトの左上点の位置情報および目標空間オブジェクトの右下点の位置情報であることを示す。目標空間オブジェクトの右下点の位置情報が、目標空間オブジェクトの高さおよび幅で置き換えられてもよいことを注意しておくべきである。
いくつかの実施形態において、空間情報データまたは空間情報トラックはさらに、目標空間情報に対応する座標系を示すために使われる座標系識別子を含んでいてもよく、座標系はピクセル座標系または角座標系である。
座標系識別子および同属性空間情報は同じボックスにカプセル化されてもよい。
具体的実装において、目標空間情報が目標ビデオ・データとは独立なファイル(空間情報ファイル)または目標ビデオ・データとは独立なトラック(空間情報トラック)にカプセル化されるとき、サーバーは、座標系識別子を既存のファイル・フォーマットにおける3dscボックスに加えてもよい。
座標系識別子を加える例(例1):
aligned(8) class 3DSphericalCoordinatesSampleEntry//同属性空間情報
extends MetadataSampleEntry ('3dsc') {
……
unsigned int(2) Coordinate_ system;//座標系識別子
……
}
この例では、座標系識別子coordinate_systemが0であるとき、座標系は角座標系である。座標系識別子が1であるとき、座標系はピクセル座標系である。
いくつかの実施形態では、空間情報データまたは空間情報トラックはさらに、空間回転情報識別子を含んでいてもよく、空間回転情報識別子は、目標空間情報が目標空間オブジェクトの空間回転情報を含むかどうかを示すために使われる。
空間回転情報識別子および同属性空間情報は同じボックス(たとえば3dscボックス)にカプセル化されてもよく、あるいは目標空間オブジェクトの空間回転情報識別子および異属性空間情報が同じボックス(たとえばmdatボックス)にカプセル化されてもよい。具体的には、目標空間オブジェクトの空間回転情報識別子および異属性空間情報が同じボックスにカプセル化される場合、空間回転情報識別子が、目標空間情報が目標空間オブジェクトの空間回転情報を含むことを示すとき、目標空間オブジェクトの異属性空間情報が該空間回転情報を含む。
具体的実装において、サーバーは、目標空間オブジェクトの空間回転情報識別子および異属性空間情報を同じボックス(たとえばmdatボックス)においてカプセル化してもよい。さらに、サーバーは、目標空間オブジェクトの空間回転情報識別子および異属性空間情報を同じボックスの同じサンプルにおいてカプセル化してもよい。一つのサンプルは一つの空間オブジェクトに対応する異属性空間情報をカプセル化できる。
空間回転情報識別子を加える例(例1):
aligned(8) class SphericalCoordinatesSample(){
……
unsigned int(1) rotation_flag;//空間回転情報識別子、ここで、0は回転がないことを示し、1は回転が存在することを示す
if(rotation_flag == 1)
{
unsigned int(16) rotation_degree;//目標空間オブジェクトの空間回転情報
}
……
}
いくつかの実施形態では、目標空間オブジェクトの同属性空間情報および異属性空間情報がビデオの空間情報のトラック・メタデータ(track metadata)においてカプセル化されてもよく、たとえばtrunボックス、tfhdボックスまたは新規ボックスのような同じボックスにおいてカプセル化されてもよい。
空間情報を加える例(例4):
trun box、tfhd boxまたは新規boxのシンタックス(syntax)
unsigned int(2) regionType; //空間情報タイプ識別子
if (regionType==0){ //空間情報タイプ識別子が0
……//同属性空間情報は、上記の実施形態において空間情報タイプ識別子が0であるときに存在する同属性空間情報と同じ
}
If (regionType ==1) {//空間情報タイプ識別子が1
……//同属性空間情報は、上記の実施形態において空間情報タイプ識別子が1であるときに存在する同属性空間情報と同じ
}
If (regionType ==2) {//空間情報タイプ識別子が2
……//同属性空間情報は、上記の実施形態において空間情報タイプ識別子が2であるときに存在する同属性空間情報と同じ
}
unsigned int(32) samplecount;//サンプル数
for (i=1;i<= samplecount;i++)
If (regionType ==1) {//空間情報タイプ識別子が1
……//異属性空間情報は、上記の実施形態において空間情報タイプ識別子が1であるときに存在する、目標空間オブジェクトの異属性空間情報と同じ
}
If (regionType ==2) {//空間情報タイプ識別子が2
……//異属性空間情報は、上記の実施形態において空間情報タイプ識別子が2であるときに存在する、目標空間オブジェクトの異属性空間情報と同じ
}
}
一つの空間オブジェクトの空間情報の一片は一つのサンプルであり、上記のサンプル数は空間オブジェクトの数を示すために使われ、各空間オブジェクトは異属性空間情報の一つの群に対応する。本発明のこの実施形態において提供されるストリーミング・メディア情報処理方法の実装は以下の段階を含む。
1.空間情報ファイル、空間情報トラック(空間情報はtimed metadataと称されることがある)またはビデオの空間情報メタデータ(あるいは目標ビデオ・データのメタデータと称される)が得られる。
2.空間情報ファイルまたは空間情報トラックがパースされる。
3.パースを通じてタグが3dscであるボックス(空間情報記述ボックス)が得られ、空間情報タイプ識別子がパースされる。空間情報タイプ識別子は、前記二つの空間オブジェクトの空間オブジェクト・タイプを示すために使われてもよい。任意的な空間オブジェクト・タイプは:位置およびサイズが不変のままである空間オブジェクト、位置が変化しサイズは不変のままである空間オブジェクト、位置が不変のままでありサイズが変化する空間オブジェクトおよび位置およびサイズの両方が変化する空間オブジェクトを含んでいてもよいが、これらに限られない。
4.パースを通じて得られた空間オブジェクト・タイプが、位置およびサイズが不変のままである空間オブジェクトである場合、3dscボックスにおけるパースを通じて得られた同属性空間情報は目標空間情報として使われてもよく、ここで、位置およびサイズが不変のままである空間オブジェクトはその空間オブジェクトの空間位置およびその空間オブジェクトの空間的サイズが不変のままであることを意味する。前記空間オブジェクト・タイプは、前記二つの空間オブジェクトのすべての空間情報が同じであり、該空間情報の値がパースを通じて得られた同属性空間情報のものと同一であることを示す。同属性空間情報がこのタイプの同属性空間情報である場合、その後のパースにおいて、目標空間オブジェクトの異属性空間情報が位置するボックスはパースされる必要がない。
5.パースを通じて得られた空間オブジェクト・タイプが、位置が変化し、サイズが不変のままである空間オブジェクトである場合、3dscボックスにおける同属性空間情報は空間オブジェクトのサイズ情報、たとえば空間オブジェクトの高さおよび幅を担持する。この場合、目標空間オブジェクトの、その後のパースを通じて得られる異属性空間情報において担持される情報は、各空間オブジェクトの位置情報である。
6.パースを通じて得られた空間オブジェクト・タイプが、位置およびサイズの両方が変化する空間オブジェクトである場合、目標空間オブジェクトの、その後のパースを通じて得られる異属性空間情報において担持される情報は、各空間オブジェクトの位置情報(たとえば中心点の位置情報)および空間オブジェクトのサイズ情報、たとえば空間オブジェクトの高さおよび幅である。
7.パースを通じて目標空間情報が得られた後、呈示される必要のあるコンテンツ・オブジェクトが、得られたVRビデオから、目標空間情報において記述される空間オブジェクト(前記目標空間オブジェクト)に基づいて選択される;または目標空間情報において記述されている空間オブジェクトに対応するビデオ・データがデコードおよび呈示のために要求される;またはVRビデオ空間(あるいはパノラマ空間と称される)における現在閲覧されているビデオ・コンテンツの位置が目標空間情報に基づいて決定される。
いくつかの実施形態では、空間情報を担持する仕方は、担持様式識別子(carryType)をMPDに加えることによって記述されてもよい。たとえば、担持様式は:空間情報が空間情報ファイル、空間情報トラックまたは目標ビデオ・データのメタデータに担持される、というものであってもよい。
MPDの本質的属性(EssentialProperty)記述子または補足的属性(SupplementalProperty)記述子が例として使われる:
Figure 2020503792
または
Figure 2020503792
具体的なMPD例を下記に示す。
例1:空間情報は目標ビデオ・データのメタデータにおいて担持される
<?xml version="1.0" encoding="UTF-8"?>
<MPD
xmlns="urn:mpeg:dash:schema:mpd:2011"
type="static"
mediaPresentationDuration="PT10S"
minBufferTime="PT1S"
profiles="urn:mpeg:dash:profile:isoff-on-demand:2011">
<Period>
<!-空間情報は目標ビデオ・データのメタデータにおいて担持される-->
<AdaptationSet segmentAlignment="true" subsegmentAlignment="true" subsegmentStartsWithSAP="1">
<EssentialProperty schemeIdUri="urn:mpeg:dash:xxx:2016"
value="1, 0"/>
<Representation id="zoomed" mimeType="video/mp4" codecs="avc1.42c01e" bandwidth="5000000" width="1920" height="1080">
<BaseURL>video.mp4</BaseURL>
</Representation>
</AdaptationSet>
</Period>
</MPD>
この例では、値="1, 0"であり、1はソース識別子であり、0は空間情報が目標ビデオ・データのトラックにおけるメタデータ(目標ビデオ・データのメタデータと称される)において担持されることを示す。
例2:空間情報が空間情報トラックにおいて担持される
<?xml version="1.0" encoding="UTF-8"?>
<MPD
xmlns="urn:mpeg:dash:schema:mpd:2011"
type="static"
mediaPresentationDuration="PT10S"
minBufferTime="PT1S"
profiles="urn:mpeg:dash:profile:isoff-on-demand:2011">
<Period>
<!-空間情報が空間情報トラックにおいて担持され、空間情報トラックおよび目標ビデオ・データが同じファイルにある-->
<AdaptationSet segmentAlignment="true" subsegmentAlignment="true" subsegmentStartsWithSAP="1">
<EssentialProperty schemeIdUri="urn:mpeg:dash:xxx:2016"
value="1, 1"/>
<Representation id="zoomed" mimeType="video/mp4" codecs="avc1.42c01e" bandwidth="5000000" width="1920" height="1080">
<BaseURL>video.mp4</BaseURL>
</Representation>
</AdaptationSet>
</Period>
</MPD>
この例において、値="1, 1"であり、ここで、1はソース識別子であり、1は空間情報が独立した空間情報トラックにおいて担持されることを示す。
例3:空間情報が独立した空間情報ファイルにおいて担持される
<?xml version="1.0" encoding="UTF-8"?>
<MPD
xmlns="urn:mpeg:dash:schema:mpd:2011"
type="static"
mediaPresentationDuration="PT10S"
minBufferTime="PT1S"
profiles="urn:mpeg:dash:profile:isoff-on-demand:2011">
<Period>
<!-空間情報が独立した空間情報ファイルにおいて担持される-->
<AdaptationSet segmentAlignment="true" subsegmentAlignment="true" subsegmentStartsWithSAP="1">
<EssentialProperty schemeIdUri="urn:mpeg:dash:xxx:2016"
value="1, 2"/>
<Representation id="zoomed" mimeType="video/mp4" codecs="avc1.42c01e" bandwidth="5000000" width="1920" height="1080">
<BaseURL>video.mp4</BaseURL>
</Representation>
</AdaptationSet>
<!-空間情報ファイル-->
<AdaptationSet segmentAlignment="true" subsegmentAlignment="true" subsegmentStartsWithSAP="1">
<Representation id="roi-coordinates" associationId="zoomed" associationType="cdsc" codecs="2dcc" bandwidth="100">
<BaseURL>roi_coordinates.mp4</BaseURL>
</Representation>
</AdaptationSet>
</Period>
</MPD>
この例では、値="1, 2"であり、ここで、1はソース識別子であり、2は、空間情報が独立した空間情報ファイルにおいて担持されることを示す。空間情報ファイルに関連付けられた目標ビデオ表現(または目標ビデオ・ビットストリームと称される)がassociationId="zoomed"によって表わされており、空間情報ファイルは表現IDが"zoomed"である目標ビデオ表現と関連付けられる。
クライアントは、MPDをパースすることによって、空間情報を担持する仕方を得て、その担持様式に基づいて空間情報を得ることができる。
いくつかの実施形態では、空間情報データまたは空間情報トラックはさらに、目標空間オブジェクトを示すために使われる幅および高さタイプ識別子を含んでいてもよい。幅および高さタイプ識別子は、目標空間オブジェクトの幅および高さを記述するために使われる座標系を示すために使われてもよく、あるいは幅および高さタイプ識別子は、目標空間オブジェクトの境界を記述するために使われる座標系を示すために使われてもよい。幅および高さタイプ識別子は一つの識別子であってもよく、あるいは幅タイプ識別子および高さタイプ識別子を含んでいてもよい。
幅および高さタイプ識別子および同属性空間情報は、同じボックス(たとえば3dscボックス)にカプセル化されてもよく、あるいは目標空間オブジェクトの幅および高さタイプ識別子および異属性空間情報が同じボックス(たとえばmdatボックス)においてカプセル化されてもよい。
具体的実装では、サーバーは、幅および高さタイプ識別子および同属性空間情報を同じボックス(たとえば3dscボックス)においてカプセル化してもよい。さらに、目標空間情報が目標ビデオ・データとは独立したファイル(空間情報ファイル)または目標ビデオ・データとは独立したトラック(空間情報トラック)においてカプセル化されるとき、サーバーは幅および高さタイプ識別子を3dscボックスに加えてもよい。
幅および高さタイプ識別子を加える例(例1):
aligned(8) class 3DSphericalCoordinatesSampleEntry//同属性空間情報
extends MetadataSampleEntry ('3dsc') {
……
unsigned int(2) edge_type;//幅および高さタイプ識別子
……
}
いくつかの実施形態では、目標空間オブジェクトの同属性空間情報および異属性空間情報は、たとえばビデオの空間情報のトラック・メタデータ(track metadata)においてカプセル化されてもよく、同じボックス、たとえばtrun box、tfhd boxまたは新規boxにおいてカプセル化されてもよい。
空間情報を加える例(例2):
trun box、tfhd boxまたは新規boxのシンタックス(syntax){

unsigned int(2) edge_type;//幅および高さタイプ識別子
}
この例において、幅および高さタイプ識別子が0であるとき、目標空間オブジェクトの幅および高さを記述するために使われる座標系は図10に示されている。球面の影付きの部分が目標空間オブジェクトであり、目標空間オブジェクトの四隅の頂点はそれぞれB、E、G、Iである。図10では、Oは360度VRパノラマ・ビデオの球面画像に対応する球中心であり、頂点B、E、G、Iは別個に、球の中心を通る円(球の中心Oが該円の中心として使われ、該円の半径は360度VRパノラマ・ビデオの球面画像に対応する球の半径であり、該円はz軸を通る。そのような円は二つあり、一方は点B、A、I、Oを通り、他方は点E、F、G、Oを通る)がx軸およびy軸に平行な円(球の中心Oは該円の中心としては使われない。そのような円は二つあり、一方はB、D、Eを通り、他方はI、H、Gを通り、それら二つの円は互いに平行)と交わる球上の点である。Cは目標空間オブジェクトの中心点であり、エッジDHに対応する角度は目標空間オブジェクトの高さを表わし、エッジAFに対応する角度は目標空間オブジェクトの幅を表わし、エッジDHおよびエッジAFは点Cを通る。エッジBI、エッジEGおよびエッジDHは同じ角度に対応する;エッジBE、エッジIGおよびエッジAFは同じ角度に対応する。エッジBEに対応する角の頂点はJであり、Jはz軸が、前記した円のうちの、点B、D、Eが位置しているほうの円と交わる点である。対応して、エッジIGに対応する角の頂点は、z軸が、前記した円のうちの、点I、H、Gが位置しているほうの円と交わる点である。エッジAFに対応する角度の頂点は点Oであり、エッジBI、エッジEG、エッジDHに対応する角度の各頂点も点Oである。
上記が単に例であることを注意しておくべきである。目標空間オブジェクトは、x軸を通る二つの円がy軸およびz軸に平行な、球の中心を通らない二つの円と交わるときに得られてもよく、あるいは目標空間オブジェクトは、y軸を通る二つの円がx軸およびz軸に平行な、球の中心を通らない二つの円と交わるときに得られてもよい。
幅および高さタイプ識別子が1であるとき、目標空間オブジェクトの幅および高さを記述するために使われる座標系は図11に示されている。球面の影付きの部分が目標空間オブジェクトであり、目標空間オブジェクトの四隅の頂点はそれぞれB、E、G、Iである。図11では、Oは360度VRパノラマ・ビデオの球面画像に対応する球中心であり、頂点B、E、G、Iは別個に、z軸を通る円(球の中心Oが該円の中心として使われ、該円の半径は360度VRパノラマ・ビデオの球面画像に対応する球の半径であり、そのような円は二つあり、一方は点B、A、Iを通り、他方は点E、F、Gを通る)がy軸を通る円(球の中心Oが該円の中心として使われ、該円の半径は360度VRパノラマ・ビデオの球面画像に対応する球の半径であり、そのような円は二つあり、一方は点B、D、Eを通り、他方は点I、H、Gを通る)と交わる球上の点である。Cは目標空間オブジェクトの中心点であり、エッジDHに対応する角度は目標空間オブジェクトの高さを表わし、エッジAFに対応する角度は目標空間オブジェクトの幅を表わし、エッジDHおよびエッジAFは点Cを通る。エッジBI、エッジEGおよびエッジDHは同じ角度に対応する;エッジBE、エッジIGおよびエッジAFは同じ角度に対応する。エッジBEに対応する角の頂点は点Jであり、点Jはz軸が、点B、Eを通りx軸およびy軸に平行な円と交わる点である。エッジIGに対応する角の頂点は、z軸が点I、Gを通りx軸およびy軸に平行な円と交わる点である。エッジAFに対応する角度の頂点は点Oである。エッジBIに対応する角の頂点は点Lであり、点Lはy軸が、点B、Iを通りz軸およびx軸に平行な円と交わる点である。エッジEGに対応する角度の頂点は、y軸が、点E、Gを通りz軸およびx軸に平行な円と交わる点である。エッジDHに対応する角の頂点も点Oである。
上記が単に例であることを注意しておくべきである。目標空間オブジェクトは、x軸を通る二つの円がz軸を通る二つの円と交わるときに得られてもよく、あるいは目標空間オブジェクトは、x軸を通る二つの円がy軸を通る二つの円と交わるときに得られてもよい。
幅および高さタイプ識別子が2であるとき、目標空間オブジェクトの幅および高さを記述するために使われる座標系は図12に示されている。球面の影付きの部分が目標空間オブジェクトであり、目標空間オブジェクトの四隅の頂点はそれぞれB、E、G、Iである。図12では、Oは360度VRパノラマ・ビデオの球面画像に対応する球中心であり、頂点B、E、G、Iは別個に、x軸およびz軸に平行な円(球の中心Oは該円の中心としては使われない。そのような円は二つあり、一方はB、A、Iを通り、他方はE、F、Gを通り、それら二つの円は互いに平行)がx軸およびy軸に平行な円(球の中心Oは該円の中心としては使われない。そのような円は二つあり、一方はB、D、Eを通り、他方はI、H、Gを通り、それら二つの円は互いに平行)と交わる球上の点である。Cは目標空間オブジェクトの中心点であり、エッジDHに対応する角度は目標空間オブジェクトの高さを表わし、エッジAFに対応する角度は目標空間オブジェクトの幅を表わし、エッジDHおよびエッジAFは点Cを通る。エッジBI、エッジEGおよびエッジDHは同じ角度に対応する;エッジBE、エッジIGおよびエッジAFは同じ角度に対応する。エッジBE、エッジIGおよびエッジAFに対応する角の各頂点は点Oであり、エッジBI、エッジEGおよびエッジDHに対応する角の各頂点も点Oである。
上記が単に例であることを注意しておくべきである。目標空間オブジェクトは、y軸およびz軸に平行であり球の中心を通らない二つの円がy軸およびx軸に平行であり球の中心を通らない二つの円と交わるときに得られてもよく、あるいは目標空間オブジェクトは、y軸およびz軸に平行であり球の中心を通らない二つの円がz軸およびx軸に平行であり球の中心を通らない二つの円と交わるときに得られてもよい。
図11における点Jおよび点Lを得る仕方は図10における点Jを得る仕方と同じである。エッジBEに対応する角の頂点は点Jであり、エッジBIに対応する角の頂点は点Lである。図12において、エッジBEおよびエッジBIに対応する角の頂点のそれぞれは点Oである。
いくつかの実施形態では、目標空間オブジェクトの同属性空間情報および異属性空間情報は目標空間オブジェクトの記述情報をも含んでいてもよい。たとえば、記述情報は、目標空間オブジェクトを視野領域または関心領域として記述するために使われる(たとえば、目標空間オブジェクトは視野のビットストリームに対応する空間オブジェクトであってもよい);あるいは記述情報は目標空間オブジェクトの品質情報を記述するために使われる。記述情報は上記の実施形態における3dscボックス、trunボックスまたはtfhdボックスにおけるシンタックス(syntax)として加えられてもよく、あるいは記述情報(content_type)はSphericalCoordinatesSampleに加えられてもく、それにより次の機能の一つまたは複数を実装してもよい:目標空間オブジェクトを視野領域として記述する、目標空間オブジェクトを関心領域として記述するおよび目標空間オブジェクトの品質情報を記述する。
図13は、本発明のある実施形態に基づくストリーミング・メディア情報処理方法の概略的なフローチャートである。本方法の実行主体はサーバーであってもよく、具体的にはコンピュータ装置であってもよい。図13に示されるように、本方法は以下の段階を含んでいてもよい。
S1001。目標ビデオ・データ内の二つの画像のデータに関連付けられている二つの空間オブジェクトのそれぞれの空間情報を取得する。
S1002。前記二つの空間オブジェクトのそれぞれの空間情報に基づいて目標空間オブジェクトの目標空間情報を決定する。前記目標空間オブジェクトは二つの空間オブジェクトの一方であり、前記目標空間情報は同属性空間情報を含み、該同属性空間情報は前記二つの空間オブジェクトのそれぞれの空間情報の間の同じ情報を含み、前記二つの空間オブジェクトにおける前記目標空間オブジェクト以外の空間オブジェクトの空間情報は、前記同属性空間情報を含む。
いくつかの実施形態では、本方法はさらに:前記目標空間情報をクライアントに送ることを含んでいてもよい。
いくつかの実施形態では、前記目標空間情報はさらに、前記目標空間オブジェクトの異属性空間情報を含んでいてもよく、他方の空間オブジェクトの空間情報はさらに、該他方の空間オブジェクトの異属性空間情報を含んでいてもよく、前記目標空間オブジェクトの異属性空間情報は前記他方の空間オブジェクトの異属性空間情報とは異なる。
いくつかの実施形態では、前記目標空間情報は前記目標空間オブジェクトの中心点の位置情報または前記目標空間オブジェクトの左上点の位置情報を含んでいてもよく、前記目標空間情報はさらに、前記目標空間オブジェクトの幅および前記目標空間オブジェクトの高さを含んでいてもよい。
対応して、前記二つの空間オブジェクトのそれぞれの空間情報は、前記二つの空間オブジェクトのそれぞれの中心点の位置情報または前記二つの空間オブジェクトのそれぞれの左上点の位置情報を含んでいてもよく、前記二つの空間オブジェクトのそれぞれの空間情報はさらに、前記二つの空間オブジェクトのそれぞれの幅および前記二つの空間オブジェクトのそれぞれの高さを含んでいてもよい。
いくつかの実施形態では、前記目標空間情報は、前記目標空間オブジェクトの左上点の位置情報および前記目標空間オブジェクトの右下点の位置情報を含んでいてもよい。
対応して、前記二つの空間オブジェクトのそれぞれの空間情報は、前記二つの空間オブジェクトのそれぞれの左上点の位置情報および前記二つの空間オブジェクトのそれぞれの右下点の位置情報を含んでいてもよい。
いくつかの実施形態では、前記目標空間情報は前記目標空間オブジェクトの空間回転情報を含んでいてもよい。
対応して、前記二つの空間オブジェクトのそれぞれの空間情報は、前記二つの空間オブジェクトのそれぞれの空間回転情報を含んでいてもよい。
いくつかの実施形態では、前記目標空間情報は空間情報データまたは空間情報トラック(track)においてカプセル化されてもよい。前記空間情報データは前記目標ビデオ・データのビットストリーム、前記目標ビデオ・データのメタデータまたは前記目標ビデオ・データとは独立なファイルであってもよく、前記空間情報トラックは前記目標ビデオ・データとは独立なトラックであってもよい。
前記空間情報データまたは前記空間情報トラックはさらに、同属性空間情報のタイプを示すために使われる空間情報タイプ識別子を含んでいてもよく、前記空間情報タイプ識別子は、前記目標空間情報内にあり、同属性空間情報に属する情報を示すために使われる。
空間情報タイプ識別子が、前記目標空間情報が同属性空間情報に属する情報をもたないことを示すとき、同属性空間情報は、前記目標空間オブジェクトの幅の最小値、前記目標空間オブジェクトの高さの最小値、前記目標空間オブジェクトの幅の最大値および前記目標空間オブジェクトの高さの最大値を含んでいてもよい。
空間情報タイプ識別子および同属性空間情報は同じボックスにおいてカプセル化されてもよい。
前記空間情報データまたは前記空間情報トラックはさらに、前記目標空間情報に対応する座標系を示すために使われる座標系識別子を含んでいてもよく、前記座標系はピクセル座標系または角座標系である。
座標系識別子および同属性空間情報は同じボックスにおいてカプセル化されてもよい。
前記空間情報データまたは前記空間情報トラックはさらに空間回転情報識別子を含んでいてもよく、空間回転情報識別子は、前記目標空間情報が前記目標空間オブジェクトの空間回転情報を含むかどうかを示すために使われる。
この実施形態のストリーミング・メディア情報処理方法の具体的な実装プロセスまたは実装解決策については、図8に対応する方法実施形態の関係した記述を参照されたい。詳細をここで再び述べることはしない。
図14は、本発明のある実施形態に基づくストリーミング・メディア情報処理装置1100を示している。情報処理装置1100はサーバーであってもよく、具体的にはコンピュータ装置であってもよい。装置1100は取得モジュール1101および決定モジュール1102を含む。
取得モジュール1101は、目標空間オブジェクトの目標空間情報を取得するよう構成される。前記目標空間オブジェクトは二つの空間オブジェクトの一方であり、前記二つの空間オブジェクトは目標ビデオ・データに含まれる二つの画像のデータに関連付けられており、前記目標空間情報は同属性空間情報を含み、該同属性空間情報は前記二つの空間オブジェクトのそれぞれの空間情報の間の同じ情報を含み、前記二つの空間オブジェクトにおける前記目標空間オブジェクト以外の空間オブジェクトの空間情報は、前記同属性空間情報を含む。
決定モジュール1102は、取得モジュールによって取得された前記目標空間情報に基づいて、再生される必要のあるビデオ・データを決定するよう構成される。
いくつかの実施形態では、情報処理装置1100はさらに、表示される必要のあるビデオ・データを表示するよう構成された表示モジュール(あるいはディスプレイと称される)を含んでいてもよい。
いくつかの実施形態では、取得モジュール1101は、前記目標空間情報をサーバーから受領するよう構成される。取得モジュール1101が前記目標空間情報をサーバーから受領するよう構成されるとき、取得モジュール1101は受信モジュール(あるいは受信器またはトランシーバと称される)でありうる。
いくつかの実施形態では、前記目標空間情報はさらに、前記目標空間オブジェクトの異属性空間情報を含み、他方の空間オブジェクトの空間情報はさらに、該他方の空間オブジェクトの異属性空間情報を含み、前記目標空間オブジェクトの異属性空間情報は前記他方の空間オブジェクトの異属性空間情報とは異なる。
いくつかの実施形態では、前記目標空間情報は前記目標空間オブジェクトの中心点の位置情報または前記目標空間オブジェクトの左上点の位置情報を含み、前記目標空間情報はさらに、前記目標空間オブジェクトの幅および前記目標空間オブジェクトの高さを含む。
対応して、前記二つの空間オブジェクトのそれぞれの空間情報は、前記二つの空間オブジェクトのそれぞれの中心点の位置情報または前記二つの空間オブジェクトのそれぞれの左上点の位置情報を含んでいてもよく、前記二つの空間オブジェクトのそれぞれの空間情報はさらに、前記二つの空間オブジェクトのそれぞれの幅および前記二つの空間オブジェクトのそれぞれの高さを含んでいてもよい。
いくつかの実施形態では、前記目標空間情報は、前記目標空間オブジェクトの左上点の位置情報および前記目標空間オブジェクトの右下点の位置情報を含んでいてもよい。
対応して、前記二つの空間オブジェクトのそれぞれの空間情報は、前記二つの空間オブジェクトのそれぞれの左上点の位置情報および前記二つの空間オブジェクトのそれぞれの右下点の位置情報を含んでいてもよい。
いくつかの実施形態では、前記目標空間情報は前記目標空間オブジェクトの空間回転情報を含んでいてもよい。
対応して、前記二つの空間オブジェクトのそれぞれの空間情報は、前記二つの空間オブジェクトのそれぞれの空間回転情報を含んでいてもよい。
いくつかの実施形態では、前記目標空間情報は空間情報データまたは空間情報トラック(track)においてカプセル化されてもよい。前記空間情報データは前記目標ビデオ・データのビットストリーム、前記目標ビデオ・データのメタデータまたは前記目標ビデオ・データとは独立なファイルであってもよく、前記空間情報トラックは前記目標ビデオ・データとは独立なトラックであってもよい。
前記空間情報データまたは前記空間情報トラックはさらに、同属性空間情報のタイプを示すために使われる空間情報タイプ識別子を含んでいてもよく、前記空間情報タイプ識別子は、前記目標空間情報内にあり、同属性空間情報に属する情報を示すために使われる。
空間情報タイプ識別子が、前記目標空間情報が同属性空間情報に属する情報をもたないことを示すとき、同属性空間情報は、前記目標空間オブジェクトの幅の最小値、前記目標空間オブジェクトの高さの最小値、前記目標空間オブジェクトの幅の最大値および前記目標空間オブジェクトの高さの最大値を含んでいてもよい。
空間情報タイプ識別子および同属性空間情報は同じボックスにおいてカプセル化されてもよい。
前記空間情報データまたは前記空間情報トラックはさらに、前記目標空間情報に対応する座標系を示すために使われる座標系識別子を含んでいてもよく、前記座標系はピクセル座標系または角座標系である。
座標系識別子および同属性空間情報は同じボックスにおいてカプセル化されてもよい。
前記空間情報データまたは前記空間情報トラックはさらに空間回転情報識別子を含んでいてもよく、空間回転情報識別子は、前記目標空間情報が前記目標空間オブジェクトの空間回転情報を含むかどうかを示すために使われる。
取得モジュール1101および決定モジュール1102の機能はソフトウェア・プログラミングを通じて実装されてもよく、ハードウェア・プログラミングを通じて実装されてもよく、あるいは回路を通じて実装されてもよいことが理解されうる。これは本願では限定されない。
この実施形態におけるストリーミング・メディア情報処理装置1100のモジュールの機能は具体的には上記の方法実施形態における方法に基づいて実装されてもよいことが理解されうる。その具体的な実装プロセスについては、上記の方法実施形態における関係した記述を参照されたい。ここで詳細を再び述べることはしない。
図15は、本発明のある実施形態に基づくストリーミング・メディア情報処理装置1200を示している。本装置は取得モジュール1201および決定モジュール1202を含む。
取得モジュール1201は、目標ビデオ・データ内の二つの画像のデータに関連付けられている二つの空間オブジェクトのそれぞれの空間情報を取得するよう構成される。
決定モジュール1202は、取得モジュールによって取得される前記二つの空間オブジェクトのそれぞれの空間情報に基づいて目標空間オブジェクトの目標空間情報を決定するよう構成される。前記目標空間オブジェクトは二つの空間オブジェクトの一方であり、前記目標空間情報は同属性空間情報を含み、該同属性空間情報は前記二つの空間オブジェクトのそれぞれの空間情報の間の同じ情報を含み、前記二つの空間オブジェクトにおける前記目標空間オブジェクト以外の空間オブジェクトの空間情報は、前記同属性空間情報を含む。
いくつかの実施形態では、装置1200はさらに、前記決定モジュールによって決定された前記目標空間情報をクライアントに送るよう構成された送信モジュール(あるいは送信器またはトランシーバと称される)を含んでいてもよい。
いくつかの実施形態では、目標空間情報はさらに、前記目標空間オブジェクトの異属性空間情報を含んでいてもよく、他方の空間オブジェクトの空間情報はさらに、該他方の空間オブジェクトの異属性空間情報を含み、前記目標空間オブジェクトの異属性空間情報は前記他方の空間オブジェクトの異属性空間情報とは異なる。
いくつかの実施形態では、前記目標空間情報は前記目標空間オブジェクトの中心点の位置情報または前記目標空間オブジェクトの左上点の位置情報を含んでいてもよく、前記目標空間情報はさらに、前記目標空間オブジェクトの幅および前記目標空間オブジェクトの高さを含んでいてもよい。
対応して、前記二つの空間オブジェクトのそれぞれの空間情報は、前記二つの空間オブジェクトのそれぞれの中心点の位置情報または前記二つの空間オブジェクトのそれぞれの左上点の位置情報を含んでいてもよく、前記二つの空間オブジェクトのそれぞれの空間情報はさらに、前記二つの空間オブジェクトのそれぞれの幅および前記二つの空間オブジェクトのそれぞれの高さを含んでいてもよい。
いくつかの実施形態では、前記目標空間情報は、前記目標空間オブジェクトの左上点の位置情報および前記目標空間オブジェクトの右下点の位置情報を含んでいてもよい。
対応して、前記二つの空間オブジェクトのそれぞれの空間情報は、前記二つの空間オブジェクトのそれぞれの左上点の位置情報および前記二つの空間オブジェクトのそれぞれの右下点の位置情報を含んでいてもよい。
いくつかの実施形態では、前記目標空間情報は前記目標空間オブジェクトの空間回転情報を含んでいてもよい。
対応して、前記二つの空間オブジェクトのそれぞれの空間情報は、前記二つの空間オブジェクトのそれぞれの空間回転情報を含んでいてもよい。
いくつかの実施形態では、前記目標空間情報は空間情報データまたは空間情報トラック(track)においてカプセル化されてもよい。前記空間情報データは前記目標ビデオ・データのビットストリーム、前記目標ビデオ・データのメタデータまたは前記目標ビデオ・データとは独立なファイルであってもよく、前記空間情報トラックは前記目標ビデオ・データとは独立なトラックであってもよい。
前記空間情報データまたは前記空間情報トラックはさらに、同属性空間情報のタイプを示すために使われる空間情報タイプ識別子を含んでいてもよく、前記空間情報タイプ識別子は、前記目標空間情報内にあり、同属性空間情報に属する情報を示すために使われる。
空間情報タイプ識別子が、前記目標空間情報が同属性空間情報に属する情報をもたないことを示すとき、同属性空間情報は、前記目標空間オブジェクトの幅の最小値、前記目標空間オブジェクトの高さの最小値、前記目標空間オブジェクトの幅の最大値および前記目標空間オブジェクトの高さの最大値を含んでいてもよい。
空間情報タイプ識別子および同属性空間情報は同じボックスにおいてカプセル化されてもよい。
前記空間情報データまたは前記空間情報トラックはさらに、前記目標空間情報に対応する座標系を示すために使われる座標系識別子を含んでいてもよく、前記座標系はピクセル座標系または角座標系である。
座標系識別子および同属性空間情報は同じボックスにおいてカプセル化されてもよい。
前記空間情報データまたは前記空間情報トラックはさらに空間回転情報識別子を含んでいてもよく、空間回転情報識別子は、前記目標空間情報が前記目標空間オブジェクトの空間回転情報を含むかどうかを示すために使われる。
取得モジュール1201および決定モジュール1202の機能はソフトウェア・プログラミングを通じて実装されてもよく、ハードウェア・プログラミングを通じて実装されてもよく、あるいは回路を通じて実装されてもよいことが理解されうる。これは本願では限定されない。
この実施形態におけるストリーミング・メディア情報処理装置1200のモジュールの機能は具体的には上記の方法実施形態における方法に基づいて実装されてもよいことが理解されうる。その具体的な実装プロセスについては、上記の方法実施形態における関係した記述を参照されたい。ここで詳細を再び述べることはしない。
図16は、本発明のある実施形態に基づくコンピュータ装置1300のハードウェア構造の概略図である。図16に示されるように、コンピュータ装置1300は、ストリーミング・メディア情報処理装置1100の実装として使用されてもよく、ストリーミング・メディア情報処理装置1200の実装として使用されてもよい。コンピュータ装置1300は、プロセッサ1302、メモリ1304、入出力インターフェース1306、通信インターフェース1308およびバス1310を含む。プロセッサ1302、メモリ1304、入出力インターフェース1306および通信インターフェース1308はバス1310と通信し、バス1310を使って互いに接続される。
プロセッサ1302は、汎用の中央処理装置(Central Processing Unit、CPU)、マイクロプロセッサ、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)または一つまたは複数の集積回路であってもよく、本発明の実施形態において提供されるストリーミング・メディア情報処理装置1100またはストリーミング・メディア情報処理装置1200に含まれるモジュールによって実行される必要がある機能を実装するよう、または本発明の方法実施形態において提供される図8または図13に対応するストリーミング・メディア情報処理方法を実行するよう、関係したプログラムを実行するように構成される。プロセッサ1302は集積回路チップであってもよく、信号処理機能をもつ。ある実装プロセスでは、前述の方法におけるステップは、プロセッサ1302内のハードウェア集積論理回路を使って、あるいはソフトウェアの形の命令を使って実装できる。プロセッサ1302は、汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)または他のプログラマブル論理デバイス、離散ゲートまたはトランジスタ論理デバイスまたは離散的なハードウェア・コンポーネントでありうる。プロセッサ1302は、本発明の実施形態において開示されている方法、ステップ、および論理ブロック図を実装または実行してもよい。汎用プロセッサはマイクロプロセッサであってもよく、またはプロセッサは任意の従来のプロセッサなどであってもよい。本発明の実施形態を参照して開示された方法のステップは、ハードウェア復号プロセッサを使って直接実行および完了されてもよく、または復号プロセッサ内のハードウェアおよびソフトウェア・モジュールの組み合わせを使って実行および完了されてもよい。ソフトウェア・モジュールは、ランダムアクセスメモリ、フラッシュメモリ、読み出し専用メモリ、プログラマブル読み出し専用メモリ、電気的に消去可能なプログラマブルメモリ、レジスタなどの当技術分野における成熟した記憶媒体に位置されてもよい。記憶媒体はメモリ1304に位置される。プロセッサ1302はメモリ1304内の情報を読み取り、プロセッサ1302のハードウェアを参照して、本発明の実施形態において提供されるストリーミング・メディア情報処理装置1100またはストリーミング・メディア情報処理装置1200に含まれるモジュールによって実行される必要がある機能を完了する、あるいは本発明の方法実施形態において提供される図8または図13に対応するストリーミング・メディア情報処理方法を実行する。
メモリ1304は、読み出し専用メモリ(Read Only Memory、ROM)、静的記憶装置、動的記憶装置、またはランダムアクセスメモリ(Random Access Memory、RAM)でありうる。メモリ1304は、オペレーティング・システムおよび他のアプリケーション・プログラムを記憶してもよい。本発明の実施形態において提供されるストリーミング・メディア情報処理装置1100またはストリーミング・メディア情報処理装置1200に含まれるモジュールによって実行される必要がある機能を実装する、あるいは本発明の方法実施形態において提供される図8または図13に対応するストリーミング・メディア情報処理方法を実行するためにソフトウェアまたはファームウェアが使われるときは、本発明の実施形態において提供される技術的解決策を実装するために使われるプログラム・コードはメモリ1304に記憶される。プロセッサ1302は、本発明の実施形態において提供されるストリーミング・メディア情報処理装置1100またはストリーミング・メディア情報処理装置1200に含まれるモジュールによって実行される必要がある動作を実行する、あるいは本発明の方法実施形態において提供される、ストリーミング・メディア情報処理方法を実行する。
入出力インターフェース1306は、入力されたデータや情報を受け取り、演算結果などのデータを出力するよう構成される。入出力インターフェース1306は、装置1100内の取得モジュール1101または装置1200内の取得モジュール1201もしくは送信モジュールとして機能することができる。
通信インターフェース1308は、トランシーバを含むがこれに限定されないトランシーバ装置を使って、コンピュータ装置1300と他の装置または通信ネットワークとの間の通信を実装する。通信インターフェース1308は、装置1100内の取得モジュール1101または装置1200内の取得モジュール1201もしくは送信モジュールとして機能することができる。
バス1310は、コンピュータ装置1300の構成要素(プロセッサ1302、メモリ1304、入出力インターフェース1306および通信インターフェース1308など)の間で情報を転送するために使用されるチャネルを含みうる。
図16に示されるコンピュータ装置1300について、単にプロセッサ1302、メモリ1304、入出力インターフェース1306、通信インターフェース1308およびバス1310が示されているが、具体的な実装プロセスにおいて、当業者はコンピュータ装置1300がさらに、通常の実行のために必要とされる他のコンポーネントを含むことを理解するはずである。たとえば、コンピュータ装置1300がストリーミング・メディア情報処理装置1100の実装として使用されるとき、ストリーミング・メディア情報処理装置1100は、再生される必要があるビデオ・データを表示するように構成されたディスプレイをさらに含んでいてもよい。さらに、当業者であれば、具体的な要件に応じて、コンピュータ装置1300が他の追加的な機能を実装するハードウェア構成要素をさらに含んでいてもよいことを理解するはずである。さらに、当業者は、コンピュータ装置1300が本発明のこの実施形態を実装するのに必要な構成要素のみを含んでいてもよく、図16に示されるすべての構成要素を含む必要がないことを理解するはずである。
説明の簡単のため、前述の方法の実施形態は一連の動作として表現されていることを注意しておく。しかしながら、本発明によれば、いくつかのステップが他のシーケンスで実行されてもよく、あるいは同時に実行されてもよいので、当業者は、本発明が記載される動作シーケンスに限定されないことを理解するはずである。さらに、当業者は、本明細書に記載されているすべての実施形態が例示的実施形態であり、関連する動作およびモジュールは必ずしも本発明にとって必須ではないことも理解しておくべきである。当業者は、実施形態における方法のプロセスの全部または一部が関連するハードウェアに命令するコンピュータ・プログラムによって実装されうることを理解しうる。プログラムはコンピュータ可読記憶媒体に格納されてもよい。プログラムが実行されると、実施形態における方法のプロセスが実行される。上記記憶媒体は、磁気ディスク、光ディスク、読み出し専用メモリ(ROM:Read-Only Memory)またはランダムアクセスメモリ(RAM:Random Access Memory)を含みうる。
本発明は、実施形態を参照して記述されているが、保護を請求する本発明を実装するプロセスにおいて、当業者は、付属の図面、開示された内容および付属の請求項を見ることによって、開示された実施形態の別の変形を理解し実装することができる。請求項において、「有する」(comprising)は、他の構成要素または他のステップを排除するものではなく、「ある」または「一つの」は「複数」の場合を排除するものではない。単一のプロセッサまたは別のユニットが特許請求の範囲に列挙されているいくつかの機能を実装してもよい。いくつかの措置は互いに異なる従属請求項に記録されているが、これはこれらの措置を組み合わせてより良い効果を生み出すことができないことを意味するものではない。コンピュータ・プログラムは、光記憶媒体または固体媒体などの適切な媒体において格納/配布されることができ、他のハードウェアと一緒に提供されるか、あるいはハードウェアの一部として使用されるかしてもよく、あるいは別の仕方で、たとえばインターネットまたは他の有線もしくは無線の電気通信システムを使って配布されてもよい。
本明細書では、本発明の原理および実装を説明するために具体的な例が使用されている。前述の実施形態の説明は、単に本発明の方法および概念を理解するのを助けることを意図している。さらに、実装および適用範囲に関して、本発明の概念に従って当業者によって修正がなされてもよい。よって、本明細書は本発明に対する限定として解釈してはならない。

Claims (15)

  1. ストリーミング・メディア情報処理方法であって、当該方法は:
    目標空間オブジェクトの目標空間情報を取得する段階であって、前記目標空間オブジェクトは二つの空間オブジェクトの一方であり、前記二つの空間オブジェクトは目標ビデオ・データに含まれる二つの画像のデータに関連付けられており、前記目標空間情報は同属性空間情報を含み、該同属性空間情報は前記二つの空間オブジェクトのそれぞれの空間情報の間の同じ情報を含み、前記二つの空間オブジェクトにおける前記目標空間オブジェクト以外の空間オブジェクトの空間情報は、前記同属性空間情報を含む、段階と;
    前記目標空間情報に基づいて、再生されるべきビデオ・データを決定する段階とを含む、
    方法。
  2. 前記目標空間情報はさらに、前記目標空間オブジェクトの異属性空間情報を含み、他方の空間オブジェクトの空間情報はさらに、該他方の空間オブジェクトの異属性空間情報を含み、前記目標空間オブジェクトの異属性空間情報は前記他方の空間オブジェクトの異属性情報とは異なる、請求項1記載の方法。
  3. 前記目標空間情報は前記目標空間オブジェクトの中心点の位置情報または前記目標空間オブジェクトの左上点の位置情報を含み、前記目標空間情報はさらに、前記目標空間オブジェクトの幅および前記目標空間オブジェクトの高さを含む、請求項1または2記載の方法。
  4. 前記目標空間情報は、前記目標空間オブジェクトの左上点の位置情報および前記目標空間オブジェクトの右下点の位置情報を含む、請求項1または2記載の方法。
  5. 前記目標空間情報は前記目標空間オブジェクトの空間回転情報を含む、請求項1ないし4のうちいずれか一項記載の方法。
  6. 前記目標空間情報は空間情報データまたは空間情報トラック(track)においてカプセル化され、前記空間情報データは前記目標ビデオ・データのビットストリーム、前記目標ビデオ・データのメタデータまたは前記目標ビデオ・データとは独立なファイルであり、前記空間情報トラックは前記目標ビデオ・データとは独立なトラックである、請求項1ないし5のうちいずれか一項記載の方法。
  7. 前記空間情報データまたは前記空間情報トラックはさらに、同属性空間情報のタイプを示すために使われる空間情報タイプ識別子を含み、前記空間情報タイプ識別子は、前記目標空間情報内にあり、同属性空間情報に属する情報を示すために使われる、請求項6記載の方法。
  8. 前記空間情報タイプ識別子が、前記目標空間情報が同属性空間情報に属する情報をもたないことを示すとき、前記同属性空間情報は、前記目標空間オブジェクトの幅の最小値、前記目標空間オブジェクトの高さの最小値、前記目標空間オブジェクトの幅の最大値および前記目標空間オブジェクトの高さの最大値を含む、請求項7記載の方法。
  9. 前記空間情報タイプ識別子および前記同属性空間情報は同じボックスにおいてカプセル化される、請求項7または8記載の方法。
  10. 前記空間情報データまたは前記空間情報トラックはさらに、前記目標空間情報に対応する座標系を示すために使われる座標系識別子を含み、前記座標系はピクセル座標系または角座標系である、請求項6ないし9のうちいずれか一項記載の方法。
  11. 前記座標系識別子および前記同属性空間情報は同じボックスにおいてカプセル化される、請求項10記載の方法。
  12. 前記空間情報データまたは前記空間情報トラックはさらに空間回転情報識別子を含み、前記空間回転情報識別子は、前記目標空間情報が前記目標空間オブジェクトの空間回転情報を含むかどうかを示すために使われる、請求項6ないし11のうちいずれか一項記載の方法。
  13. ストリーミング・メディア情報処理装置であって、当該装置は:
    目標空間オブジェクトの目標空間情報を取得するよう構成された取得モジュールであって、前記目標空間オブジェクトは二つの空間オブジェクトの一方であり、前記二つの空間オブジェクトは目標ビデオ・データに含まれる二つの画像のデータに関連付けられており、前記目標空間情報は同属性空間情報を含み、該同属性空間情報は前記二つの空間オブジェクトのそれぞれの空間情報の間の同じ情報を含み、前記二つの空間オブジェクトにおける前記目標空間オブジェクト以外の空間オブジェクトの空間情報は、前記同属性空間情報を含む、取得モジュールと;
    前記取得モジュールによって得られた前記目標空間情報に基づいて、再生されるべきビデオ・データを決定するよう構成された決定モジュールとを有する、
    装置。
  14. 前記目標空間情報はさらに、前記目標空間オブジェクトの異属性空間情報を含み、他方の空間オブジェクトの空間情報はさらに、該他方の空間オブジェクトの異属性空間情報を含み、前記目標空間オブジェクトの異属性空間情報は前記他方の空間オブジェクトの異属性情報とは異なる、請求項13記載の装置。
  15. 前記目標空間情報は前記目標空間オブジェクトの中心点の位置情報または前記目標空間オブジェクトの左上点の位置情報を含み、前記目標空間情報はさらに、前記目標空間オブジェクトの幅および前記目標空間オブジェクトの高さを含む、請求項13または14記載の装置。
JP2019535932A 2016-12-30 2017-03-29 情報処理方法および装置 Active JP7058273B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
CN201611252815.4 2016-12-30
CN201611252815 2016-12-30
CNPCT/CN2017/070863 2017-01-11
PCT/CN2017/070863 WO2018120294A1 (zh) 2016-12-30 2017-01-11 一种信息的处理方法及装置
PCT/CN2017/078585 WO2018120474A1 (zh) 2016-12-30 2017-03-29 一种信息的处理方法及装置

Publications (2)

Publication Number Publication Date
JP2020503792A true JP2020503792A (ja) 2020-01-30
JP7058273B2 JP7058273B2 (ja) 2022-04-21

Family

ID=62706774

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019535932A Active JP7058273B2 (ja) 2016-12-30 2017-03-29 情報処理方法および装置

Country Status (8)

Country Link
US (1) US20190325652A1 (ja)
EP (2) EP4287637A1 (ja)
JP (1) JP7058273B2 (ja)
KR (1) KR102261559B1 (ja)
CN (3) CN109074678B (ja)
BR (1) BR112019013609A8 (ja)
MX (1) MX2019007926A (ja)
WO (1) WO2018120294A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021251185A1 (ja) * 2020-06-11 2021-12-16 ソニーグループ株式会社 情報処理装置および方法
JP2022553965A (ja) * 2020-06-12 2022-12-27 テンセント・アメリカ・エルエルシー ビデオコンテンツを表示するための方法、コンピュータシステム、およびコンピュータプログラム
JP2023507317A (ja) * 2020-10-07 2023-02-22 テンセント・アメリカ・エルエルシー Mpd有効期限処理モデル

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102598082B1 (ko) * 2016-10-28 2023-11-03 삼성전자주식회사 영상 표시 장치, 모바일 장치 및 그 동작방법
US11532128B2 (en) 2017-03-23 2022-12-20 Qualcomm Incorporated Advanced signaling of regions of interest in omnidirectional visual media
GB2560921B (en) * 2017-03-27 2020-04-08 Canon Kk Method and apparatus for encoding media data comprising generated content
US10467783B2 (en) 2018-02-23 2019-11-05 ExoAnalytic Solutions, Inc. Visualization interfaces for real-time identification, tracking, and prediction of space objects
WO2020063850A1 (zh) * 2018-09-27 2020-04-02 华为技术有限公司 一种处理媒体数据的方法、终端及服务器
CN116248947A (zh) * 2018-09-27 2023-06-09 华为技术有限公司 处理媒体数据的方法、客户端和服务器
CN109886234B (zh) * 2019-02-28 2021-06-22 苏州科达科技股份有限公司 目标检测方法、装置、系统、电子设备、存储介质
GB2601678B (en) 2019-07-25 2024-03-06 Exoanalytic Solutions Inc Systems and Visualization interfaces for orbital paths and path parameters of space objects
CN113453083B (zh) * 2020-03-24 2022-06-28 腾讯科技(深圳)有限公司 多自由度场景下的沉浸式媒体获取方法、设备及存储介质
CN116248642A (zh) 2020-10-14 2023-06-09 腾讯科技(深圳)有限公司 媒体文件的封装方法、媒体文件的解封装方法及相关设备
US20230018718A1 (en) 2021-06-30 2023-01-19 Lemon Inc. Signaling Replacement of Video Data Units in a Picture-in-Picture Region
WO2024050163A2 (en) 2022-07-29 2024-03-07 ExoAnalytic Solutions, Inc. Space object alert management and user interfaces

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007195091A (ja) * 2006-01-23 2007-08-02 Sharp Corp 合成映像生成システム
US20140340404A1 (en) * 2011-12-16 2014-11-20 Thomson Licensing Method and apparatus for generating 3d free viewpoint video
WO2015144735A1 (en) * 2014-03-25 2015-10-01 Canon Kabushiki Kaisha Methods, devices, and computer programs for improving streaming of partitioned timed media data
JP2015187797A (ja) * 2014-03-27 2015-10-29 シャープ株式会社 画像データ生成装置および画像データ再生装置
WO2015197815A1 (en) * 2014-06-27 2015-12-30 Koninklijke Kpn N.V. Determining a region of interest on the basis of a hevc-tiled video stream
WO2016193544A1 (en) * 2015-06-03 2016-12-08 Nokia Technologies Oy A method, an apparatus, a computer program for video coding

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4304108B2 (ja) * 2004-03-31 2009-07-29 株式会社東芝 メタデータ配信装置、動画再生装置および動画再生システム
CN101291415B (zh) * 2008-05-30 2010-07-21 华为终端有限公司 一种三维视频通信的方法、装置及系统
US20110298795A1 (en) * 2009-02-18 2011-12-08 Koninklijke Philips Electronics N.V. Transferring of 3d viewer metadata
CN101692229B (zh) * 2009-07-28 2012-06-20 武汉大学 基于数据内容的三维空间数据自适应多级缓存系统
US20110149042A1 (en) * 2009-12-18 2011-06-23 Electronics And Telecommunications Research Institute Method and apparatus for generating a stereoscopic image
CN102081671A (zh) * 2011-01-25 2011-06-01 北京中星微电子有限公司 一种视频可伸缩文件的生成方法及装置
CN102184082B (zh) * 2011-05-20 2013-04-03 广州市数字视频编解码技术国家工程实验室研究开发与产业化中心 一种基于双目视差原理的3d浏览器实现方法
CN103164440B (zh) * 2011-12-14 2016-05-11 中国海洋大学 面向虚拟现实的空间数据引擎方法
JP2014010111A (ja) * 2012-07-02 2014-01-20 Toshiba Corp 計測装置、方法、及びプログラム
CN103729358A (zh) * 2012-10-11 2014-04-16 中国航天科工集团第二研究院二〇七所 基于数据库的视频摘要生成方法
US9648299B2 (en) * 2013-01-04 2017-05-09 Qualcomm Incorporated Indication of presence of texture and depth views in tracks for multiview coding plus depth
RU2616185C2 (ru) * 2013-01-18 2017-04-13 Кэнон Кабусики Кайся Способ, устройство и компьютерная программа для инкапсуляции сегментированных синхронизированных мультимедийных данных
CN103391447B (zh) * 2013-07-11 2015-05-20 上海交通大学 3d节目镜头切换中安全深度保证与调整方法
WO2015013720A1 (en) * 2013-07-26 2015-01-29 Futurewei Technologies Inc. Spatial adaptation in adaptive streaming
US10721530B2 (en) * 2013-07-29 2020-07-21 Koninklijke Kpn N.V. Providing tile video streams to a client
CN104657376B (zh) * 2013-11-20 2018-09-18 航天信息股份有限公司 基于节目关系的视频节目的搜索方法和装置
CN103826123B (zh) * 2014-03-04 2017-01-18 无锡海之量软件科技有限公司 面向对象的视频控制流的编码及传输方法
CN104010225B (zh) * 2014-06-20 2016-02-10 合一网络技术(北京)有限公司 显示全景视频的方法和系统
EP4293972A3 (en) * 2014-06-27 2024-03-27 Samsung Electronics Co., Ltd. Method and device for transmitting data
CN104463957B (zh) * 2014-11-24 2017-06-20 北京航空航天大学 一种基于素材的三维场景生成工具集成方法
CN104615735B (zh) * 2015-02-11 2019-03-15 中科星图股份有限公司 一种基于地理信息空间系统的时空信息可视化方法
CN104735464A (zh) * 2015-03-31 2015-06-24 华为技术有限公司 一种全景视频交互传输方法、服务器和客户端
CN106101684A (zh) * 2016-06-30 2016-11-09 深圳市虚拟现实科技有限公司 远程全景图像实时传输和流畅显示的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007195091A (ja) * 2006-01-23 2007-08-02 Sharp Corp 合成映像生成システム
US20140340404A1 (en) * 2011-12-16 2014-11-20 Thomson Licensing Method and apparatus for generating 3d free viewpoint video
WO2015144735A1 (en) * 2014-03-25 2015-10-01 Canon Kabushiki Kaisha Methods, devices, and computer programs for improving streaming of partitioned timed media data
JP2015187797A (ja) * 2014-03-27 2015-10-29 シャープ株式会社 画像データ生成装置および画像データ再生装置
WO2015197815A1 (en) * 2014-06-27 2015-12-30 Koninklijke Kpn N.V. Determining a region of interest on the basis of a hevc-tiled video stream
WO2016193544A1 (en) * 2015-06-03 2016-12-08 Nokia Technologies Oy A method, an apparatus, a computer program for video coding

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021251185A1 (ja) * 2020-06-11 2021-12-16 ソニーグループ株式会社 情報処理装置および方法
JP2022553965A (ja) * 2020-06-12 2022-12-27 テンセント・アメリカ・エルエルシー ビデオコンテンツを表示するための方法、コンピュータシステム、およびコンピュータプログラム
JP7392136B2 (ja) 2020-06-12 2023-12-05 テンセント・アメリカ・エルエルシー ビデオコンテンツを表示するための方法、コンピュータシステム、およびコンピュータプログラム
JP2023507317A (ja) * 2020-10-07 2023-02-22 テンセント・アメリカ・エルエルシー Mpd有効期限処理モデル
JP7434561B2 (ja) 2020-10-07 2024-02-20 テンセント・アメリカ・エルエルシー Mpd有効期限処理モデル

Also Published As

Publication number Publication date
EP3557534A1 (en) 2019-10-23
BR112019013609A2 (pt) 2020-01-07
KR20190101422A (ko) 2019-08-30
BR112019013609A8 (pt) 2023-04-04
CN109074678B (zh) 2021-02-05
JP7058273B2 (ja) 2022-04-21
WO2018120294A1 (zh) 2018-07-05
CN108271044B (zh) 2020-11-17
US20190325652A1 (en) 2019-10-24
EP4287637A1 (en) 2023-12-06
EP3557534A4 (en) 2020-01-01
CN110121734B (zh) 2021-06-01
CN110121734A (zh) 2019-08-13
CN108271044A (zh) 2018-07-10
KR102261559B1 (ko) 2021-06-04
CN109074678A (zh) 2018-12-21
MX2019007926A (es) 2019-12-16

Similar Documents

Publication Publication Date Title
JP7058273B2 (ja) 情報処理方法および装置
KR102241082B1 (ko) 복수의 뷰포인트들에 대한 메타데이터를 송수신하는 방법 및 장치
RU2711591C1 (ru) Способ, устройство и компьютерная программа для адаптивной потоковой передачи мультимедийного контента виртуальной реальности
CN108965929B (zh) 一种视频信息的呈现方法、呈现视频信息的客户端和装置
US20200145736A1 (en) Media data processing method and apparatus
WO2018058773A1 (zh) 一种视频数据的处理方法及装置
WO2018068213A1 (zh) 一种视频数据的处理方法及装置
CN107888993B (zh) 一种视频数据的处理方法及装置
KR102157658B1 (ko) 복수의 뷰포인트들에 대한 메타데이터를 송수신하는 방법 및 장치
KR102214085B1 (ko) 복수의 뷰포인트들에 대한 메타데이터를 송수신하는 방법 및 장치
US20200145716A1 (en) Media information processing method and apparatus
WO2020107998A1 (zh) 视频数据的处理方法、装置、相关设备及存储介质
WO2018072488A1 (zh) 一种数据处理方法、相关设备及系统
WO2018058993A1 (zh) 一种视频数据的处理方法及装置
WO2018120474A1 (zh) 一种信息的处理方法及装置
EP3767953A1 (en) Methods for transmitting and rendering a 3d scene, method for generating patches, and corresponding devices and computer programs
CN108271084B (zh) 一种信息的处理方法及装置
WO2023169003A1 (zh) 点云媒体的解码方法、点云媒体的编码方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190723

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190723

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200923

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20201222

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210303

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220411

R150 Certificate of patent or registration of utility model

Ref document number: 7058273

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150