JP6721631B2 - ビデオの符号化・復号の方法、装置、およびコンピュータプログラムプロダクト - Google Patents

ビデオの符号化・復号の方法、装置、およびコンピュータプログラムプロダクト Download PDF

Info

Publication number
JP6721631B2
JP6721631B2 JP2018114122A JP2018114122A JP6721631B2 JP 6721631 B2 JP6721631 B2 JP 6721631B2 JP 2018114122 A JP2018114122 A JP 2018114122A JP 2018114122 A JP2018114122 A JP 2018114122A JP 6721631 B2 JP6721631 B2 JP 6721631B2
Authority
JP
Japan
Prior art keywords
view
video
quality
bitstream
quality ranking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018114122A
Other languages
English (en)
Other versions
JP2019024197A (ja
Inventor
イゴール クルチオ
イゴール クルチオ
ミスカ ハンヌクセラ
ミスカ ハンヌクセラ
Original Assignee
ノキア テクノロジーズ オーユー
ノキア テクノロジーズ オーユー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ノキア テクノロジーズ オーユー, ノキア テクノロジーズ オーユー filed Critical ノキア テクノロジーズ オーユー
Publication of JP2019024197A publication Critical patent/JP2019024197A/ja
Application granted granted Critical
Publication of JP6721631B2 publication Critical patent/JP6721631B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/188Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a video data packet, e.g. a network abstraction layer [NAL] unit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/36Scalability techniques involving formatting the layers as a function of picture distortion after decoding, e.g. signal-to-noise [SNR] scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • H04N19/463Embedding additional information in the video signal during the compression process by compressing encoding parameters before transmission
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234345Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements the reformatting operation being performed only on part of the stream, e.g. a region of the image or a time segment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/698Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/86Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving reduction of coding artifacts, e.g. of blockiness

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本技術は、概してビデオの符号化・復号に関する。
背景
写真、映画撮影はその創世以来、画像およびビデオコンテンツが比較的狭い視野のカメラで撮影され、平坦なディスプレイに矩形のシーンとして表示されることが最も一般的であった。しかし、近年では画像およびビデオを撮影する新たなデバイスが出現しており、全周囲にわたる視聴覚コンテンツを撮影可能となっている。このコンテンツは、360度画像/ビデオまたは全方向画像/ビデオと呼ばれる。
さらに、ヘッドマウント・ディスプレイ等の新たな出力技術も発明、生産されている。当該デバイスは、使用者に、自身の全周囲の視覚的コンテンツを見ることを可能とする。このような視野が球状となる、新たな撮影および表示形態は一般的にバーチャル・リアリティ(VR)と呼ばれており、将来的に人々がメディアコンテンツを利用する一般的な手段となると目されている。
摘要
ここで、メディアコンテンツのストリーミング帯域幅を低減するための改良された方法と当該方法を実施する技術的装置が発明された。本発明の各種態様には、独立請求項に記載されている内容を特徴とする方法、装置、およびコンピュータプログラムを格納したコンピュータ可読媒体が含まれる。本発明の各種実施形態は、従属請求項に開示されている。
第1の態様によると方法が提供され、前記方法は、メディアコンテンツのビットストリームの中にまたはこれに沿って、1つ以上の不均一の種類を標示するための一連のインジケータを符号化することを含み、不均一の種類によって、第1のビューまたは領域のビデオストリームおよび第2のビューまたは領域のビデオストリームに対して異なる符号化パラメータを定義する。
第2の態様によると装置が提供され、前記装置は、少なくとも1つのプロセッサと、コンピュータプログラムコードを含むメモリとを備え、前記メモリおよび前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサによって、前記装置に対して、メディアコンテンツのビットストリームの中にまたはこれに沿って、1つ以上の不均一の種類を標示するための一連のインジケータを符号化させるように構成され、不均一の種類によって、第1のビューまたは領域のビデオストリームおよび第2のビューまたは領域のビデオストリームに対して異なる符号化パラメータを定義する。
第3の態様によると非一時的コンピュータ可読媒体に実施されたコンピュータプログラムプロダクトが提供され、前記コンピュータプログラムプロダクトは、少なくとも1つのプロセッサによって実行されると、装置またはシステムに対して、メディアコンテンツのビットストリームの中にまたはこれに沿って、1つ以上の不均一の種類を標示するための一連のインジケータを符号化させるように構成されたコンピュータプログラムコードを含み、不均一の種類によって、第1のビューまたは領域のビデオストリームおよび第2のビューまたは領域のビデオストリームに対して異なる符号化パラメータを定義する。
ある実施形態によると、前記方法は上述の装置および/またはコンピュータプログラムプロダクトによって実施され、前記メディアコンテンツの前記ビットストリームの中にまたはこれに沿って、前記第1のビューまたは領域に関連付けられた第1の品質ランキング値および前記第2のビューまたは領域に関連付けられた第2の品質ランキング値を含めることをさらに含み、前記第1および第2の品質ランキング値の順序は、前記第1のビューまたは領域と前記第2のビューまたは領域との知覚される品質の順序を示す。
ある実施形態によると、前記方法は上述の装置および/またはコンピュータプログラムプロダクトによって実施され、前記メディアコンテンツの前記ビットストリームの中にまたはこれに沿って、1つ以上の不均一の種類を標示するための第2の一連のインジケータを含めることをさらに含み、前記第2の一連のインジケータは、同じ品質ランキング値を有する複数の領域中の前記不均一の種類を示す。
ある実施形態によると、前記方法は上述の装置および/またはコンピュータプログラムプロダクトによって実施され、前記メディアコンテンツの前記ビットストリームの中にまたはこれに沿って、前記ビデオストリームのいずれがより高品質であるかを示すパラメータを符号化することをさらに含む。
ある実施形態によると、前記メディアコンテンツは1つ以上の360度ピクチャを含む。
ある実施形態によると、前記一連のインジケータは、不均一インジケータマスクのそれぞれのビット位置に符号化される。
本発明の各種実施形態を以下の図面を参照して詳細に説明する。
図1は、一実施形態による装置を概略ブロック図で示す。 図2は、ある実施形態による装置のレイアウトを示す。 図3は、ある実施形態による表示デバイスを示す。 図4は、ある実施形態によるエンコーダを示す。 図5は、ある実施形態によるデコーダを示す。 図6は、エンドツーエンドDASHシステムの一例を示す。 図7は、360度画像/ビデオコンテンツの作成の一例を示す。 図8は、単一視正距円筒パノラマピクチャを形成する処理の一例を示す。 図9は、詰め込まれた(packed)バーチャル・リアリティ(VR)フレームの一例を示す。 図10は、ある実施形態による方法のフローチャートを示す。
詳細説明
本技術は1つ以上のカメラで撮影された全方向ビデオに関し、このビデオはネットワークを介してストリーミング配信され、例えばヘッドマウント・ディスプレイ(HMD)等の視覚デバイスにレンダリングされる。本実施形態は、メディアコンテンツのストリーミング帯域幅の低減を促進する。
本技術について詳細に説明する前に、一実施形態による装置を図1および図2を参照して開示する。
図1は、例示的実施形態によるビデオ符号化システムのブロック図を、コーデックが組み込まれていてもよい電子デバイス50の概略ブロック図として示す。ある実施形態では、この電子デバイスは、エンコーダまたはデコーダを備えてもよい。図2は、ある実施形態による装置のレイアウトを示す。電子デバイス50は、無線通信システムにおける携帯端末またはユーザ端末であってもよく、カメラデバイスであってもよい。電子デバイス50は、ローカルサーバまたはリモートサーバに設けられてもよく、コンピュータのグラフィック・プロセッシング・ユニットに設けられてもよい。前記デバイスは、ヘッドマウント・ディスプレイデバイスの一部として設けられてもよい。
デバイス50は、これを収容、保護する筐体30を備えてもよい。デバイス50はさらに、液晶ディスプレイであるディスプレイ32を備えてもよい。本発明の別の実施形態では、ディスプレイは画像またはビデオ表示に適した表示技術を採用してもよい。デバイス50は、さらにキーパッド34を備えてもよい。本発明の別の実施形態では、任意の好適なデータまたはユーザインタフェース機構を利用してもよい。例えば、このユーザインタフェースは、タッチ感知ディスプレイの一部としてのバーチャルキーボードまたはデータ入力システムとして実現されてもよい。
デバイス50は、マイクロフォン36または任意の好適な音声入力(デジタル信号入力であってもアナログ信号入力であってもよい)を備えてもよい。デバイス50は、音声出力装置をさらに備えてもよい。本発明の各実施形態では、該音声出力装置は、受話口38、スピーカー、アナログ音声出力接続部またはデジタル音声出力接続部のいずれかであってもよい。デバイス50は、バッテリをさらに備えてもよい(または本発明の別の実施形態では、デバイスが、太陽電池、燃料電池、またはゼンマイ式発電機等の任意の好適な可搬性エネルギー装置によって電源供給されてもよい)。またデバイス50は、画像や動画の記録や撮像が可能なカメラ42を備えてもよい。カメラ42は、少なくとも2つのカメラセンサを有する複数レンズカメラシステムである。このカメラは、個々のフレームを記録または検出可能であり、このフレームはコーデック54またはコントローラに処理するために渡される。このデバイスは、別のデバイスからビデオおよび/または画像データを処理するために受信して、その後このデータを送信および/または格納してもよい。このデバイスは、カメラによって撮影された画像データから360度立体ビデオを生成することが可能である。
デバイス50はさらに、別のデバイスとの短直線距離通信用の赤外線ポートを備えてもよい。ある実施形態によると、デバイス50はさらに、例えばBluetooth(登録商標)無線接続またはUSB(Universal Serial Bus)/FireWire有線接続等の、任意の好適な近距離通信手段を備えてもよい。
デバイス50は、これを制御するコントローラ56またはプロセッサを備えてもよい。このデバイス50またはコントローラ56は、1つ以上のプロセッサまたはプロセッサ回路を含んでもよく、メモリ58に接続されてもよい。メモリ58は、画像、ビデオ、音声データのいずれの形式のデータを格納してもよく、および/またはコントローラ56において実行される命令やプロセッサまたはプロセッサ回路によって実行される命令を格納してもよい。コントローラ56は、画像、ビデオ、および/または音声データの符号化・復号の実行や、コントローラが実行する符号化・復号の補助に適したコーデック回路54に接続されてもよい。
デバイス50は、ユーザ情報を提供し、ネットワークにおけるユーザを認証、承認するための認証情報の提供に適した、例えばUICC(Universal Integrated Circuit Card)およびUICCリーダー等のカードリーダー48およびスマートカード46をさらに備えてもよい。
デバイス50は、コントローラに接続され、例えば携帯通信ネットワーク、無線通信システム、または無線ローカルエリアネットワークと通信するための無線通信信号の生成に適した無線インタフェース回路52を備えてもよい。デバイス50は、無線インタフェース回路52に接続され、無線インタフェース回路52で生成された無線周波数信号を単一または複数の別の装置に送信し、単一または複数の別の装置から無線周波数信号を受信するためのアンテナ44をさらに備えてもよい。デバイス50は、例えば電気ケーブルまたは光ファイバ接続等の有線接続によってデータを送信および/または受信するように構成された1つ以上の有線インタフェースを備えてもよい。この有線インタフェースは、例えばHDMI(登録商標)、モバイル・ハイディフィニション・リンク(MHL)、デジタル・ビジュアル・インタフェース(DVI)等の1つ以上のデジタル表示インタフェース規格に準拠して動作するように構成されてもよい。
図3を参照して、別の実施形態による装置を開示する。図3は、例示的実施形態によるビデオ復号システムのブロック図を、電子デバイスの概略ブロック図として示す。図3のビデオ復号システムは、立体視を可能とするヘッドマウント・ディスプレイである。このヘッドマウント・ディスプレイは、左眼および右眼用の画像を表示する2つのスクリーン部または2つのスクリーンDISP1およびDISP2を備える。これらのディスプレイは両眼に近く配置されることから、レンズを使用して画像を見やすくし、両眼の視野をできるだけ網羅するように画像を拡大する。このデバイスは、ユーザが頭を振ってもあるべき箇所に留まるようにユーザの頭部に装着される。また、このデバイスは、頭部の動きや方向を特定する方位検出回路ORDET1を備えてもよい。この方位検出回路からの出力は、ユーザの視線の方向を推定するために使用されてもよい。もしくは、視線方向の推定のために、視線検出回路がデバイスに設けられてもよい。ヘッドマウント・ディスプレイによって、ユーザは記録されたコンテンツやストリーミング配信されたコンテンツを三次元(3D)で知覚することができる。
ヘッドマウント・ディスプレイの代わりに、拡張現実(augmented reality)/復号現実(mixed reality)(AR/MR)メガネをビデオ復号システムとして使用してもよい。
ビデオコーデックは、入力されたビデオを格納/送信に適した圧縮表現に変換するエンコーダと、その圧縮ビデオ表現を可視形態に戻す展開を行うデコーダとを備える。エンコーダは、ビデオをよりコンパクトな形態で(すなわち、より低いビットレートで)表現するために、元のビデオシーケンスの情報の一部を切り捨ててもよい。画像コーデックまたはピクチャコーデックはビデオコーデックと同様であるが、入力されたピクチャを他の入力ピクチャから独立して符号化し、符号化されたそれぞれのピクチャを他の符号化ピクチャから独立して復号する。以下においてビデオコーデック、ビデオ符号化やエンコーダ、またはビデオデコーダや復号のいずれに言及されている場合であっても、画像コーデック、画像符号化やエンコーダ、または画像デコーダや復号のそれぞれに対して同様に説明が当てはまることを理解されたい。
エンコーダへの入力として与えられたピクチャはソースピクチャとも呼ばれ、デコーダによって復号されたピクチャは復号ピクチャとも呼ばれる。ソースピクチャおよび復号ピクチャは、それぞれ以下のサンプル配列のセットのいずれかのような、1つ以上のサンプル配列からなっている。
・ 輝度(Luma)(Y)のみ(モノクロ)
・ 輝度および2つのクロマ(YCbCrまたはYCgCo)
・ 緑、青、赤(GBRまたはRGB)
・ その他の非特定モノクロまたは三刺激色サンプリングを示す配列(例えば、YZX、またはXYZ)
「画素」という用語は、色成分のサンプル配列の、空間的に結びついたサンプル群を表すものであってもよい。内容によっては、「画素」という用語は1つのサンプル配列のみのサンプルを表すものであってもよい。
以下では、これらの配列は、実際に使用されている色表現方法に関わらず、輝度(LまたはY)およびクロマと呼ばれ、2つのクロマ配列はCbおよびCrとも呼ばれてもよい。実際に使用されている色表現方法は、例えば符号化されたビデオビットストリームにおいて示すことができる。ある成分が、3つのサンプル配列(輝度および2つのクロマ)の内の1つから配列または単一のサンプルとして定義されるか、モノクロフォーマットのピクチャを構成する配列または配列の単一のサンプルとして定義されてもよい。
一部の符号化システムではピクチャはフレームまたはフィールドのいずれであってもよく、別の符号化システムではピクチャはフレームに限定されていてもよい。フレームは、輝度サンプルと場合により対応するクロマサンプルの行列を含む。フィールドは、フレームの1つおきのサンプルの行の組であり、ソース信号がインターレースされている場合、エンコーダ入力として用いられてもよい。
クロマサンプル配列はなくてもよく(よって、モノクロサンプリングが使用される)、または輝度サンプル配列と比較されるときにサブサンプリングされてもよい。クロマフォーマットは、以下のようにまとめられる。
・ モノクロサンプリングでは、サンプル配列が1つのみ存在し、名目上輝度配列とみなされる。
・ 4:2:0サンプリングでは、2つのクロマ配列のそれぞれが輝度配列の半分の高さと半分の幅を有する。
・ 4:2:2サンプリングでは、2つのクロマ配列のそれぞれが輝度配列と同じ高さと半分の幅を有する。
・ 4:4:4サンプリングでは、別個の色平面が使用されない場合、2つのクロマ配列のそれぞれが輝度配列と同じ高さと幅を有する。
ピクチャの空間解像度は、水平および垂直方向において当該ピクチャを表す画素数またはサンプル数として定義されてもよい。あるいは、内容によっては、第1のピクチャと第2のピクチャとでサンプリンググリッドが同じ、すなわち、サンプリング間隔が同じであれば、第1のピクチャの空間解像度は、第2のピクチャの空間解像度と同じと定義されてもよい。後者の定義は、例えば、第1のピクチャと第2のピクチャとが、それぞれピクチャの別部位に対応する場合に適用されてもよい。例えば、第1の数の画素またはサンプルを有するピクチャの領域である第1の領域は、第1の解像度を有すると定義されてもよい。同領域は、第2の数の画素を有する場合、第2の解像度を有すると定義されてもよい。したがって、解像度は画素が含まれる領域における、当該画素の数、または単位角あたりの画素数として定義できる。
符号化構成によっては、輝度およびクロマサンプル配列は、インターリーブ方式で、例えばブロック単位でインターリーブされて符号化される。符号化構成によっては、サンプル配列を別個の色平面としてビットストリームに符号化し、そのビットストリームから別個に符号化された色平面をそれぞれ復号することができる。別個の色平面が使用される場合、そのそれぞれは(エンコーダおよび/またはデコーダによって)モノクロサンプリングのピクチャとして別々に処理される。
ビデオエンコーダは、ビデオ情報を2段階で符号化してもよい。
・ 第1段階で、特定のピクチャエリア(または「ブロック」)の画素値が予測される。この予測を例えば動き補償手段(符号化されるブロックと密接に対応する、先に符号化済みのビデオフレームの1つにあるエリアを探して示す手段)によって実施してもよく、これはインター予測またはインターピクチャ予測と称される。これに代えて、またはこれに加えて、予測を例えば空間手段(特定の方法で符号化されるブロックの周辺の画素値を用いる手段)によって実施してもよく、これはイントラ予測または空間予測と称される。符号化構成によっては、予測がなくても、予測信号があらかじめ定義されてもよい(例えば、ゼロ価ブロック)。
・ 第2段階で、予測誤差、すなわち画素の予測ブロックとその画素の元のブロックとの間の差分が符号化される。これは例えば、特定の変換(例えば、離散コサイン変換(Discrete Cosine Transform:DCT)やその変形)を用いて画素値の差分を変換し、係数を量子化し、量子化済み係数をエントロピー符号化することによって行われる。量子化処理の忠実度は、多くのコーデックにおいて、いわゆる量子化パラメータ(Quantization Parameter:QP)により制御される、量子化ステップのサイズで制御できる。量子化処理の忠実度を変えることによって、エンコーダは画素表現の正確性(画質)と結果として得られる符号化ビデオ表現のサイズ(ファイルサイズまたは伝送ビットレート)との間のバランスを調整することができる。別の例では、画素値は、例えば、ハフマン符号化や算術符号化等の差分パルス符号変調とエントロピー符号化を用いて変換せずに符号化される。
符号化処理の例が図4に示されている。図4は、符号化される画像(I)、画像ブロックの予測された表現(P')、予測誤差信号(D)、再構成予測誤差信号(D')、予備再構成画像(I')、最終再構成画像(R')、変換(T)および逆変換(T−1)、量子化(Q)および逆量子化(Q−1)、エントロピー符号化(E)、参照フレームメモリ(RFM)、インター予測(Pinter)、イントラ予測(Pintra)、モード選択(MS)、およびフィルタリング(F)を示す。復号処理の例が図5に図示されている。図5は、画像ブロックの予測された表現(P')、再構成予測誤差信号(D')、予備再構成画像(I')、最終再構成画像(R')、逆変換(T−1)、逆量子化(Q−1)、エントロピー復号(E−1)、参照フレームメモリ(RFM)、予測(インター予測またはイントラ予測)(P)、およびフィルタリング(F)を示す。
スケーラブルビデオ符号化とは、1つのビットストリームが、例えばビットレート、解像度、またはフレームレートが異なる、複数の表現のコンテンツを格納できるような符号化構造を指してもよい。このような場合、受信機は、その特性(例えば、ディスプレイ装置に最適な解像度)に応じて望ましい表現を抽出することができる。あるいは、サーバまたはネットワーク要素がビットストリームの一部を抽出し、例えばネットワーク特性や受信機の処理能力に応じて受信機に送信されるようにすることもできる。スケーラブルビットストリームの特定の部分のみを復号することにより、有意な復号表現を生成することができる。スケーラブルビットストリームは、一般的には、利用可能な最低品質動画を提供する1層の「基本レイヤ」と、下位レイヤと共に受信、復号されるとビデオ品質を高める1つ以上の「拡張レイヤ」から構成される。拡張レイヤに対する符号化効率を高めるために、レイヤの符号化表現は、一般に下位レイヤに依存する。例えば、拡張レイヤの動き情報およびモード情報が下位レイヤから予測されてもよい。同様に、拡張レイヤ予測を作成するために、下位レイヤの画素データを用いることもできる。
スケーラブルビデオ符号化方式によっては、ビデオ信号は基本レイヤおよび1つ以上の拡張レイヤに符号化されてもよい。拡張レイヤは、例えば、時間分解能(すなわち、フレームレート)や空間分解能を上げたり、あるいは別のレイヤやその一部によって表されるビデオコンテンツの品質を上げたりするだけでもよい。各レイヤは、そのすべての従属レイヤと合わせて、例えば、特定の空間分解能、時間分解能および品質レベルでのビデオ信号の一表現である。本明細書では、そのすべての従属レイヤと合わせたスケーラブルレイヤを「スケーラブルレイヤ表現」と呼ぶ。特定の忠実度で元の信号表現を生成するために、スケーラブルレイヤ表現に対応するスケーラブルビットストリームの一部が抽出され復号される。
「レイヤ」という語は、ビュースケーラビリティや深度拡張等、任意の種類のスケーラビリティの文脈において使用することができる。拡張レイヤは、SNR拡張、空間拡張、マルチビュー拡張、深度拡張、ビット深度拡張、クロマフォーマット拡張、および/または色域拡張等の任意の種類の拡張を指してもよい。基本レイヤは、ベースビュー、SNR/空間スケーラビリティの基本レイヤ、または深度が拡張されたビデオの符号化に対するテクスチャベースビュー等の任意の種類のベースビデオシーケンスを指してもよい。
現在、三次元(3D)ビデオコンテンツを提供するための各種技術が、調査、研究、開発されている。立体視または2ビュービデオにおいて、1つのビデオシーケンスまたはビューは左眼用、平行ビューは右眼用にしてもよい。
ビューは、1つのカメラまたは視点を表すピクチャのシーケンスとして定義することができる。ビューを表すピクチャは、ビュー成分とも呼ばれる。換言すれば、ビュー成分は単一のアクセス単位におけるビューの符号化された表現として定義することができる。マルチビュービデオの符号化では、ビットストリームにおいて2つ以上のビューが符号化される。複数のビューは通常、立体視用ディスプレイやマルチビュー裸眼立体視ディスプレイに表示されること、またはその他の3D構成に使用されることを目的としていることから、通常は同一のシーンを表し、コンテンツによっては異なる視点を表しながら部分的に重畳する。このように、マルチビュービデオの符号化にインタービュー予測を用いることによって、ビュー間の相関関係を活用し圧縮効率を向上させてもよい。インタービュー予測を実現する方法としては、第1のビュー中の符号化または復号されているピクチャの参照ピクチャリストに1つ以上のその他のビューの1つ以上の復号ピクチャを含めることが挙げられる。ビュースケーラビリティはこのようなマルチビュービデオの符号化またはマルチビュービデオのビットストリームを指してもよく、これらによって1つ以上の符号化されたビューを削除または省略することができ、その結果としてのビットストリームは適合性を保ちながら、元のものよりも少ない数のビューでビデオを表す。
H.264/AVC規格(AVCまたはH.264/AVCと略称される場合もある)は、ITU−T(国際電気通信連合の電気通信標準化部門)のビデオの符号化専門家グループ(VCEG)およびISO(国際標準化機構)/IEC(国際電気標準会議)の動画専門家グループ(MPEG)による統合ビデオチーム(JVT)によって開発された。H.264/AVC規格は、その元となる両標準化機構によって公開されており、ITU−T勧告H.264およびISO/IEC国際規格14496−10と呼ばれ、MPEG−4パート10高度ビデオ符号化方式(Advanced Video Coding:AVC)としても知られている。H.264/AVC規格には複数のバージョンがあり、それぞれが仕様に新たな拡張や特徴を統合している。これらの拡張には、スケーラブルビデオ符号化(Scalable Video Coding:SVC)やマルチビュービデオ符号化(Multiview Video Coding:MVC)が挙げられる。
高効率ビデオ符号化(High Efficiency Video Coding)規格(HEVCまたはH.265/HEVCとも略してもよい)は、VCEGとMPEGのビデオの符号化共同研究開発チーム(JCT−VC)によって開発された。この規格は、その元となる両標準化機構によって公開されており、ITU−T勧告H.265およびISO/IEC国際規格23008−2と呼ばれ、MPEG−Hパート2高効率ビデオ符号化として知られている。H.265/HEVCのバージョン2は、スケーラブル拡張、マルチビュー拡張、および忠実度範囲拡張を含み、それぞれSHVC、MV−HEVC、およびREXTと略称される。本明細書におけるH.265/HEVC、SHVC、MV−HEVC、3D−HEVC、REXTについての記載は、特に別途記載がない限り、本発明の出願日の時点で利用可能な、これら規格の最新バージョンについて言及されているもの理解されたい。
ここでは、H.264/AVCおよびHEVCの重要な定義やビットストリーム、符号化の構造、概念の一部が、実施形態を実施可能なビデオエンコーダやデコーダ、符号化方法、復号方法、ビットストリーム構造の例として説明される。H.264/AVCの重要な定義やビットストリーム、符号化の構造、概念の中にはHEVCにおける規格と同一のものもある。したがって、以下ではこれらも一緒に説明される。本発明の態様は、H.264/AVCやHEVCに限定されるものではなく、本明細書は本発明が部分的にまたは全体として実現される上で可能な原理を説明するためのものである
H.264/AVCまたはHEVCのエンコーダからの出力およびH.264/AVCまたはHEVCのデコーダへの入力のための基本単位はそれぞれ、ネットワーク抽象化層(Network Abstraction Layer:NAL)単位である。パケット指向ネットワークでの伝送や構造化ファイルへの格納に対して、NAL単位はパケットや同様の構造にカプセル化されてもよい。
NAL単位は、後続データの種類のインジケータを含むシンタックス構造と、未加工バイトシーケンスペイロード(RBSP)の形態で必要に応じてエミュレーション防止バイトを散在させたデータを含む複数のバイトとして定義することができる。RBSPは、NAL単位にカプセル化される整数のバイトを含むシンタックス構造として定義することができる。RBSPは空であるか、RBSPストップビットおよび0に等しい後続のビットが0個以上続くシンタックス要素を含むデータビット列の形態を持つかのいずれかである。
NAL単位は、ビデオ符号化レイヤ(VCL)NAL単位と非VCL−NAL単位とに分類することができる。VCL NAL単位は、符号化サンプルデータを含む。非VCL−NAL単位は、例えば、シーケンスパラメータセット、ピクチャパラメータセット、補助拡張情報(Supplemental Enhancement Information:SEI)NAL単位、アクセス単位区切り、シーケンスNAL単位の一端、ビットストリームNAL単位の一端、または補充データNAL単位のいずれかの種類であってもよい。パラメータセットは復号ピクチャの再構成に必要であってもよいが、他の非VCL−NAL単位の多くは、復号サンプル値の再構成には必要ない。
符号化ビデオシーケンスで不変のパラメータがシーケンスパラメータセットに含まれてもよい。復号処理に必要なパラメータに加え、シーケンスパラメータセットがビデオユーザビリティ情報(Video Usability Information:VUI)を任意で含んでもよい。これは、バッファリングやピクチャ出力タイミング、レンダリング、およびリソース予約に重要なパラメータを含む。HEVCでは、シーケンスパラメータセットRBSPには、1つ以上のピクチャパラメータセットRBSP、またはバッファリング期間SEIメッセージを含む1つ以上のSEI−NAL単位によって参照可能なパラメータが含まれる。ピクチャパラメータセットは、複数の符号化ピクチャで不変であるようなパラメータを含む。ピクチャパラメータセットRBSPは、1つ以上の符号化ピクチャのVCL−NAL単位によって参照可能なパラメータを含んでもよい。
SEI−NAL単位は1つ以上のSEIメッセージを含んでもよい。これらは出力ピクチャの復号には必要ないが、ピクチャ出力タイミング、レンダリング、エラー検出、エラー隠蔽、リソース予約等の関連処理を補助してもよい。複数のSEIメッセージがH.264/AVCおよびHEVCで規定され、ユーザデータのSEIメッセージによって組織や企業が独自に使用するSEIメッセージを規定できる。H.264/AVCおよびHEVCは、規定されたSEIメッセージのシンタックスとセマンティックを含むが、受信側でメッセージを取り扱う処理については何も定義されない。その結果、エンコーダはSEIメッセージを作成する際、H.264/AVC規格やHEVC規格に従い、デコーダもそれぞれH.264/AVC規格やHEVC規格に準拠する必要があるが、SEIメッセージを出力順規定に準じて処理する必要はない。H.264/AVCおよびHEVCでSEIメッセージのシンタックスとセマンティックを含める理由の1つは、異なるシステム仕様でも補助情報を同じ様に解釈し相互運用を可能にすることである。システム仕様は符号化側と復号側の両方で特定のSEIメッセージを使用できるように要求するものであり、受信側で特定のSEIメッセージを取り扱う処理も規定されてもよい。
HEVCでは、2種類のSEI−NAL単位、すなわち、互いに異なるnal_unit_type値を有する接尾SEI−NAL単位と接頭SEI−NAL単位がある。接尾SEI−NAL単位に含まれるSEIメッセージは、復号順で接尾SEI−NAL単位の前に置かれるVCL−NAL単位に関連付けられる。接頭SEI−NAL単位に含まれるSEIメッセージは、復号順で接頭SEI−NAL単位の後に置かれるVCL−NAL単位に関連付けられる。
入手可能なメディアファイルフォーマット規格には、ISOによるメディアファイルフォーマット(ISO/IEC14496−12、「ISOBMFF」と略称される場合もある)、MPEG−4ファイルフォーマット(ISO/IEC14496−14、「MP4フォーマット」とも呼ばれる)、NAL単位構造化ビデオ用のファイルフォーマット(ISO/IEC14496−15)、および3GPPファイルフォーマット(3GPP TS 26.244、「3GPフォーマット」とも呼ばれる)が挙げられる。上述のファイルフォーマット(ISOBMFFそのものは除く)は、ISOBMFFから派生したものである。
ISOBMFFについての概念、構造、仕様が以下に、実施形態実現の基となりうるコンテナファイルフォーマットの例として記載される。本発明の態様はISOBMFFに限定されるものではなく、本明細書は本発明が部分的にまたは全体として実現される上で可能な原理を説明するためのものである。
ISOによるメディアファイルフォーマットにおける基本的要素をボックスと称する。各ボックスはヘッダとペイロードとを有する。ボックスヘッダは、ボックスの種類と、バイト単位のボックスのサイズとを示す。あるボックスは別のボックスを中に含んでもよく、ISOファイルフォーマットは、特定の種類のボックス内に含むことができるボックスの種類を指定する。さらに、各ファイルにおいていくつかのボックスが存在することが必須条件で、その他ボックスが任意で存在するようにしてもよい。また、ボックス種類によっては、ファイル内に複数のボックスが含まれるようにしてもよい。このように、ISOによるメディアファイルフォーマットはボックスの階層構造を指定するものとも考えられる。
ファイルフォーマットのISOファミリーによると、ファイルはボックスにカプセル化されるメディアデータとメタデータとを含む。各ボックスは、4文字コード(4CC)により識別され、当該ボックスの種類とサイズを示すヘッダから始まる。
ISOによるメディアファイルフォーマットに対応するファイルにおいて、メディアデータは、「mdat」(メディアデータ)ボックス内に設けられてもよく、「moov」(動画)ボックスを使用してメタデータを中に含んでもよい。場合によっては、ファイルが動作可能になるのは、「mdat」ボックスと「moov」ボックスとの両方の存在が必要となりうる。「moov」(動画)ボックスは1つ以上のトラックを含んでもよく、各トラックは、対応する1つの「trak」(トラック)ボックスに存在してもよい。トラックは、メディア圧縮フォーマット(ならびにそのISOによるメディアファイルフォーマットへのカプセル化)に応じてフォーマット化されたサンプルについてのメディアトラックを含む、数多くの種類の内の1つであってもよい。トラックは論理経路と称してもよい。ビデオトラックの場合、メディアサンプルは符号化ピクチャまたはアクセス単位に対応してもよい。
「trak」ボックスは、そのボックスの階層において、使用される符号化の種類についての詳細な情報を示すサンプル説明(SampleDescription)ボックスと、当該符号化に必要な任意の初期化情報とを含む。サンプル説明ボックスは、エントリカウントと、当該エントリカウントが示すのと同数のサンプルエントリを含む。サンプルエントリのフォーマットは、トラック種類固有であるが、一般的なクラス(例えばVisualSampleEntry、AudioSampleEntry)に基づくものである。トラック種類固有のサンプルエントリフォーマットが基づくサンプルエントリの種類は、トラックのメディアハンドラにより決定される。
例えば、記録アプリケーションがクラッシュする、メモリ空間が不足する、またはその他の事態が起きてデータ喪失が生じないよう、動画のフラグメントを使用してコンテンツをISOファイルに記録してもよい。動画のフラグメントを使用しなければ、例えば、動画ボックスのようなメタデータ全体が、ファイルの1つの連続した領域に書き込まれる必要があるファイルフォーマットとなるため、データ喪失が生じうる。さらに、ファイルを記録する際に、利用可能な記憶容量に対して、動画ボックスをバッファするのにメモリ(例えば、ランダムアクセスメモリ(RAM))空間が不足する可能性があり、動画を閉じた際に動画ボックスのコンテンツを再計算するのに時間がかかりすぎる可能性がある。さらに、動画フラグメントは、ファイルを通常のISOファイルパーサを使用してファイルの同時記録および再生を可能としうる。さらに、動画フラグメントが使用され、初期動画ボックスが、メディアコンテンツが同じで動画フラグメントなしで構成されたファイルに対して小さい場合には、例えばファイルの受信、再生を同時に行うような、プログレッシブダウンロードに対しては、初期バッファリングの期間を短くする必要がありうる。
動画フラグメントの特徴により、動画ボックス内に存在するはずであったメタデータを多数のデータに分割可能としうる。各データは、トラックの所定期間に対応する。すなわち、動画フラグメントの特徴は、ファイルのメタデータとメディアデータとをインターリーブ可能としうる。その結果、動画ボックスのサイズを限定でき、上述の使用状況を実現できる。
いくつかの例では、動画フラグメントのメディアサンプルはmdatボックス内に存在してもよい。一方で、動画フラグメントのメタデータについては、moofボックスが設けられてもよい。moofボックスは、moovボックス内に存在していた、所定期間の再生時間についての情報を含んでもよい。moovボックスそのものでも有効な動画を示すこともできるが、それに加えて同ファイル内に、動画フラグメントが続くことを示すmvexボックスが含まれてもよい。動画フラグメントは、moovボックスに時間的に関連付けられた表現を拡張しうる。
動画フラグメント内には、トラックごとに0から複数フラグメントとなるように、一連のトラックフラグメントが存在してもよい。さらにトラックフラグメントは、0から複数のトラックランを含んでもよい。各ランの文書は、そのトラックに対するサンプルの連続ランである(したがって、ひとまとまりのものとして扱える)。これらの構造においては、多くのフィールドは任意であって、初期設定可能である。moofボックスに含まれうるメタデータは、moovボックス内に含まれうるメタデータのサブセットに限定でき、場合によっては互いに異なる符号化が可能である。moofボックス内に含まれうるボックスについての詳細は、ISOBMFF仕様で確認可能である。自立型動画フラグメントは、ファイル順で連続するmoofボックスとmdatボックスとからなり、mdatボックスが動画フラグメントのサンプル(moofボックスによりメタデータが提供される)を含むが、その他動画フラグメントのサンプルを(すなわち、その他いかなるmoofボックスも)含まないものと定義されうる。
メディアセグメントは、1つ以上の自立型動画フラグメントを含んでもよい。例えばMPEG−DASHによるストリーミングのような配信に、メディアセグメントが使用されてもよい。
ISOによるメディアファイルフォーマットは、特定のサンプルに関連付けることができる時限式メタデータに対して3つの機構を含みうる。すなわち、サンプルグループ、時限式メタデータトラック、サンプル補助情報である。導出される仕様は、これら3つの機構の内の1つ以上のものと同様の機能を提供してもよい。
ISOによるメディアファイルフォーマットとその派生物(AVCファイルフォーマットおよびSVCファイルフォーマット等)において、サンプルグループ化は、グループ化基準を基に、トラックにおける各サンプルを1つのサンプルグループに属するように割り当てることと定義されてもよい。サンプルグループ化におけるサンプルグループは、連続的なものに限られない。すなわち、連続しないサンプルが含まれてもよい。トラックにおけるサンプルのサンプルグループ化が複数存在しうるため、各サンプルグループ化はグループ化の種類を示す種類フィールドを有しうる。サンプルグループ化は2つのリンクされたデータ構造により示されてもよい。すなわち、(1)SampleToGroupBox(sbgpボックス)は、サンプルグループに対するサンプルの割当てを示し、(2)SampleGroupDescriptionBox(sgpdボックス)は、グループの性質を示す、各サンプルグループのサンプルグループエントリを含む。SampleToGroupBoxとSampleGroupDescriptionBoxについては、異なるグループ化基準に基づく複数のインスタンスがありうる。これらは、グループ化の種類を示すための種類フィールドにより区別されうる。SampleToGroupBoxは、例えばグループ化のサブタイプを示すために使用されうるgrouping_type_parameterフィールドを含んでもよい。
ビデオストリーミング用途等の、インターネットを介して多数のメディアコンテンツをリアルタイムで配信するために、ハイパーテキストトランスファープロトコル(HTTP)が広く用いられている。HTTPによるアダプティブストリーミングのため、いくつかの商用方式(Microsoft(登録商標)スムースストリーミング、Apple(登録商標)アダプティブHTTPライブストリーミング、Adobe(登録商標)ダイナミックストリーミング等)が展開されており、標準化プロジェクトも進行している。アダプティブHTTPストリーミング(AHS)は、3rd Generation Partnership Project(3GPP)パケット交換ストリーミング(PSS)サービスのリリース9(3GPP TS 26.234 リリース9:「Transparent end-to-end packet-switched streaming service (PSS); protocols and codecs(トランスペアレントエンドツーエンドパケット交換ストリーミングサービス(PSS);プロトコルおよびコーデック)」)において最初に標準化された。MPEGは、3GPP AHSリリース9を開始点としてMPEG DASH標準(ISO/IEC 23009−1:「Dynamic adaptive streaming over HTTP (DASH)-Part 1: Media presentation description and segment formats(ダイナミックアダプティブストリーミング・オーバーHTTP(DASH)第1部:メディアプレゼンテーション記述およびセグメントフォーマット)」、国際標準、第2版、2014年)を規定している。MPEG DASHおよび3GPP−DASHは技術的に似通っており、これらをまとめてDASHと称される場合がある。
DASHにおいて、マルチメディアコンテンツはHTTPサーバに記憶されて、HTTPにより配信されてもよい。コンテンツは2つの部分に分けてサーバに記憶されてもよい、すなわち、メディアプレゼンテーション記述(Media Presentation Description:MPD)と単一または複数のファイルにおけるセグメントである。MPDは、利用可能なコンテンツとその各種変形、そのURLアドレス、その他特徴のマニフェストを示す。セグメントは、実際のマルチメディアビットストリームをチャンクとして含む。MPDは、クライアントにHTTPによるダイナミックアダプティブストリーミングを構築するために必要な情報を提供する。MPDは、GETセグメントリクエストを生成するための、各セグメントのHTTP−URLのようなメディアプレゼンテーション表す情報を含む。コンテンツ再生のために、DASHクライアントは例えばHTTP、eメール、サムドライブ、ブロードキャスト、またはその他の送信方法により、MPDを取得してもよい。MPDを解析することで、DASHクライアントは、プログラムタイミング、メディアコンテンツ可用性、メディア種類、解像度、最小および最大メディア帯域幅、マルチメディア要素の各種符号化選択肢の存在、アクセシビリティ機能と必要なデジタル権利管理(Digital Rights Management:DRM)、ネットワーク上のメディア要素の場所、およびその他コンテンツの特徴について把握可能となりうる。この情報を使用して、DASHクライアントは適切な符号化選択肢を選択し、例えばHTTP GETリクエストを使用して、セグメントを取得することで、コンテンツのストリーミングを開始してもよい。ネットワークスループットの変動を考慮して適切なバッファリングを行った後、クライアントは継続して以降のセグメントを取得し、ネットワーク帯域幅の変動も監視可能である。クライアントは、適切なバッファを維持するために、(より低いまたはより高いビットレートの)異なる選択肢のセグメントを取得することによって、利用可能な帯域幅に対応する方法を決定することができる。
DASHでは、以下の定義を使用することができる。メディアコンテンツ要素またはメディア要素は、メディアストリームに個別に符号化することができる、割り当てられたメディア要素の種類を有するメディアコンテンツの1つの連続した要素として定義することができる。メディアコンテンツは、1つのメディアコンテンツ期間または連続する一連のメディアコンテンツ期間と定義できる。メディアコンテンツ要素の種類は、音声、動画、またはテキスト等の単一の種類のメディアコンテンツとして定義することができる。メディアストリームは、メディアコンテンツ要素が符号化されたものとして定義することができる。
DASHでは、階層データモデルを使用して、以下のようにメディアプレゼンテーションを構成する。メディアプレゼンテーションは、1つまたは複数の期間のシーケンスからなる。各期間は1つまたは複数のグループを含む。各グループは1つ以上の適応セットを含む。各適応セットは、1つまたは複数の表現を含む。各表現は、1つまたは複数のセグメントからなる。グループは、同時に提示されることが想定されない複数の適応セットの集合として定義されてもよい。適応セットは、1つまたは複数のメディアコンテンツ要素が交換可能な一連の符号化されたものとして定義されてもよい。表現は、メディアコンテンツまたはそのサブセットの選択肢の1つであり、典型的には符号化における、ビットレート、解像度、言語、コーデック等の選択により異なるものである。セグメントは、メディアデータの特定の期間と、含まれているメディアコンテンツを復号して提示するためのメタデータを含む。セグメントはURIにより識別され、典型的にはHTTP GETリクエストにより、要求可能である。セグメントは、HTTP−URLに関連するデータの単位と、任意でMPDによって指定されるバイト範囲として定義することができる。
DASH MPDはXML(Extensible Markup Language)に準拠しているため、XMLで定義されている要素と属性によって指定される。MPDは、以下のとおりに指定可能である。すなわち、XML文書内の要素は、大文字の最初の文字で識別され、要素として太字で表示される。ある要素Element1が別の要素Element2に含まれていることを表すために、Element2.Element1と記載できる。要素の名前が2つ以上の結合語で構成されている場合、キャメルケースを使用してもよく、例えばImportantElementのように記載できる。要素が一度のみ提示されてもよく、または最小および最大発生は<minOccurs> ... <maxOccurs>によって定義されてもよい。XML文書における属性は、小文字の最初の文字で識別可能である。また、先頭に「@」記号を付して、例えば@attributeのようにしてもよい。要素Elementに含まれる特定の属性@attributeを指すために、Element@attributeと記載できる。属性の名前が2つ以上の結合語で構成されている場合、最初の単語の後にキャメルケースを使用し、@veryImportantAttributeのように記載してもよい。属性は、必須(M)、任意(O)、デフォルト値で任意(OD)、および条件付き必須(CM)のようにXMLのステータスを割り当てられてもよい。
DASHでは、すべての記述子要素は同様に構造化される。すなわち、@schemeIdUri属性を含み、スキームを識別するURIとオプションの属性@valueと任意の属性@idを提供する。要素のセマンティックは使用されるスキームに固有である。スキームを識別するURIは、URNまたはURLであってもよい。いくつかの記述子はMPEG−DASH(ISO/IEC 23009−1)で規定されているが、さらに/あるいは記述子を他の仕様で規定することもできる。MPEG−DASH以外の仕様で規定された場合、MPDは記述子要素の使用方法に関する特定の情報を提供しない。適切なスキーム情報による記述要素のインスタンス化は、DASHフォーマットを採用するアプリケーションまたは仕様に依存する。これらの要素の1つを使用するアプリケーションまたは仕様では、URIの形式でScheme Identifierを定義し、当該Scheme Identifierが使用される場合の要素の値空間を定義する。Scheme Identifierは@schemeIdUri属性に表示される。単純な列挙値群が必要な場合は、各値に対してテキスト文字列を定義し、この文字列を@value属性に含めてもよい。構造化データが必要な場合は、任意の拡張要素または属性を別の名前空間に定義してもよい。@id値は、固有の記述子または記述子群を参照するために使用可能できる。記述子群の場合、属性@idと同一の値を持つ記述子は同義である必要がありえる。すなわち、@idの値が同じ記述子の1つに対する処理のみでよい。DescriptorTypeの2つの要素は、要素名、@schemeIdUriの値、および@value属性の値が等しい場合、同値となる。@schemeIdUriがURNの場合、同値とはRFC 2141の第5節で定義されるように、字句同値を指しうる。@schemeIdUriがURLの場合、同値とはRFC3986の6.2.1節で定義されているように、文字単位の同値を指しうる。@value属性が存在しない場合、同値は@schemeIdUriの同値によってのみ決定される。拡張名前空間の属性と要素は同値判定に無関係となりうる。同値判定の際に、@id属性を考慮しなくてもよい。
MPEG−DASHは、記述子EssentialPropertyおよびSupplementalPropertyを指定する。要素EssentialPropertyについて、メディアプレゼンテーションの著者は、要素が別のEssentialProperty要素と同じ@idを共有しない限り、記述子を処理しなければ当該記述子を含む親要素の情報を適切に使用できないと記している。複数のEssentialProperty要素が同じ@idを共有する場合、EssentialProperty要素の1つを、当該@idに対する同じ値で処理すればよい。個別の@id値の少なくとも1つのEssentialProperty要素が処理されることが期待される。スキームまたはEssentialProperty記述子の値が認識されない場合、DASHクライアントは記述子を含む親要素を無視するものと考えられる。MPDは、@idが互いに同じまたは異なる複数のEssentialProperty要素を含みうる。
要素SupplementalPropertyの場合、メディアプレゼンテーションの著者は、記述子が最適化処理のため、DASHクライアントによって使用される補足情報を含むことを記している。スキームまたはSupplementalProperty記述子の値が認識されない場合、DASHクライアントは記述子を無視するものと考えられる。MPDは複数のSupplementalProperty要素を含みうる。
MPEG−DASHは、ISOBMFFおよびMPEG−2トランスポートストリームの両方のセグメントコンテナフォーマットを定義する。他の仕様により、他のコンテナフォーマットに基づくセグメントフォーマットを指定することができる。例えば、Matroskaコンテナファイルフォーマットに基づくセグメントフォーマットが提案されている。以下に概略を述べる。MatroskaファイルがDASHセグメント等として伝送される場合、DASHユニットとMatroskaユニットとは、以下のように関連付けられる。(DASHの)サブセグメントは、1つ以上の連続したカプセル化されたMatroskaコンテンツのクラスタとして定義されてもよい。DASHの初期化セグメントは、EBMLヘッダ、(Matroskaの)セグメントヘッダ、(Matroskaの)セグメント情報およびトラックを含むことが必須とされ、任意で他のレベル1要素およびパディングを含むことができる。DASHのセグメントインデックスは、Matroskaのキュー要素を含むことができる。
DASHは、様々に変更するネットワーク帯域幅に一致するよう、適応セット内の複数の異なる表現からメディアセグメントを動的に要求することで、速度適応に対応する。DASHクライアントが表現を上下に切り替える場合、表現内のコーディング依存関係を考慮する必要がある。表現切替えは、H.264/AVC等のビデオ符号化技術で通常使用されるランダムアクセスポイント(RAP)で発生しうる。DASHでは、ストリームアクセスポイント(SAP)と呼ばれる一般的概念を導入している。これは、表現にアクセスして複数の表現間で切替えを実行するコーデックに依存しないソリューションである。DASHでは、SAPは表現の位置として指定され、メディアストリームの再生は、当該位置から開始する表現データに含まれる情報のみを使用して開始できる(初期化セグメント内に初期化データがあればそれが先行する)。これにより、SAPで表示の切替えを実行できる。
図6は、エンドツーエンドのDASHシステムの簡略図である。エンドツーエンドのDASHシステムは、以下のとおり構成される。配信サーバ610は典型的には従来のウェブ(HTTP)サーバであり、メディアコンテンツを提供する。配信サーバ610は、コンテンツ配信ネットワーク(CDN)620に接続されてもよい。CDN620を介して、ストリーミング配信されたコンテンツがエッジサーバ625に配信され、格納される。MPDは、コンテンツの複数のベースURLの信号による伝達を可能にし、これにより異なるエッジサーバ625におけるコンテンツの可用性を通知できる。あるいは、コンテンツサーバ610は、インターネット605に直接接続されてもよい。DASHクライアント601と、配信元610またはコンテンツを要求するエッジサーバ625との間でHTTPトラフィックをルーティングする経路上にウェブプロキシが存在してもよい。ウェブプロキシはHTTPメッセージをキャッシュ可能であり、したがってキャッシュされたコンテンツによりクライアント601の要求を処理可能である。これにより、プロキシから原点610またはエッジサーバ625に向かって必要なネットワーク帯域幅を削減されるため、ネットワークサービスプロバイダにおいて一般的に実施される方式である。エンドユーザ601に対しては、HTTPキャッシュによりレイテンシが低減できる。DASHクライアント601は、モバイルセルラネットワーク等のアクセスネットワークを介してインターネット605に接続されてもよい。
DASHでは、幅と高さ(@widthと@height)、フレームレート(@frameRate)、ビットレート(@bandwidth)、表現間の指示された品質順序(@qualityRanking)に基づいて、同じ適応セット内の複数の表現間の自動選択が実現される。@qualityRankingのセマンティックは、次のように指定される。すなわち、ある表現の、同じ適応セット内の他の表現に対する品質ランクを指定する。値が低いほど品質の高いコンテンツを示す。@qualityRankingが存在しない場合、ランキングは定義されない。
本願では、「360度ビデオ」または「仮想現実(VR)動画」または「全方向性動画」という用語は同義として使用することができる。これらの用語は、一般的に、典型的な表示構成において、単一の時点では動画の一部のみが表示されるような巨大な視野を提供するビデオコンテンツを指す。例えば、VRビデオは、例えば図3に示すような、例えば100度視野を表示可能な頭部装着型ディスプレイ(HMD)で見ることができる(図3に示す)。表示されるVRビデオコンテンツの空間サブセットは、HMDの向きに基づいて選択されてもよい。視聴環境の別の例を表す従来のフラットパネル視聴環境では、例えば最大で40度の視界で表示が実行される。このようなフラットパネルディスプレイ上に広い視野のコンテンツ(例えば、魚眼画像)を表示する場合、ピクチャ全体ではなく、ピクチャの空間サブセットを表示してもよい。そのような例では、VRビデオコンテンツの表示された空間サブセットは、視聴に使用される装置の方位に基づいて選択されてもよい。または例えば、ユーザに基本ユーザインタフェース(UI)制御を提供することによって、コンテンツのパニングを可能としてもよい。
HMDが使用しうるビデオインタフェースはHMDIであり、これはビデオ情報が3つのTMDS(Transition Minimized Differential Signaling)チャネル(RGB、YCbCr)でビデオデータ期間として送信されるシリアルインタフェースである。別のビデオインタフェースとしてsuperMHLでは、TMDSチャネルがより多く(6〜8個)存在するため、ビデオやその他のデータをより柔軟に転送できる。主な違いとしては、MHLがピクセルのRGB(またはYCbCr)情報を、1つのTMDSチャネルを介して順次送信することが挙げられる。
伝送チャネルまたは通信チャネルまたはチャネルは、ワイヤ等の物理的伝送媒体、または多重化媒体を介した論理的接続のいずれかを指してもよい。チャネルの例としては、ビデオインタフェースケーブルのレーンと、リアルタイム転送プロトコル(RTP)ストリームとが挙げられる。
リアルタイム転送プロトコル(RTP)は、音声や動画等の時限式メディアのリアルタイム転送に幅広く利用されている。RTPは、インターネットプロトコル(IP)上で動作するユーザデータグラムプロトコル(UDP)上で動作する。RTPは、IETF(Internet Engineering Task Force)リクエストフォーコメンツ(RFC)3550(www.ietf.org/rfc/rfc3550.txt参照)で規定されている。RTP転送では、メディアデータがRTPパケットにカプセル化される。通常、各メディアの種類またはメディアコーディングフォーマットは、専用のRTPペイロードフォーマットを有する。
RTPセッションは、RTPと通信する参加者のグループ内で関連付けを行うものであり、潜在的に多数のRTPストリームを伝送可能なグループ通信チャネルである。RTPストリームは、メディアデータを含むRTPパケットのストリームである。RTPストリームは、特定のRTPセッションに属するSSRCによって識別される。SSRCは、RTPパケットヘッダ内の32ビットSSRCフィールドである同期ソースまたは同期ソース識別子のいずれかを指す。同期ソースは、当該同期ソースからのすべてのパケットが同じタイミングおよびシーケンス番号空間の一部を形成することを特徴としているため、受信機は同期ソースによってパケットをグループ化して再生することができる。同期ソースの例は、マイクロフォンまたはカメラ等の信号源から得られたパケットのストリームの送信者やRTPミキサを含む。各RTPストリームは、RTPセッション内で一意のSSRCによって識別される。
360度画像またはビデオコンテンツは、例えば以下のようにして撮影および生成可能である。すなわち、画像またはビデオは、複数のレンズおよびセンサを備えたカメラ組またはカメラ装置によって撮影可能である。この撮影により、デジタル画像/ビデオ信号組が得られる。カメラ/レンズは、カメラ組またはカメラ装置の中心点の周りのすべての方向を網羅してもよい。同じ時間インスタンスの画像は、つなぎ合わされ、投影され、詰め込まれたVRフレームにマッピングされる。図7に当該処理の例を示す。まず、カメラ装置から入力画像700を取得する。これらの入力画像は、つなぎ合わされて球体または立方体のような3次元投影構造に投影710される。投影構造は、平面またはその一部のような1つまたは複数の表面を含むと捉えられる。投影構造は、撮影VR画像/ビデオコンテンツが投影される1つまたは複数の面であって、そこからそれぞれの投影されたフレームを形成することが可能な面からなる3次元構造と定義できる。投影構造上の画像データはさらに、2次元投影されたフレーム720(投影ピクチャ)上に配置される。「投影」(無指向性投影)という用語は、入力画像組を、投影されたフレームに投影するプロセスとして定義することができる。投影されたフレームに対して例えば、正距円筒投影法(ERP、正距円筒パノラマ)および立方体マップ(CMP)表現フォーマット等、表現フォーマット組が事前定義されてもよい。
投影されたフレームを1つまたは複数の詰め込まれた(packed)VRフレーム740(詰め込まれたピクチャまたは詰め込まれたフレーム)にマッピングするために、領域別マッピング730(領域別パッキング)を任意で適用することができる。場合によっては、領域別マッピングは、投影されたフレームから2つ以上の領域を抽出すること、任意で選択的に領域に幾何学的変換(回転、ミラーリング、および/または再サンプリング等)を適用すること、および変換された領域を詰め込まれたVRフレーム内の空間的に重ならない領域(構成フレーム区画内)に配置することを含むものと理解される。領域別マッピングを経ない場合、詰め込まれたVRフレームは投影されたフレームに等しい。それ以外の場合は、投影されたフレームの領域は、詰め込まれたVRフレーム内での各領域の位置、形状、およびサイズを示すことによって、詰め込まれたVRフレームにマッピングされる。マッピングという用語は、投影されたフレームが詰め込まれたVRフレームにマッピングされるプロセスとして定義されてもよい。詰め込まれたVRフレームという用語は、投影されたフレームのマッピングから生じるフレームとして定義することができる。実際には、入力画像は、中間ステップを要さずに、単一の処理で詰め込まれたVRフレームに変換することができる。詰め込まれたVRフレームは、画像/ビデオ符号化750のために提供される。
360度パノラマコンテンツ(画像やビデオ)は、カメラデバイスの撮影位置から水平方向に、360度視野全周を網羅する。垂直視野は、変動しうるもので、例えば、180度であってもよい。水平方向に360度視野、垂直方向に180度視野を網羅するパノラマ画像は、正距円筒投影により、二次元画像平面にマッピングされた球により表現できる。この場合、変換またはスケーリングを適用せずに、水平座標は経度と同等とみなすことができ、垂直座標は緯度と同等と考えることができる。図8に、単一視正距円筒パノラマピクチャを形成する処理を示す。カメラアレイまたは複数のレンズおよびセンサを有するカメラ装置からの、魚眼画像等の入力画像組800が、球面画像上にクロスブレンドまたはつなぎ合わされる810(等距離投影)。球面画像は、さらに円筒(上面および下面なし)に投影820される。円筒は展開されて2次元投影されたフレーム830となる。実際には、上記のステップの1つまたは複数を組み合わせてもよい。例えば、入力画像は、球面上への中間投影を伴わずに円筒上に直接投影されてもよい。正距円筒パノラマ用の投影構造は、単一の表面を含む円筒と捉えることができる。同様に、立体視正距円筒のパノラマピクチャは、左眼および右眼の入力画像組から形成することができる。立体視正距円筒パノラマでは、パノラマの上部が左眼画像であり、パノラマの下部が右眼画像であってもよい。
正距円筒投影は、(正距円筒投影フォーマットの)投影ピクチャ内の任意のサンプル位置を座標系の角度座標に変換する処理として定義することができる。投影ピクチャ内のサンプルの位置は、サンプル内の正距円筒パノラマピクチャのそれぞれの幅および高さであるpictureWidthおよびpictureHeightに基づいて定義することができる。以下、水平および垂直軸に沿ったサンプル位置の中心点をそれぞれiおよびjとする。サンプル位置の角度座標(Φ、θ)(単位:度)は、以下の正距円筒マッピング方程式で求められる。

Φ =( i ÷ pictureWidth - 0.5 )* 360, θ =( 0.5 - j ÷ pictureHeight )* 180
通常、360度のコンテンツは、多面体(すなわち、例えば立方体またはピラミッドを含む、平坦な多角形面、直線的なエッジ、および鋭角の角または頂点を有する3次元立体オブジェクト)、円筒(上述のように、正距円筒投影にて球形の画像を円筒上に投影)、円筒(球への投影を経ずに直接)、円錐等の異なる様々な種類の立体幾何学構造にマッピングでき、その後二次元画像平面に展開できる。
場合によっては、水平視野は360度で、垂直視野が180度未満のパノラマコンテンツは、球の極領域が二次元画像平面上にマッピングされていない正距円筒投影の特殊例と考えられる。また、場合によって、パノラマ画像は、水平視野が360度未満で、垂直視野が最大で180度であってもよく、それ以外は正距円筒投影形式の特徴を有するものであってもよい。
球状領域は、球上の領域として定義されてもよく、球状領域を指定する手段によってさらに限定されてもよい。当該手段としては、領域を4つの大円または2つのヨー円と2つのピッチ円により指定することが含まれうるが、これに限定されない。大円は、球と、その球の中心点を通過する平面との交点と定義することができる。大円は、大円の弧(orthodrome)またはリーマン円とも呼ばれる。球と大円とは中心位置が同じである。ピッチ円は、ピッチ値が等しいすべての点を接続する球上の円として定義できる。ヨー円は、ヨー値が等しいすべての点を接続する球上の円として定義できる。球状領域は、同じパラメータ(例えば、同じ大円)で定義される他の球状領域と区別されるように、領域内の点、例えば領域の中心点をさらに要しうる。
品質ランキングは、品質ランキング値に関連付けられ、復号されたピクチャまたは球に関して指定される領域として定義されてもよい。2D領域は、復号されたピクチャ上の領域として定義されてもよく、さらに矩形に限定されてもよい。品質ランキング2D領域は、復号されたピクチャに対して指定された品質ランキング領域として定義されてもよい。品質ランキング球状領域は、球に関して指定された品質ランキング領域として定義されてもよい。
360度システムでは、座標系は、ヨー角(Φ)、ピッチ角(θ)、およびロール角を定義するために使用されうる直交座標軸X(横)、Y(垂直、上向き)、Z(後ろから前の軸、外向き)により定義できる。ヨーは、Y軸を中心に回転、ピッチはX軸を中心に回転、ロールはZ軸を中心に回転するものと定義できる。回転は、外部要因依存であり、すなわち、X、Y、およびZ固定基準軸の周りに定義されてもよい。原点から軸の正の端に向かって見ると、角度は時計回りに増加するように定義することができる。
グローバル座標軸は、上述した座標系に基づき、同じ取得位置を表し、一緒にレンダリングされるオーディオ、ビデオ、および画像に関連付けられた座標軸として定義することができる。グローバル座標軸の原点の位置は、通常、全方向性オーディオ/ビデオ取得のために使用されるデバイスまたはリグの中心点、ならびにオーディオおよびビデオトラックが存在する3次元空間における観察者の頭部の位置と同じである。初期視点メタデータがない場合、グローバル座標軸に対して(ヨー、ピッチ、ロール)の方向(0、0、0)を使用して再生を開始することが推奨される。
人間の眼では360度空間全体を見ることは不可能であり、最大水平および垂直視野(FoV、人間の眼の水平視野(HHFoV)、人間の眼の垂直視野(HVFov))に限定される。また、HMDデバイスは、技術的限界により、水平および垂直方向(デバイス水平視野(DHFoV)、デバイス垂直視野(DVFoV))で360度の空間全体のサブセットのみを見ることを可能にする。
任意の時点で、HMD上のアプリケーションによってレンダリングされたビデオにより、360度ビデオの一部がレンダリングされる。このアプリケーションにおいて、当該部分は「ビューポート」と定義される。ビューポートは、レンダリングディスプレイを介して表示された全方位ビデオで表される360度世界におけるウィンドウである。ビューポートは、水平および垂直視野(ビューポート水平視野(VHFoV)、ビューポート垂直視野(VVFoV))によって特徴付けられる。以下、VHFoVおよびVVFoVを、HFoVおよびVFoVと略記する。
ビューポートのサイズは、アプリケーションに応じて、HMD視野に対応してもよく、またはHMD視野よりも小さくても大きくてもよい。より分かりやすいよう、任意の時点でユーザが見る360度の空間の部分を「主ビューポート」と呼ぶ。
VRビデオのストリーミングビットレートを低減する1つの方法として、ビューポート適応ストリーミング(ビューポート依存配信)が挙げられる。当該ストリーミングでは、主要ビューポートを網羅する360度ビデオコンテンツのサブセット(すなわち、現在のビューの向き)が最高品質/解像度で伝送され、360度ビデオの残りの部分は低品質/解像度で伝送される。ビューポート適応型ストリーミングには、一般に次の2つのアプローチが存在する。
(1)ビューポート固有の符号化およびストリーミング(ビューポート依存の符号化およびストリーミング、非対称投影、詰め込まれたVRビデオとも称される)。この手法では、360度の画像コンテンツは、主ビューポート上で強調(例えば、より大きな空間領域)され、同じフレームに詰め込まれる。詰め込まれたVRフレームは、単一のビットストリームに符号化される。例えば、立方体マップの前面を他の立方体面に比べて高い解像度でサンプリングし、立方体面を図9に示すように同じ詰め込まれたVRフレームにマッピングすることができる。
(2)VRビューポートビデオ(タイルベースのエンコーディングおよびストリーミングとも称される)。このアプローチでは、360度コンテンツが符号化され、様々な符号化からビューポートが選択的にストリーミング可能なように提供される。例えば、各立方体の面を別々に符号化することができる。各立方体面に対して、例えばそれぞれ異なる空間分解能を有する2つ以上の符号化されたビットストリームが提供されてもよい。プレーヤは、現在の視聴方向に基づいて復号および再生されるビットストリームを選択することができる。現在の表示方向のレンダリングに使用される立方体面に対しては高解像度ビットストリームが選択され、残りの立方体面は低解像度ビットストリームから取得されてもよい。
別の例では、正距円筒パノラマコンテンツは、動きが制限されたタイルセットを使用して符号化される。異なる空間解像度および/または画質を有する、2つ以上の符号化されたビットストリームが提供されてもよい。動きが制限された各タイルセットは、それぞれのビットストリームで利用可能になる。プレーヤは、現在の視聴方向に基づいて復号および再生されるビットストリームを選択することができる。現在の主ビューポートを網羅するタイルセットに対して高解像度または高品質のビットストリームを選択し、360度のコンテンツの残りの領域は低解像度または低品質のビットストリームから取得してもよい。
上述のアプローチ(1)および(2)を組み合わせることができる。
360度の空間は、それぞれが所定の距離(例えば、単位は度である)で区切られた離散したビューポート組に分割されていると仮定することができるため、全方位空間を重複するビューポートのマップとして捉えることができ、ユーザがHMDでコンテンツを見ながら自身の向きを変えると、主ビューポートが離散的に切り替わる。ビューポート間の重なりがゼロになると、ビューポートは、360度の空間内で隣接して重なっていないタイルとして捉えられうる。H.265ビデオコーデックは、当該状況(重複する場合、しない場合のいずれも)を実現するために使用されうるタイルの概念を実現するように構成されている。
VR領域では、同じ信号がHMDを介して両眼にレンダリングされる場合、ビデオ信号がモノスコープであると定義される。両眼での両眼視による立体視効果(すなわち、奥行き感知)を実現できる場合、ビデオ信号は立体視として定義される。立体視は、両眼の間の両眼視差によって実現される。すなわち、眼の間の所定の距離により、奥行きが感知可能となる。立体信号は2つのデータストリームからなり、それぞれ右眼、左眼で見られるものとなる。当該ストリーム同士の差分は、上述のように両眼視差によって実現される。
人間の視覚システム(HVS)は興味深い特性を持つ。すなわち、左右の眼に対して(ある限度まで)異なる品質でレンダリングされた立体映像信号でも、あたかも左と右の両方で最高品質であるかのように知覚される。このため、HVSは、低品質画像に関してマスキングフィルタを適用する。
HVSのいくつかの特性は数十年前から解明されているが、HMD上のビデオレンダリング中にいくつかの種類の不均一性を利用した立体視ビデオに対するHVSの反応の完全な解明はいまだなされておらず、多分に研究の余地がある。
今までの調査研究により、ビュー間の不均一な品質により、知覚されるビデオ品質が劣化せずに(知覚される品質が、より高品質のビューの品質に近いことによる)、システムに必要な帯域幅を低減するためのデジタル360度ビデオストリーミングシステムが実現できることが分かっている。
360度ステレオビデオの配信は、以下により詳細に説明される、いくつかのパラメータによって特徴付けられる。これらのパラメータは重要な役割を果たし、ストリーミング帯域幅の要件を軽減する目的で、不均一な立体映像360度ビデオストリーミング配信に利用できる。
最近、MPEG(Motion Picture Experts Group)は、立体映像を使用できる全方向性メディアフォーマット(Omnidirectional Media Format:OMAF)の最初の規格の定義に着手した。現在、不均一な360度ビデオの運用に対する規格は存在しない、またはその仕様が不十分である。本実施形態は、この現状の不満を解消し、およびMPEG OMAFまたは同様のシステムにおける不均一な360度ビデオのストリーミングを可能にするために必要とされる一連のパラメータを定義することを目標とする。
ビデオビットストリームの特性は、ビットストリーム内のビデオ使用可能性情報(VUI)および/または補足拡張情報(SEI)のような様々な手段によってシグナリングすることができるが、このようなシグナリングは360度ビデオの異なる球状領域の異なる特性を示すためには使用できない。
MPEG−DASH等の現行のストリーミングシステムでは、ストリーミングクライアントは、ストリーミングマニフェストまたはプレゼンテーション記述に示されるコンテンツ特性に基づいて、MPEG−DASHの表現等のコンテンツピースを選択する。同様に、マルチメディアファイルがメディアコンテンツの複数の異なるビットストリームを含む場合、ビデオプレーヤは、マルチメディアファイルに示された特性に基づいて、使用に最適なビットストリームを選択する。
360度ビデオの再生では、コンテンツは様々な要因に基づいて選択可能であるとされている。当該要因の1つとして、ビューポート依存コンテンツ選択が挙げられる。これは、処理がより複雑でなくなるように、非可視領域の特性を犠牲にしながら、現在表示されているビューポートの高品質を提供するコンテンツを選択することを可能とするものである。別の要因としては、ディスプレイに依存するおよび/またはユーザの好みに基づく、左右のビューの特性の不均一性に対する限定が挙げられる。
HEVCでは、領域的に入れ子状のSEIメッセージは、SEIメッセージを画像の領域に関連付けるためのメカニズムを提供する。関連付けられたSEIメッセージは、領域的に入れ子状のSEIメッセージに含まれて伝達される。領域的に入れ子状のSEIメッセージは、1つまたは複数のSEIメッセージを含む。SEIメッセージが領域的に入れ子状のSEIメッセージに含まれる場合、この含まれるSEIメッセージは、領域に入れ子にされたSEIメッセージと呼ばれる。領域的に入れ子状のSEIメッセージ内の各領域に入れ子にされたSEIメッセージにおいて、領域的に入れ子状のSEIメッセージには1つ以上の領域が指定され、領域に入れ子にされたSEIメッセージのセマンティックはこれらの各領域に適用されるものとして解釈される。
したがって、このメカニズムにより、ピクチャの領域の異なる特性および領域が指定できる。
360度ビデオにおける不均一性を実現する方法は、以下のとおり様々なものが存在する。すべての方法は、立体視360度ビデオの送信(例えば、ストリーミング)および/または格納について求められる帯域幅の低減という利点を実現しながら、視覚的品質を一定に保つことである。
信号対ノイズ比(Signal-to-Noise Ratio:SNR)不均一では、あるビューがより高いSNR品質で(例えば、より低いQPを使用して)送信、レンダリングされ、別のビューがより低いSNR品質で(すなわち、より高いQPを使用して)送信、レンダリングされる。
空間的不均一では、あるビューがより高い空間解像度で送信、レンダリングされ、別のビューがより低い空間解像度で送信、レンダリングされる。
時間的不均一では、あるビューがより高い時間解像度(すなわち、より高いフレームレート)で送信、レンダリングされ、別のビューがより低い時間解像度(すなわち、より低いフレームレート)で送信、レンダリングされる。
FOV不均一では、あるビューがより広い水平視野および/または垂直視野で送信、レンダリングされ、別のビューがより狭い水平視野および/または垂直視野で送信、レンダリングされる。
ビット深度では、一方の眼により高いビット深度で符号化されたビデオストリームが送信、レンダリングされ、他方の眼に、より低いビット深度で符号化されたビデオストリームが送信、レンダリングされる。より一般的には、サンプル値を表す値の範囲が、ビュー間で異なってもよい。例えば、1つのビューのサンプル値は0以上767以下の範囲内になるようにスケーリングされ、他のビューのサンプル値は0以上1023以下の範囲内とし、両方のビューは10ビットのビットレートを使用し、2つの値の範囲の極値は同じ色に対応するものであってもよい。
クロマフォーマット不均一では、複数のビューは異なるクロマフォーマットを有し、例えばあるビューが4:2:0のクロマフォーマットを有し、別のビューが4:4:4のクロマフォーマットを有する。
色域不均一では、複数のビューは異なる色域を有し、例えばあるビューがBT.709規格の色域を使用し、別のビューがBT.2020規格の色域を使用する。
上述の方法を組み合わせることも可能である。
本技術は、立体視ビデオストリームの送信中に、上述の不均一手法の1つ以上が使用されていることを示す一連のインジケータ(例えばパラメータまたはフラグの形態をとる)の定義を含む。この一連のインジケータを以下に詳述する。
SNR不均一インジケータのフラグが1に設定されると、複数のビューの内のあるビューがより高いSNR品質で実行され、別のビューがより低いSNR品質で実行されることを示す。これに加えて、どのビューがより高品質で実行されるかを記述するフィールドが標示される(左または右)。
空間的不均一インジケータのフラグが1に設定されると、複数のビューの内のあるビューがより高い空間解像度で実行され、別のビューがより低い空間解像度で実行されることを示す。これに加えて、どのビューがより高い空間解像度で実行されるかを記述するフィールドが標示される(左または右)。任意で、左右の空間解像度(すなわち、空間分解能)に関連する2つのフィールドが標示でき、適切な単位で表現された2つのビューの実際の空間解像度値を含むことができる。
時間的不均一インジケータのフラグが1に設定されると、複数のビューの内のあるビューがより高い時間解像度で実行され、別のビューがより低い時間解像度で実行されることを示す。これに加えて、どのビューがより高い時間解像度で実行されるかを記述するフィールドが標示される(左または右)。任意で、左右の時間解像度(すなわち、フレームレート)に関連する2つのフィールドが標示でき、適切な単位で表現された2つのビューの実際の時間解像度値を含むことができる。
FOV不均一インジケータのフラグが1に設定されると、複数のビューの内のあるビューがより広い水平視野および/または垂直視野で実行され、別のビューがより狭い水平視野および/または垂直視野で実行されることを示す。これに加えて、どのビューがより広い水平視野および/または垂直視野を使用しているかを記述するフィールドが標示される(左または右)。さらに、左右の視野ビューに関連する2つのフィールドが標示でき、それぞれ適切な単位で表現された水平および垂直視野を含むことができる。
ビット深度不均一インジケータのフラグが1に設定されると、複数のビューの内のあるビューがより高いビット深度で実行され、別のビューがより低いビット深度で実行されることを示す。これに加えて、どのビューがより高いビット深度を使用しているかを記述するフィールドが標示される(左または右)。さらに、左右の視野ビューに関連する2つのフィールドが標示でき、それぞれ適切な単位で表現された各ビューのビット深度値を1つ含むことができる。
サンプル値範囲不均一インジケータのフラグが1に設定されると、あるビューのサンプル値は、別のビューのサンプル値とは異なる値の範囲を使用することを示す。
クロマフォーマット不均一インジケータのフラグが1に設定されると、複数のビューは異なるクロマフォーマットを有し、例えばあるビューが4:2:0のクロマフォーマットを有し、別のビューが4:4:4のクロマフォーマットを有することを示す。さらに、さらに、左右の視野ビューに関連する2つのフィールドが標示でき、それぞれ適切な単位で表現された各ビューのクロマフォーマット値を1つ含むことができる。
色域不均一インジケータのフラグが1に設定されると、複数のビューは異なる色域を有し、例えばあるビューがBT.709規格の色域を使用し、別のビューがBT.2020規格の色域を使用する。さらに、左右の視野ビューに関連する2つのフィールドが標示でき、それぞれ適切な単位で表現された各ビューの色域値を1つ含むことができる。
これらインジケータは、様々なレベルで適用されてもよい。例えば、インジケータは、ピクチャ全体(例えば、パノラマ360度ピクチャ)に適用することができる。あるいは、インジケータは、サブピクチャ(例えば、ピクチャ全体よりも小さい領域、例えば、限られた垂直および水平視野を表すタイル)に適用することができる。一実施形態では、パラメータは、1つまたは複数の球状領域に対して示される。球状領域は、球上のコンテンツ範囲のサブセットに対応してもよい。
パラメータは、基本ビデオビットストリームの一部として(例えば、SEIメッセージまたはVUIとして)および/またはファイルフォーマットの一部(例えば、ISOベースのメディアファイルフォーマット)として組み込まれてもよく、さらに/あるいはトランスポートプロトコル(例えば、MPEG DASHプロトコルのMPDに組み込まれる)により送信されてもよいし、または一般に、送信元エンティティ(クライアントまたはサーバ)から送信先エンティティ(クライアント)に、ISO OSIレイヤの任意のプロトコルを介して送信されてもよい。
MPEG ISOBMFFでの実装例とMPEG OMAFでの使用例を以下に挙げる。
以下のシンタックスおよセマンティックにより、OMAFのSphereRegionQualityRankingBoxが添付される。同様の拡張を、OMAFの2DRegionQualityRankingBoxに対して指定してもよい。これらボックスは、サンプル エントリ内に存在する。

aligned(8) class SphereRegionQualityRankingBox extends FullBox('srqr', 0, 0) {
unsigned int(8) region_definition_type;
unsigned int(8) num_regions;
unsigned int(12) unequality_indicator_mask;
unsigned int(1) remaining_area_flag;
unsigned int(1) view_idc_present_flag;
if (view_idc_present_flag)
bit(2) reserved = 0;
else
unsigned int(2) default_view_idc;


for (i = 0; i < num_regions; i++) {
unsigned int(8) quality_ranking;
if (view_idc_present_flag) {
unsigned int(2) view_idc;
bit(6) reserved = 0;
}
if (i < num_regions - 1 || remaining_area_flag == 0)
SphereRegionStruct(1);
}
}
上述のシンタックス要素は、「unequality_indicator_mask」という要素が存在するが、現在OMAFで指定されているものとを同一または同様である。
region_definition_typeが0であると、球状領域が4つの大円で指定されることを示す。region_definition_typeが1であると、球状領域が2つのヨー円と、2つのピッチ円により指定されることを示す。region_definition_typeのその他の値も存在する。
num_regionsは、該当ボックス内で、品質ランキング情報が与えられる品質ランキング領域の数を示す。
remaining_area_flagが0であると、すべての品質ランキング領域がSphereRegionStruct(1)で指定されることを示す。remaining_area_flagが1であると、第1のnum_regions - 1品質ランキング領域がSphereRegionStruct(1)構造で指定され、最後に残る品質ランキング領域が第1のnum_regions - 1 SphereRegionStruct(1)構造で定義される品質ランキング領域の組合せで網羅されない、網羅範囲内の球体領域であることを示す。
SphereRegionStruct(1)は、グローバル座標軸に対する品質ランク付け領域の球面位置およびサイズを指定し、region_definition_typeは品質ランク付け領域の形状を示す。
SphereRegionStructのシンタックスは、以下のように指定できる。

aligned(8) SphereRegionStruct(range_included_flag) {
signed int(32) center_yaw;
signed int(32) center_pitch;
singed int(32) center_roll;
if (range_included_flag) {
unsigned int(32) hor_range;
unsigned int(32) ver_range;
}
unsigned int(1) interpolate;
bit(7) reserved = 0;
}
center_yaw、center_pitch、およびcenter_rollは、2−16度単位でグローバル座標軸に対する球状領域の向きを指定する。center_yawおよびcenter_pitchは、球状領域の中心を示し、center_rollは、球状領域のロール角を示す。
hor_rangeおよびver_rangeが存在する場合は、これらはそれぞれ該当サンプルで指定された球状領域の水平および垂直の範囲をそれぞれ2−16度単位で指定する。hor_rangeおよびver_rangeは、球状領域の中心点を通る範囲を指定する。
品質ランク付け領域に対して、補間は0に等しくする必要がありうる。
view_idc_presence_flagが0であると、view_idcが存在しないことを示す。view_idc_presence_flagが1であると、view_idcが存在し、特定の(左右の一方または両方)ビューまたは単一視コンテンツに対する品質ランキング領域関連付けを示す。
default_view_idcが0であると、品質ランキング領域がモノスコープであることを示し、1であると、品質ランキング領域が立体視コンテンツの左ビューにあることを示し、2であると、品質ランキング領域が立体視コンテンツの右ビューにあることを示し、3であると、品質ランキング領域が立体視コンテンツの左右ビューの両方にあることを示す。
quality_rankingは、品質ランキング領域の品質ランキング値を指定する。quality_rankingが0であると、品質ランキング値が定義されていないことを示す。0以外の品質ランキング値は、品質ランキング領域の相対的品質順序を示す。品質ランキング値が0以外で、品質ランキング領域Bよりも低い品質ランキング領域Aは、品質ランキング領域Bよりも品質が高い。品質ランキング値が0でなければ、指定された品質ランキング領域全体内のピクチャ品質は略一定である。
view_idcが0であると、品質ランキング領域が平坦であることを示し、1であると、品質ランキング領域が立体視コンテンツの左ビューにあることを示し、2であると、品質ランキング領域が立体視コンテンツの右ビューにあることを示し、3であると、品質ランキング領域が立体視コンテンツの左右ビューの両方にあることを示す。存在しないview_idcの値はdefault_view_idcの値と等しいと推定される。
シンタックス要素unequality_indicator_maskが、本技術の目的のために指定される。
unequality_indicator_maskにおける各ビット位置は、上述のように不均一インジケータに対応していてもよい。例えば、ビット位置0が空間的不均一インジケータに対応し、ビット位置2が時間的不均一インジケータに対応する等であってもよい。インジケータのその他順序も適用可能であることが理解されよう。
unequality_indicator_maskの値が0以外で、quality_rankingの値がビュー間および/または領域間で異なる場合、unequality_indicator_mask内の、ビットが1に等しいビット位置が、適用された不均一の種類を示す。
別の例では、ISOによるメディアファイルフォーマットのStereoVideoBoxが追加される。そのシンタックスは、現状以下のとおりになる。

aligned(8) class StereoVideoBox extends extends FullBox('stvi', version = 0, 0)
{
template unsigned int(30) reserved = 0;
unsigned int(2) single_view_allowed;
unsigned int(32) stereo_scheme;
unsigned int(32) length;
unsigned int(8)[length] stereo_indication_type;
Box[] any_box; // optional
}
例示的実施形態では、例えばUnequalityIndicatorBoxという名の新たなボックスがStereoVideoBoxに含まれるように指定され、ビュー間の不均一の種類についての情報を含む。例えば、UnequalityIndicatorBoxのシンタックスは以下のとおりに指定される。

aligned(8) class UnequalityIndicatorBox extends extends FullBox('uneq', version = 0, 0)
{
unsigned int(16) unequality_indicator_mask;
}
上述のunequality_indicator_maskのセマンティックは、ここでも適用できる。すなわち、unequality_indicator_maskが0でなければ、unequality_indicator_mask内のビットが1に等しいビット位置は、適用された不均一の種類を示す。
ある実施形態によると、UnequalityIndicatorBoxは、ビュー間の不均一を特徴付ける追加の性質を含んでもよく、例えば、主観的品質が高い方のビューが示される。あるいは、品質の差分を示すインジケータ値が利用されてもよい。これらの値は、それぞれ不均一の種類に固有のものであって、対応する不均一が示される場合にのみ存在するという条件であってもよい。例えば、SNR不均一について、ビュー間の平均または近似ピークSNR差、および/またはビュー間の平均量子化パラメータ値の差が示されてもよい。
次に、MPEG DASHの実施例とMPEG OMAFにおける用例を挙げる。
DASHについての領域ごとの品質ランキング(Region-Wise Quality Ranking:RWQR)記述子のインジケータは、OMAFの仕様において現在以下のように規定されている。

Figure 0006721631
実施形態によっては、RWQR記述子は以下のように別記される。
Figure 0006721631
ある実施形態において、上述の不均一インジケータを、複数のビュー間に適用することに加えて、またはこれに代えて、複数の球状領域および/または2D領域間に適用してもよい。例えば、同じビューの球状領域Aおよび球状領域BがSNR不均一インジケータに対応付けられている場合、球状領域Aと球状領域Bとは異なるSNRを有する。同様に、同じビューの2D領域AおよびBが空間的不均一インジケータに対応付けられている場合、これらの2D領域AおよびBは2Dドメイン内で異なるサンプリング密度または間隔を有する。例えば、2D領域Aは解像度8192×4096のERPピクチャから抽出され、2D領域Bは解像度4096×2048のERPピクチャから抽出されてもよい。
上述の例示的実施形態は、不均一インジケータを、複数のビュー間に適用することに加えて、またはこれに代えて、複数の球状領域および/または2D領域間に適用する際にも同様に当てはまる。例えば、SphereRegionQualityRankingBoxの例示的実施形態において、unequality_indicator_maskの値がゼロではなく、quality_ranking値が当該領域間で異なる場合、unequality_indicator_mask内で1に等しいビットを有するビット位置は、領域間に適用された不均一の種類を示す。ここで、当該領域は同じビュー内にあっても、異なるビュー内にあってもよい。
ある実施形態において、品質ランキングシグナリングの2つ以上の組(例えば、SphereRegionQualityRankingBox、2DRegionQualityRankingBox、RWQR記述子)が、不均一インジケータマスクの異なる組合せに対して存在してもよい。例えば、第1のSphereRegionQualityRankingBoxが空間的不均一に対して存在して、空間的不均一に応じた品質ランキング値を有し、第2のSphereRegionQualityRankingBoxがSNR不均一に対して存在して、SNR不均一に応じた品質ランキング値を有することができる。
ある実施形態において、品質ランキングシグナリングの2つ以上の組の順序は、標示されているかまたはあらかじめ定められている。この順序により、第2のシグナリングレベルの品質ランキングは、第1のシグナリングレベルに同じ品質ランキングが存在するのであればそのランキングを有する複数の領域に対して適用されることを定義する。例えば、空間的不均一に対する品質ランキングにおいて、他の不均一は考慮されず、他の種類の不均一に対する品質ランキングにおいて、品質ランキング値は空間的不均一に対して同じ品質ランキング値を有する複数の領域間にのみ適用することが標示されているかあらかじめ定められている。このようなシグナリングであれば、現在のビューポートに対して好適な空間解像度を提供する一連のビットストリームまたは表現がまず選択され、その一連のビットストリームまたは表現から、例えば送信スループットおよび/または復号性能に最も合致するものが選択されてもよいという点で有利である。
一実施形態による符号化の方法が図10のフローチャートに図示されている。この符号化方法では、図10の方法に従ってビデオデータが生成され、図3に例示するHMDに送信される。図9の例に示された方法は、メディアコンテンツのビットストリームの中にまたはこれに沿って、1つ以上の不均一の種類を標示するための一連のインジケータを符号化すること1010を含み、不均一の種類によって、第1のビューまたは領域のビデオストリームおよび第2のビューまたは領域のビデオストリームに対して異なる符号化パラメータを定義する。任意で、前記方法は、前記メディアコンテンツの前記ビットストリームの中にまたはこれに沿って、前記第1のビューまたは領域に関連付けられた第1の品質ランキング値および前記第2のビューまたは領域に関連付けられた第2の品質ランキング値を含めること1020をさらに含み、前記第1および第2の品質ランキング値の順序は、前記第1のビューまたは領域と前記第2のビューまたは領域との知覚される品質の順序を示す。任意で、前記方法は、前記メディアコンテンツの前記ビットストリームの中にまたはこれに沿って、1つ以上の不均一の種類を標示するための第2の一連のインジケータを含めること1030をさらに含み、前記第2の一連のインジケータは、同じ品質ランキング値を有する複数の領域中の不均一の種類を示す。
一実施形態による装置は、上述の方法を実施する手段を備える。例えば、この装置は、メディアコンテンツのビットストリームの中にまたはこれに沿って、1つ以上の不均一の種類を標示するための一連のインジケータを符号化する手段を備え、不均一の種類によって、第1のビューまたは領域のビデオストリームおよび第2のビューまたは領域のビデオストリームに対して異なる符号化パラメータを定義する。
ビットストリームの復号は、データを受信しビデオストリームを視聴者の両眼へと表示するHMDによって実施されてもよい。
本実施形態により効果がもたらされる。例えば、視覚的品質を一定に保ち、メディアコンテンツ(立体視360度ビデオ等)の送信(例えばストリーミング)および/または格納に必要な帯域幅を低減することができる。送信帯域幅の低減は、例えばビューポートに応じてコンテンツを選択することにより実現されてもよく、現在視認可能なビューポートに対してより高品質を提供するコンテンツが選択されてもよく、一方で、例えば処理がより複雑でなくなるように非視認可能エリアの特性を落としてもよい。また、送信または再生されたコンテンツを、左右のビュー間で不均一の種類や制限についてのユーザの好みに合わせられることも効果として挙げられる。さらに、ビューポートに適応しうる高度な速度適応方法を使いやすくすることや、ビューおよび/または領域間の不均一を異なる種類のものを選択することにより知覚される品質を最適化しようとする試みも効果として挙げられる。
上述の一部の実施形態は、DASHまたはMPEG−DASHとの関連で説明されている。実施形態は、その他同様の任意のストリーミングシステム、および/またはDASHに使用されているのと同様の任意のプロトコル、および/またはDASHに使用されているのと同様の任意のセグメントおよび/またはマニフェストフォーマット、および/またはDASHクライアントと同様のクライアント操作によっても同様に実現されうることが理解されよう。例えば、一部の実施形態は、AppleのHTTPライブストリーミング(HLS)のM3Uのマニフェストフォーマットによって実現されうる。
上述の一部の実施形態は、サンプルエントリ等にメタデータまたは標示を含むものとして説明されている。実施形態は、サンプルグループ等の動的なメタデータキャリッジ機構にメタデータまたは標示を含むことによっても同様に実現されうることが理解されよう。例えば、SphereRegionQualityRankingBoxがサンプルグループ記述エントリとして使用されてもよい。この種の複数のサンプルグループ記述エントリをSampleGroupDescriptionBoxに含めることができ、特定のメディアサンプル用に適用されるサンプルグループ記述エントリはSampleToGroupBoxで標示される。
ビットストリームに沿ったフレーズ(例えばビットストリームに沿った標示)が、請求項や記載された実施形態において、帯域外データをビットストリームに関連付ける形で帯域外送信、信号による伝達、または格納することを示すために用いられてもよい。例えば、ビットストリームに沿った標示を含むフレーズは、コンテナファイル(ビットストリームも含む)またはDASH MPD等のビットストリームの記述内に標示を含めることを意味してもよい。ビットストリーム等に沿って復号するというフレーズは、ビットストリームに関連付けられた、上記帯域外データ(帯域外送信、信号による伝達、または格納から得られたものであってもよい)を復号することを指していてもよい。例えば、ビットストリームに沿って標示を復号するというフレーズは、コンテナファイル(ビットストリームも含む)またはDASH MPD等のビットストリームの記述から標示を復号することを意味してもよい。
上述の一部の実施形態は、コンテナファイルの中にまたはこれに沿って、メタデータまたは標示を含め、および/またはメタデータおよび/または標示をコンテナファイルからまたはこれに沿って解析または復号するものとして説明されている。これに加えて、またはこれに代えて、標示またはメタデータを、例えばSEIメッセージ(複数可)またはVU I等のビデオビットストリームに符号化または含めてもよく、および/または例えばSEIメッセージ(複数可)またはVUI等からビデオビットストリームに復号されてもよいことが理解されよう。例えば、上述のように、品質ランキング値および不均一インジケータマスクを備える品質ランキングSEIメッセージが特定されてもよい。品質ランキングSEIメッセージは、領域的に入れ子状のSEIメッセージに含まれてもよく、当該領域的に入れ子状のSEIメッセージ内の特定の領域は、例えば立体視フレームに詰め込まれたピクチャの1つの構成ピクチャを含んでもよい。さらに、これに加えて、またはこれに代えて、標示またはメタデータは、DASHのMPD等の、コンテナファイル、トラック、またはビットストリームのいずれかの記述に含まれてもよく、および/またはコンテナファイル、トラック、またはビットストリームのいずれかの記述から復号されてもよいことが理解されよう。
本発明の各種実施形態は、メモリ中に存在し、関連する装置に発明を実行させる、コンピュータプログラムコードにより実施可能である。例えば、デバイスは、データを処理、受信、送信する回路および電子機器と、メモリに保存されたコンピュータプログラムコードと、当該コンピュータプログラムコードを実行中に当該デバイスに実施形態の特徴を実行させるプロセッサとを備えてもよい。さらに、サーバのようなネットワークデバイスは、データを処理、受信、送信する回路および電子機器と、メモリに保存されたコンピュータプログラムコードと、当該コンピュータプログラムコードの実行中に当該ネットワークデバイスに実施形態の特徴を実行させるプロセッサを備えてもよい。
必要に応じて、本明細書に記載された異なる機能は、異なる順序で、および/または互いに同時に、実施されてもよい。さらに、必要に応じて、1つ以上の上述の機能や実施形態は任意であってもよく、これらを組み合わせてもよい。
実施形態の各種態様が独立請求項に規定されているが、その他の態様には、記載されている実施形態および/または独立請求項の特徴を有する従属請求項とは異なる組合せの特徴が含まれ、その組合せは請求項に明示的に規定されたものに限らない。
例示的実施形態を説明してきたが、これらの説明は限定的に解釈されない。添付の特許請求の範囲に記載されたような本開示の範囲から逸脱することなく、各種変更や変形が可能である。

Claims (6)

  1. 第1のビューまたは領域に関する第1のビデオストリームの符号化が、第2のビューまたは領域に関する第2のビデオストリームの符号化とは異なることを示す一連のインジケータを、メディアコンテンツのビットストリームの中にまたはこれと一緒に符号化することを含む方法であって、
    前記一連のインジケータは、前記第1のビデオストリームのための符号化パラメータ及び前記第2のビデオストリームのための符号化パラメータが、それぞれ、異なる水平値又は垂直値に基づくことを示し、 前記方法は更に、前記メディアコンテンツの前記ビットストリームの中にまたはこれと一緒に、前記第1のビューまたは領域に関連付けられた第1の品質ランキング値および前記第2のビューまたは領域に関連付けられた第2の品質ランキング値を含めることをさらに含み、
    前記第1および第2の品質ランキング値の順序は、前記第1のビューまたは領域と前記第2のビューまたは領域との知覚される品質の順序を示し、
    前記第1および第2の品質ランキング値が0である場合は、品質ランキング値が定義されていないことを示す方法。
  2. 前記メディアコンテンツの前記ビットストリームの中にまたはこれと一緒に、第2の一連のインジケータを含めることをさらに含み、
    前記第2の一連のインジケータは、同じ品質ランキング値を有する複数の領域の間の、空間的又は時間的な解像度を示す
    請求項に記載の方法。
  3. 前記メディアコンテンツは1つ以上の360度ピクチャを含む、請求項1又は2に記載の方法。
  4. 前記一連のインジケータは、不均一インジケータマスクのそれぞれのビット位置に符号化される、請求項1からのいずれかに記載の方法。
  5. 少なくとも1つのプロセッサと、コンピュータプログラムコードを含むメモリとを備える装置であって、前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサによって実行されると、請求項1からのいずれかに記載の方法を前記装置に遂行させるように構成される、装置。
  6. 装置の少なくとも1つのプロセッサによって実行されると、請求項1からのいずれかに記載の方法を前記装置に遂行させるように構成されるコンピュータプログラムコードを含む、コンピュータプログラム。
JP2018114122A 2017-07-07 2018-06-15 ビデオの符号化・復号の方法、装置、およびコンピュータプログラムプロダクト Active JP6721631B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FI20175663 2017-07-07
FI20175663 2017-07-07

Publications (2)

Publication Number Publication Date
JP2019024197A JP2019024197A (ja) 2019-02-14
JP6721631B2 true JP6721631B2 (ja) 2020-07-15

Family

ID=62874628

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018114122A Active JP6721631B2 (ja) 2017-07-07 2018-06-15 ビデオの符号化・復号の方法、装置、およびコンピュータプログラムプロダクト

Country Status (6)

Country Link
US (1) US11284055B2 (ja)
EP (1) EP3425915A1 (ja)
JP (1) JP6721631B2 (ja)
CN (1) CN109218734B (ja)
MX (1) MX2018008281A (ja)
PH (1) PH12018000174A1 (ja)

Families Citing this family (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6944134B2 (ja) * 2016-07-29 2021-10-06 ソニーグループ株式会社 画像処理装置および画像処理方法
KR102598082B1 (ko) * 2016-10-28 2023-11-03 삼성전자주식회사 영상 표시 장치, 모바일 장치 및 그 동작방법
US10999602B2 (en) 2016-12-23 2021-05-04 Apple Inc. Sphere projected motion estimation/compensation and mode decision
US11259046B2 (en) 2017-02-15 2022-02-22 Apple Inc. Processing of equirectangular object data to compensate for distortion by spherical projections
US10924747B2 (en) 2017-02-27 2021-02-16 Apple Inc. Video coding techniques for multi-view video
US10992961B2 (en) * 2017-05-25 2021-04-27 Qualcomm Incorporated High-level signaling for fisheye video data
US11093752B2 (en) 2017-06-02 2021-08-17 Apple Inc. Object tracking in multi-view video
US10754242B2 (en) 2017-06-30 2020-08-25 Apple Inc. Adaptive resolution and projection format in multi-direction video
US20190005709A1 (en) * 2017-06-30 2019-01-03 Apple Inc. Techniques for Correction of Visual Artifacts in Multi-View Images
US10575018B2 (en) 2017-07-10 2020-02-25 Qualcomm Incorporated Enhanced high-level signaling for fisheye virtual reality video in dash
US10659760B2 (en) * 2017-07-10 2020-05-19 Qualcomm Incorporated Enhanced high-level signaling for fisheye virtual reality video
JP7396047B2 (ja) * 2018-01-12 2023-12-12 ソニーグループ株式会社 情報処理装置および方法
CN113574900B (zh) * 2019-03-15 2024-03-15 诺基亚技术有限公司 用于对媒体内容中的实体进行分组的方法和装置
US11403784B2 (en) * 2019-03-19 2022-08-02 Tencent America LLC Method and apparatus for tree-based point cloud compression (PCC) media stream using moving picture experts group (MPEG)-dynamic adaptive streaming over HTTP (DASH)
US20220167023A1 (en) * 2019-03-22 2022-05-26 Sony Group Corporation Information processing apparatus, information processing method, and program
JP7255312B2 (ja) * 2019-04-02 2023-04-11 株式会社三洋物産 遊技機
JP7255302B2 (ja) * 2019-04-02 2023-04-11 株式会社三洋物産 遊技機
JP7255303B2 (ja) * 2019-04-02 2023-04-11 株式会社三洋物産 遊技機
JP7255315B2 (ja) * 2019-04-02 2023-04-11 株式会社三洋物産 遊技機
JP7255316B2 (ja) * 2019-04-02 2023-04-11 株式会社三洋物産 遊技機
JP7255309B2 (ja) * 2019-04-02 2023-04-11 株式会社三洋物産 遊技機
JP7255304B2 (ja) * 2019-04-02 2023-04-11 株式会社三洋物産 遊技機
JP7255313B2 (ja) * 2019-04-02 2023-04-11 株式会社三洋物産 遊技機
JP7255317B2 (ja) * 2019-04-02 2023-04-11 株式会社三洋物産 遊技機
JP7255311B2 (ja) * 2019-04-02 2023-04-11 株式会社三洋物産 遊技機
JP7255307B2 (ja) * 2019-04-02 2023-04-11 株式会社三洋物産 遊技機
JP7255310B2 (ja) * 2019-04-02 2023-04-11 株式会社三洋物産 遊技機
JP7255314B2 (ja) * 2019-04-02 2023-04-11 株式会社三洋物産 遊技機
JP7255305B2 (ja) * 2019-04-02 2023-04-11 株式会社三洋物産 遊技機
JP7255308B2 (ja) * 2019-04-02 2023-04-11 株式会社三洋物産 遊技機
JP7255306B2 (ja) * 2019-04-02 2023-04-11 株式会社三洋物産 遊技機
JP7255318B2 (ja) * 2019-04-02 2023-04-11 株式会社三洋物産 遊技機
JP7272089B2 (ja) * 2019-04-24 2023-05-12 株式会社三洋物産 遊技機
JP7272086B2 (ja) * 2019-04-24 2023-05-12 株式会社三洋物産 遊技機
JP7272090B2 (ja) * 2019-04-24 2023-05-12 株式会社三洋物産 遊技機
JP7272087B2 (ja) * 2019-04-24 2023-05-12 株式会社三洋物産 遊技機
JP7272088B2 (ja) * 2019-04-24 2023-05-12 株式会社三洋物産 遊技機
JP7272094B2 (ja) * 2019-04-25 2023-05-12 株式会社三洋物産 遊技機
JP7272093B2 (ja) * 2019-04-25 2023-05-12 株式会社三洋物産 遊技機
JP7272095B2 (ja) * 2019-04-25 2023-05-12 株式会社三洋物産 遊技機
JP7307320B2 (ja) * 2019-04-25 2023-07-12 株式会社三洋物産 遊技機
JP7272092B2 (ja) * 2019-04-25 2023-05-12 株式会社三洋物産 遊技機
KR20220020927A (ko) * 2019-06-25 2022-02-21 베이징 시아오미 모바일 소프트웨어 컴퍼니 리미티드 전방향 미디어 재생 방법, 기기 및 컴퓨터 판독 가능 저장 매체
JP7275915B2 (ja) * 2019-06-27 2023-05-18 株式会社三洋物産 遊技機
JP7275910B2 (ja) * 2019-06-27 2023-05-18 株式会社三洋物産 遊技機
JP7275909B2 (ja) * 2019-06-27 2023-05-18 株式会社三洋物産 遊技機
JP7275913B2 (ja) * 2019-06-27 2023-05-18 株式会社三洋物産 遊技機
JP7275914B2 (ja) * 2019-06-27 2023-05-18 株式会社三洋物産 遊技機
JP7275908B2 (ja) * 2019-06-27 2023-05-18 株式会社三洋物産 遊技機
JP7275911B2 (ja) * 2019-06-27 2023-05-18 株式会社三洋物産 遊技機
JP7275912B2 (ja) * 2019-06-27 2023-05-18 株式会社三洋物産 遊技機
JP7275916B2 (ja) * 2019-06-27 2023-05-18 株式会社三洋物産 遊技機
JP7302374B2 (ja) * 2019-08-22 2023-07-04 株式会社三洋物産 遊技機
JP7302377B2 (ja) * 2019-08-22 2023-07-04 株式会社三洋物産 遊技機
JP7302376B2 (ja) * 2019-08-22 2023-07-04 株式会社三洋物産 遊技機
JP7302375B2 (ja) * 2019-08-22 2023-07-04 株式会社三洋物産 遊技機
JP7302373B2 (ja) * 2019-08-22 2023-07-04 株式会社三洋物産 遊技機
JP7302372B2 (ja) * 2019-08-22 2023-07-04 株式会社三洋物産 遊技機
JP7307330B2 (ja) * 2019-08-22 2023-07-12 株式会社三洋物産 遊技機
JP7302378B2 (ja) * 2019-08-22 2023-07-04 株式会社三洋物産 遊技機
JP7302379B2 (ja) * 2019-08-23 2023-07-04 株式会社三洋物産 遊技機
JP7307331B2 (ja) * 2019-08-23 2023-07-12 株式会社三洋物産 遊技機
JP7342586B2 (ja) * 2019-10-03 2023-09-12 株式会社三洋物産 遊技機
JP7342588B2 (ja) * 2019-10-03 2023-09-12 株式会社三洋物産 遊技機
JP7342585B2 (ja) * 2019-10-03 2023-09-12 株式会社三洋物産 遊技機
JP7342584B2 (ja) * 2019-10-03 2023-09-12 株式会社三洋物産 遊技機
JP7342587B2 (ja) * 2019-10-03 2023-09-12 株式会社三洋物産 遊技機
JP7342589B2 (ja) * 2019-10-03 2023-09-12 株式会社三洋物産 遊技機
WO2021105552A1 (en) * 2019-11-29 2021-06-03 Nokia Technologies Oy A method, an apparatus and a computer program product for video encoding and video decoding
WO2021151761A1 (en) * 2020-01-29 2021-08-05 Nokia Technologies Oy A method, an apparatus and a computer program product for video streaming
JP7443536B2 (ja) 2020-04-10 2024-03-05 中興通訊股▲ふん▼有限公司 没入型のメディア処理におけるランク情報
CN116671110A (zh) * 2020-09-29 2023-08-29 抖音视界有限公司 多视图信息的信令通知

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1232126C (zh) 2002-09-30 2005-12-14 三星电子株式会社 图像编码方法和装置以及图像解码方法和装置
JP2011199853A (ja) * 2010-02-23 2011-10-06 Panasonic Corp 立体映像再生装置
WO2012052968A1 (en) * 2010-10-20 2012-04-26 Nokia Corporation Method and device for video coding and decoding
CN103765902B (zh) 2011-08-30 2017-09-29 英特尔公司 多视角视频编码方案
US9325883B2 (en) * 2011-09-09 2016-04-26 Bae Systems Information And Electronic System Integration Inc. Multi field of view imaging system
CN104685885B (zh) 2012-09-30 2018-09-07 华为技术有限公司 一种在参数集中用信号发送可缩放性信息的方法
EP2941868B1 (en) 2013-01-07 2020-07-08 Nokia Technologies Oy Method and apparatus for video coding and decoding
US10204658B2 (en) * 2014-07-14 2019-02-12 Sony Interactive Entertainment Inc. System and method for use in playing back panorama video content
JP2017535985A (ja) * 2014-09-03 2017-11-30 ネクストブイアール・インコーポレイテッド コンテンツを取り込み、ストリーミングし、および/または、再生するための方法および装置
US10986155B2 (en) 2014-09-29 2021-04-20 Avaya Inc. Segmented video codec for high resolution and high frame rate video
US9443488B2 (en) * 2014-10-14 2016-09-13 Digital Vision Enhancement Inc Image transforming vision enhancement device
US20160353146A1 (en) 2015-05-27 2016-12-01 Google Inc. Method and apparatus to reduce spherical video bandwidth to user headset
US10051942B2 (en) * 2015-10-14 2018-08-21 Tight Line Cosmetics LLC System and method for interchangeable cosmetic container
US10116723B2 (en) * 2016-01-11 2018-10-30 The Directv Group, Inc. Campus content distribution systems and methods
US10136055B2 (en) * 2016-07-29 2018-11-20 Multimedia Image Solution Limited Method for stitching together images taken through fisheye lens in order to produce 360-degree spherical panorama
US10419738B1 (en) * 2018-06-14 2019-09-17 Telefonaktiebolaget Lm Ericsson (Publ) System and method for providing 360° immersive video based on gaze vector information

Also Published As

Publication number Publication date
PH12018000174A1 (en) 2019-02-11
CN109218734A (zh) 2019-01-15
MX2018008281A (es) 2019-02-08
JP2019024197A (ja) 2019-02-14
EP3425915A1 (en) 2019-01-09
US11284055B2 (en) 2022-03-22
CN109218734B (zh) 2022-09-09
US20190014304A1 (en) 2019-01-10

Similar Documents

Publication Publication Date Title
JP6721631B2 (ja) ビデオの符号化・復号の方法、装置、およびコンピュータプログラムプロダクト
US10897614B2 (en) Method and an apparatus and a computer program product for video encoding and decoding
US10587883B2 (en) Region-wise packing, content coverage, and signaling frame packing for media content
KR102170550B1 (ko) 미디어 콘텐츠를 인코딩하는 방법, 장치 및 컴퓨터 프로그램
US20190104326A1 (en) Content source description for immersive media data
JP2022518367A (ja) 映像の符号化および復号のための装置、方法、およびコンピュータプログラム
EP3552394A1 (en) Systems and methods of signaling of regions of interest
WO2019141907A1 (en) An apparatus, a method and a computer program for omnidirectional video
KR102247404B1 (ko) 어안 가상 현실 비디오에 대한 향상된 고레벨 시그널링
US10992961B2 (en) High-level signaling for fisheye video data
CN111034203A (zh) 处理具有动态逐区封装的全向媒体
KR20200024829A (ko) Dash 에서 피쉬아이 가상 현실 비디오에 대한 강화된 하이레벨 시그널링
CN115211131A (zh) 用于全向视频的装置、方法及计算机程序
CN110832878B (zh) 增强区域取向包封及视区独立高效视频译码媒体配置文件

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180717

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190605

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190902

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200430

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200521

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200618

R150 Certificate of patent or registration of utility model

Ref document number: 6721631

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250