JP2019534603A - ビデオ信号をエンコードおよびデコードするための装置、方法およびプログラム - Google Patents

ビデオ信号をエンコードおよびデコードするための装置、方法およびプログラム Download PDF

Info

Publication number
JP2019534603A
JP2019534603A JP2019513439A JP2019513439A JP2019534603A JP 2019534603 A JP2019534603 A JP 2019534603A JP 2019513439 A JP2019513439 A JP 2019513439A JP 2019513439 A JP2019513439 A JP 2019513439A JP 2019534603 A JP2019534603 A JP 2019534603A
Authority
JP
Japan
Prior art keywords
segment
pixel
reference frame
image plane
extension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019513439A
Other languages
English (en)
Other versions
JP6835397B2 (ja
Inventor
ツァオ、ツィジェ
サウアー、ヨハネス
ウィエン、マスィアス
Original Assignee
ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ホアウェイ・テクノロジーズ・カンパニー・リミテッド filed Critical ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Publication of JP2019534603A publication Critical patent/JP2019534603A/ja
Application granted granted Critical
Publication of JP6835397B2 publication Critical patent/JP6835397B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/55Motion estimation with spatial constraints, e.g. at image or region borders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/563Motion estimation with padding, i.e. with filling of non-object values in an arbitrarily shaped picture block or region for estimation purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

ビデオ信号をエンコードするための装置および方法。基準フレームのセグメントと、別のセグメントから生成される拡張領域とが、インター予測による現在のフレームのエンコードに用いられる。デコードのための装置および方法も開示される。

Description

本発明は概して、ビデオコーディング分野に関する。より具体的には、本発明は、ビデオ信号のビデオコーディングブロックをエンコードおよびデコードするための装置および方法に関する。
360°パノラマビデオ信号は、単一の視点の周囲の全ての方向でシーンを撮像したシーケンスを含む。これは一般に、互いに近くに配置された、異なる視野方向を有する複数のカメラを用いて実現される。次に、撮像されたコンテンツは、共にスティッチされると共に、特定の時点での360°のシーンまたはパノラマビデオ信号を表す、当該視点の周りのテクスチャを有する球体として考えられ得る。しかしながら、そのような球体は、概してシーンの平らな(2D)矩形画像を必要とする現在のビデオコーデックを用いて直接処理され得ない。故に、現在のビデオコーデックを用いてパノラマビデオ信号を処理すべく、球体は、そのような2Dフォーマットへ変換されなければならない。
1または複数のセグメントを含む2Dフォーマットへ球体を変換するために、以下の投影のうちの1つが用いられ得る。
エクイレクタングラー投影では、地球から世界地図を作成するものと同様の矩形への投影を画定する。サンプル密度は、「高さ」が異なるにつれて異なる。極端な場合は、球体の極であり、極は線へとマッピングされる。幾何学的歪みが、結果として得られる画像の全体に広がる。
立方体に基づく投影では、球体は、立方体の面またはセグメントにマッピングされる。各セグメントは、可視の幾何学的歪みがない通常の2D画像のように見える。しかしながら、セグメントの境界領域には強い幾何学的歪みが存在する。セグメントを矩形フォーマットで配置するための複数の態様がある。
二十面体に基づく投影では、球体は、二十面体の面またはセグメントにマッピングされる。各セグメントは、可視の幾何学的歪みがない通常の2D画像のように見える。この場合も、二十面体のセグメントの境界領域には強い幾何学的歪みが存在する。しかしながら、近接面間の角度が小さいので、これらの歪みは、立方体フォーマットに基づく投影の場合と同じ程度には強くない。二十面体の面を矩形フォーマットで配置するための複数の態様がある。
立方体フォーマットおよび二十面体フォーマットの両方は、同じカメラ中心および端部を共有する、歪みのないセグメントから成る。
複数のセグメントを含むパノラマビデオ信号のエンコードおよびデコードには、以下の問題が生じ得る。同じカメラ中心を有し、境界を共有する2つの面またはセグメント、すなわち、面Aおよび面Bがあるとする。面AおよびBの画像は、継時的に記録され、パノラマビデオ信号の後続のフレームに配置される。次に、このパノラマビデオ信号は、エンコードされる。
面AおよびBの画像が互いに隣り合う順序で配置されていない場合、動き補償は、それらの共有されている境界にわたって実行され得ない。しかしながら、それらが、3D空間において共有するのと同様にパノラマビデオ信号における同じ境界を共有するように配置されている場合でも、パノラマビデオ信号におけるそれらの共通の境界にわたって幾何学的歪みが存在する。これにより、パノラマビデオ信号の面AおよびBの画像の境界領域での動き補償の性能が下がってしまう。
故に、異なる像面に対応する2以上のセグメントを含むビデオ信号(例えば、パノラマビデオ信号)をエンコードおよびデコードするための改良された装置および方法が必要とされている。
本発明の目的は、ビデオ信号をエンコードおよびデコードするための改良された装置および方法を提供することである。
前述の目的および他の目的は、独立請求項の主題により実現される。さらなる実装形態が、従属請求項、明細書および図から明らかである。
本明細書において用いられる場合、ビデオ信号またはビデオシーケンスは、動画を示す一式の後続のフレームである。言い換えれば、ビデオ信号またはビデオシーケンスは、複数のフレーム(ピクチャまたは画像とも称される)から成る。
本明細書において用いられる場合、コーディングツリーユニット(CTU)は、フレームの一部分(例えば、64×64個のピクセル)を含む、予め定義されたサイズのビデオシーケンスのコーディング構造のルートを示す。CTUは、いくつかのコーディングユニット(CU)へのパーティション化であり得る。
本明細書において用いられる場合、コーディングユニット(CU)は、CTUに属するフレームの一部分を含む、予め定義されたサイズのビデオシーケンスの基本的なコーディング構造を示す。CUは、さらなるCUへパーティション化され得る。
本明細書において用いられる場合、予測ユニット(PU)は、CUをパーティション化した結果であるコーディング構造を示す。
本明細書において用いられる場合、ブロックは、ピクセルグループを示す。ブロックは、任意の形状、特に、正方形または矩形であり得る。
本明細書において説明されるデバイスおよび方法は、ナチュラルビデオシーケンスの時間冗長性を利用すべくピクチャ間のインター予測のために用いられ得る。現在のピクチャと基準ピクチャとの間で観察される情報の変化は、多くの場合、並進移動、例えば、像面内での直線移動により近似され得る。ブロックベースの動き補償は、基準ピクチャが矩形ブロックへパーティション化され、ブロック内の各ピクセルが同じ動きを見せるこのパラダイムの主要な実現例である。故に、予測ブロックと呼ばれるブロック全体の動きは、単一の動きベクトルにより説明され得る。基準ピクチャ全体にわたる一式の動きベクトルにより、動きベクトル場として示されるベクトル場が定義される。
第1の態様によれば、本発明は、ビデオ信号をエンコードするための装置に関する。
装置は、
セグメント拡張ユニットと、
インター予測エンコードユニットと
を備え、
ビデオ信号は、複数の連続するフレームの形式で提供される、第1の像面のビデオコンテンツと第2の像面のビデオコンテンツとを含むビデオコンテンツを含み、
複数の連続するフレームの各々のフレームは、第1の像面の画像コンテンツを含む第1のセグメントと、第2の像面の画像コンテンツを含む第2のセグメントとを含み、
第1のセグメントおよび第2のセグメントは各々、複数のピクセルを含み、
ピクセル各々は、ピクセル値に関連付けられ、
セグメント拡張ユニットは、
複数の拡張ピクセルを含む、基準フレームの第1のセグメントの拡張領域を生成するように構成され、
拡張ピクセル各々について、基準フレームの第2のセグメントのピクセルのピクセル値に基づいて、拡張ピクセルのピクセル値を決定するように構成され、
インター予測エンコードユニットは、
基準フレームの第1のセグメントの拡張領域に全体的または部分的に位置する基準ブロック候補を含む一式の基準ブロック候補のうち基準ブロックを選択するように構成され、
ビデオコーディングブロックのピクセルのピクセル値と、選択された基準ブロックのピクセルのピクセル値とに基づいて、現在のフレームの第1のセグメントのビデオコーディングブロックのピクセルのピクセル値をエンコードするように構成される。
故に、ビデオ信号をエンコードするための改良された装置が提供される。より具体的には、第1の態様によるエンコード装置は、共通の端部にわたって幾何学的歪みが補償されるように、隣接するセグメントに基づいて基準フレームの第1のセグメントを拡張することを可能にする。現在のフレームの第1のセグメントにおけるブロックの動き補償は、基準フレームにおける第1のセグメントおよびその拡張領域に基づいて実行され得る。追加のシグナリングは、必要ではない。なぜなら、幾何学的歪みの補償がどのように実行されるべきかは、一連のフレームにおける空間位置から導出され得るからである。本発明の実施形態は、多くの歪みのない面から成り、端部を共有し、かつ、同じカメラ中心を共有する立方体、二十面体または他のフォーマットにおける360°連続の動き補償に容易に用いられ得る。本発明の実施形態により、例えば、シーン内にカメラの動きまたは動く物体がある場合、コーディング性能を上げることが可能になる。
基準フレームは、再構成フレームであり得る。基準フレームは、複数の連続するフレームのうちの1つのフレームをエンコードし、次に、エンコードされたフレームをデコードすることにより取得され得る。
第1の像面および第2の像面は、互いに対してある面間角(例えば、1°と90°との間)だけ角度が付けられ得る。
一実装形態において、フレームは、一連のサブフレームを含み、各サブフレームは、全てのセグメントのサブセットのみ(例えば、1つのセグメントのみ)を含む。各サブフレームは、セグメントのそれぞれのサブセットを更新するために用いられ得る。
第1のセグメントおよび第2のセグメントは、近接セグメントであり得る。特に、それらは、隣り合うセグメントであり得る。
第1の態様によるエンコード装置の第1の可能な実装形態において、拡張ピクセル各々について、セグメント拡張ユニットは、
マッピングを用いて、基準フレームの第2のセグメントのピクセルのピクセル値に基づいて、拡張ピクセルのピクセル値を決定するように構成されており、
マッピングは、
基準フレームの第2のセグメントのピクセルを第1の像面にマッピングするように構成される(第1の変形例)か、または、
拡張ピクセルを第2の像面にマッピングするように構成される(第2の変形例)。
これの第1の変形例において、拡張ピクセルは、基準フレームの第2のセグメントのピクセルから決定される。第2の変形例において、第2のセグメントのピクセルは、(例えば、第1の変形例に関連付けられる幾何学変換とは逆の幾何学変換を用いて)拡張ピクセルから決定される。
マッピングにおいて、一方の像面からのピクセルは、厳密には他方の像面における1つのピクセル上ではない所に存在することになる可能性があることにさらに留意されたい。むしろ、当該ピクセルは、他方の面の2以上の近接ピクセルの間に位置する、他方の像面の幾何学上の点に存在することになる可能性がある。この理由により、セグメント拡張ユニットは、例えば、第2のセグメントのピクセルがマッピングされる第1の像面における幾何学上の点の近くに位置するピクセルグループ(例えば、2つ、3つまたは4つのピクセル)のピクセル値に基づいて拡張ピクセルのピクセル値を決定するように構成され得る。
第1の態様の第1の実装形態によるエンコード装置の第2の可能な実装形態において、
マッピングは、
基準フレームの第2のセグメントのピクセル
を三次元空間の点
に投影する段階であって、点
は、基準フレームの第2のセグメントのピクセル
をカメラ位置
と結び付ける線上に存在する、段階と、
基準フレームの第2のセグメントの像面を基準フレームの第1のセグメントの像面に対して平行な向きへと回転させるための回転を実行する段階と、

を基準フレームの第1のセグメントの像面における点
に投影する段階であって、基準フレームの第1のセグメントの像面における点
は、拡張ピクセルを画定する、段階と
を含むか、またはそれらと同等である。
第1の態様の第1の実装形態または第2の実装形態によるエンコード装置の第3の可能な実装形態において、マッピングは、ホモグラフィ行列
に基づき、
および
は、基準フレームの第1のセグメントおよび第2のセグメントのカメラ較正行列を示し、
は、第1のセグメントの像面と基準フレームの第2のセグメントの像面との間の角度を示し、
は、回転を示し、
は、カメラ位置
からの距離を示す。
ホモグラフィ行列は、例えば、第2の像面のxy−座標に適用され得るか、またはピクセル座標に直接適用され得る。
第1の態様によるエンコード装置の第4の可能な実装形態またはその実装形態のいずれか1つにおいて、エンコード装置は、基準フレームバッファをさらに備える。基準フレームバッファは、基準フレームの第1のセグメントを基準フレームの第1のセグメントの拡張領域と共に格納するように構成される。
第1の態様によるエンコード装置の第5の可能な実装形態またはその実装形態のいずれか1つにおいて、第1のセグメントは、立方体または二十面体の第1の面に対応し、第2のセグメントは、立方体または二十面体の異なる面に対応する。これらの面は、外面または内面であり得る。
第2の態様によれば、本発明は、エンコードされたビデオ信号をデコードするための装置に関する。
装置は、
セグメント拡張ユニットと、
インター予測再構成ユニットと
を備え、
エンコードされたビデオ信号は、エンコードされた状態の複数の連続するフレームとして提供される、(例えば、互いに対して、例えば1°から90°の間の面間角だけ角度が付いた)第1の像面のビデオコンテンツと第2の像面のビデオコンテンツとを含むビデオコンテンツを含み、
複数の連続するフレームの各々のフレームは、第1の像面の画像コンテンツを含む第1のセグメントと、第2の面の画像コンテンツを含む第2のセグメントとを含み、
第1のセグメントおよび第2のセグメントは各々、複数のピクセルを含み、
ピクセル各々は、ピクセル値に関連付けられ、
セグメント拡張ユニットは、
複数の拡張ピクセルを含む、基準フレームの第1のセグメントの拡張領域を生成するように構成され、
拡張ピクセル各々について、基準フレームの第2のセグメントのピクセルのピクセル値に基づいて、拡張ピクセルのピクセル値を決定するように構成され、
インター予測再構成ユニットは、現在のフレームの第1のセグメントのエンコードされたビデオコーディングブロックと、基準ブロックのピクセルのピクセル値とに基づいて、現在のフレームの第1のセグメントのビデオコーディングブロックのピクセルのピクセル値を再構成するように構成され、
基準ブロックは、基準フレームの第1のセグメントに全体的または部分的に位置するか、または、基準フレームの第1のセグメントの拡張領域に全体的または部分的に位置する。
第2の態様によるデコード装置の第1の可能な実装形態において、拡張ピクセル各々について、セグメント拡張ユニットは、
マッピングを用いて、基準フレームの第2のセグメントのピクセルのピクセル値に基づいて、拡張ピクセルのピクセル値を決定するように構成されており、
マッピングは、
基準フレームの第2のセグメントのピクセルを基準フレームの第1のセグメントの像面にマッピングするように構成されるか、または、
拡張ピクセルを第2の像面にマッピングするように構成される。
第2の態様の第1の実装形態によるデコード装置の第2の可能な実装形態において、
マッピングは、
基準フレームの第2のセグメントのピクセル
を三次元空間の点
に投影する段階であって、点
は、基準フレームの第2のセグメントのピクセル
をカメラ位置
と結び付ける線上に存在する、段階と、
基準フレームの第2のセグメントの像面を基準フレームの第1のセグメントの像面に対して平行な向きへと回転させるための回転を実行する段階と、

を基準フレームの第1のセグメントの像面における点
に投影する段階であって、基準フレームの第1のセグメントの像面における点
は、拡張ピクセルを画定する、段階と
を含む。
第2の態様の第1の実装形態または第2の実装形態によるデコード装置の第3の可能な実装形態において、マッピングは、ホモグラフィ行列
に基づき、
および
は、基準フレームの第1のセグメントおよび第2のセグメントのカメラ較正行列を示し、
は、第1のセグメントの像面と基準フレームの第2のセグメントの像面との間の角度を示し、
は、回転を示し、
は、カメラ位置
からの距離を示す。
第2の態様によるデコード装置の第4の可能な実装形態またはその実装形態のいずれか1つにおいて、デコード装置は、基準フレームバッファをさらに備える。基準フレームバッファは、基準フレームの第1のセグメントを基準フレームの第1のセグメントの拡張領域と共に格納するように構成される。
第2の態様によるデコード装置の第5の可能な実装形態またはその実装形態のいずれか1つにおいて、第1のセグメントおよび第2のセグメントは、立方体または二十面体の異なる面に対応する。
第3の態様によれば、本発明は、ビデオ信号をエンコードするための方法に関する。
ビデオ信号は、複数の連続するフレームの形式で提供される、第1の像面のビデオコンテンツと第2の像面のビデオコンテンツとを含むビデオコンテンツを含み、
複数の連続するフレームの各々のフレームは、第1の像面の画像コンテンツを含む第1のセグメントと、第2の像面の画像コンテンツを含む第2のセグメントとを含み、
第1のセグメントおよび第2のセグメントは各々、複数のピクセルを含み、
ピクセル各々は、ピクセル値に関連付けられ、
方法は、
複数の拡張ピクセルを含む、基準フレームの第1のセグメントの拡張領域を生成する段階であって、拡張ピクセル各々について、基準フレームの第2のセグメントのピクセルのピクセル値に基づいて、拡張ピクセルのピクセル値を決定する段階を有する、生成する段階と、
基準フレームの第1のセグメントの拡張領域に全体的または部分的に位置する基準ブロック候補を含む一式の基準ブロック候補のうち基準ブロックを選択する段階と、
ビデオコーディングブロックのピクセルのピクセル値と、選択された基準ブロックのピクセルのピクセル値とに基づいて、現在のフレームの第1のセグメントのビデオコーディングブロックのピクセルのピクセル値をエンコードする段階と
を備える。やはり、第1の像面および第2の像面は、ある面間角(例えば、1°と90°との間)だけ互いに対して角度が付けられ得る。
第4の態様によれば、本発明は、エンコードされたビデオ信号をデコードするための方法に関する。
エンコードされたビデオ信号は、エンコードされた状態の複数の連続するフレームとして提供される、第1の像面のビデオコンテンツと第2の像面のビデオコンテンツとを含むビデオコンテンツを含み、
複数の連続するフレームの各々のフレームは、第1の像面の画像コンテンツを含む第1のセグメントと、第2の面の画像コンテンツを含む第2のセグメントとを含み、
第1のセグメントおよび第2のセグメントは各々、複数のピクセルを含み、
ピクセル各々は、ピクセル値に関連付けられ、
方法は、
複数の拡張ピクセルを含む、基準フレームの第1のセグメントの拡張領域を生成する段階であって、拡張ピクセル各々について、基準フレームの第2のセグメントのピクセルのピクセル値に基づいて、拡張ピクセルのピクセル値を決定する段階を有する、生成する段階と、
現在のフレームの第1のセグメントのエンコードされたビデオコーディングブロックと、基準ブロックのピクセルのピクセル値とに基づいて、現在のフレームの第1のセグメントのビデオコーディングブロックのピクセルのピクセル値を再構成する段階であって、基準ブロックは、基準フレームの第1のセグメントに全体的または部分的に位置するか、または、基準フレームの第1のセグメントの拡張領域に全体的または部分的に位置する、再構成する段階と
を備える。
本発明の第4の態様によるデコード方法は、本発明の第2の態様によるデコード装置により実行され得る。本発明の第4の態様によるデコード方法のさらなる特徴は、本発明の第2の態様によるデコード装置およびその異なる実装形態の機能から直接生じる。
本発明の第4の態様によるデコード方法または本発明の第2の態様によるデコード装置の一実装形態において、セグメント拡張ユニットは、各ビデオコーディングブロックのブロックレベル、フレームレベル、GOP(ピクチャグループ)レベル、PPS(ピクチャパラメータセット)レベルまたはSPS(シーケンスパラメータセット)レベルで、フラグ/情報に基づいてセグメント拡張を実行するように構成される。セグメント拡張オペレーションは、フラグのステータスに基づいて有効化または無効され得る。
第5の態様によれば、本発明は、コンピュータ上で実行された場合、第3の態様によるエンコード方法または第4の態様によるデコード方法を実行するためのプログラムコードを含むコンピュータプログラムに関する。本発明は、ハードウェアおよび/またはソフトウェアにおいて実装され得る。
以下の図に対して、本発明のさらなる実施形態が説明される。
一実施形態によるビデオ信号をエンコードするための装置を例示した概略図を示す。 一実施形態によるビデオ信号をデコードするための装置を例示した概略図を示す。 一実施形態によるエンコード装置およびデコード装置において実装される拡張領域を生成するための幾何学変換を例示した概略図を示す。 一実施形態によるエンコード装置およびデコード装置により処理され得るビデオ信号のフレームを例示した概略図を示す。 一実施形態によるエンコード装置およびデコード装置により処理され得るビデオ信号のフレームのセグメント間の幾何学的関係を例示した概略図を示す。 一実施形態によるエンコード装置およびデコード装置により生成される拡張領域を含むビデオ信号のセグメントを例示した概略図を示す。 一実施形態によるエンコード装置およびデコード装置により生成されるフレーム内に拡張領域を含むビデオ信号のセグメントを例示した概略図を示す。 一実施形態によるビデオ信号をエンコードするための方法を例示した概略図を示す。 一実施形態によるビデオ信号をデコードするための方法を例示した概略図を示す。様々な図において、同一の参照符号は、同一であるか、または少なくとも機能的に同等の特徴について用いられる。
以下の説明では、本開示の一部を形成する添付図面が参照される。添付図面には、例として、本発明が提起され得る特定の態様が示される。他の態様が利用され得ること、および本発明の範囲から逸脱することなく構造的または論理的な変更が行われ得ることが理解される。本発明の範囲は、添付の特許請求の範囲定義されるので、以下の詳細な説明は、限定的な意味で解釈されるべきではない。
例えば、説明される方法に関連する開示も、当該方法を実行するように構成される対応するデバイスまたはシステムについて当てはまり得ること、そしてその逆も同様であることが理解される。例えば、特定の方法の段階が説明される場合、対応するデバイスは、説明される方法の段階を実行するためのユニットを、そのようなユニットが明確に説明されないか、または図示されない場合でも、含み得る。さらに、本明細書において説明される様々な例示的な態様の特徴は、特に別段の記載がない限り、互いに組み合わされ得ることが理解される。
図1は、一実施形態によるビデオ信号のビデオコーディングブロックをエンコードするための装置100を例示した概略図を示す。ビデオ信号は、複数のフレームを含み、各フレームは、第1のセグメントと第2のセグメントとを含む複数のセグメントを含む。各セグメントは、異なる像面に関連付けられており、複数のビデオコーディングブロックへ分割可能である。各ビデオコーディングブロックは、複数のピクセルを含み、各ピクセルは、ピクセル値に関連付けられている。一実施形態において、ビデオコーディングブロックは、マクロブロック、コーディングツリーユニット、コーディングユニット、予測ユニットおよび/または予測ブロックであり得る。
以下でより詳細に説明されるように、エンコード装置100は、複数の拡張ピクセルを含む基準フレームの第1のセグメントの拡張領域を生成するように構成されるセグメント拡張ユニット111a、111bを備える。各拡張ピクセルについて、セグメント拡張ユニット111a、111bは、基準フレームの第2のセグメントのピクセルのピクセル値に基づいて拡張ピクセルのピクセル値を決定するように構成される。
エンコード装置100は、インター予測ユニット113、115およびエンコードユニット101、119をさらに備える。インター予測ユニット113、115は、基準フレームの第1のセグメントのピクセルと基準フレームの拡張領域の拡張ピクセルとに基づいて、現在処理されているフレームの第1のセグメントのビデオコーディングブロックの動き補償を実行するように、すなわち、基準フレームにおける同じ場所に配置されたビデオコーディングブロックに基づいて予測ビデオコーディングブロックを生成するように構成される。また、エンコードユニット101、119は、エンコードされたビデオコーディングブロックを予測ビデオコーディングブロックに基づいて生成するように構成される。以下でさらにより詳細に説明されるように、エンコードユニット101、119は、変換および量子化ユニット101および/またはエントロピーコーディングユニット119を備え得る。
図1に示されるエンコード装置100の実施形態は、以下の態様で機能する。3×2個の立方体セグメントなどの複数のセグメントを含むビデオ信号のフレームは、複数の非重複ビデオコーディングブロックへ分割される。現在処理されているビデオコーディングブロックの各々について、予測ブロック、すなわち、予測された現在のビデオコーディングブロックは、残留ビデオコーディングブロックを提供する減算ユニット102により減算される。次に、残留ビデオコーディングブロックが、図1に示される変換および量子化ユニット101により変換および定量化され、エントロピーコーディングユニット119によりエントロピーエンコードされて、基準デコーダ120は、既にエンコードされているビデオコーディングブロックを利用可能になる。基準デコーダ120は、変換および量子化ユニット101のオペレーションを反転させる(ここでは、量子化エラーがもたらされ得る)逆変換および量子化ユニット103を備える。追加ユニット105は、残留ビデオコーディングブロックを予測ブロックと組み合わせることで、再構成されたビデオコーディングブロックを取得する。再構成されたビデオコーディングブロックは、イントラ予測ユニット117を用いた、同じフレームの他のビデオコーディングブロックのイントラ予測用に利用可能になる。
再構成されたビデオコーディングブロックは、ループフィルタユニット107によりループフィルタリングされる可能性があり(選択は、エンコード装置100の制御ユニットにより行われ得る)、基準フレームバッファ109に格納される。このステージにおいて、再構成されたビデオコーディングブロックは、他のフレームのビデオコーディングブロックのインター予測用にも利用可能になる。上記で既に言及され、以下でさらにより詳細に説明されるように、基準フレームバッファ109がアクセスされた場合、セグメント拡張ユニット111a、111bは、現在のビデオコーディングブロックを含むセグメントの拡張領域を提供し得る。図1には例示を目的として2つのセグメント拡張ユニット111a、111bが示されているが、図1に示されている2つのセグメント拡張ユニット111a、111bは、単一のユニットの形式でも実装され得ることが容易に理解されよう。
上記で既に言及されたように、セグメント拡張ユニット111a、111bにより提供されるデータは、インター予測ユニット115により、動き補償の実行のために用いられる。この目的を達成するために、図1に示されるエンコード装置100は、動き推定ユニット113をさらに備える。他の実施形態において、動き推定ユニット113は、インター予測ユニット115の一部分として実装され得る。概して、エンコード装置100の制御ユニット(図1には示されない)は、現在処理されているビデオコーディングブロックを選択すると共に、現在処理されているビデオコーディングブロックを予測するために予測モード、すなわち、イントラ予測またはインター予測を選択する。この情報は、図2に示されるデコード装置200より必要ともされ、よって、エントロピーコーディングユニット119により、ビットストリームへとエントロピーコーディングされもする。
図2は、一実施形態によるビデオ信号のエンコードされたビデオコーディングブロックをデコードするための装置200を例示する概略図を示す。ビデオ信号は、複数のフレームを含み、各フレームは、第1のセグメントおよび第2のセグメントを含む複数のセグメントを含む。各セグメントは、異なる像面に関連付けられており、複数のビデオコーディングブロックへ分割可能である。各ビデオコーディングブロックは、複数のピクセルを含み、各ピクセルは、ピクセル値に関連付けられている。
デコード装置200は、デコードユニット203、219を備える。デコードユニット203、219は、残留ビデオコーディングブロックを提供するために現在のフレームの第1のセグメントのビデオコーディングブロックをデコードするように構成される。以下でさらにより詳細に説明されるように、デコードユニット203、219は、逆変換および量子化ユニット203および/またはエントロピーコーディングユニット219を備え得る。
以下でさらにより詳細に説明されるように、デコード装置200は、セグメント拡張ユニット211をさらに備える。セグメント拡張ユニット211は、複数の拡張ピクセルを含む基準フレームの第1のセグメントの拡張領域を生成するように構成される。各拡張ピクセルについて、セグメント拡張ユニット211は、基準フレームの第2のセグメントのピクセルのピクセル値に基づいて拡張ピクセルのピクセル値を決定するように構成される。
デコード装置200は、インター予測ユニット215をさらに備える。インター予測ユニット215は、基準フレームの第1のセグメントのピクセルと基準フレームの拡張領域の拡張ピクセルとに基づいて現在のフレームの第1のセグメントのビデオコーディングブロックの動き補償を実行するように、すなわち、基準フレームにおける同じ場所に配置されたビデオコーディングブロックに基づいて予測ビデオコーディングブロックを生成するように構成される。
デコード装置200は、再構成ユニット209をさらに備える。再構成ユニット209は、予測ビデオコーディングブロックおよび残留ビデオコーディングブロックに基づいて現在のフレームのビデオコーディングブロックを再構成するように構成される。
図2に示されるデコード装置200の実施形態は、以下の態様で機能する。ビデオ信号の現在のフレームは、複数の非重複ビデオコーディングブロックへ分割される。現在処理されているビデオコーディングブロックの残留分、すなわち、残留ビデオコーディングブロックは、エントロピーコーディングユニット219により、インター予測およびイントラ予測用の対応するパラメータと共にデコードされる。残留ビデオコーディングブロックは、逆変換および量子化ユニット203により処理され、追加ユニット205により、再構成されたビデオコーディングブロックを生成するために、予測ビデオコーディングブロックへ加えられる。再構成されたビデオコーディングブロックは、同じフレームの他のビデオコーディングブロックのイントラ予測用にイントラ予測ユニット217に提供される。さらに、再構成されたビデオコーディングブロックは、ループフィルタ207によりループフィルタリングされ得(この選択は、デコード装置200の制御ユニットにより行われ得る)、基準フレームバッファ209に格納される。このステージにおいて、再構成されたビデオコーディングブロックは、他のフレームのビデオコーディングブロックのインター予測用にも利用可能になる。上記で既に言及され、以下でさらにより詳細に説明されるように、基準フレームバッファ209がアクセスされた場合、セグメント拡張ユニット211は、基準フレーム内のセグメントの拡張領域を提供し得る。基準フレームバッファ209は、処理されたフレームを出力順序で出力するように構成される。
上述のエンコード装置100およびデコード装置200の既知のユニットのいくつかについてのより詳細な事項に関して、2015年Springer−Verlag Berlin Heidelberg出版、Mathias Wien著「高効率ビデオコーディング」第1版という文献が参照される。当該文献は、参照により全体が本明細書に組み込まれる。
一実施形態において、エンコード装置100のセグメント拡張ユニット111a、111bと、デコード装置200のセグメント拡張ユニット211とは、基準フレームの第1のセグメントの拡張領域の各拡張ピクセルについて、それらの共通の端部にわたる幾何学的歪みが補償されるように、基準フレームの第2のセグメントのピクセルを基準フレームの第1のセグメントの像面にマッピングするように構成されるマッピングを用いて、基準フレームの第2のセグメントのピクセルのピクセル値に基づいて拡張ピクセルのピクセル値を決定するように構成される。
図3は、エンコード装置100のセグメント拡張ユニット111a、111bとデコード装置200のセグメント拡張ユニット211とに実装され、基準フレームの第1のセグメントおよび隣接する第2のセグメントの共通の端部にわたる幾何学的歪みの補償を可能にするマッピングまたは幾何学変換を示す。ここで、第1のセグメント(セグメントAとも称され、像面Aに関連付けられる)と、第2のセグメント(セグメントBとも称され、像面Bに関連付けられる)とは、同じカメラ位置またはカメラ中心Cを有し、境界を共有しているものと仮定する。
図3から理解され得るように、3D空間における点
は、カメラ中心Cを通過した光線上に存在する。カメラ中心Cは、像面Aおよび像面Bと交差する。結果的に、像面Bにおける点
が、像面Aにおける点
に投影またはマッピングされ得る。このオペレーションには、カメラ中心Cからの3D点
の距離の情報は必要とされない。
数学的には、このことは、以下の態様で表されされ得る。 点
は、3D空間におけるベクトル、すなわち、
と表され得る。点
の同次表現
は、
と表され得る。
像面Bへの同次表現
の投影は、
と示され、
と表され得る。
は、像面Bに関連付けられたカメラの較正行列である。上記式は、いくらか異なり、
という形式で表され得る。
同次座標がスケーリングのみまで定義されるので、スケーリング係数
は、正規化された同次画像座標
を提供するために省略され得る。この正規化された形式は、以下の態様で直接取得され得もする。

カメラからの点の距離が既知である場合、投影は、以下の態様で逆数にされ得る。

この場合も、スケーリング係数
は、抜かされ得る。次に、上述の態様で取得された点は、像面Aに投影され得る。しかしながら、像面Aは像面Bとは異なる向きを有するので、まず、像面Aを像面Bと位置合わせするために、カメラ中心Cの周りでの回転Rが実行されなければならない。この回転
は、像面Aと像面Bとの間の角度
により画定され、それぞれの座標軸を中心とする回転の組み合わせ、すなわち、
とも表され得る。この回転は、同次座標
でも表され得る。
故に、像面Bにおける点
は、像面Aにおける対応する点
に投影またはマッピングされ得る。

故に、点を像面Bから像面Bに移動させるためのホモグラフィ行列
は、
と表され得る。
ホモグラフィ行列
を決定するための上記式から分かるように、カメラCからの距離
は、上記式から抜かされる。なぜなら、この情報は、ホモグラフィの実行には必要ではないからである。
上述の変換についてのより詳細な事項に関して、2003年Cambridge University Press出版、Richard HarleyおよびAndrew Zisserman著「コンピュータビジョンにおける複数視点ジオメトリ」第2版という文献が参照される。当該文献は、参照により全体が本明細書に組み込まれる。
故に、一実施形態において、エンコード装置100のセグメント拡張ユニット111a、111bとデコード装置200のセグメント拡張ユニット211とに実装されるマッピングまたは幾何学変換は、基準フレームの第2のセグメントのピクセルまたは点
を三次元空間における点
に投影する段階であって、点
は、基準フレームの第2のセグメントのピクセル
をカメラ位置
と結び付ける線上に存在する、段階と、基準フレームの第2のセグメントの像面Bを基準フレームの第1のセグメントの像面Aと平行な向きへと回転させるための回転を実行する段階と、点
を基準フレームの第1のセグメントの像面Aにおける点
に投影する段階であって、基準フレームの第1のセグメントの像面Aにおける点
は、拡張ピクセルを画定する、段階とを含む。
さらなる実施形態において、エンコード装置100のセグメント拡張ユニット111a、111bとデコード装置200のセグメント拡張ユニット211とに実装されるマッピングまたは幾何学変換は、ホモグラフィ行列
に基づく。
以下では、上記アプローチが、360°ビデオ信号に関連して説明される。セグメントは、立方体の6つの面である。すなわち、360°ビデオ信号は、立方体を画定する6つのセグメントにマッピングされている。立方体の面またはセグメントは、フレームに配置されている。立方体セグメント401−1,…, 401−6とパッドされた画像境界403とを含むフレーム400の可能な構成の1つが、図4に示される。図5に示されるように、全ての立方体セグメント401−1,…, 401−6は、4つの隣接セグメントまたは近接セグメントを有する主面またはセグメントとなるように画定され得る。立方体セグメント401−1が、主面として選択されている。特許請求される発明により提供される幾何学的補正をしないと、図5に示されるセグメントの境界にわたる幾何学的歪みが生じるであろう。
簡略化の目的で、異なる立方体セグメントの解像度は同じであるものと仮定する。さらに、座標
で表されるそれぞれの主点は、それぞれの立方体セグメントの中心に存在するものと仮定する。そのような実施形態において、較正行列
および
は、以下の態様で表され得る。
および
は、幾何学的な考慮事項を用いて決定され得る焦点距離を示し、
と等しい。
は、ピクセルにおける立方体セグメントの幅を示す。
本実施形態について、第1のセグメントの像面Aは、デカルト座標系のx−y面と一致し、一方、第2のセグメントの像面Bは、そのy−z面に存在するものと仮定する。本実施形態において、像面Aを像面Bと位置合わせするための回転は、y軸を中心とする90°の回転である。 この場合、ホモグラフィ行列
は、以下の態様で表され得る。

やはり、ここでもスケーリング係数
は、抜かされ得る。
故に、一実施形態において、エンコード装置100のセグメント拡張ユニット111a、111bとデコード装置200のセグメント拡張ユニット211とに実装されるマッピングまたは幾何学変換は、ホモグラフィ行列
に基づく。
一実施形態において、図4に示される6つの立方体セグメント401−1,…, 401−6の各々は、それぞれの隣接セグメントのピクセルのピクセル値に基づいて拡張され得る。図6において、このことが立方体セグメント401−1について示されている。立方体セグメント401−1は、左方近接セグメント401−2に基づく拡張領域401−1aと、上方近接セグメント401−4に基づく拡張領域401−1bと、右方近接セグメント401−3に基づく拡張領域401−1cと、下方近接セグメント401−5に基づく拡張領域401−1dとを有し得る。
一実施形態において、拡張領域は常に、エンコード装置100のセグメント拡張ユニット111a、111bとデコード装置200のセグメント拡張ユニット211とによりインターフレーム予測のために提供され得る。しかしながら、補償されたブロックは、必ずしも元のブロックと異なるわけではないことが理解されよう。例えば、動き補償が実行されることになるブロックは、面(図5における主面)の端部に存在する。動き補償が実行されるエリアは、予測されることになるブロックの位置に基づいて拡張される。4つの近接セグメントは、拡張セグメント、すなわち、メインセグメントとその拡張領域とを生成するために、メインセグメントと共に用いられ得る。メインセグメントのエリアは、ここでは修正されていない。他のセグメントから生成されるメインセグメントの周りのエリアのみが修正されている。動き補償がメインセグメント401−1内で機能している限り、挙動は、本発明の実施形態により提供されるセグメント拡張がない場合と同じである。動き補償がメインセグメントの端部を越えて検索している場合、挙動は異なり、ここでは、拡張領域からの情報が用いられる。
同様のホモグラフィが他のセグメントにも当てはまる。各立方体セグメントは、上述の態様で拡張され得る。しかしながら、このことには、拡張領域が互いに重なる影響があり得る。故に、一実施形態において、図7に示されるように、拡張領域は、別個の追加の基準ピクチャまたは基準フレームに格納され得る。エンコードおよびデコード中に用いられなければならない基準ピクチャは、現在処理されているブロックの空間的位置に基づいて導出される。故に、追加のシグナリングは必要ない(基準ピクチャリストにおけるピクチャの数は不変である)。より具体的には、図7に示される例では、1つの基準ピクチャの代わりに6つの基準ピクチャが現在利用可能とみなされ得、1つの基準ピクチャのみが所与の予測ブロックについて用いられるが、一実施形態におけるように、このブロックは、単一のセグメントおよびその(結果としてブロックの位置により決定される)対応する拡張領域に割り当てられ得る。一実施形態において、これは、処理されているブロックの位置に基づいて、エンコード装置100により用いられる基準ピクチャを対応する追加の基準ピクチャで透過的に置き換えることにより行われ得る。エンコード装置100およびデコード装置200は、より多くの基準ピクチャが存在していることを「認識」していない。置き換えは、実際のYUVバッファにアクセスがあった場合にのみ起こる。置き換えは、予測されることになるピクチャの基準ピクチャリストにおける過去および将来の基準ピクチャについて実行され得る。
故に、本発明の実施形態により、演算の複雑性のみがわずかに上がる。追加で必要なオペレーションは、拡張領域の作成になる。6つのピクチャが1つのピクチャの代わりに格納されるので、メモリ要件が上がり得る。しかしながら、これは、特定の実装形態の課題である。より効率的な実施形態であれば、追加の6つのピクチャの全てを格納する必要はない可能性もあるが、各セグメントの周りの小さい領域に必要なデータのみを格納し得る。別の代替的な実施形態は、拡張を各々のブロックおよび検索位置に適用することから成る。これは追加のストレージを必要としないであろうが、各検索位置について補償を実行しなければならないので、さらなる演算の複雑性につながるであろう。
本発明の実施形態は、360°ビデオ信号の「ラップアラウンド」にも相当する。各セグメント境界は、近接セグメントからの情報で拡張され得る。これは、360°画像の境界と一致するセグメント境界についても当てはまる。図7において分かるように、拡張セグメント401−1は、パディングを必要としない。代わりに、パディングエリアは、別の立方体セグメントのコンテンツで満たされ得る。拡張領域のサイズは、ピクチャ境界のパディング箇所のサイズと一致するように、動き補償中にエンコード装置100により用いられる検索範囲から導出され得る。
図8は、一実施形態によるビデオ信号をエンコードするための方法800を例示した概略図を示す。ビデオ信号は、複数のフレームを含み、各フレームは、第1のセグメントと第2のセグメントとを含む複数のセグメントを含む。各セグメントは、異なる像面に関連付けられており、複数のビデオコーディングブロックへ分割可能である。各ビデオコーディングブロックは、複数のピクセルを含み、各ピクセルは、ピクセル値に関連付けられている。
エンコード方法800は、基準フレームにおける第2のセグメントのピクセルのピクセル値に基づいて、複数の拡張ピクセルを含む、基準フレームの第1のセグメントの拡張領域を、拡張ピクセルのピクセル値を決定することにより生成する段階801と、基準フレームにおける第1のセグメントのピクセルと基準フレームにおける拡張領域の拡張ピクセルとに基づいて、現在のフレームにおける第1のセグメントのビデオコーディングブロックの動き補償を実行する段階803と、予測ビデオコーディングブロックに基づいて、エンコードされたビデオコーディングブロックを現在のフレームに生成する段階805とを備える。
要するに、基準フレームのセグメントと、基準フレームの別のセグメントから生成された拡張領域とは、インター予測により現在のフレームをエンコードするために用いられる。
図9は、一実施形態によるビデオ信号をデコードするための方法900を例示した概略図を示す。ビデオ信号は、複数のフレームを含み、各フレームは、第1のセグメントと第2のセグメントとを含む複数のセグメントを含む。各セグメントは、異なる像面に関連付けられており、複数のビデオコーディングブロックへ分割可能である。各ビデオコーディングブロックは、複数のピクセルを含み、各ピクセルは、ピクセル値に関連付けられている。
デコード方法900は、現在のフレームにおける第1のセグメントのビデオコーディングブロックをデコードして残留ビデオコーディングブロックを提供する段階901と、基準フレームにおける第2のセグメントのピクセルのピクセル値に基づいて、複数の拡張ピクセルを含む、基準フレームの第1のセグメントの拡張領域を、拡張ピクセルのピクセル値を決定することにより生成する段階903と、基準フレームにおける第1のセグメントのピクセルと基準フレームにおける拡張領域の拡張ピクセルとに基づいて、現在のフレームにおける第1のセグメントのビデオコーディングブロックの動き補償を実行する段階905と、予測ビデオコーディングブロックと残留ビデオコーディングブロックとに基づいて、ビデオコーディングブロックを現在のフレームに再構成する段階907とを備える。
提案される技術は、本明細書において主に2つのセグメントを参照して説明されてきたが、2つより多いセグメントがあるビデオコンテンツを有するビデオ信号に容易に適合され得る。具体的には、セグメントは、いくつかの他のセグメントからの画像コンテンツを用いて拡張され得る。
本開示の特定の特徴または態様が、いくつかの実装形態または実施形態のうちの1つのみに関連して開示された可能性もあるが、そのような特徴または態様は、あらゆる所与の用途または特定の用途にとって望ましく有利になり得るように、他の実装形態または実施形態の1または複数の他の特徴または態様と組み合わされてよい。さらに、「含む」、「有する」、「伴う」という用語またはそれらの他の異形が詳細な説明または特許請求の範囲のいずれかにおいて用いられる限りにおいて、そのような用語は、「備える」という用語と同様の態様で包括的であるよう意図されている。また、「例示的な」、「例えば(for example)」および「例えば(e.g.)」という用語は、最良または最適であることではなく、例を意味しているに過ぎない。「結合」および「接続」という用語は、それらの派生語と共に用いられていてよい。これらの用語は、2つの要素が、物理的または電気的に直接接触しているか、または互いに直接接触していないかにかかわらず、互いに協働または相互作用することを示すために用いられている可能性があることが理解されるべきである。
特定の態様が本明細書において図示および説明されてきたが、当業者であれば、様々な代替的な実装および/または同等の実装が、本開示の範囲から逸脱することなく、図示および説明された特定の態様の代わりになり得ることを理解されよう。本願は、本明細書において述べられた特定の態様のあらゆる適応形態または変形形態を包含することを意図している。
以下の特許請求の範囲における要素は、対応する符号と共に特定の順序で記載されているが、特許請求の範囲の記載にそれらの要素のいくつかまたは全てを特定の順序で実装することについての別段の示唆がない限り、それらの要素がその特定の順序で実装されるよう限定されることが必ずしも意図されているわけではない。
上記の教示に照らして、多くの代替形態、修正形態および変形形態が当業者には明らかになろう。当業者であれば、本明細書において説明されたものの外にも本発明の多数の用途が存在することを容易に認識するのは当然である。本発明は、1または複数の特定の実施形態を参照して説明されてきたが、当業者であれば、多くの変更が、本発明の範囲から逸脱することなく行われ得ることを認識する。従って、本発明は、添付の特許請求の範囲およびそれらの均等物の範囲内で、本明細書において具体的に説明された以外の態様で実施され得ることが理解されるべきである。
本発明は概して、ビデオコーディング分野に関する。より具体的には、本発明は、ビデオ信号のビデオコーディングブロックをエンコードおよびデコードするための装置および方法に関する。
360°パノラマビデオ信号は、単一の視点の周囲の全ての方向でシーンを撮像したシーケンスを含む。これは一般に、互いに近くに配置された、異なる視野方向を有する複数のカメラを用いて実現される。次に、撮像されたコンテンツは、共にスティッチされると共に、特定の時点での360°のシーンまたはパノラマビデオ信号を表す、当該視点の周りのテクスチャを有する球体として考えられ得る。しかしながら、そのような球体は、概してシーンの平らな(2D)矩形画像を必要とする現在のビデオコーデックを用いて直接処理され得ない。故に、現在のビデオコーデックを用いてパノラマビデオ信号を処理すべく、球体は、そのような2Dフォーマットへ変換されなければならない。
1または複数のセグメントを含む2Dフォーマットへ球体を変換するために、以下の投影のうちの1つが用いられ得る。
エクイレクタングラー投影では、地球から世界地図を作成するものと同様の矩形への投影を画定する。サンプル密度は、「高さ」が異なるにつれて異なる。極端な場合は、球体の極であり、極は線へとマッピングされる。幾何学的歪みが、結果として得られる画像の全体に広がる。
立方体に基づく投影では、球体は、立方体の面またはセグメントにマッピングされる。各セグメントは、可視の幾何学的歪みがない通常の2D画像のように見える。しかしながら、セグメントの境界領域には強い幾何学的歪みが存在する。セグメントを矩形フォーマットで配置するための複数の態様がある。
二十面体に基づく投影では、球体は、二十面体の面またはセグメントにマッピングされる。各セグメントは、可視の幾何学的歪みがない通常の2D画像のように見える。この場合も、二十面体のセグメントの境界領域には強い幾何学的歪みが存在する。しかしながら、近接面間の角度が小さいので、これらの歪みは、立方体フォーマットに基づく投影の場合と同じ程度には強くない。二十面体の面を矩形フォーマットで配置するための複数の態様がある。
立方体フォーマットおよび二十面体フォーマットの両方は、同じカメラ中心および端部を共有する、歪みのないセグメントから成る。
複数のセグメントを含むパノラマビデオ信号のエンコードおよびデコードには、以下の問題が生じ得る。同じカメラ中心を有し、境界を共有する2つの面またはセグメント、すなわち、面Aおよび面Bがあるとする。面AおよびBの画像は、継時的に記録され、パノラマビデオ信号の後続のフレームに配置される。次に、このパノラマビデオ信号は、エンコードされる。
面AおよびBの画像が互いに隣り合う順序で配置されていない場合、動き補償は、それらの共有されている境界にわたって実行され得ない。しかしながら、それらが、3D空間において共有するのと同様にパノラマビデオ信号における同じ境界を共有するように配置されている場合でも、パノラマビデオ信号におけるそれらの共通の境界にわたって幾何学的歪みが存在する。これにより、パノラマビデオ信号の面AおよびBの画像の境界領域での動き補償の性能が下がってしまう。
故に、異なる像面に対応する2以上のセグメントを含むビデオ信号(例えば、パノラマビデオ信号)をエンコードおよびデコードするための改良された装置および方法が必要とされている。
本発明の目的は、ビデオ信号をエンコードおよびデコードするための改良された装置および方法を提供することである。
前述の目的および他の目的は、独立請求項の主題により実現される。さらなる実装形態が、従属請求項、明細書および図から明らかである。
本明細書において用いられる場合、ビデオ信号またはビデオシーケンスは、動画を示す一式の後続のフレームである。言い換えれば、ビデオ信号またはビデオシーケンスは、複数のフレーム(ピクチャまたは画像とも称される)から成る。
本明細書において用いられる場合、コーディングツリーユニット(CTU)は、フレームの一部分(例えば、64×64個のピクセル)を含む、予め定義されたサイズのビデオシーケンスのコーディング構造のルートを示す。CTUは、いくつかのコーディングユニット(CU)へのパーティション化であり得る。
本明細書において用いられる場合、コーディングユニット(CU)は、CTUに属するフレームの一部分を含む、予め定義されたサイズのビデオシーケンスの基本的なコーディング構造を示す。CUは、さらなるCUへパーティション化され得る。
本明細書において用いられる場合、予測ユニット(PU)は、CUをパーティション化した結果であるコーディング構造を示す。
本明細書において用いられる場合、ブロックは、ピクセルグループを示す。ブロックは、任意の形状、特に、正方形または矩形であり得る。
本明細書において説明されるデバイスおよび方法は、ナチュラルビデオシーケンスの時間冗長性を利用すべくピクチャ間のインター予測のために用いられ得る。現在のピクチャと基準ピクチャとの間で観察される情報の変化は、多くの場合、並進移動、例えば、像面内での直線移動により近似され得る。ブロックベースの動き補償は、基準ピクチャが矩形ブロックへパーティション化され、ブロック内の各ピクセルが同じ動きを見せるこのパラダイムの主要な実現例である。故に、予測ブロックと呼ばれるブロック全体の動きは、単一の動きベクトルにより説明され得る。基準ピクチャ全体にわたる一式の動きベクトルにより、動きベクトル場として示されるベクトル場が定義される。
第1の態様によれば、本発明は、ビデオ信号をエンコードするための装置に関する。
装置は、
セグメント拡張ユニットと、
インター予測エンコードユニットと
を備え、
ビデオ信号は、複数の連続するフレームの形式で提供される、第1の像面のビデオコンテンツと第2の像面のビデオコンテンツとを含むビデオコンテンツを含み、
複数の連続するフレームの各々のフレームは、第1の像面の画像コンテンツを含む第1のセグメントと、第2の像面の画像コンテンツを含む第2のセグメントとを含み、
第1のセグメントおよび第2のセグメントは各々、複数のピクセルを含み、
ピクセル各々は、ピクセル値に関連付けられ、
セグメント拡張ユニットは、
複数の拡張ピクセルを含む、基準フレームの第1のセグメントの拡張領域を生成するように構成され、
拡張ピクセル各々について、基準フレームの第2のセグメントのピクセルのピクセル値に基づいて、拡張ピクセルのピクセル値を決定するように構成され、
インター予測エンコードユニットは、
基準フレームの第1のセグメントの拡張領域に全体的または部分的に位置する基準ブロック候補を含む一式の基準ブロック候補のうち基準ブロックを選択するように構成され、
ビデオコーディングブロックのピクセルのピクセル値と、選択された基準ブロックのピクセルのピクセル値とに基づいて、現在のフレームの第1のセグメントのビデオコーディングブロックのピクセルのピクセル値をエンコードするように構成される。
故に、ビデオ信号をエンコードするための改良された装置が提供される。より具体的には、第1の態様によるエンコード装置は、共通の端部にわたって幾何学的歪みが補償されるように、隣接するセグメントに基づいて基準フレームの第1のセグメントを拡張することを可能にする。現在のフレームの第1のセグメントにおけるブロックの動き補償は、基準フレームにおける第1のセグメントおよびその拡張領域に基づいて実行され得る。追加のシグナリングは、必要ではない。なぜなら、幾何学的歪みの補償がどのように実行されるべきかは、一連のフレームにおける空間位置から導出され得るからである。本発明の実施形態は、多くの歪みのない面から成り、端部を共有し、かつ、同じカメラ中心を共有する立方体、二十面体または他のフォーマットにおける360°連続の動き補償に容易に用いられ得る。本発明の実施形態により、例えば、シーン内にカメラの動きまたは動く物体がある場合、コーディング性能を上げることが可能になる。
基準フレームは、再構成フレームであり得る。基準フレームは、複数の連続するフレームのうちの1つのフレームをエンコードし、次に、エンコードされたフレームをデコードすることにより取得され得る。
第1の像面および第2の像面は、互いに対してある面間角(例えば、1°と90°との間)だけ角度が付けられ得る。
一実装形態において、フレームは、一連のサブフレームを含み、各サブフレームは、全てのセグメントのサブセットのみ(例えば、1つのセグメントのみ)を含む。各サブフレームは、セグメントのそれぞれのサブセットを更新するために用いられ得る。
第1のセグメントおよび第2のセグメントは、近接セグメントであり得る。特に、それらは、隣り合うセグメントであり得る。
第1の態様によるエンコード装置の第1の可能な実装形態において、拡張ピクセル各々について、セグメント拡張ユニットは、
マッピングを用いて、基準フレームの第2のセグメントのピクセルのピクセル値に基づいて、拡張ピクセルのピクセル値を決定するように構成されており、
マッピングは、
基準フレームの第2のセグメントのピクセルを第1の像面にマッピングするように構成される(第1の変形例)か、または、
拡張ピクセルを第2の像面にマッピングするように構成される(第2の変形例)。
これの第1の変形例において、拡張ピクセルは、基準フレームの第2のセグメントのピクセルから決定される。第2の変形例において、第2のセグメントのピクセルは、(例えば、第1の変形例に関連付けられる幾何学変換とは逆の幾何学変換を用いて)拡張ピクセルから決定される。
マッピングにおいて、一方の像面からのピクセルは、厳密には他方の像面における1つのピクセル上ではない所に存在することになる可能性があることにさらに留意されたい。むしろ、当該ピクセルは、他方の面の2以上の近接ピクセルの間に位置する、他方の像面の幾何学上の点に存在することになる可能性がある。この理由により、セグメント拡張ユニットは、例えば、第2のセグメントのピクセルがマッピングされる第1の像面における幾何学上の点の近くに位置するピクセルグループ(例えば、2つ、3つまたは4つのピクセル)のピクセル値に基づいて拡張ピクセルのピクセル値を決定するように構成され得る。
第1の態様の第1の実装形態によるエンコード装置の第2の可能な実装形態において、
マッピングは、
基準フレームの第2のセグメントのピクセル
を三次元空間の点
に投影する段階であって、点
は、基準フレームの第2のセグメントのピクセル
をカメラ位置
と結び付ける線上に存在する、段階と、
基準フレームの第2のセグメントの像面を基準フレームの第1のセグメントの像面に対して平行な向きへと回転させるための回転を実行する段階と、

を基準フレームの第1のセグメントの像面における点
に投影する段階であって、基準フレームの第1のセグメントの像面における点
は、拡張ピクセルを画定する、段階と
を含むか、またはそれらと同等である。
第1の態様の第1の実装形態または第2の実装形態によるエンコード装置の第3の可能な実装形態において、マッピングは、ホモグラフィ行列
に基づき、
および
は、基準フレームの第1のセグメントおよび第2のセグメントのカメラ較正行列を示し、
は、第1のセグメントの第1の像面と基準フレームの第2のセグメントの第2の像面との間の角度を示し、
は、回転を示し、
は、カメラ位置
からの距離を示す。
ホモグラフィ行列は、例えば、第2の像面のxy−座標に適用され得るか、またはピクセル座標に直接適用され得る。
第1の態様によるエンコード装置の第4の可能な実装形態またはその実装形態のいずれか1つにおいて、エンコード装置は、基準フレームバッファをさらに備える。基準フレームバッファは、基準フレームの第1のセグメントを基準フレームの第1のセグメントの拡張領域と共に格納するように構成される。
第1の態様によるエンコード装置の第5の可能な実装形態またはその実装形態のいずれか1つにおいて、第1のセグメントは、立方体または二十面体の第1の面に対応し、第2のセグメントは、立方体または二十面体の異なる面に対応する。これらの面は、外面または内面であり得る。
第2の態様によれば、本発明は、エンコードされたビデオ信号をデコードするための装置に関する。
装置は、
セグメント拡張ユニットと、
インター予測再構成ユニットと
を備え、
エンコードされたビデオ信号は、エンコードされた状態の複数の連続するフレームとして提供される、(例えば、互いに対して、例えば1°から90°の間の面間角だけ角度が付いた)第1の像面のビデオコンテンツと第2の像面のビデオコンテンツとを含むビデオコンテンツを含み、
複数の連続するフレームの各々のフレームは、第1の像面の画像コンテンツを含む第1のセグメントと、第2の面の画像コンテンツを含む第2のセグメントとを含み、
第1のセグメントおよび第2のセグメントは各々、複数のピクセルを含み、
ピクセル各々は、ピクセル値に関連付けられ、
セグメント拡張ユニットは、
複数の拡張ピクセルを含む、基準フレームの第1のセグメントの拡張領域を生成するように構成され、
拡張ピクセル各々について、基準フレームの第2のセグメントのピクセルのピクセル値に基づいて、拡張ピクセルのピクセル値を決定するように構成され、
インター予測再構成ユニットは、現在のフレームの第1のセグメントのエンコードされたビデオコーディングブロックと、基準ブロックのピクセルのピクセル値とに基づいて、現在のフレームの第1のセグメントのビデオコーディングブロックのピクセルのピクセル値を再構成するように構成され、
基準ブロックは、基準フレームの第1のセグメントに全体的または部分的に位置するか、または、基準フレームの第1のセグメントの拡張領域に全体的または部分的に位置する。
第2の態様によるデコード装置の第1の可能な実装形態において、拡張ピクセル各々について、セグメント拡張ユニットは、
マッピングを用いて、基準フレームの第2のセグメントのピクセルのピクセル値に基づいて、拡張ピクセルのピクセル値を決定するように構成されており、
マッピングは、
基準フレームの第2のセグメントのピクセルを基準フレームの第1のセグメントの第1の像面にマッピングするように構成されるか、または、
拡張ピクセルを第2の像面にマッピングするように構成される。
第2の態様の第1の実装形態によるデコード装置の第2の可能な実装形態において、
マッピングは、
基準フレームの第2のセグメントのピクセル
を三次元空間の点
に投影する段階であって、点
は、基準フレームの第2のセグメントのピクセル
をカメラ位置
と結び付ける線上に存在する、段階と、
基準フレームの第2のセグメントの第2の像面を基準フレームの第1のセグメントの第1の像面に対して平行な向きへと回転させるための回転を実行する段階と、

を基準フレームの第1のセグメントの第1の像面における点
に投影する段階であって、基準フレームの第1のセグメントの第1の像面における点
は、拡張ピクセルを画定する、段階と
を含む。
第2の態様の第1の実装形態または第2の実装形態によるデコード装置の第3の可能な実装形態において、マッピングは、ホモグラフィ行列
に基づき、
および
は、基準フレームの第1のセグメントおよび第2のセグメントのカメラ較正行列を示し、
は、第1のセグメントの第1の像面と基準フレームの第2のセグメントの第2の像面との間の角度を示し、
は、回転を示し、
は、カメラ位置
からの距離を示す。
第2の態様によるデコード装置の第4の可能な実装形態またはその実装形態のいずれか1つにおいて、デコード装置は、基準フレームバッファをさらに備える。基準フレームバッファは、基準フレームの第1のセグメントを基準フレームの第1のセグメントの拡張領域と共に格納するように構成される。
第2の態様によるデコード装置の第5の可能な実装形態またはその実装形態のいずれか1つにおいて、第1のセグメントおよび第2のセグメントは、立方体または二十面体の異なる面に対応する。
デコード装置の第6の可能な実装形態において、セグメント拡張ユニットは、各ビデオコーディングブロックのブロックレベル、フレームレベル、GOP(ピクチャグループ)レベル、PPS(ピクチャパラメータセット)レベルまたはSPS(シーケンスパラメータセット)レベルで、フラグ/情報に基づいてセグメント拡張を実行するように構成され、
セグメント拡張オペレーションは、フラグのステータスに基づいて有効化または無効化され得る。
第3の態様によれば、本発明は、ビデオ信号をエンコードするための方法に関する。
ビデオ信号は、複数の連続するフレームの形式で提供される、第1の像面のビデオコンテンツと第2の像面のビデオコンテンツとを含むビデオコンテンツを含み、
複数の連続するフレームの各々のフレームは、第1の像面の画像コンテンツを含む第1のセグメントと、第2の像面の画像コンテンツを含む第2のセグメントとを含み、
第1のセグメントおよび第2のセグメントは各々、複数のピクセルを含み、
ピクセル各々は、ピクセル値に関連付けられ、
方法は、
複数の拡張ピクセルを含む、基準フレームの第1のセグメントの拡張領域を生成する段階であって、拡張ピクセル各々について、基準フレームの第2のセグメントのピクセルのピクセル値に基づいて、拡張ピクセルのピクセル値を決定する段階を有する、生成する段階と、
基準フレームの第1のセグメントの拡張領域に全体的または部分的に位置する基準ブロック候補を含む一式の基準ブロック候補のうち基準ブロックを選択する段階と、
ビデオコーディングブロックのピクセルのピクセル値と、選択された基準ブロックのピクセルのピクセル値とに基づいて、現在のフレームの第1のセグメントのビデオコーディングブロックのピクセルのピクセル値をエンコードする段階と
を備える。やはり、第1の像面および第2の像面は、ある面間角(例えば、1°と90°との間)だけ互いに対して角度が付けられ得る。
第4の態様によれば、本発明は、エンコードされたビデオ信号をデコードするための方法に関する。
エンコードされたビデオ信号は、エンコードされた状態の複数の連続するフレームとして提供される、第1の像面のビデオコンテンツと第2の像面のビデオコンテンツとを含むビデオコンテンツを含み、
複数の連続するフレームの各々のフレームは、第1の像面の画像コンテンツを含む第1のセグメントと、第2の面の画像コンテンツを含む第2のセグメントとを含み、
第1のセグメントおよび第2のセグメントは各々、複数のピクセルを含み、
ピクセル各々は、ピクセル値に関連付けられ、
方法は、
複数の拡張ピクセルを含む、基準フレームの第1のセグメントの拡張領域を生成する段階であって、拡張ピクセル各々について、基準フレームの第2のセグメントのピクセルのピクセル値に基づいて、拡張ピクセルのピクセル値を決定する段階を有する、生成する段階と、
現在のフレームの第1のセグメントのエンコードされたビデオコーディングブロックと、基準ブロックのピクセルのピクセル値とに基づいて、現在のフレームの第1のセグメントのビデオコーディングブロックのピクセルのピクセル値を再構成する段階であって、基準ブロックは、基準フレームの第1のセグメントに全体的または部分的に位置するか、または、基準フレームの第1のセグメントの拡張領域に全体的または部分的に位置する、再構成する段階と
を備える。
本発明の第4の態様によるデコード方法は、本発明の第2の態様によるデコード装置により実行され得る。本発明の第4の態様によるデコード方法のさらなる特徴は、本発明の第2の態様によるデコード装置およびその異なる実装形態の機能から直接生じる。
本発明の第4の態様によるデコード方法または本発明の第2の態様によるデコード装置の一実装形態において、セグメント拡張ユニットは、各ビデオコーディングブロックのブロックレベル、フレームレベル、GOP(ピクチャグループ)レベル、PPS(ピクチャパラメータセット)レベルまたはSPS(シーケンスパラメータセット)レベルで、フラグ/情報に基づいてセグメント拡張を実行するように構成される。セグメント拡張オペレーションは、フラグのステータスに基づいて有効化または無効され得る。
第5の態様によれば、本発明は、コンピュータ上で実行された場合、第3の態様によるエンコード方法または第4の態様によるデコード方法をコンピュータに実行させるためのプログラムに関する。本発明は、ハードウェアおよび/またはソフトウェアにおいて実装され得る。
以下の図を参照して、本発明のさらなる実施形態が説明される。
一実施形態によるビデオ信号をエンコードするための装置を例示した概略図を示す。 一実施形態によるビデオ信号をデコードするための装置を例示した概略図を示す。 一実施形態によるエンコード装置およびデコード装置において実装される拡張領域を生成するための幾何学変換を例示した概略図を示す。 一実施形態によるエンコード装置およびデコード装置により処理され得るビデオ信号のフレームを例示した概略図を示す。 一実施形態によるエンコード装置およびデコード装置により処理され得るビデオ信号のフレームのセグメント間の幾何学的関係を例示した概略図を示す。 一実施形態によるエンコード装置およびデコード装置により生成される拡張領域を含むビデオ信号のセグメントを例示した概略図を示す。 一実施形態によるエンコード装置およびデコード装置により生成されるフレーム内に拡張領域を含むビデオ信号のセグメントを例示した概略図を示す。 一実施形態によるビデオ信号をエンコードするための方法を例示した概略図を示す。 一実施形態によるビデオ信号をデコードするための方法を例示した概略図を示す。様々な図において、同一の参照符号は、同一であるか、または少なくとも機能的に同等の特徴について用いられる。
以下の説明では、本開示の一部を形成する添付図面が参照される。添付図面には、例として、本発明が提起され得る特定の態様が示される。他の態様が利用され得ること、および本発明の範囲から逸脱することなく構造的または論理的な変更が行われ得ることが理解される。本発明の範囲は、添付の特許請求の範囲により定義されるので、以下の詳細な説明は、限定的な意味で解釈されるべきではない。
例えば、説明される方法に関連する開示も、当該方法を実行するように構成される対応するデバイスまたはシステムについて当てはまり得ること、そしてその逆も同様であることが理解される。例えば、特定の方法の段階が説明される場合、対応するデバイスは、説明される方法の段階を実行するためのユニットを、そのようなユニットが明確に説明されないか、または図示されない場合でも、含み得る。さらに、本明細書において説明される様々な例示的な態様の特徴は、特に別段の記載がない限り、互いに組み合わされ得ることが理解される。
図1は、一実施形態によるビデオ信号のビデオコーディングブロックをエンコードするための装置100を例示した概略図を示す。ビデオ信号は、複数のフレームを含み、各フレームは、第1のセグメントと第2のセグメントとを含む複数のセグメントを含む。各セグメントは、異なる像面に関連付けられており、複数のビデオコーディングブロックへ分割可能である。各ビデオコーディングブロックは、複数のピクセルを含み、各ピクセルは、ピクセル値に関連付けられている。一実施形態において、ビデオコーディングブロックは、マクロブロック、コーディングツリーユニット、コーディングユニット、予測ユニットおよび/または予測ブロックであり得る。
以下でより詳細に説明されるように、エンコード装置100は、複数の拡張ピクセルを含む基準フレームの第1のセグメントの拡張領域を生成するように構成されるセグメント拡張ユニット111a、111bを備える。各拡張ピクセルについて、セグメント拡張ユニット111a、111bは、基準フレームの第2のセグメントのピクセルのピクセル値に基づいて拡張ピクセルのピクセル値を決定するように構成される。
エンコード装置100は、インター予測ユニット113、115およびエンコードユニット101、119をさらに備える。インター予測ユニット113、115は、基準フレームの第1のセグメントのピクセルと基準フレームの拡張領域の拡張ピクセルとに基づいて、現在処理されているフレームの第1のセグメントのビデオコーディングブロックの動き補償を実行するように、すなわち、基準フレームにおける同じ場所に配置されたビデオコーディングブロックに基づいて予測ビデオコーディングブロックを生成するように構成される。また、エンコードユニット101、119は、エンコードされたビデオコーディングブロックを予測ビデオコーディングブロックに基づいて生成するように構成される。以下でさらにより詳細に説明されるように、エンコードユニット101、119は、変換および量子化ユニット101および/またはエントロピーコーディングユニット119を備え得る。
図1に示されるエンコード装置100の実施形態は、以下の態様で機能する。3×2個の立方体セグメントなどの複数のセグメントを含むビデオ信号のフレームは、複数の非重複ビデオコーディングブロックへ分割される。現在処理されているビデオコーディングブロックの各々について、予測ブロック、すなわち、予測された現在のビデオコーディングブロックは、残留ビデオコーディングブロックを提供する減算ユニット102により減算される。次に、残留ビデオコーディングブロックが、図1に示される変換および量子化ユニット101により変換および定量化され、エントロピーコーディングユニット119によりエントロピーエンコードされて、基準デコーダ120は、既にエンコードされているビデオコーディングブロックを利用可能になる。基準デコーダ120は、変換および量子化ユニット101のオペレーションを反転させる(ここでは、量子化エラーがもたらされ得る)逆変換および量子化ユニット103を備える。追加ユニット105は、残留ビデオコーディングブロックを予測ブロックと組み合わせることで、再構成されたビデオコーディングブロックを取得する。再構成されたビデオコーディングブロックは、イントラ予測ユニット117を用いた、同じフレームの他のビデオコーディングブロックのイントラ予測用に利用可能になる。
再構成されたビデオコーディングブロックは、ループフィルタユニット107によりループフィルタリングされる可能性があり(選択は、エンコード装置100の制御ユニットにより行われ得る)、基準フレームバッファ109に格納される。このステージにおいて、再構成されたビデオコーディングブロックは、他のフレームのビデオコーディングブロックのインター予測用にも利用可能になる。上記で既に言及され、以下でさらにより詳細に説明されるように、基準フレームバッファ109がアクセスされた場合、セグメント拡張ユニット111a、111bは、現在のビデオコーディングブロックを含むセグメントの拡張領域を提供し得る。図1には例示を目的として2つのセグメント拡張ユニット111a、111bが示されているが、図1に示されている2つのセグメント拡張ユニット111a、111bは、単一のユニットの形式でも実装され得ることが容易に理解されよう。
上記で既に言及されたように、セグメント拡張ユニット111a、111bにより提供されるデータは、インター予測ユニット115により、動き補償の実行のために用いられる。この目的を達成するために、図1に示されるエンコード装置100は、動き推定ユニット113をさらに備える。他の実施形態において、動き推定ユニット113は、インター予測ユニット115の一部分として実装され得る。概して、エンコード装置100の制御ユニット(図1には示されない)は、現在処理されているビデオコーディングブロックを選択すると共に、現在処理されているビデオコーディングブロックを予測するために予測モード、すなわち、イントラ予測またはインター予測を選択する。この情報は、図2に示されるデコード装置200より必要ともされ、よって、エントロピーコーディングユニット119により、ビットストリームへとエントロピーコーディングされもする。
図2は、一実施形態によるビデオ信号のエンコードされたビデオコーディングブロックをデコードするための装置200を例示する概略図を示す。ビデオ信号は、複数のフレームを含み、各フレームは、第1のセグメントおよび第2のセグメントを含む複数のセグメントを含む。各セグメントは、異なる像面に関連付けられており、複数のビデオコーディングブロックへ分割可能である。各ビデオコーディングブロックは、複数のピクセルを含み、各ピクセルは、ピクセル値に関連付けられている。
デコード装置200は、デコードユニット203、219を備える。デコードユニット203、219は、残留ビデオコーディングブロックを提供するために現在のフレームの第1のセグメントのビデオコーディングブロックをデコードするように構成される。以下でさらにより詳細に説明されるように、デコードユニット203、219は、逆変換および量子化ユニット203および/またはエントロピーコーディングユニット219を備え得る。
以下でさらにより詳細に説明されるように、デコード装置200は、セグメント拡張ユニット211をさらに備える。セグメント拡張ユニット211は、複数の拡張ピクセルを含む基準フレームの第1のセグメントの拡張領域を生成するように構成される。各拡張ピクセルについて、セグメント拡張ユニット211は、基準フレームの第2のセグメントのピクセルのピクセル値に基づいて拡張ピクセルのピクセル値を決定するように構成される。
デコード装置200は、インター予測ユニット215をさらに備える。インター予測ユニット215は、基準フレームの第1のセグメントのピクセルと基準フレームの拡張領域の拡張ピクセルとに基づいて現在のフレームの第1のセグメントのビデオコーディングブロックの動き補償を実行するように、すなわち、基準フレームにおける同じ場所に配置されたビデオコーディングブロックに基づいて予測ビデオコーディングブロックを生成するように構成される。
デコード装置200は、再構成ユニット209をさらに備える。再構成ユニット209は、予測ビデオコーディングブロックおよび残留ビデオコーディングブロックに基づいて現在のフレームのビデオコーディングブロックを再構成するように構成される。
図2に示されるデコード装置200の実施形態は、以下の態様で機能する。ビデオ信号の現在のフレームは、複数の非重複ビデオコーディングブロックへ分割される。現在処理されているビデオコーディングブロックの残留分、すなわち、残留ビデオコーディングブロックは、エントロピーコーディングユニット219により、インター予測およびイントラ予測用の対応するパラメータと共にデコードされる。残留ビデオコーディングブロックは、逆変換および量子化ユニット203により処理され、追加ユニット205により、再構成されたビデオコーディングブロックを生成するために、予測ビデオコーディングブロックへ加えられる。再構成されたビデオコーディングブロックは、同じフレームの他のビデオコーディングブロックのイントラ予測用にイントラ予測ユニット217に提供される。さらに、再構成されたビデオコーディングブロックは、ループフィルタ207によりループフィルタリングされ得(この選択は、デコード装置200の制御ユニットにより行われ得る)、基準フレームバッファ209に格納される。このステージにおいて、再構成されたビデオコーディングブロックは、他のフレームのビデオコーディングブロックのインター予測用にも利用可能になる。上記で既に言及され、以下でさらにより詳細に説明されるように、基準フレームバッファ209がアクセスされた場合、セグメント拡張ユニット211は、基準フレーム内のセグメントの拡張領域を提供し得る。基準フレームバッファ209は、処理されたフレームを出力順序で出力するように構成される。
上述のエンコード装置100およびデコード装置200の既知のユニットのいくつかについてのより詳細な事項に関して、2015年Springer−Verlag Berlin Heidelberg出版、Mathias Wien著「高効率ビデオコーディング」第1版という文献が参照される。当該文献は、参照により全体が本明細書に組み込まれる。
一実施形態において、エンコード装置100のセグメント拡張ユニット111a、111bと、デコード装置200のセグメント拡張ユニット211とは、基準フレームの第1のセグメントの拡張領域の各拡張ピクセルについて、それらの共通の端部にわたる幾何学的歪みが補償されるように、基準フレームの第2のセグメントのピクセルを基準フレームの第1のセグメントの像面にマッピングするように構成されるマッピングを用いて、基準フレームの第2のセグメントのピクセルのピクセル値に基づいて拡張ピクセルのピクセル値を決定するように構成される。
図3は、エンコード装置100のセグメント拡張ユニット111a、111bとデコード装置200のセグメント拡張ユニット211とに実装され、基準フレームの第1のセグメントおよび隣接する第2のセグメントの共通の端部にわたる幾何学的歪みの補償を可能にするマッピングまたは幾何学変換を示す。ここで、第1のセグメント(セグメントAとも称され、像面Aに関連付けられる)と、第2のセグメント(セグメントBとも称され、像面Bに関連付けられる)とは、同じカメラ位置またはカメラ中心Cを有し、境界を共有しているものと仮定する。
図3から理解され得るように、3D空間における点
は、カメラ中心Cを通過した光線上に存在する。カメラ中心Cは、像面Aおよび像面Bと交差する。結果的に、像面Bにおける点
が、像面Aにおける点
に投影またはマッピングされ得る。このオペレーションには、カメラ中心Cからの3D点
の距離の情報は必要とされない。
数学的には、このことは、以下の態様で表されされ得る。 点
は、3D空間におけるベクトル、すなわち、
と表され得る。点
の同次表現
は、
と表され得る。
像面Bへの同次表現
の投影は、
と示され、
と表され得る。
は、像面Bに関連付けられたカメラの較正行列である。上記式は、いくらか異なり、
という形式で表され得る。
同次座標がスケーリングのみまで定義されるので、スケーリング係数
は、正規化された同次画像座標
を提供するために省略され得る。この正規化された形式は、以下の態様で直接取得され得もする。
カメラからの点の距離が既知である場合、投影は、以下の態様で逆数にされ得る。
この場合も、スケーリング係数
は、抜かされ得る。次に、上述の態様で取得された点は、像面Aに投影され得る。しかしながら、像面Aは像面Bとは異なる向きを有するので、まず、像面Aを像面Bと位置合わせするために、カメラ中心Cの周りでの回転Rが実行されなければならない。この回転
は、像面Aと像面Bとの間の角度
により画定され、それぞれの座標軸を中心とする回転の組み合わせ、すなわち、
とも表され得る。この回転は、同次座標
でも表され得る。
故に、像面Bにおける点
は、像面Aにおける対応する点
に投影またはマッピングされ得る。
故に、点を像面Bから像面に移動させるためのホモグラフィ行列
は、
と表され得る。
ホモグラフィ行列
を決定するための上記式から分かるように、カメラ中心Cからの距離
は、上記式から抜かされる。なぜなら、この情報は、ホモグラフィの実行には必要ではないからである。
上述の変換についてのより詳細な事項に関して、2003年Cambridge University Press出版、Richard HarleyおよびAndrew Zisserman著「コンピュータビジョンにおける複数視点ジオメトリ」第2版という文献が参照される。当該文献は、参照により全体が本明細書に組み込まれる。
故に、一実施形態において、エンコード装置100のセグメント拡張ユニット111a、111bとデコード装置200のセグメント拡張ユニット211とに実装されるマッピングまたは幾何学変換は、基準フレームの第2のセグメントのピクセルまたは点
を三次元空間における点
に投影する段階であって、点
は、基準フレームの第2のセグメントのピクセル
をカメラ位置
と結び付ける線上に存在する、段階と、基準フレームの第2のセグメントの像面Bを基準フレームの第1のセグメントの像面Aに対して平行な向きへと回転させるための回転を実行する段階と、点
を基準フレームの第1のセグメントの像面Aにおける点
に投影する段階であって、基準フレームの第1のセグメントの像面Aにおける点
は、拡張ピクセルを画定する、段階とを含む。
さらなる実施形態において、エンコード装置100のセグメント拡張ユニット111a、111bとデコード装置200のセグメント拡張ユニット211とに実装されるマッピングまたは幾何学変換は、ホモグラフィ行列
に基づく。
以下では、上記アプローチが、360°ビデオ信号に関連して説明される。セグメントは、立方体の6つの面である。すなわち、360°ビデオ信号は、立方体を画定する6つのセグメントにマッピングされている。立方体の面またはセグメントは、フレームに配置されている。立方体セグメント401−1,…, 401−6とパッドされた画像境界403とを含むフレーム400の可能な構成の1つが、図4に示される。図5に示されるように、全ての立方体セグメント401−1,…, 401−6は、4つの隣接セグメントまたは近接セグメントを有する主面またはセグメントとなるように画定され得る。立方体セグメント401−1が、主面として選択されている。特許請求される発明により提供される幾何学的補正をしないと、図5に示されるセグメントの境界にわたる幾何学的歪みが生じるであろう。
簡略化の目的で、異なる立方体セグメントの解像度は同じであるものと仮定する。さらに、座標
で表されるそれぞれの主点は、それぞれの立方体セグメントの中心に存在するものと仮定する。そのような実施形態において、較正行列
および
は、以下の態様で表され得る。
および
は、幾何学的な考慮事項を用いて決定され得る焦点距離を示し、
と等しい。
は、ピクセルにおける立方体セグメントの幅を示す。
本実施形態について、第1のセグメントの像面Aは、デカルト座標系のx−y面と一致し、一方、第2のセグメントの像面Bは、そのy−z面に存在するものと仮定する。本実施形態において、像面Aを像面Bと位置合わせするための回転は、y軸を中心とする90°の回転である。 この場合、ホモグラフィ行列
は、以下の態様で表され得る。
やはり、ここでもスケーリング係数
は、抜かされ得る。
故に、一実施形態において、エンコード装置100のセグメント拡張ユニット111a、111bとデコード装置200のセグメント拡張ユニット211とに実装されるマッピングまたは幾何学変換は、ホモグラフィ行列
に基づく。
一実施形態において、図4に示される6つの立方体セグメント401−1,…, 401−6の各々は、それぞれの隣接セグメントのピクセルのピクセル値に基づいて拡張され得る。図6において、このことが立方体セグメント401−1について示されている。立方体セグメント401−1は、左方近接セグメント401−2に基づく拡張領域401−1aと、上方近接セグメント401−4に基づく拡張領域401−1bと、右方近接セグメント401−3に基づく拡張領域401−1cと、下方近接セグメント401−5に基づく拡張領域401−1dとを有し得る。
一実施形態において、拡張領域は常に、エンコード装置100のセグメント拡張ユニット111a、111bとデコード装置200のセグメント拡張ユニット211とによりインターフレーム予測のために提供され得る。しかしながら、補償されたブロックは、必ずしも元のブロックと異なるわけではないことが理解されよう。例えば、動き補償が実行されることになるブロックは、面(図5における主面)の端部に存在する。動き補償が実行されるエリアは、予測されることになるブロックの位置に基づいて拡張される。4つの近接セグメントは、拡張セグメント、すなわち、メインセグメントとその拡張領域とを生成するために、メインセグメントと共に用いられ得る。メインセグメントのエリアは、ここでは修正されていない。他のセグメントから生成されるメインセグメントの周りのエリアのみが修正されている。動き補償がメインセグメント401−1内で機能している限り、挙動は、本発明の実施形態により提供されるセグメント拡張がない場合と同じである。動き補償がメインセグメントの端部を越えて検索している場合、挙動は異なり、ここでは、拡張領域からの情報が用いられる。
同様のホモグラフィが他のセグメントにも当てはまる。各立方体セグメントは、上述の態様で拡張され得る。しかしながら、このことには、拡張領域が互いに重なる影響があり得る。故に、一実施形態において、図7に示されるように、拡張領域は、別個の追加の基準ピクチャまたは基準フレームに格納され得る。エンコードおよびデコード中に用いられなければならない基準ピクチャは、現在処理されているブロックの空間的位置に基づいて導出される。故に、追加のシグナリングは必要ない(基準ピクチャリストにおけるピクチャの数は不変である)。より具体的には、図7に示される例では、1つの基準ピクチャの代わりに6つの基準ピクチャが現在利用可能とみなされ得、1つの基準ピクチャのみが所与の予測ブロックについて用いられるが、一実施形態におけるように、このブロックは、単一のセグメントおよびその(結果としてブロックの位置により決定される)対応する拡張領域に割り当てられ得る。一実施形態において、これは、処理されているブロックの位置に基づいて、エンコード装置100により用いられる基準ピクチャを対応する追加の基準ピクチャで透過的に置き換えることにより行われ得る。エンコード装置100およびデコード装置200は、より多くの基準ピクチャが存在していることを「認識」していない。置き換えは、実際のYUVバッファにアクセスがあった場合にのみ起こる。置き換えは、予測されることになるピクチャの基準ピクチャリストにおける過去および将来の基準ピクチャについて実行され得る。
故に、本発明の実施形態により、演算の複雑性のみがわずかに上がる。追加で必要なオペレーションは、拡張領域の作成になる。6つのピクチャが1つのピクチャの代わりに格納されるので、メモリ要件が上がり得る。しかしながら、これは、特定の実装形態の課題である。より効率的な実施形態であれば、追加の6つのピクチャの全てを格納する必要はない可能性もあるが、各セグメントの周りの小さい領域に必要なデータのみを格納し得る。別の代替的な実施形態は、拡張を各々のブロックおよび検索位置に適用することから成る。これは追加のストレージを必要としないであろうが、各検索位置について補償を実行しなければならないので、さらなる演算の複雑性につながるであろう。
本発明の実施形態は、360°ビデオ信号の「ラップアラウンド」にも相当する。各セグメント境界は、近接セグメントからの情報で拡張され得る。これは、360°画像の境界と一致するセグメント境界についても当てはまる。図7において分かるように、拡張セグメント401−1は、パディングを必要としない。代わりに、パディングエリアは、別の立方体セグメントのコンテンツで満たされ得る。拡張領域のサイズは、ピクチャ境界のパディング箇所のサイズと一致するように、動き補償中にエンコード装置100により用いられる検索範囲から導出され得る。
図8は、一実施形態によるビデオ信号をエンコードするための方法800を例示した概略図を示す。ビデオ信号は、複数のフレームを含み、各フレームは、第1のセグメントと第2のセグメントとを含む複数のセグメントを含む。各セグメントは、異なる像面に関連付けられており、複数のビデオコーディングブロックへ分割可能である。各ビデオコーディングブロックは、複数のピクセルを含み、各ピクセルは、ピクセル値に関連付けられている。
エンコード方法800は、基準フレームにおける第2のセグメントのピクセルのピクセル値に基づいて、複数の拡張ピクセルを含む、基準フレームの第1のセグメントの拡張領域を、拡張ピクセルのピクセル値を決定することにより生成する段階801と、基準フレームにおける第1のセグメントのピクセルと基準フレームにおける拡張領域の拡張ピクセルとに基づいて、現在のフレームにおける第1のセグメントのビデオコーディングブロックの動き補償を実行する段階803と、予測ビデオコーディングブロックに基づいて、エンコードされたビデオコーディングブロックを現在のフレームに生成する段階805とを備える。
要するに、基準フレームのセグメントと、基準フレームの別のセグメントから生成された拡張領域とは、インター予測により現在のフレームをエンコードするために用いられる。
図9は、一実施形態によるビデオ信号をデコードするための方法900を例示した概略図を示す。ビデオ信号は、複数のフレームを含み、各フレームは、第1のセグメントと第2のセグメントとを含む複数のセグメントを含む。各セグメントは、異なる像面に関連付けられており、複数のビデオコーディングブロックへ分割可能である。各ビデオコーディングブロックは、複数のピクセルを含み、各ピクセルは、ピクセル値に関連付けられている。
デコード方法900は、現在のフレームにおける第1のセグメントのビデオコーディングブロックをデコードして残留ビデオコーディングブロックを提供する段階901と、基準フレームにおける第2のセグメントのピクセルのピクセル値に基づいて、複数の拡張ピクセルを含む、基準フレームの第1のセグメントの拡張領域を、拡張ピクセルのピクセル値を決定することにより生成する段階903と、基準フレームにおける第1のセグメントのピクセルと基準フレームにおける拡張領域の拡張ピクセルとに基づいて、現在のフレームにおける第1のセグメントのビデオコーディングブロックの動き補償を実行する段階905と、予測ビデオコーディングブロックと残留ビデオコーディングブロックとに基づいて、ビデオコーディングブロックを現在のフレームに再構成する段階907とを備える。
提案される技術は、本明細書において主に2つのセグメントを参照して説明されてきたが、2つより多いセグメントがあるビデオコンテンツを有するビデオ信号に容易に適合され得る。具体的には、セグメントは、いくつかの他のセグメントからの画像コンテンツを用いて拡張され得る。
本開示の特定の特徴または態様が、いくつかの実装形態または実施形態のうちの1つのみに関連して開示された可能性もあるが、そのような特徴または態様は、あらゆる所与の用途または特定の用途にとって望ましく有利になり得るように、他の実装形態または実施形態の1または複数の他の特徴または態様と組み合わされてよい。さらに、「含む」、「有する」、「伴う」という用語またはそれらの他の異形が詳細な説明または特許請求の範囲のいずれかにおいて用いられる限りにおいて、そのような用語は、「備える」という用語と同様の態様で包括的であるよう意図されている。また、「例示的な」、「例えば(for example)」および「例えば(e.g.)」という用語は、最良または最適であることではなく、例を意味しているに過ぎない。「結合」および「接続」という用語は、それらの派生語と共に用いられていてよい。これらの用語は、2つの要素が、物理的または電気的に直接接触しているか、または互いに直接接触していないかにかかわらず、互いに協働または相互作用することを示すために用いられている可能性があることが理解されるべきである。
特定の態様が本明細書において図示および説明されてきたが、当業者であれば、様々な代替的な実装および/または同等の実装が、本開示の範囲から逸脱することなく、図示および説明された特定の態様の代わりになり得ることを理解されよう。本願は、本明細書において述べられた特定の態様のあらゆる適応形態または変形形態を包含することを意図している。
以下の特許請求の範囲における要素は、対応する符号と共に特定の順序で記載されているが、特許請求の範囲の記載にそれらの要素のいくつかまたは全てを特定の順序で実装することについての別段の示唆がない限り、それらの要素がその特定の順序で実装されるよう限定されることが必ずしも意図されているわけではない。
上記の教示に照らして、多くの代替形態、修正形態および変形形態が当業者には明らかになろう。当業者であれば、本明細書において説明されたものの外にも本発明の多数の用途が存在することを容易に認識するのは当然である。本発明は、1または複数の特定の実施形態を参照して説明されてきたが、当業者であれば、多くの変更が、本発明の範囲から逸脱することなく行われ得ることを認識する。従って、本発明は、添付の特許請求の範囲およびそれらの均等物の範囲内で、本明細書において具体的に説明された以外の態様で実施され得ることが理解されるべきである。

Claims (16)

  1. ビデオ信号をエンコードするための装置(100)であって、
    セグメント拡張ユニット(111a、111b)と、
    インター予測エンコードユニット(101、115、119)と
    を備え、
    前記ビデオ信号は、複数の連続するフレームの形式で提供される、第1の像面のビデオコンテンツと第2の像面のビデオコンテンツとを含むビデオコンテンツを含み、
    前記複数の連続するフレームの各々のフレームは、前記第1の像面の画像コンテンツを含む第1のセグメントと、前記第2の像面の画像コンテンツを含む第2のセグメントとを含み、
    前記第1のセグメントおよび前記第2のセグメントは各々、複数のピクセルを含み、
    ピクセル各々は、ピクセル値に関連付けられ、
    前記セグメント拡張ユニット(111a、111b)は、
    複数の拡張ピクセルを含む、基準フレームの前記第1のセグメントの拡張領域を生成するように構成され、
    拡張ピクセル各々について、前記基準フレームの前記第2のセグメントのピクセルのピクセル値に基づいて、前記拡張ピクセルの前記ピクセル値を決定するように構成され、
    前記インター予測エンコードユニット(101、115、119)は、
    前記基準フレームの前記第1のセグメントの前記拡張領域に全体的または部分的に位置する基準ブロック候補を含む一式の基準ブロック候補のうち基準ブロックを選択するように構成され、
    ビデオコーディングブロックのピクセルの前記ピクセル値と、選択された前記基準ブロックのピクセルの前記ピクセル値とに基づいて、現在のフレームの前記第1のセグメントの前記ビデオコーディングブロックのピクセルの前記ピクセル値をエンコードするように構成される、
    装置(100)。
  2. 拡張ピクセル各々について、前記セグメント拡張ユニット(111a、111b)は、
    マッピングを用いて、前記基準フレームの前記第2のセグメントのピクセルのピクセル値に基づいて、前記拡張ピクセルの前記ピクセル値を決定するように構成されており、
    前記マッピングは、
    前記基準フレームの前記第2のセグメントの前記ピクセルを前記第1の像面にマッピングするように構成されるか、または、
    前記拡張ピクセルを前記第2の像面にマッピングするように構成される、
    請求項1に記載のエンコード装置(100)。
  3. 前記マッピングは、
    前記基準フレームの前記第2のセグメントのピクセル
    を三次元空間の点
    に投影することであって、前記点
    は、前記基準フレームの前記第2のセグメントの前記ピクセル
    をカメラ位置Cと結び付ける線上に存在する、ことと、
    前記基準フレームの前記第2のセグメントの像面を前記基準フレームの前記第1のセグメントの像面に対して平行な向きへと回転させるための回転を実行することと、
    前記点
    を前記基準フレームの前記第1のセグメントの像面における点
    に投影することであって、前記基準フレームの前記第1のセグメントの像面における前記点
    は、拡張ピクセルを画定する、ことと
    を含むか、またはそれらと同等である、
    請求項2に記載のエンコード装置(100)。
  4. 前記マッピングは、ホモグラフィ行列
    に基づき、
    および
    は、前記基準フレームの前記第1のセグメントおよび前記第2のセグメントのカメラ較正行列を示し、
    は、前記第1のセグメントの像面と前記基準フレームの前記第2のセグメントの像面との間の前記角度を示し、
    は、回転を示し、
    は、カメラ位置Cからの距離を示す、
    請求項2または3に記載のエンコード装置(100)。
  5. 前記基準フレームの前記第1のセグメントを前記基準フレームの前記第1のセグメントの前記拡張領域と共に格納するように構成される基準フレームバッファ(109)をさらに備える、前述の請求項のいずれか一項に記載のエンコード装置(100)。
  6. 前記第1のセグメントは、立方体または二十面体の第1の面に対応し、前記第2のセグメントは、立方体または二十面体の異なる面に対応する、
    前述の請求項のいずれか一項に記載のエンコード装置(100)。
  7. エンコードされたビデオ信号をデコードするための装置(200)であって、
    セグメント拡張ユニット(211)と、
    インター予測再構成ユニット(203、215、219)と
    を備え、
    前記エンコードされたビデオ信号は、エンコードされた状態の複数の連続するフレームとして提供される、第1の像面のビデオコンテンツと第2の像面のビデオコンテンツとを含むビデオコンテンツを含み、
    前記複数の連続するフレームの各々のフレームは、前記第1の像面の画像コンテンツを含む第1のセグメントと、前記第2の面の画像コンテンツを含む第2のセグメントとを含み、
    前記第1のセグメントおよび前記第2のセグメントは各々、複数のピクセルを含み、
    ピクセル各々は、ピクセル値に関連付けられ、
    前記セグメント拡張ユニット(211)は、
    複数の拡張ピクセルを含む、基準フレームの前記第1のセグメントの拡張領域を生成するように構成され、
    拡張ピクセル各々について、前記基準フレームの前記第2のセグメントのピクセルのピクセル値に基づいて、前記拡張ピクセルの前記ピクセル値を決定するように構成され、
    前記インター予測再構成ユニット(203、215、219)は、現在のフレームの前記第1のセグメントのエンコードされたビデオコーディングブロックと、基準ブロックのピクセルの前記ピクセル値とに基づいて、前記現在のフレームの前記第1のセグメントの前記ビデオコーディングブロックのピクセルの前記ピクセル値を再構成するように構成され、
    前記基準ブロックは、前記基準フレームの前記第1のセグメントに全体的または部分的に位置するか、または、前記基準フレームの前記第1のセグメントの前記拡張領域に全体的または部分的に位置する、
    装置(200)。
  8. 拡張ピクセル各々について、前記セグメント拡張ユニット(211)は、
    マッピングを用いて、前記基準フレームの前記第2のセグメントのピクセルのピクセル値に基づいて、前記拡張ピクセルの前記ピクセル値を決定するように構成されており、
    前記マッピングは、
    前記基準フレームの前記第2のセグメントの前記ピクセルを前記基準フレームの前記第1のセグメントの像面にマッピングするように構成されるか、または、
    前記拡張ピクセルを前記第2の像面にマッピングするように構成される、
    請求項7に記載のデコード装置(200)。
  9. 前記マッピングは、
    前記基準フレームの前記第2のセグメントのピクセル
    を三次元空間の点
    に投影することであって、前記点
    は、前記基準フレームの前記第2のセグメントの前記ピクセル
    をカメラ位置Cと結び付ける線上に存在する、ことと、
    前記基準フレームの前記第2のセグメントの像面を前記基準フレームの前記第1のセグメントの像面に対して平行な向きへと回転させるための回転を実行することと、
    前記点
    を前記基準フレームの前記第1のセグメントの像面における点
    に投影することであって、前記基準フレームの前記第1のセグメントの像面における前記点
    は、拡張ピクセルを画定する、ことと
    を含む、
    請求項8に記載のデコード装置(200)。
  10. 前記マッピングは、ホモグラフィ行列
    に基づき、
    および
    は、前記基準フレームの前記第1のセグメントおよび前記第2のセグメントのカメラ較正行列を示し、
    は、前記第1のセグメントの像面と前記基準フレームの前記第2のセグメントの像面との間の前記角度を示し、
    は、回転を示し、
    は、カメラ位置Cからの距離を示す、
    請求項8または9に記載のデコード装置(200)。
  11. 前記基準フレームの前記第1のセグメントを前記基準フレームの前記第1のセグメントの前記拡張領域と共に格納するように構成される基準フレームバッファ(209)
    をさらに備える、前述の請求項のいずれか一項に記載のデコード装置(200)。
  12. 前記第1のセグメントおよび前記第2のセグメントは、立方体または二十面体の異なる面に対応する、
    前述の請求項のいずれか一項に記載のデコード装置(200)。
  13. ビデオ信号をエンコードするための方法(800)であって、
    前記ビデオ信号は、複数の連続するフレームの形式で提供される、第1の像面のビデオコンテンツと第2の像面のビデオコンテンツとを含むビデオコンテンツを含み、
    前記複数の連続するフレームの各々のフレームは、前記第1の像面の画像コンテンツを含む第1のセグメントと、前記第2の像面の画像コンテンツを含む第2のセグメントとを含み、
    前記第1のセグメントおよび前記第2のセグメントは各々、複数のピクセルを含み、
    ピクセル各々は、ピクセル値に関連付けられ、
    前記方法は、
    複数の拡張ピクセルを含む、基準フレームの前記第1のセグメントの拡張領域を生成する段階であって、拡張ピクセル各々について、前記基準フレームの前記第2のセグメントのピクセルのピクセル値に基づいて、前記拡張ピクセルの前記ピクセル値を決定する段階を有する、生成する段階と、
    前記基準フレームの前記第1のセグメントの前記拡張領域に全体的または部分的に位置する基準ブロック候補を含む一式の基準ブロック候補のうち基準ブロックを選択する段階と、
    ビデオコーディングブロックのピクセルの前記ピクセル値と、選択された前記基準ブロックのピクセルの前記ピクセル値とに基づいて、現在のフレームの前記第1のセグメントの前記ビデオコーディングブロックのピクセルの前記ピクセル値をエンコードする段階と
    を備える方法(800)。
  14. エンコードされたビデオ信号をデコードするための方法(900)であって、
    前記エンコードされたビデオ信号は、エンコードされた状態の複数の連続するフレームとして提供される、第1の像面のビデオコンテンツと第2の像面のビデオコンテンツとを含むビデオコンテンツを含み、
    前記複数の連続するフレームの各々のフレームは、前記第1の像面の画像コンテンツを含む第1のセグメントと、前記第2の面の画像コンテンツを含む第2のセグメントとを含み、
    前記第1のセグメントおよび前記第2のセグメントは各々、複数のピクセルを含み、
    ピクセル各々は、ピクセル値に関連付けられ、
    前記方法は、
    複数の拡張ピクセルを含む、基準フレームの前記第1のセグメントの拡張領域を生成する段階であって、拡張ピクセル各々について、前記基準フレームの前記第2のセグメントのピクセルのピクセル値に基づいて、前記拡張ピクセルの前記ピクセル値を決定する段階を有する、生成する段階と、
    現在のフレームの前記第1のセグメントのエンコードされたビデオコーディングブロックと、基準ブロックのピクセルの前記ピクセル値とに基づいて、前記現在のフレームの前記第1のセグメントの前記ビデオコーディングブロックのピクセルの前記ピクセル値を再構成する段階であって、前記基準ブロックは、前記基準フレームの前記第1のセグメントに全体的または部分的に位置するか、または、前記基準フレームの前記第1のセグメントの前記拡張領域に全体的または部分的に位置する、再構成する段階と
    を備える方法(900)。
  15. 前記セグメント拡張ユニット(211)は、各ビデオコーディングブロックのブロックレベル、フレームレベル、GOP(ピクチャグループ)レベル、PPS(ピクチャパラメータセット)レベルまたはSPS(シーケンスパラメータセット)レベルで、フラグ/情報に基づいてセグメント拡張を実行するように構成され、
    セグメント拡張オペレーションは、前記フラグの前記ステータスに基づいて有効化または無効化され得る、
    請求項14に記載のデコード方法または請求項7に記載のデコード装置。
  16. コンピュータ上で実行された場合、請求項13に記載の方法(800)または請求項14に記載の方法(900)を実行するためのプログラムコードを含む非一時的コンピュータプログラム可読媒体。
JP2019513439A 2016-09-30 2016-09-30 ビデオ信号をエンコードおよびデコードするための装置、方法およびプログラム Active JP6835397B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2016/001625 WO2018059654A1 (en) 2016-09-30 2016-09-30 Apparatuses and methods for encoding and decoding a panoramic video signal

Publications (2)

Publication Number Publication Date
JP2019534603A true JP2019534603A (ja) 2019-11-28
JP6835397B2 JP6835397B2 (ja) 2021-02-24

Family

ID=57068032

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019513439A Active JP6835397B2 (ja) 2016-09-30 2016-09-30 ビデオ信号をエンコードおよびデコードするための装置、方法およびプログラム

Country Status (13)

Country Link
US (1) US10848771B2 (ja)
EP (1) EP3513561A1 (ja)
JP (1) JP6835397B2 (ja)
KR (1) KR102210274B1 (ja)
CN (1) CN109804631B (ja)
AU (1) AU2016424515B2 (ja)
BR (1) BR112019005213B1 (ja)
CA (1) CA3037398C (ja)
IL (1) IL265458B2 (ja)
MX (1) MX2019003557A (ja)
MY (1) MY194445A (ja)
RU (1) RU2729966C1 (ja)
WO (1) WO2018059654A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11259046B2 (en) 2017-02-15 2022-02-22 Apple Inc. Processing of equirectangular object data to compensate for distortion by spherical projections
US10924747B2 (en) * 2017-02-27 2021-02-16 Apple Inc. Video coding techniques for multi-view video
US11093752B2 (en) 2017-06-02 2021-08-17 Apple Inc. Object tracking in multi-view video
EP3741126A1 (en) 2018-03-02 2020-11-25 Huawei Technologies Co., Ltd. Apparatus and method for picture coding with selective loop-filtering
CN112313958B (zh) * 2018-06-29 2024-05-03 华为技术有限公司 用于编码和解码视频信号的装置和方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005159824A (ja) * 2003-11-27 2005-06-16 Nippon Telegr & Teleph Corp <Ntt> 画像符号化方法,画像復号方法,画像符号化装置,画像復号装置,画像符号化プログラム,画像復号プログラムおよびそれらの記録媒体
US20060034530A1 (en) * 2004-08-13 2006-02-16 Samsung Electronics Co., Ltd. Method and device for making virtual image region for motion estimation and compensation of panorama image
WO2018009746A1 (en) * 2016-07-08 2018-01-11 Vid Scale, Inc. 360-degree video coding using geometry projection

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5235419A (en) 1991-10-24 1993-08-10 General Instrument Corporation Adaptive motion compensation using a plurality of motion compensators
US5376968A (en) 1993-03-11 1994-12-27 General Instrument Corporation Adaptive compression of digital video data using different modes such as PCM and DPCM
US6005980A (en) 1997-03-07 1999-12-21 General Instrument Corporation Motion estimation and compensation of video object planes for interlaced digital video
US6980596B2 (en) 2001-11-27 2005-12-27 General Instrument Corporation Macroblock level adaptive frame/field coding for digital video content
US20030099294A1 (en) 2001-11-27 2003-05-29 Limin Wang Picture level adaptive frame/field coding for digital video content
US7162094B2 (en) 2001-11-27 2007-01-09 General Instrument Corporation Frequency coefficient scanning paths for coding digital video content
US7184609B2 (en) 2002-06-28 2007-02-27 Microsoft Corp. System and method for head size equalization in 360 degree panoramic images
US7999842B1 (en) * 2004-05-28 2011-08-16 Ricoh Co., Ltd. Continuously rotating video camera, method and user interface for using the same
KR100700218B1 (ko) 2004-08-13 2007-03-27 경희대학교 산학협력단 파노라마 영상의 움직임 추정 및 보상을 위해 가상 영상영역을 생성하는 방법 및 장치
EP2081386A1 (en) * 2008-01-18 2009-07-22 Panasonic Corporation High precision edge prediction for intracoding
JP5544361B2 (ja) * 2008-08-26 2014-07-09 コーニンクレッカ フィリップス エヌ ヴェ 三次元ビデオ信号を符号化するための方法及びシステム、三次元ビデオ信号を符号化するための符号器、三次元ビデオ信号を復号するための方法及びシステム、三次元ビデオ信号を復号するための復号器、およびコンピュータ・プログラム
US9277122B1 (en) 2015-08-13 2016-03-01 Legend3D, Inc. System and method for removing camera rotation from a panoramic video

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005159824A (ja) * 2003-11-27 2005-06-16 Nippon Telegr & Teleph Corp <Ntt> 画像符号化方法,画像復号方法,画像符号化装置,画像復号装置,画像符号化プログラム,画像復号プログラムおよびそれらの記録媒体
US20060034530A1 (en) * 2004-08-13 2006-02-16 Samsung Electronics Co., Ltd. Method and device for making virtual image region for motion estimation and compensation of panorama image
JP2008509630A (ja) * 2004-08-13 2008-03-27 インダストリー・アカデミック・コーオペレーション・ファウンデーション・キョンヒ・ユニヴァーシティ パノラマ画像の動き推定及び補償のために仮想画像領域を生成する方法及び装置
WO2018009746A1 (en) * 2016-07-08 2018-01-11 Vid Scale, Inc. 360-degree video coding using geometry projection

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHEN, KE ET AL.: "Expanding Line Search for Panorama Motion Estimation", 2009 11TH IEEE INTERNATONAL SYMPOSIUM ON MULTIMEDIA, JPN6020013285, 28 December 2009 (2009-12-28), pages 577 - 582, XP031587065, ISSN: 0004248444 *
JIANG, KEHUA AND DUBOIS, ERIC: "Compression of cubic-panorama datasets with spatially consistent representation", 2006 IEEE INTERNATIONAL WORKSHOP ON HAPTIC AUDIO VISUAL ENVIRONMENTS AND THEIR APPLICATIONS (HAVE 20, JPN6020013287, 15 January 2007 (2007-01-15), pages 111 - 116, ISSN: 0004248445 *
KANGNI, FLORIAN AND LAGANIERE, ROBERT: "Epipolar Geometry for the Rectification of Cubic Panoramas", THE 3RD CANADIAN CONFERENCE ON COMPUTER AND ROBOT VISION (CRV'06), JPN6020013283, 19 June 2006 (2006-06-19), pages 1 - 8, ISSN: 0004248443 *

Also Published As

Publication number Publication date
MY194445A (en) 2022-11-30
CA3037398C (en) 2022-08-16
IL265458B2 (en) 2023-08-01
CN109804631B (zh) 2021-09-14
IL265458A (en) 2019-05-30
MX2019003557A (es) 2019-08-12
AU2016424515A1 (en) 2019-04-04
US20190230368A1 (en) 2019-07-25
KR102210274B1 (ko) 2021-02-01
BR112019005213A2 (pt) 2019-06-11
KR20190043597A (ko) 2019-04-26
AU2016424515B2 (en) 2022-06-16
BR112019005213B1 (pt) 2024-01-09
JP6835397B2 (ja) 2021-02-24
IL265458B1 (en) 2023-04-01
CN109804631A (zh) 2019-05-24
EP3513561A1 (en) 2019-07-24
CA3037398A1 (en) 2018-04-05
US10848771B2 (en) 2020-11-24
WO2018059654A1 (en) 2018-04-05
RU2729966C1 (ru) 2020-08-13

Similar Documents

Publication Publication Date Title
US11706531B2 (en) Image data encoding/decoding method and apparatus
US20220132033A1 (en) Method and apparatus for reconstructing 360-degree image according to projection format
US20220191456A1 (en) Image data encoding/decoding method and apparatus
US20240187647A1 (en) Method and apparatus of encoding/decoding image data based on tree structure-based block division
JP6835397B2 (ja) ビデオ信号をエンコードおよびデコードするための装置、方法およびプログラム
US20230362410A1 (en) Method and apparatus of encoding/decoding image data based on tree structure-based block division
WO2019170154A1 (en) De-blocking method for reconstructed projection-based frame that employs projection layout of 360-degree virtual reality projection
US11330268B2 (en) Apparatus and methods for encoding and decoding a video signal
BR112020011762A2 (pt) métodos e dispositivos para codificação e decodificação de uma sequência multivisualizações do vídeo representativa de um vídeo onidirecional

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190415

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190415

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200325

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200407

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200707

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210126

R150 Certificate of patent or registration of utility model

Ref document number: 6835397

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250